КОГТИ (лингвистика) - CLAWS (linguistics)

В Автоматическая система меток правдоподобия (CLAWS) это программа, которая выполняет теги части речи. Он был разработан в 1980-х гг. Ланкастерский университет Университетским центром компьютерных исследований языка.[1] Его общая точность составляет 96-97%, а последняя версия (CLAWS4) помечает около 100 миллионов слов Британский национальный корпус.[1]

История

Тегер части речи (POS Tagger) - это часть программного обеспечения, которое считывает текст на каком-либо языке и назначает части речи каждому слову (и другому токену), например существительному, глаголу, прилагательному и т. Д., Хотя обычно это вычислительная приложения используют более мелкие теги POS, такие как «существительное-множественное число».[2] Разработанный в начале 1980-х годов,[1][3] Когти был создан, чтобы заполнить постоянно растущий пробел, создаваемый постоянно меняющимися потребностями в торговых точках. Первоначально создан для добавления тегов части речи к LOB В корпусе британского английского языка набор тегов CLAWS был адаптирован и для других языков, включая урду и арабский.[4]

С его начала, Когти получил высокую оценку за его функциональность и адаптируемость. Тем не менее, он не лишен недостатков, и хотя он может похвастаться коэффициентом ошибок всего 1,5% при оценке в основных категориях, Когти по-прежнему остается нерешенным c.3,3% неясностей. Двусмысленность возникает в случаях, например, со словом мухи, и следует ли его классифицировать как существительное или глагол.[5] Именно эти неоднозначности потребуют различных обновлений и наборов тегов, которые Когти выдержит.

Правила и обработка

Когти использует Скрытая марковская модель для определения вероятности последовательности слов в предвосхищении каждой метки части речи.

Пример вывода

Примеры выводов CLAWS
C5-----_ PUN "_PUQ Добро пожаловать_VVB в_PRP my_DPS house_NN1! _SENT -----_ PUN Enter_VVB свободно_AV0 и_CJC of_PRF your_DPS own_DT0 will_NN1! _PUN" _SENT -----_ PUN He_PNP made_VVD_NV_NV_DV_Step_VVD_NV_J_VVD_Step_VVD, но встретился_VVD_NV_NV_NV_J_NV_NV_G_NV_J_VVD, но встретился_VVD_NV_NV_J_J_VV_J_J_NV_G_NV_J_J_VV__J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_J_JP like_PRP a_AT0 статуя_NN1, _PUN as_CJS, хотя_CJS his_DPS gesture_NN1 of_PRF welcome_NN1 has_VHD fixed_VVN him_PNP into_PRP stone_SENT ._PUN
C7"_" Добро пожаловать_VV0 в_II my_APPGE house_NN1! _!

Enter_VV0 свободно_RR и_CC of_IO ваше_APPGE own_DA will_NN1! _! "_" He_PPHS1 сделал_VVD no_AT движение_NN1 of_IO steppping_VVG to_TO meet_VVI me_PPIO1, _, но_CCB стоял_VVD как_II a_AT1 статуя_NN1, _, как_CS21, хотя_CS22 его_APPGE-жест_NN1_NV1_HD_IN_NN1_NV1 был зафиксирован в нем.

Этот отрывок из Брэм Стокер "Дракула" (1897 г.) отмечен как Когти Наборы тегов C5 и C7. Это то, что Когти вывод обычно будет выглядеть так, с наиболее вероятным тегом части речи после каждого слова.

Наборы тегов

Набор тегов CLAWS1

Первый набор тегов, разработанный в Когти, Набор тегов CLAWS1, содержит теги 132 слова. По форме и применению набор тегов C1 похож на Коричневый корпус теги.[6] См. Таблицу тегов в наборе тегов C1 здесь.[7]

Набор тегов CLAWS2

С 1983 по 1986 год обновленные версии, ведущие к CLAWS2, были частью более крупной попытки справиться с такими аспектами, как распознавание разрывов предложений, чтобы избежать необходимости ручной предварительной обработки текста перед применением тегов, вместо этого переход к дополнительным ручное постредактирование для настройки вывода автоматической аннотации, если это необходимо.[8] Набор тегов CLAWS2 содержит теги из 166 слов.[9][10] См. Таблицу тегов в наборе тегов C2 здесь.[11]

Набор тегов CLAWS4

CLAWS4 использовался для 100 миллионов слов Британский национальный корпус (BNC). Универсальный грамматический теггер, преемник тегера CLAWS1.[12] При создании тегов для BNC многие этапы работы над CLAWS4 были сосредоточены на том, чтобы сделать программу CLAWS независимой от наборов тегов. Например, проект BNC использовал две версии набора тегов: «основной набор тегов (C5) с 62 тегами, с помощью которых был помечен весь корпус, и более крупный набор тегов (C7) с 152 тегами, который использовался для создания выбранный "основной" образец корпуса из двух миллионов слов ".[13] Последнюю версию CLAWS4 предлагает UCREL, исследовательский центр Ланкастерский университет.[14][15]

Набор тегов CLAWS5

Набор тегов CLAWS5, который использовался для BNC, имеет более 60 тегов.[16] См. Таблицу тегов в наборе тегов C5 здесь.[17]

Набор тегов CLAWS6

Набор тегов CLAWS6 использовался для BNC корпус сэмплера и COLT корпус. Он имеет более 160 тегов, включая 13 подтипов определителей.[18] См. Таблицу тегов в наборе тегов C6 здесь.[19]

Набор тегов CLAWS7

В настоящее время используется стандартный набор тегов CLAWS7. Он отличается только тегами пунктуации от набора тегов CLAWS6.[20] См. Таблицу тегов в наборе тегов C7 здесь.[21]

Набор тегов CLAWS8

Набор тегов CLAWS8 был расширен из набора тегов C7 с дополнительными различиями в категориях определителей и местоимений, а также 37 новых вспомогательных тегов для форм быть, делать, и имеют.[22] См. Таблицу тегов в наборе тегов C8 здесь

внешняя ссылка

Рекомендации

  1. ^ а б c "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-01.
  2. ^ "Стэнфордский лог-линейный теггер части речи". Стэнфордская группа обработки естественного языка.
  3. ^ Гарсайд, Роджер. 1987. Система тегов слов CLAWS. В: Р. Гарсайд, Г. Лич и Г. Сэмпсон (ред.), Вычислительный анализ английского языка: корпусный подход. Лонгман.
  4. ^ Этвелл, Э. 2008. Разработка наборов тегов для тегирования части речи. В: Ludeling, A and Kyto, M, (ред.) Корпусная лингвистика: международный справочник, том 1. Вальтер де Грюйтер, 501–526. ISBN  978-3-11-021142-9
  5. ^ Маккой, Кэти. «Часть речевых тегов (глава 5)» (PDF).
  6. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  7. ^ "Набор тегов UCREL CLAWS1 (LOB)". ucrel.lancs.ac.uk. Получено 2020-04-12.
  8. ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В короткометражке J. Thomas & M. (ред.) Использование корпусов для языковых исследований: Исследования в честь Джеффри Лича. (стр. 167–180). Лондон. Лонгман.
  9. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  10. ^ Бут, Барбара. 1985. Пересмотр CLAWS. Журнал ICAME 9:29–35.
  11. ^ "Набор тегов UCREL CLAWS2". ucrel.lancs.ac.uk. Получено 2020-04-12.
  12. ^ "CLAWS4: НАЗНАЧЕНИЕ БРИТАНСКОГО НАЦИОНАЛЬНОГО КОРПУСА". ucrel.lancs.ac.uk. Получено 2020-04-12.
  13. ^ Гарсайд, Роджер. 1996. Надежная маркировка неограниченного текста: опыт BNC. В Дж. Томас и М. шорт (ред.) Использование корпусов для языковых исследований: Исследования в честь Джеффри Лич. (стр. 167–180). Лондон. Лонгман. п. 169.
  14. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  15. ^ "Домашняя страница UCREL, Ланкастер, Великобритания". ucrel.lancs.ac.uk. Получено 2020-04-12.
  16. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  17. ^ "Набор тегов UCREL CLAWS5". ucrel.lancs.ac.uk. Получено 2020-04-20.
  18. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  19. ^ "Набор тегов UCREL CLAWS6". ucrel.lancs.ac.uk. Получено 2020-04-12.
  20. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.
  21. ^ "Набор тегов UCREL CLAWS7". ucrel.lancs.ac.uk. Получено 2020-04-12.
  22. ^ "Тегер части речи CLAWS". ucrel.lancs.ac.uk. Получено 2020-04-12.