Брилл теггер - Brill tagger
В Брилл теггер индуктивный метод для теги части речи. Его описал и изобрел Эрик Брилл в своей кандидатской диссертации 1993 г. Его можно кратко охарактеризовать как «теггер на основе преобразования, управляемого ошибками». Это:
- форма контролируемое обучение, цель которого - минимизировать ошибку; и,
- процесс, основанный на преобразовании, в том смысле, что тег назначается каждому слову и изменяется с использованием набора предопределенных правил.
В процессе преобразования, если слово известно, сначала назначается наиболее часто встречающийся тег, а если слово неизвестно, он наивно присваивает ему тег «существительное». Многократно применяя эти правила, изменяя неверные теги, достигается довольно высокая точность. Такой подход гарантирует, что ценная информация, такая как морфосинтаксическое построение слов, используется в процессе автоматической маркировки.
Алгоритм
Алгоритм начинается с инициализации, которая представляет собой присвоение тегов на основе их вероятности для каждого слова (например, «собака» чаще является существительным, чем глаголом). Затем «патчи» определяются с помощью правил, которые исправляют (вероятные) ошибки тегов, допущенные на этапе инициализации:[1]
- Инициализация:
- Известные слова (в словаре): присвоение наиболее частого тега, связанного с формой слова
- Неизвестное слово
Правила и обработка
Вводимый текст сначала токенизированный, или разбиты на слова. Обычно в обработка естественного языка сокращения, такие как «s», «n't» и т.п., считаются токенами отдельных слов, как и знаки препинания.
Затем словарь и некоторые морфологические правила предоставляют начальный тег для каждой лексемы слова. Например, простой поиск покажет, что «собака» может быть существительным или глаголом (просто выбирается наиболее частый тег), а неизвестное слово - быть назначенным некоторым тегам на основе использования заглавных букв, различных строк префиксов или суффиксов и т. д. (например, морфологические анализы, который Брилл называет Лексические правила, может отличаться в зависимости от реализации).
После того, как все токены слов имеют (предварительные) теги, контекстные правила применяются итеративно, чтобы исправить теги, исследуя небольшие объемы контекста. Этим метод Брилла отличается от других методов речевой маркировки, таких как те, которые используют Скрытые марковские модели. Правила повторно применяются до тех пор, пока не будет достигнут порог или пока правила больше не будут применяться.
Правила Брилля имеют общий вид:
tag1 → tag2 ЕСЛИ Условие
где Условие проверяет предшествующие и / или последующие токены или их теги (обозначения таких правил различаются в зависимости от реализации). Например, в обозначениях Брилла:
В NN WDPREVTAG DT пока
изменит тег слова с IN (предлог) на NN (нарицательное существительное), если тегом предыдущего слова является DT (определитель), а само слово - «while». Это касается таких случаев, как «все время» или «через какое-то время», где «пока» следует помечать как существительное, а не его более распространенное использование в качестве предлога (многие правила более общие).
Правила должны действовать только в том случае, если известно, что изменяемый тег также допустим для рассматриваемого слова или в принципе (например, большинство прилагательных в английском языке также могут использоваться как существительные).
Подобные правила можно реализовать с помощью простых Конечные машины.Видеть Часть речевого тегирования для получения более общей информации, включая описания Penn Treebank и другие наборы тегов.
Типичные тегеры Брилла используют несколько сотен правил, которые могут быть разработаны лингвистической интуицией или машинное обучение на предварительно помеченном корпус.
Код
Кодовые страницы Брилла в Университете Джона Хопкинса больше не доступны в Интернете. Архивная версия зеркала тэггера Brill. последнюю версию, доступную в Plymouth Tech, можно найти на Archive.org. Программное обеспечение использует Лицензия MIT.
Рекомендации
- ^ Эрик Брилл. 1992. Простая основанная на правилах часть речевого теггера. В материалах третьей конференции по прикладной обработке естественного языка (ANLC '92). Ассоциация компьютерной лингвистики, Страудсбург, Пенсильвания, США, 152–155. Дои:10.3115/974499.974526
внешняя ссылка
- Brill tagger обучен голландскому языку (онлайн и офлайн версия)
- Брилл теггер обучен новому норвежскому языку
- Brill tagger обучен датскому языку (онлайн-демонстрация)
- Брилл теггер обучение английскому языку (онлайн-демо)
- taggerXML Модернизированная версия тегера Эрика Брилла Part Of Speech (исходный код датской и английской версий выше)