Автоматическое усвоение лексики - Википедия - Automatic acquisition of lexicon

Автоматическое усвоение лексики представляет собой компьютеризированный процесс, используемый для разработки сложной морфологической лексики языка. Лексика необходима для НЛП (Обработка естественного языка ), а также необходимое условие для любого синтаксического анализатора с широким охватом.^[1]Два основных требования представляют сырой корпус и морфологическое описание языка. Цель состоит в том, чтобы предоставить леммы это послужит объяснению всех слов, встречающихся в корпусе. Для получения качественной лексики необходимо вручную проверить сгенерированные леммы и повторить весь процесс несколько раз. открытые классы слов (например, существительные, прилагательные, глаголы). Закрытые классы (например, предлоги, местоимения, числительные) исключаются. Этот метод применим к языкам с богатой морфологией, таким как словацкий, русский или хорватский.

Применительно к словацкий, будучи флективным языком, автоматическое усвоение фокусируется на флективной морфологии, а также на деривационной морфологии. Этот факт позволяет пользователям находить информацию о производных отношениях (например, прилагательных, префиксах) в лексиконе. Например, словацкое слово корпусовый является адъективизацией корпус (англ. corpus).

Трехступенчатая петля

В соответствии с Бенуа Саго,^[1] Получение лемм состоит из трех этапов:

1. Генерация и перегиб
2. Рейтинг
3. Ручная проверка

Чем больше будет выполнено итераций, тем точнее будет получена лексика. Для каждой итерации важна информация, предоставляемая ручным валидатором.

Генерация и перегиб

Во-первых, все слова, представляющие замкнутые классы слов (местоимения, предлоги, числительные), вручную исключаются из данного корпуса. Приводится количество их вхождений в корпус. Затем наступает автоматическая генерация, когда создаются гипотетические леммы по морфологическому описанию языка. Сгенерированные леммы, следовательно, изменяются, так что строятся все их изменяемые формы. Полученные формы связываются с соответствующей леммой и морфологическим тегом.

Рейтинг

Была создана вероятностная модель, представленная алгоритмом фиксированной точки, для ранжирования гипотетических лемм, сгенерированных на первом этапе. Ожидается, что в идеале все леммы с лучшим рейтингом будут правильными, в то время как наименее оцененные леммы будут неверными.

Ручная проверка

Правильность лемм с лучшим рейтингом, созданных на предыдущем шаге, проверяет ручной валидатор, который должен быть носителем языка. Леммы на этом этапе делятся на три категории: - допустимые леммы, добавленные к лексике; - ошибочные леммы, сгенерированные действительными формами. (позже связанные с другими леммами) - ошибочные леммы, порожденные недопустимыми формами (их нужно исключить)

Дальнейшее развитие

Автоматическое приобретение, по сравнению с чисто ручной разработкой лексиконов, кажется многообещающим с учетом будущего развития из-за короткого времени, необходимого для проверки, и относительно небольшого количества человеческого труда.

внешняя ссылка

Публикации Бенуа Саго [2]

[autogenerated1-1] а ^б Саго, Бенуа. Автоматическое получение словацкого словаря из Raw Corpus. [1]

[1]