Пометка части речи на основе скользящего окна - Sliding window based part-of-speech tagging
Пометка части речи на основе скользящего окна используется, чтобы тег части речи текст.
Высокий процент слов в естественный язык это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя это сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработка естественного языка. Например в машинный перевод изменение части речи слова может резко изменить его перевод.
Теги частей речи на основе скользящего окна - это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера слов вокруг слова, которое нужно устраненный.
Два основных преимущества этого подхода:
- Можно автоматически обучать теггер, избавившись от необходимости вручную тегировать корпус.
- Теггер может быть реализован как конечный автомат (Мучная машина )
Формальное определение
Позволять
быть набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть присвоены слову, и пусть
быть словарным запасом приложения. Позволять
быть функцией морфологического анализа, которая присваивает каждому свой набор возможных тегов, , что может быть реализовано с помощью полноценной лексики или морфологического анализатора. Позволять
набор классов слов, который в целом будет раздел из с ограничением, что для каждого все слова получит один и тот же набор тегов, то есть все слова в каждом классе слов принадлежат к тому же классу неоднозначности.
Обычно, построен таким образом, что для часто встречающихся слов каждый класс слов содержит одно слово, а для слов с низкой частотой каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для теггера.
С помощью этих определений можно сформулировать проблему следующим образом: Имея текст каждое слово присваивается класс слов (используя лексикон или морфологический анализатор), чтобы получить неоднозначно помеченный текст . Задача теггера - получить текст с тегами (с ) как можно точнее.
Статистический теггер ищет наиболее вероятный тег для текста с неоднозначными тегами. :
С помощью Формула Байеса, это преобразуется в:
куда вероятность того, что конкретный тег (синтаксическая вероятность) и вероятность того, что этот тег соответствует тексту (лексическая вероятность).
В Марковская модель, эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:
куда и символы-разделители.
Лексические вероятности не зависят от контекста:
Одна из форм тегирования - аппроксимация первой формулы вероятности:
куда правильный контекст размера .
Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. . Для большинства приложений . Например, чтобы пометить неоднозначное слово «беги» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».
дальнейшее чтение
- Санчес-Вильямил, Э., Форкада, М. Л., и Карраско, Р. С. (2005). "Неконтролируемое обучение теггера части речи со скользящим окном в конечном состоянии ". Конспект лекций по информатике / Конспект лекций по искусственному интеллекту, т. 3230, стр. 454-463