Пометка части речи на основе скользящего окна - Sliding window based part-of-speech tagging

Пометка части речи на основе скользящего окна используется, чтобы тег части речи текст.

Высокий процент слов в естественный язык это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя это сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработка естественного языка. Например в машинный перевод изменение части речи слова может резко изменить его перевод.

Теги частей речи на основе скользящего окна - это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера слов вокруг слова, которое нужно устраненный.

Два основных преимущества этого подхода:

  • Можно автоматически обучать теггер, избавившись от необходимости вручную тегировать корпус.
  • Теггер может быть реализован как конечный автомат (Мучная машина )

Формальное определение

Позволять

быть набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть присвоены слову, и пусть

быть словарным запасом приложения. Позволять

быть функцией морфологического анализа, которая присваивает каждому свой набор возможных тегов, , что может быть реализовано с помощью полноценной лексики или морфологического анализатора. Позволять

набор классов слов, который в целом будет раздел из с ограничением, что для каждого все слова получит один и тот же набор тегов, то есть все слова в каждом классе слов принадлежат к тому же классу неоднозначности.

Обычно, построен таким образом, что для часто встречающихся слов каждый класс слов содержит одно слово, а для слов с низкой частотой каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для теггера.

С помощью этих определений можно сформулировать проблему следующим образом: Имея текст каждое слово присваивается класс слов (используя лексикон или морфологический анализатор), чтобы получить неоднозначно помеченный текст . Задача теггера - получить текст с тегами ) как можно точнее.

Статистический теггер ищет наиболее вероятный тег для текста с неоднозначными тегами. :

С помощью Формула Байеса, это преобразуется в:

куда вероятность того, что конкретный тег (синтаксическая вероятность) и вероятность того, что этот тег соответствует тексту (лексическая вероятность).

В Марковская модель, эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

куда и символы-разделители.

Лексические вероятности не зависят от контекста:

Одна из форм тегирования - аппроксимация первой формулы вероятности:

куда правильный контекст размера .

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. . Для большинства приложений . Например, чтобы пометить неоднозначное слово «беги» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».

дальнейшее чтение