Пометка части речи на основе скользящего окна - Sliding window based part-of-speech tagging

Пометка части речи на основе скользящего окна используется, чтобы тег части речи текст.

Высокий процент слов в естественный язык это слова, которые вне контекста могут быть отнесены к более чем одной части речи. Процент этих неоднозначных слов обычно составляет около 30%, хотя это сильно зависит от языка. Решение этой проблемы очень важно во многих областях обработка естественного языка. Например в машинный перевод изменение части речи слова может резко изменить его перевод.

Теги частей речи на основе скользящего окна - это программы, которые присваивают одну часть речи заданной лексической форме слова, просматривая «окно» фиксированного размера слов вокруг слова, которое нужно устраненный.

Два основных преимущества этого подхода:

Можно автоматически обучать теггер, избавившись от необходимости вручную тегировать корпус.
Теггер может быть реализован как конечный автомат (Мучная машина )

Формальное определение

Позволять

{displaystyle Gamma = {gamma _ {1}, gamma _ {2}, ldots, gamma _ {| Gamma |}}}

быть набором грамматических тегов приложения, то есть набором всех возможных тегов, которые могут быть присвоены слову, и пусть

{displaystyle W = {w1, w2, ldots}}

быть словарным запасом приложения. Позволять

{displaystyle T: Wightarrow P (Gamma)}

быть функцией морфологического анализа, которая присваивает каждому ${displaystyle w}$ свой набор возможных тегов, ${displaystyle T (w) Subteq Gamma}$ , что может быть реализовано с помощью полноценной лексики или морфологического анализатора. Позволять

{displaystyle Sigma = {sigma _ {1}, sigma _ {2}, ldots, sigma _ {| Sigma |}}}

набор классов слов, который в целом будет раздел из ${displaystyle W}$ с ограничением, что для каждого ${displaystyle sigma in Sigma}$ все слова ${displaystyle w, Sigma, sigma}$ получит один и тот же набор тегов, то есть все слова в каждом классе слов ${displaystyle sigma}$ принадлежат к тому же классу неоднозначности.

Обычно, ${displaystyle Sigma}$ построен таким образом, что для часто встречающихся слов каждый класс слов содержит одно слово, а для слов с низкой частотой каждый класс слов соответствует одному классу неоднозначности. Это обеспечивает хорошую производительность для часто встречающихся неоднозначных слов и не требует слишком большого количества параметров для теггера.

С помощью этих определений можно сформулировать проблему следующим образом: Имея текст ${displaystyle w [1] w [2] ldots w [L] в W ^ {*}}$ каждое слово ${displaystyle w [t]}$ присваивается класс слов ${displaystyle T (w [t]) в Sigma}$ (используя лексикон или морфологический анализатор), чтобы получить неоднозначно помеченный текст ${displaystyle sigma [1] sigma [2] ldots sigma [L] в W ^ {*}}$ . Задача теггера - получить текст с тегами ${displaystyle gamma [1] gamma [2] ldots gamma [L]}$ (с ${displaystyle gamma [t] в T (sigma [t])}$ ) как можно точнее.

Статистический теггер ищет наиболее вероятный тег для текста с неоднозначными тегами. ${displaystyle sigma [1] sigma [2] ldots sigma [L]}$ :

{displaystyle gamma ^ {*} [1] ldots gamma ^ {*} [L] = operatorname {arg, max} _ {gamma [t] in T (sigma [t])} p (gamma [1] ldots gamma [ L] сигма [1] ldots sigma [L])}

С помощью Формула Байеса, это преобразуется в:

{displaystyle gamma ^ {*} [1] ldots gamma ^ {*} [L] = operatorname {arg, max} _ {gamma [t] in T (sigma [t])} p (gamma [1] ldots gamma [ L]) p (сигма [1] ldots sigma [L] gamma [1] ldots gamma [L])}

куда ${displaystyle p (гамма [1] гамма [2] ldots гамма [L])}$ вероятность того, что конкретный тег (синтаксическая вероятность) и ${displaystyle p (sigma [1] dots sigma [L] gamma [1] ldots gamma [L])}$ вероятность того, что этот тег соответствует тексту ${displaystyle sigma [1] ldots sigma [L]}$ (лексическая вероятность).

В Марковская модель, эти вероятности аппроксимируются как произведения. Синтаксические вероятности моделируются марковским процессом первого порядка:

{displaystyle p (gamma [1] gamma [2] ldots gamma [L]) = prod _ {t = 1} ^ {t = L} p (gamma [t + 1] gamma [t])}

куда ${displaystyle gamma [0]}$ и ${displaystyle gamma [L + 1]}$ символы-разделители.

Лексические вероятности не зависят от контекста:

{displaystyle p (sigma [1] sigma [2] ldots sigma [L] gamma [1] gamma [2] ldots gamma [L]]) = prod _ {t = 1} ^ {t = L} p (sigma [t ] гамма [t])}

Одна из форм тегирования - аппроксимация первой формулы вероятности:

{displaystyle p (sigma [1] sigma [2] ldots sigma [L] gamma [1] gamma [2] ldots gamma [L]]) = prod _ {t = 1} ^ {t = L} p (gamma [t ] C _ {(-)} [t] сигма [t] C _ {(+)} [t])}

куда ${displaystyle C _ {(-)} [t] = sigma [t-N _ {(-)}] sigma [t-N _ {(-)}] ldots sigma [t-1]}$ правильный контекст размера ${displaystyle N _ {(+)}}$ .

Таким образом, алгоритм скользящего окна должен учитывать только контекст размера. ${displaystyle N _ {(-)} + N _ {(+)} + 1}$ . Для большинства приложений ${Displaystyle N _ {(-)} = N _ {(+)} = 1}$ . Например, чтобы пометить неоднозначное слово «беги» в предложении «Он бежит от опасности», необходимо учитывать только теги слов «Он» и «от».

дальнейшее чтение

Санчес-Вильямил, Э., Форкада, М. Л., и Карраско, Р. С. (2005). "Неконтролируемое обучение теггера части речи со скользящим окном в конечном состоянии ". Конспект лекций по информатике / Конспект лекций по искусственному интеллекту, т. 3230, стр. 454-463