Конечный преобразователь - Finite-state transducer

А конечный преобразователь (FST) это конечный автомат с двумя памятью ленты, следуя терминологии для Машины Тьюринга: входная лента и выходная лента. Это контрастирует с обычным конечный автомат, имеющий одинарную ленту. FST - это тип конечного автомата, который отображает два набора символов.[1] FST является более общим, чем конечный автомат (FSA). FSA определяет формальный язык, определяя набор принятых строк, в то время как FST определяет отношения между наборами строк.

FST прочитает набор строк на входной ленте и сгенерирует набор отношений на выходной ленте. FST можно рассматривать как переводчик или связующее звено между строками в наборе.

При морфологическом синтаксическом разборе примером может быть ввод строки букв в FST, затем FST выводит строку морфемы.

Обзор

Внешнее видео
значок видео Конечные преобразователи состояния // Карлсруэ технологический институт, YouTube видео

An автомат можно сказать признать строка, если мы рассматриваем содержимое ленты как ввод. Другими словами, автомат вычисляет функцию, которая отображает строки во множество {0,1}. В качестве альтернативы можно сказать, что автомат генерирует strings, что означает просмотр его ленты как выходной ленты. С этой точки зрения автомат генерирует формальный язык, который представляет собой набор строк. Два вида автоматов эквивалентны: функция, которую вычисляет автомат, является в точности индикаторная функция набора строк, которые он генерирует. Класс языков, порожденных конечными автоматами, известен как класс языков. обычные языки.

Две ленты преобразователя обычно рассматриваются как входная и выходная лента. С этой точки зрения, преобразователь считается преобразовывать (т. е. переводить) содержимое своей входной ленты на выходную ленту, принимая строку на своей входной ленте и генерируя другую строку на своей выходной ленте. Это может так недетерминированно и он может производить более одного вывода для каждой входной строки. Преобразователь также может не выдавать выходной сигнал для данной входной строки, и в этом случае говорят, что он отклонять вход. В общем, преобразователь вычисляет связь между двумя формальными языками.

Каждый преобразователь конечного состояния строки в строку связывает входной алфавит Σ с выходным алфавитом Γ. связи р на Σ * × Γ *, которые могут быть реализованы как конечные преобразователи, называются рациональные отношения. Рациональные отношения, которые частичные функции, т.е. которые связывают каждую входную строку из Σ * не более чем с одним Γ *, называются рациональные функции.

Конечные преобразователи часто используются для фонологический и морфологический анализ в обработка естественного языка исследования и приложения. Пионеры в этой области включают Рональд Каплан, Лаури Карттунен, Мартин Кей и Киммо Коскенниеми.[2][неосновной источник необходим ]Обычный способ использования преобразователей - это так называемый «каскад», когда преобразователи для различных операций объединяются в один преобразователь путем многократного применения оператора композиции (определенного ниже).

Формальное строительство

Формально конечный преобразователь Т представляет собой набор из шести (Q, Σ, Γ, я, F, δ) такой, что:

  • Q это конечный набор, набор состояния;
  • Σ - конечное множество, называемое вводить алфавит;
  • Γ - конечное множество, называемое выходной алфавит;
  • я это подмножество из Q, набор начальные состояния;
  • F это подмножество Q, набор конечные состояния; и
  • (где ε - пустой строкой ) это переходное отношение.

Мы можем просмотреть (Q, δ) как помеченный ориентированный граф, известный как граф переходов из Т: множество вершин Q, и означает, что есть помеченное ребро, идущее из вершины q к вершине р. Мы также говорим, что а это метка ввода и б то метка вывода этого края.

ПРИМЕЧАНИЕ. Это определение конечного преобразователя также называется преобразователь букв (Рош и Шабес, 1997); Возможны альтернативные определения, но все они могут быть преобразованы в преобразователи, следующие за этим.

Определить расширенное переходное отношение как наименьший набор такой, что:

  • ;
  • для всех ; и
  • в любое время и тогда .

Расширенное отношение перехода по сути является рефлексивным переходное закрытие графа переходов, который был расширен с учетом меток ребер. Элементы известны как пути. Метки краев пути получаются путем соединения краевых меток составляющих его переходов по порядку.

В поведение преобразователя Т является рациональным отношением [Т] определяется следующим образом: если и только если Существует и такой, что . Это значит, что Т преобразовывает строку в строку если существует путь от начального состояния к конечному состоянию, метка ввода которого Икс и чья выходная метка у.

Весовые автоматы

Конечные датчики состояния могут быть взвешены, где каждый переход помечен весом в дополнение к меткам входа и выхода. Взвешенный датчик конечных состояний (WFST) над набором K весов может быть определен аналогично невзвешенному как 8-кортеж Т=(Q, Σ, Γ, я, F, E, λ, ρ), куда:

  • Q, Σ, Γ, я, F определены, как указано выше;
  • (куда ε это пустой строкой ) - конечное множество переходов;
  • отображает начальные состояния в веса;
  • отображает конечные состояния в веса.

Чтобы сделать определенные операции над WFST четко определенными, удобно потребовать, чтобы набор весов формировал полукольцо.[3] На практике используются два типичных полукольца: бревенчатое полукольцо и тропическое полукольцо: недетерминированные автоматы может рассматриваться как имеющий вес в Логическое полукольцо.[4]


Стохастический FST

Стохастические FST (также известные как вероятностные FST или статистические FST) предположительно являются формой взвешенных FST.[нужна цитата ]

Операции на конечных преобразователях

Следующие операции, определенные для конечных автоматов, также применимы к конечным преобразователям:

  • Союз. Данные преобразователи Т и S, существует преобразователь такой, что если и только если или же .
  • Конкатенация. Данные преобразователи Т и S, существует преобразователь такой, что тогда и только тогда, когда существуют с и
  • Клини закрытие. Учитывая преобразователь Т, существует преобразователь со следующими свойствами:
;

 

 

 

 

(k1)

если и , тогда ;

 

 

 

 

(k2)

и не имеет силы, если это не предписано (k1) или же (k2).
  • Сочинение. Учитывая преобразователь Т на алфавитах Σ и Γ и преобразователь S на алфавитах Γ и Δ существует преобразователь на Σ и Δ такие, что тогда и только тогда, когда существует строка такой, что и . Эта операция распространяется на взвешенный случай.[5]
В этом определении используются те же обозначения, которые используются в математике для состав отношений. Однако общепринятое понимание композиции отношений - это наоборот: при наличии двух отношений Т и S, когда есть некоторые у такой, что и
  • Проекция к автомату. Есть две функции проецирования: сохраняет входную ленту, и сохраняет выходную ленту. Первая проекция, определяется следующим образом:
Учитывая преобразователь Тсуществует конечный автомат такой, что принимает Икс тогда и только тогда, когда существует строка у для которого
Вторая проекция, определяется аналогично.
  • Детерминация. Учитывая преобразователь Т, мы хотим создать эквивалентный преобразователь с уникальным начальным состоянием, чтобы никакие два перехода, выходящие из любого состояния, не имели одинаковой метки ввода. В конструкция электростанции может быть расширен на преобразователи или даже преобразователи с весом, но иногда не останавливается; действительно, некоторые недетерминированные преобразователи не допускают эквивалентных детерминированных преобразователей.[6] Характеристики детерминируемых преобразователей предложены[7] наряду с эффективными алгоритмами их тестирования:[8] они полагаются на полукольцо используется во взвешенном случае, а также в качестве общего свойства конструкции преобразователя ( собственность близнецов ).
  • Весовой толчок для утяжеленного ящика.[9]
  • Минимизация для взвешенного случая.[10]
  • Удаление эпсилон-переходы.

Дополнительные свойства конечных преобразователей

  • это разрешимый имеет ли отношение [Т] преобразователя Т пусто.
  • Разрешаемо, существует ли строка у такой, что Икс[Т]у для данной строки Икс.
  • это неразрешимый эквивалентны ли два преобразователя.[11] Однако эквивалентность разрешима в частном случае, когда отношение [Т] преобразователя Т является (частичной) функцией.
  • Если определить алфавит меток , конечные преобразователи изоморфны NDFA по алфавиту , и поэтому могут быть детерминированы (превращены в детерминированные конечные автоматы по алфавиту ), а затем минимизированы так, чтобы они имели минимальное количество состояний.[нужна цитата ]

Приложения

Контекстно-зависимые правила перезаписи формы аб / c _ d, используется в лингвистика моделировать фонологические правила и изменение звука, вычислительно эквивалентны преобразователям с конечным числом состояний, при условии, что приложение нерекурсивно, то есть правило не может перезаписывать одну и ту же подстроку дважды.[12]

Взвешенные FST нашли применение в обработка естественного языка, включая машинный перевод, И в машинное обучение.[13][14] Реализация для теги части речи можно найти как один из компонентов OpenGrm[15] библиотека.

Смотрите также

Примечания

  1. ^ Джурафски, Даниэль (2009). Обработка речи и языка. Пирсон. ISBN  9789332518414.
  2. ^ Коскенниеми 1983 г.
  3. ^ Берстель, Жан; Ройтенауэр, Кристоф (2011). Некоммутативные рациональные ряды с приложениями. Энциклопедия математики и ее приложений. 137. Кембридж: Издательство Кембриджского университета. п. 16. ISBN  978-0-521-19022-0. Zbl  1250.68007.
  4. ^ Лотэр, М. (2005). Прикладная комбинаторика слов. Энциклопедия математики и ее приложений. 105. Коллективная работа Жана Берштеля, Доминика Перрена, Максима Крошмора, Эрика Ляпорта, Мериара Мори, Нади Пизанти, Мари-Франс Саго, Гезин Райнерт, Софи Шбат, Майкл Уотерман, Филипп Жаке, Войцех Шпанковски, Доминик Пулалхон, Жиль Шеффер, Роман Колпаков, Грегори Кушеров, Жан-Поль Аллуш и Валери Берте. Кембридж: Издательство Кембриджского университета. п.211. ISBN  0-521-84802-4. Zbl  1133.68067.
  5. ^ Мохри 2004, стр. 3–5
  6. ^ [1]
  7. ^ Мохри 2004, стр. 5–6
  8. ^ Аллаузен 2003
  9. ^ Мохри 2004, стр. 7–9
  10. ^ Мохри 2004, стр. 9–11
  11. ^ Гриффитс 1968
  12. ^ «Регулярные модели фонологических систем правил» (PDF). Архивировано из оригинал (PDF) 11 октября 2010 г.. Получено 25 августа, 2012.
  13. ^ Кевин Найт и Джонатан Мэй (2009). «Приложения взвешенных автоматов в обработке естественного языка». В Манфреде Дросте; Вернер Куич; Хайко Фоглер (ред.). Справочник по взвешенным автоматам. Springer Science & Business Media. ISBN  978-3-642-01492-5.CS1 maint: использует параметр авторов (ссылка на сайт)
  14. ^ «Обучение с помощью взвешенных преобразователей» (PDF). Получено 29 апреля, 2017.
  15. ^ OpenGrm

Рекомендации

внешняя ссылка

  • OpenFst, библиотека с открытым исходным кодом для операций FST.
  • Инструменты для измерения конечных состояний Штутгарта, еще один набор инструментов FST с открытым исходным кодом
  • java FST Framework, java FST Framework с открытым исходным кодом, способная обрабатывать текстовый формат OpenFst.
  • Vcsn, платформа с открытым исходным кодом (C ++ и IPython) для взвешенных автоматов и рациональных выражений.
  • Конечная морфология состояния - Книга XFST / LEXC, описание реализации Xerox преобразователей с конечным числом состояний, предназначенных для лингвистических приложений.
  • FOMA, реализация с открытым исходным кодом большинства возможностей реализации Xerox XFST / LEXC.

дальнейшее чтение