Конечный преобразователь - Finite-state transducer
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
А конечный преобразователь (FST) это конечный автомат с двумя памятью ленты, следуя терминологии для Машины Тьюринга: входная лента и выходная лента. Это контрастирует с обычным конечный автомат, имеющий одинарную ленту. FST - это тип конечного автомата, который отображает два набора символов.[1] FST является более общим, чем конечный автомат (FSA). FSA определяет формальный язык, определяя набор принятых строк, в то время как FST определяет отношения между наборами строк.
FST прочитает набор строк на входной ленте и сгенерирует набор отношений на выходной ленте. FST можно рассматривать как переводчик или связующее звено между строками в наборе.
При морфологическом синтаксическом разборе примером может быть ввод строки букв в FST, затем FST выводит строку морфемы.
Обзор
Внешнее видео | |
---|---|
Конечные преобразователи состояния // Карлсруэ технологический институт, YouTube видео |
An автомат можно сказать признать строка, если мы рассматриваем содержимое ленты как ввод. Другими словами, автомат вычисляет функцию, которая отображает строки во множество {0,1}. В качестве альтернативы можно сказать, что автомат генерирует strings, что означает просмотр его ленты как выходной ленты. С этой точки зрения автомат генерирует формальный язык, который представляет собой набор строк. Два вида автоматов эквивалентны: функция, которую вычисляет автомат, является в точности индикаторная функция набора строк, которые он генерирует. Класс языков, порожденных конечными автоматами, известен как класс языков. обычные языки.
Две ленты преобразователя обычно рассматриваются как входная и выходная лента. С этой точки зрения, преобразователь считается преобразовывать (т. е. переводить) содержимое своей входной ленты на выходную ленту, принимая строку на своей входной ленте и генерируя другую строку на своей выходной ленте. Это может так недетерминированно и он может производить более одного вывода для каждой входной строки. Преобразователь также может не выдавать выходной сигнал для данной входной строки, и в этом случае говорят, что он отклонять вход. В общем, преобразователь вычисляет связь между двумя формальными языками.
Каждый преобразователь конечного состояния строки в строку связывает входной алфавит Σ с выходным алфавитом Γ. связи р на Σ * × Γ *, которые могут быть реализованы как конечные преобразователи, называются рациональные отношения. Рациональные отношения, которые частичные функции, т.е. которые связывают каждую входную строку из Σ * не более чем с одним Γ *, называются рациональные функции.
Конечные преобразователи часто используются для фонологический и морфологический анализ в обработка естественного языка исследования и приложения. Пионеры в этой области включают Рональд Каплан, Лаури Карттунен, Мартин Кей и Киммо Коскенниеми.[2][неосновной источник необходим ]Обычный способ использования преобразователей - это так называемый «каскад», когда преобразователи для различных операций объединяются в один преобразователь путем многократного применения оператора композиции (определенного ниже).
Формальное строительство
Формально конечный преобразователь Т представляет собой набор из шести (Q, Σ, Γ, я, F, δ) такой, что:
- Q это конечный набор, набор состояния;
- Σ - конечное множество, называемое вводить алфавит;
- Γ - конечное множество, называемое выходной алфавит;
- я это подмножество из Q, набор начальные состояния;
- F это подмножество Q, набор конечные состояния; и
- (где ε - пустой строкой ) это переходное отношение.
Мы можем просмотреть (Q, δ) как помеченный ориентированный граф, известный как граф переходов из Т: множество вершин Q, и означает, что есть помеченное ребро, идущее из вершины q к вершине р. Мы также говорим, что а это метка ввода и б то метка вывода этого края.
ПРИМЕЧАНИЕ. Это определение конечного преобразователя также называется преобразователь букв (Рош и Шабес, 1997); Возможны альтернативные определения, но все они могут быть преобразованы в преобразователи, следующие за этим.
Определить расширенное переходное отношение как наименьший набор такой, что:
- ;
- для всех ; и
- в любое время и тогда .
Расширенное отношение перехода по сути является рефлексивным переходное закрытие графа переходов, который был расширен с учетом меток ребер. Элементы известны как пути. Метки краев пути получаются путем соединения краевых меток составляющих его переходов по порядку.
В поведение преобразователя Т является рациональным отношением [Т] определяется следующим образом: если и только если Существует и такой, что . Это значит, что Т преобразовывает строку в строку если существует путь от начального состояния к конечному состоянию, метка ввода которого Икс и чья выходная метка у.
Весовые автоматы
Конечные датчики состояния могут быть взвешены, где каждый переход помечен весом в дополнение к меткам входа и выхода. Взвешенный датчик конечных состояний (WFST) над набором K весов может быть определен аналогично невзвешенному как 8-кортеж Т=(Q, Σ, Γ, я, F, E, λ, ρ), куда:
- Q, Σ, Γ, я, F определены, как указано выше;
- (куда ε это пустой строкой ) - конечное множество переходов;
- отображает начальные состояния в веса;
- отображает конечные состояния в веса.
Чтобы сделать определенные операции над WFST четко определенными, удобно потребовать, чтобы набор весов формировал полукольцо.[3] На практике используются два типичных полукольца: бревенчатое полукольцо и тропическое полукольцо: недетерминированные автоматы может рассматриваться как имеющий вес в Логическое полукольцо.[4]
Стохастический FST
Стохастические FST (также известные как вероятностные FST или статистические FST) предположительно являются формой взвешенных FST.[нужна цитата ]
Операции на конечных преобразователях
Следующие операции, определенные для конечных автоматов, также применимы к конечным преобразователям:
- Союз. Данные преобразователи Т и S, существует преобразователь такой, что если и только если или же .
- Конкатенация. Данные преобразователи Т и S, существует преобразователь такой, что тогда и только тогда, когда существуют с и
- Клини закрытие. Учитывая преобразователь Т, существует преобразователь со следующими свойствами:
- ;
(k1)
- если и , тогда ;
(k2)
- Сочинение. Учитывая преобразователь Т на алфавитах Σ и Γ и преобразователь S на алфавитах Γ и Δ существует преобразователь на Σ и Δ такие, что тогда и только тогда, когда существует строка такой, что и . Эта операция распространяется на взвешенный случай.[5]
- В этом определении используются те же обозначения, которые используются в математике для состав отношений. Однако общепринятое понимание композиции отношений - это наоборот: при наличии двух отношений Т и S, когда есть некоторые у такой, что и
- Проекция к автомату. Есть две функции проецирования: сохраняет входную ленту, и сохраняет выходную ленту. Первая проекция, определяется следующим образом:
- Учитывая преобразователь Тсуществует конечный автомат такой, что принимает Икс тогда и только тогда, когда существует строка у для которого
- Вторая проекция, определяется аналогично.
- Детерминация. Учитывая преобразователь Т, мы хотим создать эквивалентный преобразователь с уникальным начальным состоянием, чтобы никакие два перехода, выходящие из любого состояния, не имели одинаковой метки ввода. В конструкция электростанции может быть расширен на преобразователи или даже преобразователи с весом, но иногда не останавливается; действительно, некоторые недетерминированные преобразователи не допускают эквивалентных детерминированных преобразователей.[6] Характеристики детерминируемых преобразователей предложены[7] наряду с эффективными алгоритмами их тестирования:[8] они полагаются на полукольцо используется во взвешенном случае, а также в качестве общего свойства конструкции преобразователя ( собственность близнецов ).
- Весовой толчок для утяжеленного ящика.[9]
- Минимизация для взвешенного случая.[10]
- Удаление эпсилон-переходы.
Дополнительные свойства конечных преобразователей
- это разрешимый имеет ли отношение [Т] преобразователя Т пусто.
- Разрешаемо, существует ли строка у такой, что Икс[Т]у для данной строки Икс.
- это неразрешимый эквивалентны ли два преобразователя.[11] Однако эквивалентность разрешима в частном случае, когда отношение [Т] преобразователя Т является (частичной) функцией.
- Если определить алфавит меток , конечные преобразователи изоморфны NDFA по алфавиту , и поэтому могут быть детерминированы (превращены в детерминированные конечные автоматы по алфавиту ), а затем минимизированы так, чтобы они имели минимальное количество состояний.[нужна цитата ]
Приложения
Контекстно-зависимые правила перезаписи формы а → б / c _ d, используется в лингвистика моделировать фонологические правила и изменение звука, вычислительно эквивалентны преобразователям с конечным числом состояний, при условии, что приложение нерекурсивно, то есть правило не может перезаписывать одну и ту же подстроку дважды.[12]
Взвешенные FST нашли применение в обработка естественного языка, включая машинный перевод, И в машинное обучение.[13][14] Реализация для теги части речи можно найти как один из компонентов OpenGrm[15] библиотека.
Смотрите также
Примечания
- ^ Джурафски, Даниэль (2009). Обработка речи и языка. Пирсон. ISBN 9789332518414.
- ^ Коскенниеми 1983 г.
- ^ Берстель, Жан; Ройтенауэр, Кристоф (2011). Некоммутативные рациональные ряды с приложениями. Энциклопедия математики и ее приложений. 137. Кембридж: Издательство Кембриджского университета. п. 16. ISBN 978-0-521-19022-0. Zbl 1250.68007.
- ^ Лотэр, М. (2005). Прикладная комбинаторика слов. Энциклопедия математики и ее приложений. 105. Коллективная работа Жана Берштеля, Доминика Перрена, Максима Крошмора, Эрика Ляпорта, Мериара Мори, Нади Пизанти, Мари-Франс Саго, Гезин Райнерт, Софи Шбат, Майкл Уотерман, Филипп Жаке, Войцех Шпанковски, Доминик Пулалхон, Жиль Шеффер, Роман Колпаков, Грегори Кушеров, Жан-Поль Аллуш и Валери Берте. Кембридж: Издательство Кембриджского университета. п.211. ISBN 0-521-84802-4. Zbl 1133.68067.
- ^ Мохри 2004, стр. 3–5
- ^ [1]
- ^ Мохри 2004, стр. 5–6
- ^ Аллаузен 2003
- ^ Мохри 2004, стр. 7–9
- ^ Мохри 2004, стр. 9–11
- ^ Гриффитс 1968
- ^ «Регулярные модели фонологических систем правил» (PDF). Архивировано из оригинал (PDF) 11 октября 2010 г.. Получено 25 августа, 2012.
- ^ Кевин Найт и Джонатан Мэй (2009). «Приложения взвешенных автоматов в обработке естественного языка». В Манфреде Дросте; Вернер Куич; Хайко Фоглер (ред.). Справочник по взвешенным автоматам. Springer Science & Business Media. ISBN 978-3-642-01492-5.CS1 maint: использует параметр авторов (ссылка на сайт)
- ^ «Обучение с помощью взвешенных преобразователей» (PDF). Получено 29 апреля, 2017.
- ^ OpenGrm
Рекомендации
- Аллаузен, Кирилл; Мохри, Мехриар (2003). «Эффективные алгоритмы проверки свойства близнецов» (PDF). Журнал автоматов, языков и комбинаторики. 8 (2): 117–144.
- Коскенниеми, Киммо (1983), Двухуровневая морфология: общая вычислительная модель распознавания и производства словоформ (PDF), Кафедра общего языкознания, Университет Хельсинки
- Мохри, Мехриар (2004). «Взвешенные алгоритмы конечных преобразователей: обзор» (PDF). Формальные языки и приложения. 148 (620): 551–564. Дои:10.1007/978-3-540-39886-8_29.
- Гриффитс, Т. В. (1968). «Неразрешимость проблемы эквивалентности для Λ-свободных недетерминированных обобщенных машин». 15 (3). ACM: 409–413. Цитировать журнал требует
| журнал =
(помощь)
внешняя ссылка
- OpenFst, библиотека с открытым исходным кодом для операций FST.
- Инструменты для измерения конечных состояний Штутгарта, еще один набор инструментов FST с открытым исходным кодом
- java FST Framework, java FST Framework с открытым исходным кодом, способная обрабатывать текстовый формат OpenFst.
- Vcsn, платформа с открытым исходным кодом (C ++ и IPython) для взвешенных автоматов и рациональных выражений.
- Конечная морфология состояния - Книга XFST / LEXC, описание реализации Xerox преобразователей с конечным числом состояний, предназначенных для лингвистических приложений.
- FOMA, реализация с открытым исходным кодом большинства возможностей реализации Xerox XFST / LEXC.
дальнейшее чтение
- Юрафски, Даниэль; Джеймс Х. Мартин (2000). Обработка речи и языка. Прентис Холл. стр.71 –83. ISBN 0-13-095069-6.
- Корнаи, Андрас (1999). Расширенные модели языка с конечным числом состояний. Издательство Кембриджского университета. ISBN 0-521-63198-X.
- Рош, Эммануэль; Ив Шабес (1997). Обработка конечного языка. MIT Press. стр.1 –65. ISBN 0-262-18182-7.
- Beesley, Kenneth R .; Лаури Карттунен (2003). Конечная морфология состояния. Центр изучения языка и информации. ISBN 1-57586-434-7.
- Рорк, Брайан; Ричард Спроут (2007). Вычислительные подходы к морфологии и синтаксису. Издательство Оксфордского университета. ISBN 0-19-927478-9.
- Берстель, Жан (1979). Переводы и контекстно-свободные языки. Teubner Verlag.. Бесплатная версия PDF