Детерминированный конечный автомат - Deterministic finite automaton

Пример детерминированного конечного автомата, который принимает только двоичные числа, кратные 3. Состояние S0 является как начальным, так и допустимым состоянием. Например, строка «1001» ведет к последовательности состояний S0, S1, S2, S1, S0, и поэтому принимается.

в теория вычислений, филиал теоретическая информатика, а детерминированный конечный автомат (DFA)-также известен как детерминированный конечный акцептор (DFA), детерминированный конечный автомат (DFSM), или детерминированный конечный автомат (DFSA)-это конечный автомат который принимает или отвергает данное строка символов, проходя через последовательность состояний, однозначно определяемую строкой.[1] Детерминированный относится к уникальности выполнения вычислений. В поисках простейших моделей для захвата конечных автоматов, Уоррен МакКаллох и Уолтер Питтс были одними из первых исследователей, которые в 1943 году представили концепцию, аналогичную конечным автоматам.[2][3]

На рисунке показан детерминированный конечный автомат, использующий диаграмма состояний. В этом примере автомата есть три состояния: S0, S1, а S2 (обозначены кружками). Автомат берет конечное последовательность нулей и единиц на входе. Для каждого состояния есть стрелка перехода, ведущая к следующему состоянию как для 0, так и для 1. После считывания символа DFA перескакивает детерминированно из одного состояния в другое, следуя стрелке перехода. Например, если автомат в данный момент находится в состоянии S0 и текущий входной символ равен 1, то он детерминированно переходит в состояние S1. DFA имеет начальное состояние (обозначено стрелкой, идущей из ниоткуда), где начинаются вычисления, и набор из принять состояния (обозначены графически двойным кружком), которые помогают определить, когда вычисление прошло успешно.

DFA определяется как абстрактная математическая концепция, но часто реализуется в аппаратном и программном обеспечении для решения различных конкретных проблем, таких как лексический анализ и сопоставление с образцом. Например, DFA может моделировать программное обеспечение, которое решает, являются ли вводимые пользователем данные, такие как адреса электронной почты, синтаксически допустимыми.[4]

DFA были обобщены на недетерминированные конечные автоматы (NFA) который может иметь несколько стрелок с одинаковой меткой, начиная с состояния. С использованием конструкция электростанции , каждый NFA может быть переведен в DFA, который распознает тот же язык. DFA, как и NFA, точно распознают набор обычные языки.[1]

Формальное определение

Детерминированный конечный автомат это 5-кортеж,, состоящий из

Позволять быть строкой в ​​алфавите . Автомат принимает строку если последовательность состояний, , существует в со следующими условиями:

  1. , для
  2. .

На словах первое условие говорит о том, что машина запускается в стартовом состоянии. . Второе условие говорит, что для каждого символа строки , машина перейдет из состояния в состояние в соответствии с функцией перехода . Последнее условие говорит о том, что машина принимает если последний ввод заставляет машину останавливаться в одном из состояний приема. В противном случае говорят, что автомат отвергает Струна. Набор струн, принимает язык признанный от и этот язык обозначается .

Детерминированный конечный автомат без принимающих состояний и без начального состояния известен как переходная система или полуавтомат.

Для более полного введения формального определения см. теория автоматов.

Полный и неполный

Согласно приведенному выше определению детерминированные конечные автоматы всегда полный: они определяют переход для каждого состояния и каждого входного символа.

Хотя это наиболее распространенное определение, некоторые авторы используют термин детерминированный конечный автомат для немного другого понятия: автомат, который определяет в большинстве по одному переходу для каждого состояния и каждого входного символа; функция перехода может быть частичный.[5] Когда переход не определен, такой автомат останавливается.

пример

Следующий пример представляет собой DFA. , с двоичным алфавитом, который требует, чтобы вход содержал четное количество нулей.

где

  • и
  • определяется следующим таблица переходов состояний:
0
1
S1S2S1
S2S1S2

Штат означает, что до сих пор на входе было четное количество нулей, а означает нечетное число. 1 на входе не меняет состояние автомата. Когда ввод завершается, состояние покажет, содержал ли ввод четное число нулей или нет. Если вход действительно содержал четное количество нулей, закончится в состоянии , состояние приема, поэтому вводимая строка будет принята.

Язык, признанный это обычный язык предоставленный регулярное выражение (1*) (0 (1*) 0 (1*))*, где * это Клини звезда, например, 1* обозначает любое количество (возможно, ноль) последовательных единиц.

Свойства закрытия

Верхний левый автомат распознает язык всех двоичных строк, содержащих хотя бы одно вхождение «00». Нижний правый автомат распознает все двоичные строки с четным числом «1». Левый нижний автомат получается как произведение первых двух, он распознает пересечение обоих языков.

Если DFA распознают языки, полученные в результате применения операции к распознаваемым языкам DFA, то DFA называются закрыт под операция. DFA закрываются при следующих операциях.

Для каждой операции определена оптимальная конструкция по количеству состояний в сложность состояния исследования. Поскольку DFA эквивалент к недетерминированные конечные автоматы (NFA), эти замыкания также могут быть доказаны с использованием свойств замыкания NFA.

Как переходный моноид

Прогон данного DFA можно рассматривать как последовательность составов очень общей формулировки переходной функции с самим собой. Здесь мы строим эту функцию.

Для заданного входного символа , можно построить переходную функцию определяя для всех . (Этот трюк называется карри.) С этой точки зрения, «действует» на состояние в Q, чтобы создать другое состояние. Затем можно рассмотреть результат функциональная композиция многократно применяется к различным функциям , , и так далее. Учитывая пару букв , можно определить новую функцию , где обозначает композицию функций.

Ясно, что этот процесс можно рекурсивно продолжить, дав следующее рекурсивное определение :

, где это пустая строка и
, где и .

определяется для всех слов . Запуск DFA - это последовательность составов с собой.

Повторяющаяся функциональная композиция образует моноид. Для функций перехода этот моноид известен как переходный моноид, или иногда полугруппа преобразований. Конструкция также может быть обратной: с учетом , можно восстановить , и поэтому два описания эквивалентны.

Локальные автоматы

А локальный автомат является, не обязательно полным, DFA, для которого все ребра с одной и той же меткой ведут в одну вершину. Локальные автоматы принимают класс местные языки, те, для которых принадлежность слова к языку определяется «скользящим окном» длины два на слове.[7][8]

А График Майхилла над алфавитом А это ориентированный граф с участием набор вершин А и подмножества вершин, помеченные как «начало» и «конец». Язык, принятый графом Майхилла, - это набор ориентированных путей от начальной вершины до конечной вершины: таким образом, граф действует как автомат.[7] Класс языков, принятый графами Майхилла, - это класс местных языков.[9]

Случайный

Когда начальное состояние и состояния принятия игнорируются, DFA состояния и алфавит размера можно рассматривать как диграф из вершины, в которых все вершины имеют маркированные дуги -из орграфа). Известно, что когда - фиксированное целое число, с большой вероятностью наибольшее компонент сильной связности (SCC) в таком -выходный орграф, выбранный равномерно случайным образом, имеет линейный размер и доступен для всех вершин.[10] Также было доказано, что если разрешено увеличивать как увеличивается, то весь орграф имеет фазовый переход для сильной связности, аналогичный Модель Эрдеша – Реньи для подключения.[11]

В случайном DFA максимальное количество вершин, достижимых из одной вершины, очень близко к количеству вершин в самой большой SCC с большой вероятностью.[10][12] Это справедливо и для самых крупных индуцированный суб-диграф минимальной внутренней степени, которую можно рассматривать как направленную версию -кор.[11]

Преимущества и недостатки

DFA - одна из наиболее практичных моделей вычислений, поскольку существует тривиальное линейное время, постоянное пространство, онлайн алгоритм имитировать DFA в потоке ввода. Кроме того, существуют эффективные алгоритмы поиска распознавания DFA:

  • дополнение языка, распознаваемого данным DFA.
  • объединение / пересечение языков, распознаваемых двумя данными DFA.

Поскольку DFA можно сократить до каноническая форма (минимальные DFA ), существуют также эффективные алгоритмы для определения:

  • принимает ли DFA какие-либо строки (проблема пустоты)
  • принимает ли DFA все строки (проблема универсальности)
  • распознают ли два DFA один и тот же язык (проблема равенства)
  • включен ли язык, распознаваемый DFA, в язык, распознаваемый вторым DFA (проблема включения)
  • DFA с минимальным количеством состояний для определенного регулярного языка (проблема минимизации)

DFA эквивалентны по вычислительной мощности недетерминированные конечные автоматы (NFAs). Это потому, что, во-первых, любой DFA также является NFA, поэтому NFA может делать то же, что и DFA. Кроме того, при наличии NFA использование конструкция электростанции можно построить DFA, который распознает тот же язык, что и NFA, хотя DFA может иметь экспоненциально большее количество состояний, чем NFA.[13][14] Однако, несмотря на то, что NFA в вычислительном отношении эквивалентны DFA, вышеупомянутые проблемы не обязательно эффективно решаются также и для NFA. Проблема неуниверсальности для NFA является полной PSPACE, поскольку есть небольшие NFA с кратчайшим отклоняющим словом экспоненциального размера. DFA универсален тогда и только тогда, когда все состояния являются конечными, но это не верно для NFA. Задачи равенства, включения и минимизации также являются завершенными для PSPACE, поскольку они требуют формирования дополнения к NFA, что приводит к экспоненциальному увеличению размера.[15]

С другой стороны, конечные автоматы имеют строго ограниченную мощность на языках, которые они могут распознать; многие простые языки, включая любые проблемы, для решения которых требуется больше, чем постоянное пространство, не могут быть распознаны DFA. Классический пример просто описанного языка, который не может распознать DFA, - это скобки или Язык Дайка, т.е. язык, состоящий из правильно парных скобок, таких как слово "(() ())". Интуитивно понятно, что ни один DFA не может распознать язык Дайка, потому что DFA не умеют считать: DFA-подобный автомат должен иметь состояние, представляющее любое возможное количество «открытых в данный момент» круглых скобок, что означает, что ему потребуется неограниченное количество состояний. Другой более простой пример - это язык, состоящий из строк вида апбп для некоторого конечного, но произвольного числа а's, за которым следует равное количество бс.[16]

Идентификация DFA по помеченным словам

Учитывая набор положительный слова и набор отрицательный слова можно построить DFA, который принимает все слова из и отвергает все слова из : эта проблема называется Идентификация DFA (синтез, обучение). немного ДКА можно построить за линейное время, задача идентификации ДКА с минимальным числом состояний является NP-полной.[17]Первый алгоритм минимальной идентификации DFA был предложен Трахтенбротом и Барздиным в[18] и называется TB-алгоритмОднако TB-алгоритм предполагает, что все слова из до заданной длины содержатся либо в .

Позже К. Ланг предложил расширение TB-алгоритма, не использующее никаких предположений о и то Traxbar алгоритм.[19]Однако Traxbar не гарантирует минимальность построенного DFA.[17] Э. М. Голд также предложил эвристический алгоритм для минимальной идентификации DFA. Алгоритм Голда предполагает, что и содержать набор характеристик регулярного языка; в противном случае построенный DFA будет несовместим ни с или . Другие известные алгоритмы идентификации DFA включают алгоритм RPNI,[20] алгоритм слияния состояний, основанный на доказательствах Blue-Fringe,[21] Оконный-ЭДСМ.[22]Еще одно направление исследований - применение эволюционные алгоритмы: эволюционный алгоритм маркировки интеллектуального состояния[23] позволили решить модифицированную задачу идентификации DFA, в которой обучающие данные (наборы и ) является шумный в том смысле, что некоторые слова относятся к неправильным классам.

Еще один шаг вперед связан с применением СИДЕЛ решатели M.J.H. Heule и S. Verwer: задача минимальной идентификации DFA сводится к определению выполнимости булевой формулы.[24] Основная идея - построить расширенный акцептор префиксного дерева ( три содержащие все входные слова с соответствующими метками) на основе входных наборов и уменьшают проблему поиска DFA с заявляет раскраска вершины дерева с состояний таким образом, что когда вершины с одним цветом объединяются в одно состояние, сгенерированный автомат является детерминированным и соответствует и Несмотря на то, что этот подход позволяет найти минимальный DFA, он страдает от экспоненциального увеличения времени выполнения при увеличении размера входных данных. Поэтому первоначальный алгоритм Heule и Verwer был позже расширен за счет выполнения нескольких шагов алгоритма EDSM до SAT. выполнение решателя: алгоритм DFASAT.[25]Это позволяет сократить пространство поиска задачи, но ведет к потере гарантии минимальности. Другой способ сокращения пространства поиска был предложен в[26] с помощью новых предикатов нарушения симметрии, основанных на поиск в ширину алгоритм: искомые состояния DFA ограничены для нумерации в соответствии с алгоритмом BFS, запущенным из начального состояния. Такой подход уменьшает пространство поиска на устранением изоморфных автоматов.

Смотрите также

Заметки

  1. ^ а б Хопкрофт 2001:
  2. ^ Маккалок и Питтс (1943):
  3. ^ Рабин и Скотт (1959):
  4. ^ Гауда, Прабхакар, Применение конечных автоматов
  5. ^ Могенсен, Торбен Эгидиус (2011). «Лексический анализ». Введение в дизайн компилятора. Бакалавриат по компьютерным наукам. Лондон: Спрингер. п. 12. Дои:10.1007/978-0-85729-829-4_1. ISBN  978-0-85729-828-7.
  6. ^ Джон Э. Хопкрофт и Джеффри Д. Уллман (1979). Введение в теорию автоматов, языки и вычисления. Ридинг / МА: Эддисон-Уэсли. ISBN  0-201-02988-X.
  7. ^ а б Лоусон (2004) стр.129
  8. ^ Сакарович (2009) с.228
  9. ^ Лоусон (2004) стр.128
  10. ^ а б Грушо, А.А. (1973). «Предельные распределения некоторых характеристик графов случайных автоматов». Математические заметки АН СССР.. 4: 633–637. Дои:10.1007 / BF01095785. S2CID  121723743.
  11. ^ а б Цай, Син Ши; Деврой, Люк (октябрь 2017 г.). «Структура графа детерминированного автомата, выбранного случайным образом». Случайные структуры и алгоритмы. 51 (3): 428–458. arXiv:1504.06238. Дои:10.1002 / rsa.20707. S2CID  13013344.
  12. ^ Карайоль, Арно; Никауд, Кирилл (февраль 2012 г.). Распределение числа доступных состояний в случайном детерминированном автомате. STACS'12 (29-й симпозиум по теоретическим аспектам информатики). 14. Париж, Франция. С. 194–205.
  13. ^ Сакарович (2009) с.105
  14. ^ Лоусон (2004) стр.63
  15. ^ https://www7.in.tum.de/um/courses/auto/ws1718/slides1718/04-Implementations_sets.pdf
  16. ^ Лоусон (2004) стр.46
  17. ^ а б Голд, Э. М. (1978). «Сложность идентификации автоматов по заданным данным». Информация и контроль. 37 (3): 302–320. Дои:10.1016 / S0019-9958 (78) 90562-4.
  18. ^ Де Врис, А. (28 июня 2014 г.). Конечные автоматы: поведение и синтез. ISBN  9781483297293.
  19. ^ Ланг, Кевин Дж. (1992). «Случайные DFA можно приблизительно узнать из редких однородных примеров». Материалы пятого ежегодного семинара по теории вычислительного обучения - COLT '92. С. 45–52. Дои:10.1145/130385.130390. ISBN  089791497X. S2CID  7480497.
  20. ^ Oncina, J .; Гарсия, П. (1992). «Вывод регулярных языков в полиномиальное обновленное время». Распознавание образов и анализ изображений. Серия по машинному восприятию и искусственному интеллекту. 1. С. 49–61. Дои:10.1142/9789812797902_0004. ISBN  978-981-02-0881-3.
  21. ^ Ланг, Кевин Дж .; Pearlmutter, Barak A .; Прайс, Родни А. (1998). «Результаты конкурса Abbadingo one DFA по обучению и новый алгоритм слияния состояний, основанный на доказательствах». Грамматический вывод (PDF). Конспект лекций по информатике. 1433. С. 1–12. Дои:10.1007 / BFb0054059. ISBN  978-3-540-64776-8.
  22. ^ "Beyond EDSM | Труды 6-го Международного коллоквиума по грамматическому выводу: алгоритмы и приложения".
  23. ^ Лукас, S.M .; Рейнольдс, Т. (2005). «Изучение детерминированных конечных автоматов с помощью интеллектуального эволюционного алгоритма маркировки состояний». IEEE Transactions по анализу шаблонов и машинному анализу. 27 (7): 1063–1074. Дои:10.1109 / TPAMI.2005.143. PMID  16013754. S2CID  14062047.
  24. ^ Хеул, М. Дж. Х. (2010). Точная идентификация DFA с помощью решателей SAT. Грамматический вывод: теоретические результаты и приложения. ICGI 2010. Конспект лекций по информатике. 6339. С. 66–79. Дои:10.1007/978-3-642-15488-1_7.
  25. ^ Heule, Marijn J. H .; Вервер, Сикко (2013). «Синтез программной модели с использованием решателей выполнимости». Эмпирическая разработка программного обеспечения. 18 (4): 825–856. Дои:10.1007 / s10664-012-9222-z. HDL:2066/103766. S2CID  17865020.
  26. ^ Ульянцев Владимир; Закирзянов Илья; Шалыто, Анатолий (2015). "Основанные на BFS предикаты нарушения симметрии для идентификации DFA". Язык и теория автоматов и приложения. Конспект лекций по информатике. 8977. С. 611–622. Дои:10.1007/978-3-319-15579-1_48. ISBN  978-3-319-15578-4.

использованная литература