Обычный язык - Regular language

В теоретическая информатика и формальная теория языка, а обычный язык (также называемый рациональный язык)^[1]^[2] это формальный язык что может быть выражено с помощью регулярное выражение, в строгом смысле последнего понятия, используемого в теоретической информатике (в отличие от многих механизмов регулярных выражений, предоставляемых современными языками программирования, которые дополнен функциями которые позволяют распознавать языки, которые не могут быть выражены классическим регулярным выражением).

В качестве альтернативы, обычный язык можно определить как язык, распознаваемый конечный автомат. Эквивалентность регулярных выражений и конечных автоматов известна как Теорема Клини^[3] (в честь американского математика Стивен Коул Клини ). в Иерархия Хомского, регулярными языками считаются языки, которые генерируются грамматиками типа 3 (регулярные грамматики ).

Обычные языки особенно полезны при вводе разбор и язык программирования дизайн.

Формальное определение

Коллекция регулярных языков над алфавит Σ определяется рекурсивно следующим образом:

Пустой язык Ø и язык пустых строк {ε} являются обычными языками.
Для каждого а ∈ Σ (а принадлежит Σ), одиночка язык {а} - это обычный язык.
Если А и B обычные языки, то А ∪ B (союз), А • B (конкатенация) и А* (Клини звезда ) являются обычными языками.
Никакие другие языки над Σ не являются регулярными.

Видеть регулярное выражение за его синтаксис и семантику. Обратите внимание, что приведенные выше случаи являются определяющими правилами регулярного выражения.

Примеры

Все конечные языки регулярны; в частности пустой строкой язык {ε} = Ø * является регулярным. Другие типичные примеры включают язык, состоящий из всех строк в алфавите {а, б} которые содержат четное число аs, или язык, состоящий из всех строк вида: несколько аs, за которыми следуют несколько бс.

Простым примером нестандартного языка является набор строк { а^пб^п | п ≥ 0 }.^[4] Интуитивно это невозможно распознать с помощью конечного автомата, поскольку конечный автомат имеет конечную память и не может запомнить точное количество а. Приведены методы строгого доказательства этого факта. ниже.

Эквивалентные формализмы

Регулярный язык удовлетворяет следующим эквивалентным свойствам:

это язык регулярного выражения (согласно приведенному выше определению)
это язык, принятый недетерминированный конечный автомат (NFA)^{[примечание 1]}^{[заметка 2]}
это язык, принятый детерминированный конечный автомат (DFA)^{[заметка 3]}^{[примечание 4]}
он может быть сгенерирован регулярная грамматика^{[примечание 5]}^{[примечание 6]}
это язык, принятый переменный конечный автомат
это язык, принятый двусторонний конечный автомат
он может быть сгенерирован префиксная грамматика
он может быть принят только для чтения Машина Тьюринга
это может быть определено в монадический логика второго порядка (Теорема Бюхи – Элгота – Трахтенброта. )^[5]
это признанный каким-то конечным синтаксический моноид M, то есть это прообраз { ш ∈ Σ^* | ж(ш) ∈ S } подмножества S конечного моноида M под моноидный гомоморфизм ж: Σ^* → M от свободный моноид на его алфавите^{[примечание 7]}
количество классов эквивалентности его синтаксическая конгруэнтность конечно.^{[примечание 8]}^{[примечание 9]} (Это число равно количеству состояний минимальный детерминированный конечный автомат принимая L.)

Свойства 10. и 11. представляют собой чисто алгебраические подходы к определению регулярных языков; аналогичный набор утверждений можно сформулировать для моноида M ⊆ Σ^*. В этом случае эквивалентность по M приводит к концепции узнаваемого языка.

Некоторые авторы используют одно из вышеперечисленных свойств, отличное от «1». как альтернативное определение обычных языков.

Некоторые из приведенных выше эквивалентностей, особенно те, что относятся к первым четырем формализмам, называются Теорема Клини в учебниках. Какой именно из них (или какое подмножество) назвать таковыми, зависит от авторов. В одном учебнике эквивалентность регулярных выражений и NFA («1» и «2» выше) называется «теоремой Клини».^[6] Другой учебник называет эквивалентность регулярных выражений и DFA («1» и «3» выше) «теоремой Клини».^[7] Два других учебника сначала доказывают выразительную эквивалентность NFA и DFA («2» и «3»), а затем заявляют «теорему Клини» как эквивалентность между регулярными выражениями и конечными автоматами (последний, как говорят, описывает «узнаваемые языки») .^[2]^[8] Лингвистически ориентированный текст сначала приравнивает обычные грамматики («4.» выше) к DFA и NFA, называет языки, генерируемые (любым из) этими «регулярными», после чего вводит регулярные выражения, которые он называет «рациональными языками», и, наконец, утверждает «теорему Клини» как совпадение регулярных и рациональных языков.^[9] Другие авторы просто определять «рациональное выражение» и «регулярные выражения» как синонимы и делают то же самое с «рациональными языками» и «регулярными языками».^[1]^[2]

Свойства закрытия

Обычные языки закрыто при различных операциях, то есть если языки K и L являются регулярными, поэтому являются результатом следующих операций:

теоретико-множественные булевы операции: союз K ∪ L, пересечение K ∩ L, и дополнять L, следовательно, также относительное дополнение K - L.^[10]
регулярные операции: K ∪ L, конкатенация K ∘ L, и Клини звезда L^*.^[11]
то трио операции: гомоморфизм струн, обратный гомоморфизм строк и пересечение с регулярными языками. Как следствие, они закрываются при произвольном конечные преобразования, подобно частное K / L с обычным языком. Более того, регулярные языки закрываются относительно частных с произвольный языки: Если L регулярно тогда L / K регулярно для любого K.^{[нужна цитата ]}
обратное (или зеркальное отображение) L^р.^[12] Учитывая недетерминированный конечный автомат для распознавания L, автомат для L^р можно получить, изменив все переходы и поменяв местами начальное и конечное состояния. Это может привести к нескольким стартовым состояниям; Для их соединения можно использовать ε-переходы.

Свойства разрешимости

Для двух детерминированных конечных автоматов А и B, решаемо, принимают ли они один и тот же язык.^[13]Как следствие, использование над свойства замыкания, следующие задачи также разрешимы для произвольно заданных детерминированных конечных автоматов А и B, с принятыми языками L_А и L_B, соответственно:

Сдерживание: есть L_А ⊆ L_B ?^{[примечание 10]}
Несвязанность: есть L_А ∩ L_B = {} ?
Пустота: есть L_А = {} ?
Универсальность: есть L_А = Σ^* ?
Членство: дано а ∈ Σ^*, является а ∈ L_B ?

Для регулярных выражений проблема универсальности НП-полный уже для одноэлементного алфавита.^[14]Для более крупных алфавитов эта проблема PSPACE-полный.^[15] Если регулярные выражения расширены, чтобы разрешить также оператор возведения в квадрат, с "А²"означает то же, что и"AA", по-прежнему можно описывать только регулярные языки, но проблема универсальности имеет экспоненциальную пространственную нижнюю границу,^[16]^[17]^[18] и фактически является полным для экспоненциального пространства относительно редукции за полиномиальное время.^[19]

Результаты сложности

В теория сложности вычислений, то класс сложности всех обычных языков иногда называют ОБЫЧНЫЙ или же REG и равно DSPACE (O (1)), проблемы решения которая может быть решена в постоянном пространстве (используемое пространство не зависит от размера ввода). ОБЫЧНЫЙ ≠ AC⁰, поскольку он (тривиально) содержит проблему четности для определения того, является ли количество 1 битов на входе четным или нечетным, и этой проблемы нет в AC⁰.^[20] С другой стороны, ОБЫЧНЫЙ не содержит AC⁰, потому что нерегулярный язык палиндромы, или нерегулярный язык ${displaystyle {0 ^ {n} 1 ^ {n}: nin mathbb {N}}}$ оба могут быть признаны в AC⁰.^[21]

Если язык нет обычный, для этого требуется машина с как минимум Ω (журнал журнал п) пространство для распознавания (где п - размер ввода).^[22] Другими словами, DSPACE (о (журнал журнал п)) равен классу обычных языков. На практике большинство нестандартных задач решает машины с минимальной логарифмическое пространство.

Расположение в иерархии Хомского

Регулярный язык в классах иерархии Хомского.

Чтобы найти обычные языки в Иерархия Хомского, можно заметить, что каждый регулярный язык контекстно-свободный. Обратное неверно: например, язык, состоящий из всех строк, имеющих одинаковое количество акак бявляется контекстно-независимым, но не обычным. Чтобы доказать, что язык не является регулярным, часто используют Теорема Майхилла – Нероде и лемма о накачке. Другие подходы включают использование закрывающие свойства обычных языков^[23] или количественная оценка Колмогоровская сложность.^[24]

Важные подклассы обычных языков включают

Конечные языки, содержащие только конечное количество слов.^[25] Это обычные языки, так как можно создать регулярное выражение это союз каждого слова в языке.
Языки без звезд, те, которые могут быть описаны регулярным выражением, состоящим из пустого символа, букв, конкатенации и всего логические операторы включая дополнение но не Клини звезда: этот класс включает все конечные языки.^[26]

Количество слов в обычном языке

Позволять ${displaystyle s_ {L} (n)}$ обозначают количество слов длины ${displaystyle n}$ в ${displaystyle L}$ . В обычная производящая функция за L это формальный степенной ряд

{displaystyle S_ {L} (z) = sum _ {ngeq 0} s_ {L} (n) z ^ {n}.}

Производящая функция языка L это рациональная функция если L регулярно.^[27] Следовательно, для каждого обычного языка ${displaystyle L}$ последовательность ${displaystyle s_ {L} (n) _ {ngeq 0}}$ является константно-рекурсивный; то есть существует целочисленная константа ${displaystyle n_ {0}}$ , комплексные константы ${displaystyle lambda _ {1} ,, ldots ,, lambda _ {k}}$ и комплексные многочлены ${displaystyle p_ {1} (x) ,, ldots ,, p_ {k} (x)}$ так что для каждого ${displaystyle ngeq n_ {0}}$ номер ${displaystyle s_ {L} (n)}$ слов длины ${displaystyle n}$ в ${displaystyle L}$ является ${displaystyle s_ {L} (n) = p_ {1} (n) лямбда _ {1} ^ {n} + dotsb + p_ {k} (n) лямбда _ {k} ^ {n}}$ .^[28]^[29]^[30]^[31]

Таким образом, нерегулярность некоторых языков ${displaystyle L '}$ можно доказать путем подсчета слов заданной длины в ${displaystyle L '}$ . Рассмотрим, например, Язык Дайка строк сбалансированных круглых скобок. Количество слов длины ${displaystyle 2n}$ на языке Дейка равно Каталонский номер ${displaystyle C_ {n} sim {frac {4 ^ {n}} {n ^ {3/2} {sqrt {pi}}}}}$ , который не имеет формы ${displaystyle p (n) лямбда ^ {n}}$ , свидетельствуя о нерегулярности языка Дейка. Следует соблюдать осторожность, поскольку некоторые из собственных значений ${displaystyle lambda _ {i}}$ мог иметь такую же величину. Например, количество слов длины ${displaystyle n}$ на языке всех даже двоичных слов не имеет формы ${displaystyle p (n) лямбда ^ {n}}$ , но количество слов четной или нечетной длины имеют эту форму; соответствующие собственные значения ${displaystyle 2, -2}$ . В общем, для каждого регулярного языка существует постоянная ${displaystyle d}$ такой, что для всех ${displaystyle a}$ , количество слов длины ${displaystyle dm + a}$ асимптотически ${displaystyle C_ {a} m ^ {p_ {a}} лямбда _ {a} ^ {m}}$ .^[32]

В дзета-функция языка L является^[27]

{displaystyle zeta _ {L} (z) = exp left ({sum _ {ngeq 0} s_ {L} (n) {frac {z ^ {n}} {n}}} ight).}

Дзета-функция регулярного языка в общем не рациональна, но дзета-функция произвольного циклический язык является.^[33]^[34]

Обобщения

Понятие регулярного языка было обобщено на бесконечное количество слов (см. ω-автоматы ) и деревьям (см. древовидный автомат ).

Рациональный набор обобщает понятие (регулярного / рационального языка) на моноиды, которые не обязательно свободный. Точно так же понятие распознаваемого языка (с помощью конечного автомата) имеет тезку как узнаваемый набор над моноидом, не обязательно свободным. Говард Штраубинг отмечает в связи с этими фактами: «Термин« обычный язык »несколько неудачен. Статьи под влиянием Эйленберг монография^[35] часто используют термин «узнаваемый язык», который относится к поведению автоматов, или «рациональный язык», который относится к важным аналогиям между регулярными выражениями и рациональными степенными рядами. (Фактически, Эйленберг определяет рациональные и узнаваемые подмножества произвольных моноидов; эти два понятия, в общем, не совпадают.) Эта терминология, хотя и лучше мотивирована, никогда не прижилась, а «обычный язык» используется почти повсеместно ».^[36]

Рациональная серия еще одно обобщение, на этот раз в контексте формальный степенной ряд над полукольцом. Такой подход порождает взвешенные рациональные выражения и взвешенные автоматы. В этом алгебраическом контексте регулярные языки (соответствующие Булево -взвешенные рациональные выражения) обычно называют рациональные языки.^[37]^[38] Также в этом контексте теорема Клини находит обобщение, называемое Теорема Клини-Шютценбергера.

Индукция

Примечания

^ 1. ⇒ 2. по Алгоритм построения Томпсона
^ 2. ⇒ 1. по Алгоритм Клини или используя Лемма Ардена
^ 2. ⇒ 3. конструкция электростанции
^ 3. ⇒ 2. так как первое определение сильнее, чем последний
^ 2. ⇒ 4. см. Hopcroft, Ullman (1979), теорема 9.2, стр.219.
^ 4. ⇒ 2. см. Hopcroft, Ullman (1979), теорема 9.1, стр. 218.
^ 3. ⇔ 10. Теорема Майхилла – Нероде
^ ты~v определяется как: уф∈L если и только если vw∈L для всех ш∈Σ^*
^ 3. ⇔ 11. см. Доказательство в Синтаксический моноид статью и см. стр. 160 в Холкомб, W.M.L. (1982). Теория алгебраических автоматов. Кембриджские исследования в области высшей математики. 1. Издательство Кембриджского университета. ISBN 0-521-60492-3. Zbl 0489.68046.
^ Проверить, если L_А ∩ L_B = L_А. Решив, что это свойство NP-жесткий в целом; видеть Файл: RegSubsetNP.pdf для иллюстрации идеи доказательства.

дальнейшее чтение

Kleene, S.C.: Представление событий в нервных сетях и конечных автоматах. В: Shannon, C.E., McCarthy, J. (eds.) Automata Studies, pp. 3–41. Princeton University Press, Принстон (1956); это немного измененная версия его 1951 г. RAND Corporation отчет с таким же названием, RM704.
Сакарович, J (1987). "Повторное обращение к теореме Клини". Конспект лекций по информатике. 1987: 39–50. Дои:10.1007/3540185356_29. ISBN 978-3-540-18535-2. Цитировать журнал требует | журнал = (помощь)

внешняя ссылка

СМИ, связанные с Обычный язык в Wikimedia Commons
Зоопарк сложности: Класс REG

[5] 1. ⇒ 2. по Алгоритм построения Томпсона

[6] 2. ⇒ 1. по Алгоритм Клини или используя Лемма Ардена

[7] 2. ⇒ 3. конструкция электростанции

[8] 3. ⇒ 2. так как первое определение сильнее, чем последний

[9] 2. ⇒ 4. см. Hopcroft, Ullman (1979), теорема 9.2, стр.219.

[10] 4. ⇒ 2. см. Hopcroft, Ullman (1979), теорема 9.1, стр. 218.

[12] 3. ⇔ 10. Теорема Майхилла – Нероде

[13] ты~v определяется как: уф∈L если и только если vw∈L для всех ш∈Σ^*

[14] 3. ⇔ 11. см. Доказательство в Синтаксический моноид статью и см. стр. 160 в Холкомб, W.M.L. (1982). Теория алгебраических автоматов. Кембриджские исследования в области высшей математики. 1. Издательство Кембриджского университета. ISBN 0-521-60492-3. Zbl 0489.68046.

[23] Проверить, если L_А ∩ L_B = L_А. Решив, что это свойство NP-жесткий в целом; видеть Файл: RegSubsetNP.pdf для иллюстрации идеи доказательства.

[Mitkov2003-1] а ^б Руслан Митков (2003). Оксфордский справочник по компьютерной лингвистике. Издательство Оксфордского университета. п. 754. ISBN 978-0-19-927634-9.

[Lawson2003-2] а ^б ^c Марк В. Лоусон (2003). Конечные автоматы. CRC Press. С. 98–103. ISBN 978-1-58488-255-8.

[RozenbergSalomaa1997-3] Шэн Ю (1997). «Обычные языки». В Гжегоже Розенберге; Арто Саломаа (ред.). Справочник формальных языков: Том 1. Слово, язык, грамматика.. Springer. п. 41. ISBN 978-3-540-60420-4.

[4] Эйленберг (1974), стр. 16 (Пример II, 2.8) и стр. 25 (Пример II, 5.2).

[11] М. Вейер: Глава 12 - Разрешимость S1S и S2S, с. 219, теорема 12.26. В: Эрих Грэдель, Вольфганг Томас, Томас Вильке (ред.): Автоматы, логика и бесконечные игры: Руководство по текущим исследованиям. Конспект лекций по информатике 2500, Springer 2002.

[SedgewickWayne2011-15] Роберт Седжвик; Кевин Дэниел Уэйн (2011). Алгоритмы. Эддисон-Уэсли Профессионал. п. 794. ISBN 978-0-321-57351-3.

[AlloucheShallit2003-16] Жан-Поль Аллуш; Джеффри Шаллит (2003). Автоматические последовательности: теория, приложения, обобщения. Издательство Кембриджского университета. п. 129. ISBN 978-0-521-82332-6.

[Rosen2011-17] Кеннет Розен (2011). Дискретная математика и ее приложения 7-е издание. McGraw-Hill Science. С. 873–880.

[BunkeSanfeliu1990-18] Хорст Бунке; Альберто Санфелиу (январь 1990 г.). Распознавание синтаксических и структурных образов: теория и приложения. World Scientific. п. 248. ISBN 978-9971-5-0566-0.

[Sal28-19] Саломаа (1981) стр.28

[Sal27-20] Саломаа (1981) стр.27

[21] Хопкрофт, Ульман (1979), глава 3, упражнение 3.4g, стр. 72

[22] Хопкрофт, Ульман (1979), теорема 3.8, с.64; см. также теорему 3.10, с.67.

[24] Ахо, Хопкрофт, Ульман (1974), Упражнение 10.14, стр.401

[25] Ахо, Хопкрофт, Ульман (1974), теорема 10.14, стр. 399

[26] Хопкрофт, Ульман (1979), теорема 13.15, с.351

[27] A.R. Мейер и Л.Дж. Стокмейер (октябрь 1972 г.). Проблема эквивалентности регулярных выражений с возведением в квадрат требует экспоненциального пространства (PDF). 13-й ежегодный симпозиум IEEE. по теории переключений и автоматов. С. 125–129.

[28] Штокмейер и А. Мейер (1973). Проблемы со словами, требующие экспоненциального времени (PDF). Proc. 5-е ан. симп. по теории вычислений (STOC). ACM. С. 1–9.

[29] Хопкрофт, Ульман (1979), Следствие с.353

[30] Ферст, Меррик; Сакс, Джеймс Б.; Сипсер, Майкл (1984). «Четность, схемы и полиномиальная иерархия». Математическая теория систем. 17 (1): 13–27. Дои:10.1007 / BF01744431. МИСТЕР 0738749.

[31] Повар, Стивен; Нгуен, Фыонг (2010). Логические основы сложности доказательства (1-е изд.). Итака, штат Нью-Йорк: Ассоциация символической логики. п. 75. ISBN 978-0-521-51729-4.

[32] Дж. Хартманис, П. Л. Льюис II и Р. Э. Стернс. Иерархии вычислений с ограничением памяти. Труды 6-го ежегодного симпозиума IEEE по теории коммутационных цепей и логическому проектированиюС. 179–190. 1965 г.

[33] «Как доказать, что язык не является регулярным?». cs.stackexchange.com. Получено 10 апреля 2018.

[34] Громкович, Юрай (2004). Теоретическая информатика: введение в автоматы, вычислимость, сложность, алгоритмику, рандомизацию, коммуникацию и криптографию. Springer. С. 76–77. ISBN 3-540-14015-8. OCLC 53007120.

[35] Конечный язык не следует путать с (обычно бесконечным) языком, порожденным конечным автоматом.

[36] Фолькер Дикерт; Пол Гастин (2008). "Определимые языки первого порядка" (PDF). В Йорге Флуме; Эрих Гредель; Томас Уилке (ред.). Логика и автоматы: история и перспективы. Издательство Амстердамского университета. ISBN 978-90-5356-576-6.

[Honkala-37] а ^б Хонкала, Джуха (1989). «Необходимое условие рациональности дзета-функции регулярного языка». Теор. Comput. Наука. 66 (3): 341–347. Дои:10.1016 / 0304-3975 (89) 90159-х. Zbl 0675.68034.

[38] Flajolet & Sedgweick, раздел V.3.1, уравнение (13).

[39] "Количество слов в обычном языке $ (00) ^ * $". cs.stackexchange.com. Получено 10 апреля 2018.

[40] Доказательство теоремы для произвольных ДКА.

[41] «Количество слов заданной длины в обычном языке». cs.stackexchange.com. Получено 10 апреля 2018.

[42] Флажолет и Седжвик (2002) Теорема V.3

[43] Берстель, Жан; Ройтенауэр, Кристоф (1990). «Дзета-функции формальных языков». Пер. Являюсь. Математика. Soc. 321 (2): 533–546. CiteSeerX 10.1.1.309.3005. Дои:10.1090 / с0002-9947-1990-0998123-х. Zbl 0797.68092.

[44] Berstel & Reutenauer (2011) стр.222

[Eilenberg1974-45] Сэмюэл Эйленберг. Автоматы, языки и машины. Академическая пресса. в двух томах «А» (1974 г., ISBN 9780080873749) и «Б» (1976 г., ISBN 9780080873756), последний с двумя главами Брета Тилсона.

[46] Штраубинг, Ховард (1994). Конечные автоматы, формальная логика и сложность схемы. Успехи теоретической информатики. Базель: Биркхойзер. п.8. ISBN 3-7643-3719-2. Zbl 0816.68086.

[47] Berstel & Reutenauer (2011) стр.47.

[48] Сакарович, Жак (2009). Элементы теории автоматов. Перевод с французского Рувима Томаса. Кембридж: Издательство Кембриджского университета. п. 86. ISBN 978-0-521-84425-3. Zbl 1188.68177.

[1]

[2]

[3]

[4]

[примечание 1]

[заметка 2]

[заметка 3]

[примечание 4]

[примечание 5]

[примечание 6]

[5]

[примечание 7]

[примечание 8]

[примечание 9]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[примечание 10]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]