Семантический разбор - Semantic parsing

Семантический разбор это задача преобразования естественный язык высказывание к логическая форма: машинно-понятное представление его значения.[1] Таким образом, семантический анализ можно понимать как извлечение точного значения высказывания. Приложения семантического анализа включают машинный перевод,[2] ответ на вопрос,[1][3] индукция онтологии,[4] автоматическое рассуждение,[5] и генерация кода.[6][7] Фраза была впервые использована в 1970-х гг. Йорик Уилкс как основа для программ машинного перевода, работающих только с семантическими представлениями.[8]

В компьютерное зрение, семантический анализ - это процесс сегментация для 3D-объектов.[9][10]

Типы

Мелкий

Поверхностный семантический синтаксический анализ связан с идентификацией сущностей в высказывании и присвоением им обозначений ролей, которые они играют. Поверхностный семантический синтаксический анализ иногда называют семантическим синтаксическим анализом заполнения слотов или фреймов, поскольку его теоретическая основа исходит из семантика кадра, в котором слово вызывает набор связанных понятий и ролей. Системы заполнения щелей широко используются в виртуальные помощники в сочетании с классификаторами намерений, которые можно рассматривать как механизмы для идентификации кадра, вызываемого высказыванием.[11][12] Популярные архитектуры для заполнения слотов в основном представляют собой варианты модели кодировщика-декодера, в которой два повторяющиеся нейронные сети (RNN) обучаются совместно кодировать высказывание в вектор и декодировать этот вектор в последовательность меток слотов.[13] Этот тип модели используется в Amazon Alexa система понимания разговорной речи.[11]

Глубокий

Глубокий семантический синтаксический анализ, также известный как композиционный семантический анализ, связан с созданием точных представлений смысла высказываний, которые могут содержать значимые композиционность.[14] Неглубокие семантические синтаксические анализаторы могут анализировать высказывания вроде «покажи мне рейсы из Бостона в Даллас», классифицируя намерение как «список рейсов» и заполняя слоты «источник» и «пункт назначения» словами «Бостон» и «Даллас» соответственно. Однако поверхностный семантический синтаксический анализ не может анализировать произвольные композиционные высказывания, например «покажите мне рейсы из Бостона в любую точку, где есть рейсы в Джуно». Глубокий семантический синтаксический анализ пытается проанализировать такие высказывания, обычно путем преобразования их в формальный язык представления значений.

Языки представления

Ранние семантические синтаксические анализаторы использовали языки представления значений с высокой предметной спецификой[15] с более поздними системами, использующими более расширяемые языки, такие как Пролог,[16] лямбда-исчисление,[17] композиционная семантика на основе лямбда-зависимостей (λ-DCS),[18] SQL,[19][20] Python,[21] Ява,[22] язык представления значений Alexa,[11] и Абстрактное представление смысла (AMR). В некоторых работах использовались более экзотические смысловые представления, такие как графы запросов,[23] семантические графы,[24] или векторные представления.[25]

Модели

Большинство современных моделей глубокого семантического анализа основаны либо на определении формальной грамматики для анализатор диаграмм или использование RNN для прямого перевода с естественного языка на язык представления значений. Примерами систем, построенных на формальных грамматиках, являются Cornell Semantic Parsing Framework,[26] Стэндфордский Университет семантический анализ с выполнением (SEMPER),[3] и семантический анализатор на основе выравнивания слов (WASP).[27]

Наборы данных

Наборы данных, используемые для обучения моделей статистического семантического анализа, делятся на два основных класса в зависимости от приложения: те, которые используются для ответов на вопросы через база знаний запросы и те, которые используются для генерации кода.

Ответ на вопрос

Стандартный набор данных для ответов на вопросы с помощью семантического синтаксического анализа - это набор данных системы информации о воздушных поездках (ATIS), который содержит вопросы и команды о предстоящих рейсах, а также соответствующий SQL.[19] Еще один эталонный набор данных - это набор данных GeoQuery, который содержит вопросы о география США в паре с соответствующим Прологом.[16] Набор данных Overnight используется для проверки того, насколько хорошо семантические анализаторы адаптируются к нескольким доменам; он содержит запросы на естественном языке о 8 различных доменах в паре с соответствующими выражениями λ-DCS.[28]

Генерация кода

Популярные наборы данных для генерации кода включают два торговая карта наборы данных, которые связывают текст, отображаемый на карточках, с кодом, который точно представляет эти карточки. Один был построен, связывая Магия: Сбор тексты карточек в фрагменты Java; другой, связав домашний очаг тексты карточек в фрагменты Python.[22] В IFTTT набор данных[29] использует специализированный предметно-ориентированный язык с короткими условными командами. В Джанго набор данных[30] объединяет фрагменты Python с описывающим их псевдокодом на английском и японском языках. В Робокубка набор данных[31] объединяет английские правила с их представлениями на предметно-ориентированном языке, понятном виртуальным футбольным роботам.

Смотрите также

Рекомендации

  1. ^ а б Джиа, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа». arXiv:1606.03622 [cs.CL ].
  2. ^ Андреас, Джейкоб, Андреас Влахос и Стивен Кларк. "Семантический анализ как машинный перевод. "Труды 51-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи). Том 2. 2013.
  3. ^ а б Берант, Джонатан и др. «Семантический анализ на основе Freebase из пар вопрос-ответ». ЕМНЛП. Vol. 2. № 5. 2013.
  4. ^ Пун, Хойфунг и Педро Домингос. "Выведение онтологии из текста без учителя. »Материалы 48-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2010.
  5. ^ Калишик, Цезари, Йозеф Урбан и Иржи Вискочил. "Автоматизация формализации статистическим и семантическим анализом математики. »Международная конференция по интерактивному доказательству теорем. Спрингер, Чам, 2017.
  6. ^ Рабинович, Максим; Стерн, Митчелл; Кляйн, Дэн (2017-04-25). «Абстрактные синтаксические сети для генерации кода и семантического анализа». arXiv:1704.07535 [cs.CL ].
  7. ^ Инь, Пэнчэн; Нойбиг, Грэм (2017-04-05). «Синтаксическая нейронная модель для генерации кода общего назначения». arXiv:1704.01696 [cs.CL ].
  8. ^ Уилкс, Ю. и Фасс, Д. (1992) Семья предпочтений семантики, Вычислительная техника и математика с приложениями, Том 23, выпуски 2-5, страницы 205-221.
  9. ^ Армени, Иро и др. "3D семантический разбор больших внутренних пространств. "Труды конференции IEEE по компьютерному зрению и распознаванию образов. 2016.
  10. ^ Ци, Чарльз Р. и др. "Pointnet: глубокое обучение по наборам точек для трехмерной классификации и сегментации. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.
  11. ^ а б c Кумар, Анджишну и др. «Just ASK: построение архитектуры для расширяемого самообслуживания для понимания разговорного языка». Препринт arXiv arXiv: 1711.00549 (2017).
  12. ^ Бапна, Анкур и др. «К семантическому синтаксическому анализу кадра с нулевым кадром для масштабирования домена». Препринт arXiv arXiv: 1707.02363(2017).
  13. ^ Лю, Бинг и Ян Лейн. «Основанные на внимании рекуррентные модели нейронных сетей для совместного обнаружения намерений и заполнения слотов». Препринт arXiv arXiv: 1609.01454 (2016).
  14. ^ Лян, Перси и Кристофер Поттс. «Объединение машинного обучения и композиционной семантики». Анну. Преподобный лингвист. 1.1 (2015): 355-376.
  15. ^ Вудс, Уильям А. Семантика вопросно-ответной системы. Vol. 27. Garland Pub., 1979.
  16. ^ а б Зелле, Джон М. и Раймонд Дж. Муни. «Обучение синтаксическому анализу запросов к базе данных с использованием индуктивного логического программирования». Материалы национальной конференции по искусственному интеллекту. 1996.
  17. ^ Вонг, Юк Ва и Раймонд Муни. «Изучение синхронных грамматик для семантического анализа с помощью лямбда-исчисления». Материалы 45-го Ежегодного собрания Ассоциации компьютерной лингвистики. 2007.
  18. ^ Лян, Перси. «Композиционная семантика на основе лямбда-зависимостей». Препринт arXiv arXiv: 1309.4408 (2013).
  19. ^ а б Хемфилл, Чарльз Т., Джон Дж. Годфри и Джордж Р. Доддингтон. «Пилотный корпус систем разговорной речи ATIS». Речь и естественный язык: материалы семинара, проведенного в Хидден-Вэлли, штат Пенсильвания, 24–27 июня 1990 г.. 1990.
  20. ^ Айер, Шринивасан и др. «Изучение нейросемантического парсера на основе отзывов пользователей». Препринт arXiv arXiv: 1704.08760 (2017).
  21. ^ Инь, Пэнчэн и Грэм Нойбиг. «Синтаксическая нейронная модель для генерации кода общего назначения». Препринт arXiv arXiv: 1704.01696 (2017).
  22. ^ а б Линг, Ван и др. «Скрытые предсказательные сети для генерации кода». Препринт arXiv arXiv: 1603.06744 (2016).
  23. ^ Йи, Скотт Вен-тау и др. «Семантический анализ с помощью поэтапного построения графа запросов: ответы на вопросы с помощью базы знаний». (2015).
  24. ^ Редди, Шива, Мирелла Лапата и Марк Стидман. "Масштабный семантический парсинг без пар вопрос-ответ. »Труды Ассоциации компьютерной лингвистики 2.1 (2014): 377-392.
  25. ^ Гу, Кельвин, Джон Миллер и Перси Лян. «Обход графов знаний в векторном пространстве». Препринт arXiv arXiv: 1506.01094 (2015).
  26. ^ Арци, Йоав. «Cornell SPF: структура семантического синтаксического анализа Cornell». Препринт arXiv arXiv: 1311.3011 (2013).
  27. ^ Вонг, Юк Ва; Муни, Раймонд Дж. (04.06.2006). Обучение семантическому синтаксическому анализу с помощью статистического машинного перевода. Труды основной конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики -. Ассоциация компьютерной лингвистики. С. 439–446. CiteSeerX  10.1.1.135.7209. Дои:10.3115/1220835.1220891.
  28. ^ Ван, Юши, Джонатан Берант и Перси Лян. «Создание семантического парсера за одну ночь». Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи). Vol. 1. 2015.
  29. ^ Куирк, Крис, Раймонд Муни и Мишель Гэлли. «Язык для программирования: изучение семантических анализаторов для рецептов« если-то-то-то »». Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи). Vol. 1. 2015.
  30. ^ Ода, Юсуке и др. «Обучение генерации псевдокода из исходного кода с использованием статистического машинного перевода (t)». Автоматизированная разработка программного обеспечения (ASE), 30-я Международная конференция IEEE / ACM, 2015 г.. IEEE, 2015.
  31. ^ Кульман, Грегори и др. «Советы ученика с подкреплением на естественном языке: первые результаты в футболе RoboCup». Семинар AAAI-2004 по диспетчерскому управлению обучающими и адаптивными системами.. 2004.