Ответ на вопрос - Question answering

Ответ на вопрос (QA) является дисциплиной информатики в областях поиск информации и обработка естественного языка (НЛП), который занимается построением систем, которые автоматически отвечают на вопросы, задаваемые людьми в естественный язык.[1]

Обзор

Реализация, отвечающая на вопрос, обычно компьютерная программа, может строить свои ответы, запрашивая структурированный база данных знаний или информации, обычно база знаний. Чаще всего системы ответов на вопросы могут получать ответы из неструктурированной коллекции документов на естественном языке.

Некоторые примеры коллекций документов на естественном языке, используемых для систем ответов на вопросы, включают:

В исследовании с ответами на вопросы предпринимается попытка охватить широкий спектр типов вопросов, в том числе: факт, список определение, Как, Почему, гипотетические, семантически ограниченные и межъязыковые вопросы.

  • Закрытый домен Ответы на вопросы касаются вопросов в определенной области (например, медицина или техническое обслуживание автомобилей) и могут использовать знания конкретной области, часто формализованные в онтологии. В качестве альтернативы, закрытый домен может относиться к ситуации, когда принимаются только ограниченные типы вопросов, например, вопросы, требующие описательный скорее, чем процедурный Информация. Системы ответов на вопросы в контексте приложений машинного чтения также были созданы в медицинской области, например, связанной с болезнью Альцгеймера.[2]
  • Открытый домен Ответы на вопросы касаются вопросов практически обо всем и могут полагаться только на общие онтологии и мировые знания. С другой стороны, в этих системах обычно имеется гораздо больше данных, из которых можно извлечь ответ.

Мультимодальный при ответе на вопрос используется несколько модальности пользовательского ввода для ответа на такие вопросы, как текст и изображения.[3]

История

Две ранние системы ответов на вопросы были БЕЙСБОЛ[4] и ЛУННЫЙ.[5] BASEBALL ответил на вопросы о бейсбольной лиге США в течение одного года. LUNAR, в свою очередь, ответил на вопросы о геологическом анализе горных пород, возвращенных лунными миссиями Apollo. Обе системы ответов на вопросы оказались очень эффективными в выбранных ими областях. Фактически, LUNAR был продемонстрирован на съезде лунных ученых в 1971 году, и он смог ответить на 90% вопросов в своей области, заданных людьми, не обученными работе с системой. В последующие годы были разработаны и другие системы ответов на вопросы с ограниченным доступом. Общей чертой всех этих систем является то, что у них была основная база данных или система знаний, написанная вручную экспертами в выбранной области. Языковые способности БЕЙСБОЛА и ЛУНАРА использовали техники, похожие на ELIZA и ВРАЧ, первый болтун программы.

ШРДЛУ была очень успешной программой ответов на вопросы, разработанной Терри Виноград в конце 1960-х - начале 1970-х гг. Он имитировал работу робота в мире игрушек («мир блоков») и давал возможность задавать роботу вопросы о состоянии мира. Опять же, сильной стороной этой системы был выбор очень специфической области и очень простого мира с правилами физики, которые было легко закодировать в компьютерной программе.

В 1970-е годы базы знаний были разработаны для более узких областей знаний. Системы ответов на вопросы, разработанные для взаимодействия с этими экспертные системы дает более повторяемые и достоверные ответы на вопросы из области знаний. Эти экспертные системы очень похожи на современные системы ответов на вопросы, за исключением их внутренней архитектуры. Экспертные системы в значительной степени полагаются на созданные и организованные экспертами базы знаний, в то время как многие современные системы ответов на вопросы полагаются на статистическую обработку большого, неструктурированного корпуса текстов на естественном языке.

1970-е и 1980-е гг. Были отмечены развитием всеобъемлющих теорий в компьютерная лингвистика, что привело к развитию амбициозных проектов в области понимания текста и ответов на вопросы. Одним из примеров такой системы был Unix Consultant (UC), разработанный Роберт Виленски в U.C. Беркли в конце 1980-х гг. Система ответила на вопросы, относящиеся к Unix Операционная система. У него была обширная вручную созданная база знаний в своей области, и он был нацелен на формулировку ответа для различных типов пользователей. Другим проектом был LILOG, понимание текста система, которая работала в области туристической информации в немецком городе. Системы, разработанные в проектах UC и LILOG, так и не прошли стадию простых демонстраций, но помогли развитию теорий компьютерной лингвистики и рассуждений.

Были разработаны специализированные системы ответов на вопросы на естественном языке, такие как EAGLi для ученых в области здравоохранения и жизни, а также Вольфрам | Альфа, онлайновая вычислительная система знаний, которая отвечает на фактические запросы напрямую, вычисляя ответ на основе собранных из внешних источников данных.[нужна цитата ]

Архитектура

С 2001 года системы ответов на вопросы обычно включали классификатор вопросов модуль, определяющий тип вопроса и тип ответа.[6] А мультиагентный предложена вопросно-ответная архитектура, в которой каждый домен представлен агентом, который пытается отвечать на вопросы с учетом своих специфических знаний; Мета-агент контролирует взаимодействие между агентами, отвечающими на вопросы, и выбирает наиболее релевантные ответы.[7]

Методы ответа на вопрос

Ответ на вопрос очень зависит от хорошего поиска корпус - без документов, содержащих ответ, мало что может сделать вопросно-ответная система. Таким образом, имеет смысл, что большие размеры коллекции обычно хорошо подходят для повышения производительности ответов на вопросы, если только область вопроса не ортогональна коллекции. Понятие избыточность данных в огромных коллекциях, таких как Интернет, означает, что кусочки информации, вероятно, будут сформулированы по-разному в разных контекстах и ​​документах,[8] приводит к двум преимуществам:

  1. Благодаря тому, что нужная информация появляется во многих формах, снижается нагрузка на систему ответов на вопросы по выполнению сложных техник НЛП для понимания текста.
  2. Правильные ответы можно отфильтровать из ложные срабатывания полагаясь на то, что правильный ответ будет чаще появляться в документах, чем неправильных.

Некоторые системы ответов на вопросы в значительной степени полагаются на автоматическое рассуждение.[9][10] Существует ряд систем ответов на вопросы, разработанных в Пролог,[11] а логическое программирование язык, связанный с искусственный интеллект.

Ответы на вопросы открытого домена

В поиск информации, система ответов на вопросы в открытом домене направлена ​​на получение ответа в ответ на вопрос пользователя. Возвращенный ответ представляет собой краткий текст, а не список соответствующих документов.[12] В системе используется комбинация приемов из компьютерная лингвистика, поиск информации и представление знаний для поиска ответов.

Система занимает естественный язык вопрос в качестве входных данных, а не набор ключевых слов, например, «Когда сейчас национальный день Китая?» Затем предложение преобразуется в запрос через его логическая форма. Наличие ввода в форме вопроса на естественном языке делает систему более удобной для пользователя, но ее труднее реализовать, поскольку существуют различные типы вопросов, и системе необходимо будет определить правильный, чтобы дать разумный ответ. Присвоение типа вопроса к вопросу является важной задачей, весь процесс извлечения ответов основан на поиске правильного типа вопроса и, следовательно, правильного типа ответа.

Ключевое слово добыча - это первый шаг для определения типа входного вопроса.[13] В некоторых случаях есть четкие слова, которые напрямую указывают тип вопроса, например, «Кто», «Где» или «Сколько», эти слова говорят системе, что ответы должны быть типа «Человек», «Местоположение», или «Число» соответственно. В приведенном выше примере слово «Когда» означает, что ответ должен быть типа «Дата». POS-теги (часть речи) и методы синтаксического анализа также могут использоваться для определения типа ответа. В этом случае тема - «Китайский национальный день», предикат - «есть», а наречный модификатор - «когда», поэтому тип ответа - «Дата». К сожалению, некоторые вопросительные слова, такие как «Что», «Что» или «Как» не дают четких типов ответа. Каждое из этих слов может представлять более одного типа. В подобных ситуациях следует учитывать другие слова в вопросе. Первое, что нужно сделать, - это найти слова, которые могут обозначить смысл вопроса. Лексический словарь, например WordNet затем можно использовать для понимания контекста.

После определения типа вопроса появляется поиск информации Система используется для поиска набора документов, содержащих правильные ключевые слова. А tagger и Чанкер NP / Verb Group может использоваться для проверки того, упоминаются ли в найденных документах правильные сущности и отношения. На такие вопросы, как «Кто» или «Где», распознаватель именованных сущностей используется для поиска соответствующих имен «Человек» и «Местоположение» в извлеченных документах. Для ранжирования выбираются только соответствующие абзацы.

А векторная космическая модель может использоваться как стратегия для классификации возможных ответов. Проверьте, является ли ответ правильным, как определено на этапе анализа типа вопроса. Для проверки возможных ответов также можно использовать метод вывода. Затем каждому из этих кандидатов выставляется балл в зависимости от количества содержащихся в нем вопросительных слов и того, насколько близки эти слова к кандидату, чем больше и чем ближе, тем лучше. Затем ответ переводится в компактное и содержательное представление путем синтаксического анализа. В предыдущем примере ожидаемый выходной ответ - «1 октября».

Математические ответы на вопросы

Система ответов на вопросы с открытым исходным кодом, основанная на Ask Platypus и Викиданные был опубликован в 2018 году.[14] Система принимает вопрос на естественном языке на английском или хинди в качестве входных данных и возвращает математическую формулу, полученную из Викиданных, в качестве краткого ответа. Результирующая формула переводится в вычислимую форму, позволяя пользователю вставлять значения для переменных. Имена и значения переменных и общих констант извлекаются из Викиданных, если они доступны. Утверждается, что система превосходит коммерческую вычислительную математическую систему знаний на тестовом наборе.

Прогресс

Системы ответов на вопросы были расширены в последние годы, чтобы охватить дополнительные области знаний.[15] Например, были разработаны системы для автоматического ответа на временные и геопространственные вопросы, вопросы определения и терминологии, биографические вопросы, многоязычные вопросы и вопросы о содержании аудио, изображений,[16] и видео.[17] Текущие темы исследований с ответами на вопросы включают:

Система ответов на вопросы IBM, Watson, победил двух величайших Опасность! чемпионы Брэд Раттер и Кен Дженнингс, со значительным отрывом.[25]Facebook исследования сделал свою систему DrQA[26] доступно под лицензия с открытым исходным кодом. Эта система использовалась для ответов на вопросы открытого домена с использованием Википедия как источник знаний.[27]

Рекомендации

  1. ^ Филипп Чимиано; Кристина Унгер; Джон МакКрэй (1 марта 2014 г.). Интерпретация естественного языка на основе онтологий. Издательство Morgan & Claypool. ISBN  978-1-60845-990-2.
  2. ^ Розер Моранте, Мартин Краллингер, Альфонсо Валенсия и Вальтер Даелеманс. Машинное чтение биомедицинских текстов о болезни Альцгеймера. Оценочные лаборатории и семинар CLEF 2012. 17 сентября 2012 г.
  3. ^ Mittal et al. (2011). "Универсальные системы ответов на вопросы: видение в синтезе ", Международный журнал интеллектуальных информационных систем баз данных, 5 (2), 119-142.
  4. ^ ЗЕЛЕНЫЙ МЛАДШИЙ, Берт Ф.; и другие. (1961). «Бейсбол: автоматический ответчик на вопросы» (PDF). Совместная западная компьютерная конференция IRE-AIEE-ACM: 219–224.
  5. ^ Вудс, Уильям А; Каплан, Р. (1977). «Лунные скалы на естественном английском языке: исследования на естественном языке с ответами на вопросы». Обработка лингвистических структур 5. 5: 521–569.
  6. ^ Хиршман, Л. и Гайзаускас, Р. (2001) Ответы на вопросы на естественном языке. Вид отсюда. Инженерия естественного языка (2001), 7: 4: 275-300 Cambridge University Press.
  7. ^ Галицкий Б., Пампапати Р. Многие агенты могут ответить на вопросы лучше, чем один. Первый понедельник. 2005;10. Дои:10.5210 / fm.v10i1.1204.
  8. ^ Лин, Дж. (2002). Интернет как ресурс для ответов на вопросы: перспективы и проблемы. В материалах Третьей Международной конференции по языковым ресурсам и оценке (LREC 2002).
  9. ^ Молдован, Дан и др. "Cogex: программа для доказательства ответов на вопросы. "Труды конференции 2003 года Североамериканского отделения Ассоциации компьютерной лингвистики по технологии человеческого языка - Том 1. Ассоциация компьютерной лингвистики, 2003 год.
  10. ^ Фурбах, Ульрих, Инго Глёкнер и Бьёрн Пельцер. "Применение автоматизированных рассуждений в ответах на вопросы на естественном языке. "Ai Communications 23.2-3 (2010): 241-265.
  11. ^ Галицкий, Борис (2003). Система ответов на вопросы на естественном языке: техника семантических заголовков. Международная серия по продвинутому интеллекту. Том 2. Австралия: Advanced Knowledge International. ISBN  978-0-86803-979-4.
  12. ^ Солнце, гаитянка; Дхингра, Бхуван; Захир, Манзил; Мазайтис, Кэтрин; Салахутдинов Руслан; Коэн, Уильям (2018). «Ответ на вопросы открытой области с использованием раннего слияния баз знаний и текста». Ассоциация компьютерной лингвистики. Брюссель, Бельгия: 4231–4242. arXiv:1809.00782.
  13. ^ Харабагиу, Санда; Хикл, Эндрю (2006). «Методы использования текстового следования в ответах на вопросы в открытой области». Ассоциация компьютерной лингвистики. Материалы 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики: 905–912. Дои:10.3115/1220175.1220289.
  14. ^ Мориц Шуботц; Филипп Шарпф; и другие. (12 сентября 2018 г.). «Представляем MathQA: математическую систему ответов на вопросы». Обнаружение и доставка информации. Изумруд Паблишинг Лимитед. 46 (4): 214–224. Дои:10.1108 / IDD-06-2018-0022.
  15. ^ Пашка, Мариус (2005). Книжное обозрение Новый Направления в ответах на вопросы Марк Т. Мэйбери (редактор) (MITER Corporation) Менло-Парк, Калифорния: AAAI Press и Кембридж, Массачусетс: MIT Press, 2004, xi + 336 стр; переплет ISBN 0-262-63304-3, $40.00, £25.95". Компьютерная лингвистика. 31 (3): 413–417. Дои:10.1162/089120105774321055. S2CID  12705839.
  16. ^ а б Андерсон, Питер и др. "Внимание снизу вверх и сверху вниз для подписи изображений и визуальных ответов на вопросы. »Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.
  17. ^ Чжу, Линчао и др. "Выявление временного контекста для видеоответов. »Международный журнал компьютерного зрения 124.3 (2017): 409-421.
  18. ^ Куартерони, Сильвия и Суреш Манандхар. "Разработка интерактивной системы ответов на вопросы с открытым доменом. »Natural Language Engineering 15.1 (2009): 73-95.
  19. ^ Йи, Вэнь-тау, Сяодун Хэ и Кристофер Мик. "Семантический анализ для ответа на вопрос с одним отношением. "Труды 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Краткие статьи). 2014.
  20. ^ Перера Р., Нанд П. и Наим А. 2017. Использование типизированных шаблонов поддеревьев зависимостей для генерации предложений ответа в вопросно-ответных системах.
  21. ^ "BitCrawl от Hobson Lane". Архивировано 27 октября 2012 года.. Получено 2012-05-29.CS1 maint: BOT: статус исходного URL-адреса неизвестен (связь)
  22. ^ Перера, Р., Перера, У. 2012. К модели идентификации цели на основе тематических ролей для ответов на вопросы.
  23. ^ Бахадорреза Офоги; Джон Йервуд и Липинг Ма (2008). Влияние идентификации семантического класса и разметки семантических ролей на извлечение ответов на естественном языке. 30-я Европейская конференция по поиску информации (ECIR'08). Springer Berlin Heidelberg. С. 430–437. Дои:10.1007/978-3-540-78646-7_40.
  24. ^ Бахадорреза Офоги; Джон Йервуд и Липинг Ма (2009). «Влияние уровней семантической аннотации фреймов, методов выравнивания фреймов и методов слияния на обработку фактоидных ответов». Журнал Американского общества информационных наук и технологий. 60 (2): 247–263. Дои:10.1002 / asi.20989.
  25. ^ Марков, Джон (16 февраля 2011 г.). "На" Jeopardy! " Watson Win почти ничего не значит ". Нью-Йорк Таймс.
  26. ^ «DrQA».
  27. ^ Чен, Даньци; Фиш, Адам; Уэстон, Джейсон; Бордес, Антуан (2017). «Чтение Википедии для ответов на вопросы открытого домена». arXiv:1704.00051 [cs.CL ].

дальнейшее чтение

внешняя ссылка