Понимание запросов - Query understanding

Понимание запросов это процесс вывода намерение из поисковый движок пользователь, извлекая семантическое значение из ключевых слов поисковика.[1] Методы понимания запроса обычно выполняются перед поисковой системой. извлекает и разряды полученные результаты. Это связано с обработка естественного языка но специально ориентирован на понимание поисковых запросов. Понимание запросов лежит в основе таких технологий, как Amazon Alexa,[2] яблоко с Siri.[3] Google Ассистент,[4] IBM с Watson,[5] и Microsoft с Кортана.[6]

Методы

Токенизация

Токенизация это процесс разрушения текстовая строка в слова или другие значимые элементы, называемые токенами. Обычно токенизация происходит на уровне слов. Однако иногда бывает сложно определить, что подразумевается под словом. Часто токенизатор полагается на простые эвристики, такие как разбиение строки на знаки препинания и пробельные символы. Токенизация более сложна в языках без пробелов между словами, таких как Китайский и Японский. Для токенизации текста на этих языках требуется использование сегментация слов алгоритмы.[7]

Исправление орфографии

Исправление орфографии это процесс автоматического обнаружения и исправления орфографических ошибок в поисковых запросах. Большинство алгоритмов исправления орфографии основаны на языковая модель, что определяет априорная вероятность предполагаемого запроса и модель ошибки (обычно модель зашумленного канала ), который определяет вероятность конкретной орфографической ошибки при заданном запросе.[8]

Стеминг и лемматизация

Многие, но не все, язык склонять слова, чтобы отразить их роль в высказывании, в котором они появляются: слово, такое как * забота *, может появиться как помимо основной формы. как * заботы *, * заботы *, * заботы * и другие. Вариации между различными формами слова, вероятно, не будут иметь большого значения для относительно крупнозернистой модели значения, используемой в поисковой системе, и по этой причине задача объединения различных форм слова является потенциально полезным методом для увеличить отзыв поисковой системы.[9]

Языки мира различаются по степени морфологического разнообразия, и для некоторых языков существуют простые методы сокращения слова в запросе до его значения. лемма или же корень форма или ее корень. Для некоторых других языков эта операция включает нетривиальную обработку строк. Существительное в английском языке обычно встречается в четырех вариантах: * cat * * cat's * * cats * * cats '* или * child * * child´s * * children * * Children's *. На других языках больше вариаций. Финский, например, потенциально имеет около 5000 форм существительного,[10] и для многих языков флективные формы не ограничиваются аффиксы но изменить суть самого слова.

Алгоритмы стемминга, также известные как стеммеры, обычно используют набор простых правил для удаления суффиксы предназначен для моделирования правил изменения языка.[11]

Более продвинутые методы, лемматизация методы, сгруппируйте измененные формы слова с помощью более сложных наборов правил, основанных на часть речи или его запись в лексическая база данных, преобразуя слово в слово с помощью поиска или серию преобразований в его лемму. Долгое время считалось доказанным, что морфологическая нормализация в целом не способствует повышению эффективности поиска.[12]

Когда внимание к области поиска информации переместилось на другие языки, помимо английского, было обнаружено, что для некоторых языков можно было найти очевидные выгоды.[13]

Признание сущности

Распознавание сущностей - это процесс поиска и классификации сущностей в текстовой строке. Признание именной организации особое внимание уделяется названные объекты, например, имена людей, мест и организаций. Кроме того, распознавание сущностей включает в себя идентификацию концепций в запросах, которые могут быть представлены фразами из нескольких слов. В системах распознавания сущностей обычно используются лингвистические методы, основанные на грамматике или статистические методы. машинное обучение модели.[14]

Переписывание запроса

Переписывание запроса - это процесс автоматического переформулирования поискового запроса для более точного отражения его цели. Расширение запроса добавляет дополнительные термины запроса, такие как синонимы, чтобы получить больше документов и, таким образом, улучшить запоминание. Ослабление запроса удаляет условия запроса, чтобы уменьшить требования к документу, чтобы он соответствовал запросу, тем самым также увеличивая отзывать. Другие формы переписывания запросов, такие как автоматическое преобразование следующих друг за другом условий запроса в фразы и ограничение условий запроса конкретными поля, стремимся увеличить точность. Поисковая система Apache Lucene [15] использует перезапись запроса для преобразования сложных запросов в более примитивные запросы, такие как выражения с подстановочными знаками (например, quer *), в логический запрос соответствующих терминов из индекса (например, запросы OR).[16]

Смотрите также

Рекомендации

  1. ^ «Семинар Ассоциации специалистов по вычислительной технике (ACM) по поиску информации (SIGIR) 2010 года по представлению и пониманию запросов» (PDF).
  2. ^ «Amazon AI - Искусственный интеллект».
  3. ^ «iOS - Siri - Apple».
  4. ^ «Как Google использует машинное обучение в своих алгоритмах поиска».
  5. ^ «Когда Уотсон познакомился с Siri: сделка Apple с IBM может сделать Siri намного умнее».
  6. ^ «История Кортаны, убийцы Siri от Microsoft».
  7. ^ «Токенизация».
  8. ^ "Как написать корректор орфографии".
  9. ^ Лоу, Томас; Робертс, Дэвид; Курц, Петердейт = 1973. Дополнительная обработка текста для онлайн-поиска (система RADCOL). Том 1. Документ DTIC.Леннон, Мартин; Пирс, Дэвид; Тарри, Брайан Д; Уиллетт, Питер (1981). «Оценка некоторых алгоритмов объединения для поиска информации». Информационный ученый. МУДРЕЦ. 3 (4).
  10. ^ Карлссон, Фред (2008). Финский: важная грамматика. Рутледж.
  11. ^ Ловинс, Джули (1968). Разработка алгоритма стемминга. Группа обработки информации MIT.
  12. ^ Харман, Донна (1991). «Насколько эффективны суффиксы?». Журнал Американского общества информационных наук. 42 (1).
  13. ^ Попович, Миркоч; Уиллетт, Питер (1981). «Эффективность ограничения доступа к словенским текстовым данным на естественном языке». Информационный ученый. МУДРЕЦ. 3 (4).
  14. ^ «Обзор признания и классификации именных организаций» (PDF).
  15. ^ "Apache Lucene".
  16. ^ «Запрос в документации API Lucene 6.4.1».