Расширение запроса - Query expansion

Расширение запроса (QE) - это процесс переформулирования данного запроса для повышения производительности поиска в поиск информации операций, особенно в контексте понимание запроса.[1]В контексте поисковые системы расширение запроса включает оценку ввода пользователя (какие слова были введены в область поискового запроса, а иногда и другие типы данные ) и расширение поискового запроса для соответствия дополнительным документам. Расширение запроса включает такие методы, как:

Расширение запроса - это методология, изучаемая в области Информатика, особенно в сфере обработка естественного языка и поиск информации.

Компромиссы между точностью и отзывчивостью

Поисковые системы вызывают расширение запроса, чтобы повысить качество результатов поиска пользователей. Предполагается, что пользователи не всегда формулируют поисковые запросы, используя лучшие термины. Лучше всего в этом случае может быть то, что база данных не содержит введенных пользователем терминов.

К остановка термин, введенный пользователем, сопоставляется больше документов, так как альтернативные словоформы для введенного пользователем термина также сопоставляются, увеличивая общее отзыв. Это происходит за счет уменьшения точность. Расширение поискового запроса для поиска синонимов введенного пользователем термина также увеличивает отзывчивость за счет точности. Это связано с природой уравнения того, как вычисляется точность, в том, что больший отзыв неявно вызывает снижение точности, учитывая, что факторы отзыва являются частью знаменателя. Также предполагается, что более частый отзыв отрицательно влияет на общее качество результатов поиска, поскольку многие пользователи не хотят, чтобы прочесывалось больше результатов, независимо от точности.

Цель расширения запроса в этом отношении состоит в том, чтобы увеличить отзывчивость, точность может потенциально увеличиться (а не уменьшаться, как математически приравнивается), путем включения в набор результатов страниц, которые более релевантны (более высокого качества) или, по крайней мере, одинаково релевантны. Страницы, которые не были бы включены в набор результатов, которые потенциально могут быть более релевантными для желаемого запроса пользователя, включаются и без расширения запроса не будут иметь, независимо от релевантности. В то же время многие современные коммерческие поисковые системы используют частоту слов (tf-idf ), чтобы помочь в рейтинге.[нужна цитата ] Путем ранжирования вхождений введенных пользователем слов и синонимов и альтернативных морфологических форм документы с более высокой плотностью (высокая частота и непосредственная близость) имеют тенденцию перемещаться выше в результатах поиска, что приводит к более высокому качеству результатов поиска рядом с на вершине результатов, несмотря на более широкий отзыв.

Методы расширения запроса

Автоматические методы расширения запроса были предложены в 1960 году Мароном и Кунсом. [2]. Современные методы расширения запросов предполагают либо анализ коллекции документов (глобальный, либо локальный). [3] или основаны на словарях или онтологиях [4]. Для поиска взаимосвязей между терминами применяется глобальный анализ коллекции документов. Локальный анализ относится к обратная связь по релевантности представленный Роккио [5]. Роккио предложил вручную оценить некоторые из найденных документов и использовать эту информацию обратной связи для расширения запроса. Поскольку сбор оценок пользователей может быть сложной задачей, релевантными считаются только первые извлеченные документы. Это так называемый псевдо-обратная связь по релевантности (PRF) [6]. Обратная связь с псевдорелевантностью в среднем эффективна, но может повредить результаты по некоторым запросам. [7], особенно сложные, поскольку документы, получаемые чаще всего, вероятно, нерелевантны. Псевдорелевантные документы используются для поиска терминов кандидатов на раскрытие, которые встречаются со многими терминами запроса. [8]. Эта идея получила дальнейшее развитие в рамках актуальности языковая модель формализм в позиционной релевантности [9] и модели релевантности близости [10] которые учитывают расстояние до терминов запроса в псевдорелевантных документах. Другое направление в расширении запросов - это применение вложения слов [11].

Смотрите также

Программные библиотеки

  • QueryTermAnalyzer с открытым исходным кодом, C #. Анализатор веса терминов запроса и синонимов на основе машинного обучения для расширения запроса.
  • LucQE - открытый код, Java. Предоставляет структуру вместе с несколькими реализациями, которые позволяют выполнять расширение запроса с использованием Apache. Lucene.
  • Xapian - это поисковая библиотека с открытым исходным кодом, которая включает поддержку расширения запросов

Рекомендации

Цитаты

  1. ^ Вектомова, Ольга; Ван, Ин (2006). «Исследование влияния близости термина на расширение запроса». Журнал информатики. 32 (4): 324–333. CiteSeerX  10.1.1.552.5987. Дои:10.1177/0165551506065787.
  2. ^ Марон, М. Э. и Кунс, Дж. Л. 1960. О релевантности, вероятностном индексировании и поиске информации. Журнал ACM 7, 3, 216–244.
  3. ^ К. Карпинето и Г. Романо. Обзор автоматического расширения запросов при поиске информации. ACM Computing Surveys, 44 (1): 1-50, январь 2012 г.
  4. ^ Дж. Бхогал, А. Макфарлейн и П. Смит. Обзор расширения запросов на основе онтологий. Инф. Обработать. Manage., 43 (4): 866-886, июль 2007 г.
  5. ^ Дж. Роккио. Актуальность обратной связи в поиске информации. В системе поиска SMART, стр. 313-323. 1971 г.
  6. ^ К. Бакли. Автоматическое расширение запроса с использованием SMART: TREC 3. В материалах третьей конференции по восстановлению текста (TREC-3). Специальная публикация NIST, стр. 69-80. Национальный институт стандартов и технологий, 1995 г.
  7. ^ Дж. Амати, К. Карпинето и Дж. Романо. Сложность запроса, надежность и выборочное применение расширения запроса. Достижения в области информационного поиска, стр. 127-137, 2004.
  8. ^ Дж. Сюй и В. Б. Крофт. Расширение запроса с использованием локального и глобального анализа документов. В материалах 19-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, страницы 4-11. ACM, 1996.
  9. ^ Y. Lv и C. Zhai. Модель позиционной релевантности для обратной связи псевдорелевантности. В материалах 33-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 579-586.ACM, 2010.
  10. ^ Л. Ермакова, Дж. Моте, Е. Никитина. 2016. Модель близкой релевантности для расширения запроса. В материалах 31-го ежегодного симпозиума ACM по прикладным вычислениям (SAC '16). ACM, Нью-Йорк, Нью-Йорк, США, 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
  11. ^ С. Кузи, А. Шток, О. Курланд. 2016. Расширение запроса с помощью вложения слов. В материалах 25-й конференции ACM International по управлению информацией и знаниями (CIKM '16). ACM, Нью-Йорк, Нью-Йорк, США, 1929-1932 гг. DOI: https://doi.org/10.1145/2983323.2983876

Источники

  • Д. Эбберли, Д. Кирби, С. Реналс и Т. Робинсон, система поиска новостей THISL. В Proc. ESCA ETRW Workshop Доступ к информации в устном аудио, (Cambridge), pp. 14–19, 1999. Раздел по Расширение запроса - Краткий математический обзор.
  • Р. Навильи, П. Веларди. Анализ стратегий расширения запросов на основе онтологий. Proc. семинара по адаптивному извлечению текста и интеллектуальному анализу (ATEM 2003), в 14-я Европейская конференция по машинному обучению (ECML 2003), Цавтат-Дубровник, Хорватия, 22–26 сентября 2003 г., стр. 42–49 - Анализ методов расширения запросов, основанных на WordNet в качестве справочной онтологии.
  • Ю. Цю и Х. Frei. Расширение запроса на основе концепции. В Материалы 16-й Международной конференции ACM по исследованиям и разработкам в области информационного поиска СИГИР-93, Питтсбург, Форум SIGIR, ACM Press, июнь 1993 г. - Академический документ по конкретному методу расширения запроса
  • Efthimis N. Efthimiadis. Расширение запроса. В: Марта Э. Уильямс (ред.), Ежегодный обзор информационных систем и технологий (ARIST), v31, pp 121–187, 1996 - Введение для менее технических зрителей.