Нечеткое извлечение - Fuzzy retrieval

Нечеткое извлечение методы основаны на Расширенная логическая модель и Нечеткое множество теория. Существуют две классические модели нечеткого поиска: смешанные минимальные и максимальные значения (MMM) и модель Пэйса. Обе модели не позволяют оценивать веса запросов, однако это считается P-нормы алгоритм.

Смешанная минимальная и максимальная модель (MMM)

В теории нечетких множеств элемент имеет разную степень принадлежности, например dА, к заданному набору А вместо традиционного выбора членства (является элементом / не является элементом).
В МММ[1] с каждым индексным термином связано нечеткое множество. Вес документа по отношению к термину индекса А считается степенью принадлежности документа к нечеткому множеству, связанному с А. Степень принадлежности к объединению и пересечению определяется в теории нечетких множеств следующим образом:

В соответствии с этим, документы, которые должны быть получены по запросу формы А или В, должно быть в нечетком множестве, связанном с объединением двух множеств А и B. Точно так же документы, которые должны быть получены по запросу формы А и В, должно быть в нечетком множестве, связанном с пересечением двух множеств. Следовательно, можно определить сходство документа с или же запрос быть макс (dА, dB) и сходство документа с и запрос быть разумА, dB). Модель MMM пытается смягчить логические операторы, рассматривая подобие запроса и документа как линейную комбинацию мин и Максимум вес документа.

Учитывая документ D с индексными весами dA1, dA2, ..., dAn для сроков А1, А2, ..., Ап, и запросы:

Qили же = (A1 или А2 или ... или Aп)
Qи = (A1 и А2 и ... и Ап)

Сходство запроса и документа в модели MMM вычисляется следующим образом:

SlM (Qили же, D) = Cили1 * макс (dA1, dA2, ..., dAn) + Cили 2 * разумA1, dA2, ..., dAn)
SlM (Qи, D) = Cи1 * разумA1, dA2, ..., dAn) + Cи2 * макс (dA1, dA2 ..., dAn)

куда Cили1, Сили 2 - коэффициенты "мягкости" или же оператор и Cи1, Си2 - коэффициенты мягкости и оператор. Поскольку мы хотели бы придать максимальному весу документа большее значение при рассмотрении или же запрос и как минимум большее значение при рассмотрении и запрос, обычно у нас есть Cили1 > Cили 2 и Cи1 > Cи2. Для простоты принято считать, что Cили1 = 1 - Сили2 и Cи1 = 1 - Си2.

Ли и Фокс[2] эксперименты показывают, что лучшая производительность обычно достигается с Cи1 в диапазоне [0,5, 0,8] и с Cили1 > 0,2. В общем, вычислительные затраты MMM невелики, а эффективность поиска намного лучше, чем с Стандартная логическая модель.

Модель Paice

В Paice модель[3] является общим расширением модели MMM. По сравнению с моделью MMM, которая учитывает только минимальный и максимальный веса для членов индекса, модель Paice включает все веса терминов при вычислении подобия:

куда р - постоянный коэффициент и шди расположен в порядке возрастания для и запросы и порядок убывания для или же запросы. Когда n = 2, модель Пэйса показывает то же поведение, что и модель MMM.

Эксперименты Ли и Фокса[2] показали, что установка р до 1.0 для и запросов и 0,7 для или же запросы дают хорошую эффективность поиска. Стоимость вычислений для этой модели выше, чем для модели MMM. Это потому, что модель MMM требует только определения мин или же Максимум набора весов терминов каждый раз, когда и или же или же рассматривается пункт, который можно сделать в На). Модель Пайса требует, чтобы веса терминов были отсортированы в возрастающем или убывающем порядке, в зависимости от того, и пункт или или же пункт рассматривается. Для этого требуется как минимум 0 (п журнал п) алгоритм сортировки. Также требуется много вычислений с плавающей запятой.

Улучшения по сравнению со стандартной логической моделью

Ли и Фокс[2] сравнил стандартную логическую модель с моделями MMM и Paice с тремя наборами тестов: CISI, CACM и INSPEC. Это отчетные результаты для повышения средней точности:

CISICACMINSPEC
М-м-м68%109%195%
Paice77%104%206%

Это очень хорошие улучшения по сравнению со стандартной моделью. MMM очень близок к результатам Paice и P-norm, что указывает на то, что это может быть очень хорошая техника и самая эффективная из трех.

Недавняя работа

Недавно Канг и другие..[4] разработали нечеткую поисковую систему, индексируемую идентификацией концептов.

Если мы посмотрим на документы на чистом Tf-idf При подходе, даже если исключить стоп-слова, будут слова, более релевантные теме документа, чем другие, и они будут иметь одинаковый вес, потому что они имеют одинаковую частоту употребления терминов. Если мы примем во внимание намерение пользователя в отношении запроса, мы сможем лучше взвесить условия документа. Каждый термин может быть идентифицирован как понятие в определенной лексической цепочке, которая отражает важность этого понятия для этого документа.
Они сообщают об улучшениях по сравнению с Paice и P-norm в отношении средней точности и запоминаемости для первых 5 извлеченных документов.

Задрозный[5] пересмотрел модель поиска нечеткой информации. Далее он расширяет нечеткую расширенную логическую модель:

  • принятие лингвистических терминов в качестве весов важности ключевых слов также в документах
  • принимая во внимание неопределенность относительно представления документов и запросов
  • интерпретация лингвистических терминов в представлении документов и запросов, а также их сопоставление с точки зрения нечеткой логики Заде (исчисление лингвистических утверждений)
  • рассмотрение некоторых прагматических аспектов предлагаемой модели, в частности методов индексации документов и запросов

Предлагаемая модель позволяет уловить как неточность, так и неопределенность в отношении представления и поиска текстовой информации.

Смотрите также

дальнейшее чтение

  • Fox, E .; С. Бетрабет; М. Кушик; В. Ли (1992), Информационный поиск: алгоритмы и структуры данных; Расширенная логическая модель, Prentice-Hall, Inc.

Рекомендации

  1. ^ Fox, E. A .; С. Шарат (1986), Сравнение двух методов мягкой булевой интерпретации при поиске информации, Технический отчет TR-86-1, Технологический институт Вирджинии, Департамент компьютерных наук
  2. ^ а б c Lee, W. C .; Э. А. Фокс (1988), Экспериментальное сравнение схем интерпретации логических запросов.
  3. ^ Пэйс, К. Д. (1984), Мягкое вычисление логических поисковых запросов в информационно-поисковых системах, Информационные технологии, Res. Dev. Приложения, 3 (1), 33-42
  4. ^ Канг, Бо-Ён; Дэ-Вон Ким; Хэ-Юнг Ким (2005 г.), «Поиск нечеткой информации, индексированный с помощью идентификации», Текст, речь и диалог, Конспект лекций по информатике, 3658, Springer Berlin / Heidelberg, стр. 179–186, Дои:10.1007/11551874_23, ISBN  978-3-540-28789-6
  5. ^ Задрозный, Славомир; Новацка, Катаржина (2009 г.), «Новый взгляд на нечеткую модель поиска информации», Нечеткие множества и системы, Elsevier North-Holland, Inc., 160 (15): 2173–2191, Дои:10.1016 / j.fss.2009.02.012