Модель дивергенции от случайности - Википедия - Divergence-from-randomness model

В области поиск информации, отклонение от случайности, одна из первых моделей, является одним из видов вероятностный модель. Он в основном используется для проверки объема информации, содержащейся в документах. Он основан на 2-пуассоновской модели индексации Хартера. Модель 2-Пуассона имеет гипотезу о том, что уровень документов связан с набором документов, в котором слова встречаются относительно больше, чем в остальных документах. Это не «модель», а структура для взвешивания терминов с использованием вероятностных методов, и у нее есть особые отношения для взвешивания терминов, основанные на понятии элитности.

Веса терминов рассматриваются как стандарт того, входит ли конкретное слово в этот набор или нет. Веса терминов вычисляются путем измерения расхождения между распределением терминов, созданным случайным процессом, и фактическим распределением терминов.

Расхождение от моделей случайности, созданных путем создания экземпляров трех основных компонентов структуры: сначала выбор базовой модели случайности, затем применение первой нормализации и, наконец, нормализация частот терминов. Базовые модели взяты из следующих таблиц.

Определение

Отклонение от случайности основано на этой идее: «Чем больше отклонение частоты термина внутри документа от его частоты в коллекции, тем больше информации несет слово t в документе d. Другими словами, термин - вес обратно связан с вероятностью частоты термина в документе d, полученном с помощью модели случайности M ».^[1](Автор terrier.org)

${ displaystyle { text {weight}} (t | d) = k { text {Prob}} _ {M} (t in d | { text {Collection}})}$ (Формула 1)

M представляет собой тип модели случайности, который используется для вычисления вероятности.
d - общее количество слов в документах.
t - номер конкретного слова в d.
k определяется М.

Возможно, мы используем разные урна модели для выбора подходящей модели случайности M. В информационном поиске вместо урн используются документы, а вместо цветов - термины. Есть несколько способов выбрать M, каждый из которых имеет базовое отклонение от модели случайности, чтобы поддержать его.

Модель

Базовые модели

D      Приближение расходимости биномап      Аппроксимация двучленаБЫТЬ        Распределение Бозе-Эйнштейнаграмм  Геометрическое приближение Бозе-Эйнштейна В)   Обратный документ частотной моделиЕСЛИ)   Частотно-обратная модельЯ (ne) Обратная модель ожидаемой частоты документов

Модели DFR

BB2    Модель Бернулли-Эйнштейна с последействием Бернулли и нормализацией 2.IFB2    Модель обратной частоты с последействием Бернулли и нормализацией 2.In-expB2 Модель обратной частоты ожидаемого документа с последействием Бернулли и нормализацией 2. Логарифмы являются основанием 2. Эту модель можно использовать для классических специальных задач.In-expC2  Модель обратной частоты ожидаемого документа с последействием Бернулли и нормализацией 2. Логарифмы - это основание е. Эта модель может использоваться для классических специальных задач.InL2    Модель обратной частоты документа с последействием Лапласа и нормализацией 2. Эта модель может использоваться для задач, требующих ранней точности.PL2    Модель Пуассона с последействием Лапласа и нормализацией 2. Эта модель может использоваться для задач, требующих ранней точности [7,8].

Первая нормализация

Если конкретный редкий термин не может быть найден в документе, то в этом документе вероятность того, что термин является информативным, приблизительно равна нулю. С другой стороны, если в документе часто встречается редкий термин, он может иметь очень высокую, почти 100% вероятность быть информативным для темы, упомянутой в документе. Применение к языковой модели Понте и Крофта также может быть хорошей идеей. Обратите внимание, что компонент риска учитывается в DFR. Логически говоря, если частота использования термина в документе относительно высока, то, наоборот, риск того, что термин не будет информативным, относительно невелик. Допустим, у нас есть Формула 1, дающая высокую ценность, тогда минимальный риск имеет негативный эффект, показывая небольшой прирост информации. Поэтому мы решили организовать вес Формулы 1 так, чтобы учитывать только ту часть, которая является объемом информации, полученной с помощью этого термина. Чем чаще термин встречается в элитном наборе, тем меньше частота появления термина из-за случайности и, следовательно, тем меньше связанный с ним риск. Мы в основном применяем две модели для вычисления увеличения количества информации с помощью термина в документе:

модель Лапласа L, отношение двух процессов Бернулли B.

Нормализация частоты терминов

Прежде чем использовать внутри документа частоту tf термина, длина документа dl нормализуется до стандартной длины sl. Следовательно, частоты терминов tf пересчитываются относительно стандартной длины документа, то есть:

 tf_п = tf * log (1+ sl / dl) (нормализация 1)

tfn представляет собой нормализованную частоту термина. Другой вариант формулы нормализации следующий:

 tf_п = tf * log (1 + c * (sl / dl)) (нормализация 2)

Нормализация 2 обычно считается более гибкой, поскольку для c не существует фиксированного значения.

tf - частота термина t в документе d
dl - длина документа.
sl - стандартная длина.

Математические и статистические инструменты

Вероятностное пространство

Пространство отбора проб V

Теоретическое индексирование полезности, разработанное Купером и Мароном, - это теория индексации, основанная на теории полезности. Чтобы отразить ценность документов, которую ожидают пользователи, им присваиваются термины индекса. Кроме того, теоретико-полезное индексирование связано с «пространством событий» в статистическом слове. Существует несколько основных пространств Ω в поиске информации. Действительно простым базовым пространством Ω может быть множество V терминов t, которое называется словарем коллекции документов. Поскольку Ω = V - это множество всех взаимоисключающих событий, Ω также может быть определенным событием с вероятностью:

   P (V) = ∑ (t∈V) P (t) = 1

Таким образом, P, распределение вероятностей, присваивает вероятности всем наборам терминов словаря. Обратите внимание, что основная проблема поиска информации состоит в том, чтобы найти оценку для P (t). Оценки рассчитываются на основе выборки, и экспериментальный текстовый сборник предоставляет образцы, необходимые для оценки. Теперь мы сталкиваемся с основной проблемой: как правильно обрабатывать два произвольных, но разнородных фрагмента текста. Образцы, как глава научного журнала и статья из спортивной газеты, как другое. Их можно рассматривать как две разные выборки, поскольку они нацелены на разную популяцию.

Выборка с документом

Связь документа с экспериментами определяется тем, как выбрано пространство для образцов. В IR термин «эксперимент» или «испытание» используется здесь скорее в техническом смысле, чем в здравом смысле. Например, документ может быть экспериментом, что означает, что документ представляет собой последовательность результатов t∈V или просто образец совокупности. Мы будем говорить о событии наблюдения числа Xt = tf вхождений данного слова t в последовательности экспериментов. Чтобы ввести это пространство событий, мы должны ввести произведение вероятностных пространств, связанных с экспериментами последовательности. Мы могли бы ввести наше пространство образцов, чтобы связать точку с возможными конфигурациями результатов. Однозначное соответствие для выборочного пространства можно определить как:

  Ω = Vld

Где ld - количество попыток эксперимента или, в этом примере, длина документа. Мы можем предположить, что каждый результат может зависеть или не зависеть от результатов предыдущих экспериментов. Если эксперименты спланированы таким образом, что результат влияет на следующие результаты, тогда распределение вероятностей для V различно в каждом испытании. Но чаще всего для того, чтобы установить более простой случай, когда вероятностное пространство инвариантно в IR, часто делается предположение о независимости. Поэтому все возможные конфигурации Ω = Vld считаются равновероятными. Учитывая это предположение, мы можем рассматривать каждый документ как процесс Бернулли. Пространства вероятностей продукта инвариантны, а вероятность данной последовательности - это произведение вероятностей в каждом испытании. Следовательно, если p = P (t) - априорная вероятность того, что результат равен t, а количество экспериментов равно ld, мы получаем вероятность того, что Xt = tf равна:

  P (Xt = tf | p) = (ld pick tf) p^tfq^ld-tf

Это сумма вероятностей всех возможных конфигураций, имеющих tf результатов из ld. P (Xt = tf | p) - это распределение вероятностей, поскольку

 ∑ (t∈V) P (Xt = tf | p) = (p + q)^ld=1

ld Длина документа d.
tf Термин частота t в документе d.
Xt Количество вхождений определенного слова в один список.

Множественные выборки

Уже рассматривая гипотезу наличия единой выборки, мы должны учитывать, что у нас есть несколько выборок, например, коллекция документов D. Ситуация с набором из N документов абстрактно эквивалентна схеме размещения определенного количества Tot из V цветных шаров в коллекции из N ячеек. Для каждого члена t∈V возможная конфигурация размещения мячей удовлетворяет уравнениям:

 tf₁+ ... + tf_N= Ft

И условие

 F₁+ ... + F_V= Tot

Где Ft - количество шаров одного цвета t, которые будут распределены по N ячейкам. Таким образом, мы изменили основное пространство. Результатом нашего эксперимента будут документы d, в которые будет помещен мяч. Кроме того, у нас будет множество возможных конфигураций, соответствующих количеству цветных шаров.

Ft Общее количество токенов t в коллекции.
Tot Общее количество токенов в коллекции D

Распределения

Биномиальное распределение

Гипергеометрическое распределение

Статистика Бозе-Эйнштейна

Распределения с жирным хвостом

Вывод

Расхождение от модели случайности основано на модели Бернулли и ее предельных формах, гипергеометрическом распределении, статистике Бозе-Эйнштейна и ее предельных формах, соединении биномиального распределения с бета-распределением и распределении с толстым хвостом. Расхождение от модели случайности показывает объединяющую основу, которая потенциально может построить множество различных эффективных моделей IR.

Приложения

Применение и характеристики

Модель дивергенции от случайности может применяться при автоматическом индексировании в информационном поиске. Это можно объяснить элитностью диссертации ， понятием информативности термина в документе.
Эффективность моделей, основанных на отклонении от случайности, очень высока по сравнению с обеими. BM25 и языковая модель. Для коротких запросов производительность моделей отклонения от случайности определенно выше, чем у модели BM25, которая с 1994 года использовалась в качестве стандартной базовой линии для сравнения моделей.
Модель отклонения от случайности может показать лучшую производительность только с несколькими документами по сравнению с другими навыками расширения запроса.
Структура модели дивергенции от случайности очень общая и гибкая. Благодаря расширению запроса, предусмотренному для каждого компонента, мы можем применять различные технологии для достижения максимальной производительности.

Близость

Близость может обрабатываться в пределах отклонения от случайности, чтобы учитывать количество вхождений пары терминов запроса в пределах окна заранее определенного размера. Чтобы указать, DSM модификатора оценки зависимости DFR реализует модели pBiL и pBiL2, которые вычисляют случайность, деленную на длину документа, а не статистику пары в корпусе пары в корпусе.

Примеры отклонения от случайности

Пусть t - терм, а c - набор. Пусть термин встречается в tfc = nL (t, c) = 200 местоположениях и в df (t, c) = nL (t, c) = 100 документов. Ожидаемая средняя частота термина: avgtf (t, c) = 200/100 = 2; это среднее значение по документам, в которых встречается термин. Пусть N.D (c) = 1000 будет общим количеством документов. Встречаемость термина в документах составляет 10%: P.D (t | c) = 100/1000. Ожидаемая средняя частота запросов составляет 200/1000 = 1/5, и это среднее значение по всем документам. Термин частота отображается как Kt = 0, ..., 6.

В следующей таблице показано, что столбец nD - это количество документов, которые содержат kt вхождений t, показанного как nD (t, c, kt). Другой столбец nL - это количество мест, в которых встречается член, следующий по этому уравнению: nL = kt * nD. Столбцы справа показывают наблюдаемую вероятность и вероятность Пуассона. P obs, elite (Kt) - наблюдаемая вероятность по всем документам. P poisson, all, lambda (Kt) - это вероятность Пуассона, где lambda (t, c) = nL (t, c) / N D (c) = 0.20 - параметр Пуассона. Таблица показывает, чем наблюдаемая вероятность отличается от вероятности Пуассона. P пуассона (1) больше, чем P obs (1), тогда как для kt> 1 наблюдаемые вероятности больше, чем вероятности Пуассона. В хвосте наблюдаемого распределения больше массы, чем предполагает распределение Пуассона. Более того, столбцы справа иллюстрируют использование элитных документов вместо всех документов. Здесь вероятность единичного события основана только на местонахождении элитных документов.

Дальнейший интерес примеров

внешняя ссылка

[1] «Модель отклонения от случайности (DFR)». Команда терьеров, Университет Глазго.

[1]