Модель двоичной независимости - Binary Independence Model

В Модель двоичной независимости (BIM)^[1]^[2] вероятностный поиск информации метод, который делает некоторые простые предположения, чтобы сделать оценку вероятности подобия документа / запроса выполнимой.

Определения

Предположение о двоичной независимости состоит в том, что документы двоичные векторы. То есть фиксируется только наличие или отсутствие терминов в документах. Условия независимо распределены в наборе релевантных документов, а также независимо распределены в наборе неактуальных документов. Представление представляет собой упорядоченный набор Булево переменные. То есть представление документа или запроса - это вектор с одним логическим элементом для каждого рассматриваемого термина. Более конкретно, документ представлен вектором $d = (Икс 1, ..., Икс м)$ куда $Икс т =1$ если срок т присутствует в документе d и $Икс т =0$ если это не так. С таким упрощением многие документы могут иметь одинаковое векторное представление. Запросы представлены аналогичным образом. «Независимость» означает, что термины в документе рассматриваются независимо друг от друга, и никакая связь между терминами не моделируется. Это предположение является очень ограничивающим, но было показано, что оно дает достаточно хорошие результаты для многих ситуаций. Эта независимость - «наивное» предположение Наивный байесовский классификатор, где свойства, которые подразумевают друг друга, тем не менее, для простоты рассматриваются как независимые. Это предположение позволяет рассматривать представление как экземпляр Векторная модель пространства рассматривая каждый член как значение 0 или 1 вдоль измерения, ортогонального размерам, используемым для других терминов.

Вероятность ${ Displaystyle P (R | d, q)}$ то, что документ релевантен, зависит от вероятности релевантности вектора терминов этого документа ${ Displaystyle P (R | x, q)}$ . Используя Правило Байеса мы получили:

{ Displaystyle P (р | х, q) = { гидроразрыва {P (x | R, q) * P (R | q)} {P (x | q)}}}

куда ${ Displaystyle P (х | R = 1, q)}$ и ${ Displaystyle P (х | R = 0, q)}$ - вероятность получения релевантного или нерелевантного документа соответственно. Если да, то этот документ представлен Икс.Точные вероятности не могут быть известны заранее, поэтому необходимо использовать оценки из статистики о сборе документов.

${ Displaystyle P (R = 1 | q)}$ и ${ Displaystyle P (R = 0 | q)}$ указать предыдущую вероятность получения релевантного или нерелевантного документа соответственно для запроса q. Если, например, мы знали процент релевантных документов в коллекции, то мы могли бы использовать его для оценки этих вероятностей. Поскольку документ либо релевантен, либо нерелевантен запросу, мы имеем следующее:

{ Displaystyle P (R = 1 | x, q) + P (R = 0 | x, q) = 1}

Взвешивание условий запроса

Учитывая двоичный запрос и скалярное произведение как функция подобия между документом и запросом, проблема состоит в том, чтобы присвоить веса терминам в запросе, чтобы эффективность поиска была высокой. Позволять ${ displaystyle p_ {i}}$ и ${ displaystyle q_ {i}}$ быть вероятностью того, что релевантный документ и нерелевантный документ имеют $я$ ^th срок соответственно. Ю и Salton,^[1] кто первым внедряет BIM, предлагают, чтобы вес $я$ ^th член является возрастающей функцией ${ displaystyle Y_ {i} = { frac {p_ {i} * (1-q_ {i})} {(1-p_ {i}) * q_ {i}}}}$ . Таким образом, если ${ displaystyle Y_ {i}}$ выше чем ${ displaystyle Y_ {j}}$ , вес термина $я$ будет выше, чем срок $j$ . Ю и Солтон^[1] показали, что такое присвоение веса терминам запроса дает лучшую эффективность поиска, чем если бы термины запроса были равновзвешенными. Робертсон и Спэрк Джонс^[2] позже показал, что если $я$ ^th сроку присваивается вес ${ displaystyle log Y_ {i}}$ , то оптимальная эффективность поиска достигается в соответствии с предположением о двоичной независимости.

Модель двоичной независимости была введена Ю и Солтоном.^[1] Название «Модель двоичной независимости» было придумано Робертсоном и Сперком Джонсом.^[2]

Смотрите также

Мешок слов модель

дальнейшее чтение

Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008), Введение в поиск информации, Издательство Кембриджского университета
Стефан Бюттчер; Чарльз Л. А. Кларк; Гордон В. Кормак (2010), Поиск информации: внедрение и оценка поисковых систем, MIT Press

Модель двоичной независимости - Binary Independence Model

Содержание

Определения

Взвешивание условий запроса

Смотрите также

дальнейшее чтение

Рекомендации