Модель двоичной независимости - Binary Independence Model

В Модель двоичной независимости (BIM)[1][2] вероятностный поиск информации метод, который делает некоторые простые предположения, чтобы сделать оценку вероятности подобия документа / запроса выполнимой.

Определения

Предположение о двоичной независимости состоит в том, что документы двоичные векторы. То есть фиксируется только наличие или отсутствие терминов в документах. Условия независимо распределены в наборе релевантных документов, а также независимо распределены в наборе неактуальных документов. Представление представляет собой упорядоченный набор Булево переменные. То есть представление документа или запроса - это вектор с одним логическим элементом для каждого рассматриваемого термина. Более конкретно, документ представлен вектором d = (Икс1, ..., Иксм) куда Икст=1 если срок т присутствует в документе d и Икст=0 если это не так. С таким упрощением многие документы могут иметь одинаковое векторное представление. Запросы представлены аналогичным образом. «Независимость» означает, что термины в документе рассматриваются независимо друг от друга, и никакая связь между терминами не моделируется. Это предположение является очень ограничивающим, но было показано, что оно дает достаточно хорошие результаты для многих ситуаций. Эта независимость - «наивное» предположение Наивный байесовский классификатор, где свойства, которые подразумевают друг друга, тем не менее, для простоты рассматриваются как независимые. Это предположение позволяет рассматривать представление как экземпляр Векторная модель пространства рассматривая каждый член как значение 0 или 1 вдоль измерения, ортогонального размерам, используемым для других терминов.

Вероятность то, что документ релевантен, зависит от вероятности релевантности вектора терминов этого документа . Используя Правило Байеса мы получили:

куда и - вероятность получения релевантного или нерелевантного документа соответственно. Если да, то этот документ представлен Икс.Точные вероятности не могут быть известны заранее, поэтому необходимо использовать оценки из статистики о сборе документов.

и указать предыдущую вероятность получения релевантного или нерелевантного документа соответственно для запроса q. Если, например, мы знали процент релевантных документов в коллекции, то мы могли бы использовать его для оценки этих вероятностей. Поскольку документ либо релевантен, либо нерелевантен запросу, мы имеем следующее:

Взвешивание условий запроса

Учитывая двоичный запрос и скалярное произведение как функция подобия между документом и запросом, проблема состоит в том, чтобы присвоить веса терминам в запросе, чтобы эффективность поиска была высокой. Позволять и быть вероятностью того, что релевантный документ и нерелевантный документ имеют яth срок соответственно. Ю и Salton,[1] кто первым внедряет BIM, предлагают, чтобы вес яth член является возрастающей функцией . Таким образом, если выше чем , вес термина я будет выше, чем срок j. Ю и Солтон[1] показали, что такое присвоение веса терминам запроса дает лучшую эффективность поиска, чем если бы термины запроса были равновзвешенными. Робертсон и Спэрк Джонс[2] позже показал, что если яth сроку присваивается вес , то оптимальная эффективность поиска достигается в соответствии с предположением о двоичной независимости.

Модель двоичной независимости была введена Ю и Солтоном.[1] Название «Модель двоичной независимости» было придумано Робертсоном и Сперком Джонсом.[2]

Смотрите также

дальнейшее чтение

  • Кристофер Д. Мэннинг; Прабхакар Рагхаван; Хинрих Шютце (2008), Введение в поиск информации, Издательство Кембриджского университета
  • Стефан Бюттчер; Чарльз Л. А. Кларк; Гордон В. Кормак (2010), Поиск информации: внедрение и оценка поисковых систем, MIT Press

Рекомендации

  1. ^ а б c d Yu, C.T .; Солтон, Г. (1976). «Прецизионное взвешивание - эффективный метод автоматического индексирования» (PDF). Журнал ACM. 23: 76. Дои:10.1145/321921.321930.
  2. ^ а б c Робертсон, С.; Спэрк Джонс, К. (1976). «Взвешивание релевантности поисковых запросов». Журнал Американского общества информационных наук. 27 (3): 129. Дои:10.1002 / asi.4630270302.