Tf – idf - Tf–idf

В поиск информации, tf – idf, TF * IDF, или же TFIDF, Короче для частота термина - обратная частота документа, представляет собой числовую статистику, которая призвана отразить, насколько важно слово для документ в коллекции или корпус.^[1] Часто используется как весовой коэффициент в поисках информационного поиска, интеллектуальный анализ текста, и пользовательское моделирование. Значение tf – idf увеличивается пропорционально к количеству раз, когда слово появляется в документе, и компенсируется количеством документов в корпусе, которые содержат это слово, что помогает учесть тот факт, что некоторые слова в целом встречаются чаще. tf – idf - одна из самых популярных сегодня схем взвешивания терминов. Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в электронных библиотеках используют tf – idf.^[2]

Варианты схемы взвешивания tf – idf часто используются поисковые системы как центральный инструмент для оценки и ранжирования документа актуальность учитывая пользователя запрос. tf – idf можно успешно использовать для стоп-слова фильтрация по различным предметным областям, в том числе резюме текста и классификация.

Один из самых простых функции ранжирования вычисляется путем суммирования tf – idf для каждого условия запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации

Частота сроков

Предположим, у нас есть набор текстовых документов на английском языке и мы хотим ранжировать их по тому, какой документ более соответствует запросу «коричневая корова». Простой способ начать - удалить документы, которые не содержат всех трех слов «the», «brown» и «cow», но при этом остается много документов. Чтобы различать их, мы можем подсчитать, сколько раз каждый термин встречается в каждом документе; количество раз, когда термин встречается в документе, называется его частота термина. Однако в случае, когда объем документов сильно различается, часто вносятся корректировки (см. Определение ниже). Первая форма взвешивания терминов связана с Ханс Петер Лун (1957), который можно резюмировать следующим образом:^[3]

Вес термина, который встречается в документе, просто пропорционален частоте использования термина.

Частота обратного документа

Поскольку термин «the» настолько распространен, частота использования термина будет иметь тенденцию неправильно выделять документы, в которых слово «the» используется чаще, без придания достаточного веса более значимым терминам «коричневый» и «корова». Термин «the» не является хорошим ключевым словом для различения релевантных и нерелевантных документов и терминов, в отличие от менее распространенных слов «коричневый» и «корова». Следовательно, частота обратного документа фактор включен, что уменьшает вес терминов, которые очень часто встречаются в наборе документов, и увеличивает вес терминов, которые встречаются редко.

Карен Спарк Джонс (1972) разработали статистическую интерпретацию специфичности термина, названную обратной частотой документа (idf), которая стала краеугольным камнем взвешивания терминов:^[4]

Специфика термина может быть определена как функция, обратная количеству документов, в которых он встречается.

Определение

Tf – idf - это результат двух статистических данных, частота термина и частота обратного документа. Существуют различные способы определения точных значений обеих статистических данных.
Формула, предназначенная для определения важности ключевого слова или фразы в документе или на веб-странице.

Варианты кратности срока (тс) веса
схема взвешивания	тс вес
двоичный	${ displaystyle {0,1}}$
сырой счет	${ displaystyle f_ {t, d}}$
частота термина	${ displaystyle f_ {t, d} { Bigg /} { sum _ {t ' in d} {f_ {t', d}}}}$
нормализация журнала	${ displaystyle log (1 + f_ {t, d})}$
двойная нормализация 0,5	${ displaystyle 0,5 + 0,5 cdot { frac {f_ {t, d}} { max _ { {t ' in d }} {f_ {t', d}}}}}$
двойная нормализация K	${ Displaystyle К + (1-К) { гидроразрыва {е_ {т, д}} { макс _ { {т ' ин д }} {е_ {т', д}}}}}$

Частота сроков

В случае частота термина $tf (т, d)$ , самый простой выбор - использовать сырой счет термина в документе, т. е. сколько раз этот термин $т$ встречается в документе $d$ . Если мы обозначим исходный счет как $ж т, d$ , то простейшая tf-схема $tf (т, d) = ж т, d$ . Другие возможности включают^[5]^:128

Булево "частоты": $tf (т, d) = 1$ если $т$ происходит в $d$ и 0 в противном случае;
Частота термина с поправкой на длину документа: $tf (т, d) = ж т, d \div (количество слов в d)$
логарифмически масштабированный частота: $tf (т, d) = журнал (1 + ж т, d)$ ;^[6]
увеличенная частота, чтобы предотвратить предвзятое отношение к более длинным документам, например исходная частота, деленная на исходную частоту наиболее часто встречающегося термина в документе:

{ displaystyle mathrm {tf} (t, d) = 0,5 + 0,5 cdot { frac {f_ {t, d}} { max {f_ {t ', d}: t' in d } }}}

Частота обратного документа

Варианты обратного веса документа (idf)
схема взвешивания	вес idf ( ${ displaystyle n_ {t} = \| {d in D: t in d } \|}$ )
унарный	1
частота обратного документа	${ displaystyle log { frac {N} {n_ {t}}} = - log { frac {n_ {t}} {N}}}$
обратная частота документа гладкая	${ displaystyle log left ({ frac {N} {1 + n_ {t}}} right) +1}$
частота обратного документа макс.	${ displaystyle log left ({ frac { max _ { {t ' in d }} n_ {t'}} {1 + n_ {t}}} right)}$
вероятностная обратная частота документа	${ displaystyle log { frac {N-n_ {t}} {n_ {t}}}}$

В частота обратного документа - это мера того, сколько информации дает слово, то есть является ли оно общим или редким во всех документах. Это логарифмически масштабированный обратная доля документов, содержащих слово (полученная путем деления общего количества документов на количество документов, содержащих термин, и последующего логарифмирования этого частного):

{ displaystyle mathrm {idf} (t, D) = log { frac {N} {| {d in D: t in d } |}}}

с

${ displaystyle N}$ : общее количество документов в корпусе ${ Displaystyle N = {| D |}}$
${ displaystyle | {d in D: t in d } |}$ : количество документов, в которых термин ${ displaystyle t}$ появляется (т.е. ${ Displaystyle mathrm {tf} (т, д) neq 0}$ ). Если термин отсутствует в корпусе, это приведет к делению на ноль. Поэтому обычно знаменатель корректируют на ${ displaystyle 1+ | {d in D: t in d } |}$ .

График различных обратных частотных функций документа: стандартный, гладкий, вероятностный.

Частота термина - обратная частота документа

Тогда tf – idf вычисляется как

{ Displaystyle mathrm {tfidf} (t, d, D) = mathrm {tf} (t, d) cdot mathrm {idf} (t, D)}

Высокий вес в tf – idf достигается за счет большого срока частота (в данном документе) и невысокая документальная повторяемость термина во всем сборнике документов; поэтому веса, как правило, отфильтровывают общие термины. Поскольку соотношение внутри функции журнала idf всегда больше или равно 1, значение idf (и tf – idf) больше или равно 0. Поскольку термин появляется в большем количестве документов, отношение внутри логарифма приближается к 1 , приближая idf и tf – idf к 0.

Рекомендуемые схемы взвешивания tf – idf
схема взвешивания	вес срока документа	вес термина запроса
1	${ displaystyle f_ {t, d} cdot log { frac {N} {n_ {t}}}}$	${ displaystyle left (0,5 + 0,5 { frac {f_ {t, q}} { max _ {t} f_ {t, q}}} right) cdot log { frac {N} {n_ {t}}}}$
2	${ displaystyle log (1 + f_ {t, d})}$	${ displaystyle log left (1 + { frac {N} {n_ {t}}} right)}$
3	${ displaystyle (1+ log f_ {t, d}) cdot log { frac {N} {n_ {t}}}}$	${ displaystyle (1+ log f_ {t, q}) cdot log { frac {N} {n_ {t}}}}$

Обоснование idf

Idf был введен как "специфичность термина" Карен Спарк Джонс в статье 1972 года. Хотя он хорошо работал эвристический, его теоретические основы вызывали беспокойство в течение как минимум трех десятилетий после этого, и многие исследователи пытались найти теоретическая информация оправдания для этого.^[7]

Собственное объяснение Спэрка Джонса не предлагало много теории, кроме связи с Закон Ципфа.^[7] Были предприняты попытки поставить idf на вероятностный опора^[8] оценивая вероятность того, что данный документ $d$ содержит термин $т$ как относительная частота документов,

{ Displaystyle P (t | D) = { frac {| {d in D: t in d } |} {N}},}

так что мы можем определить idf как

{ Displaystyle { begin {align} mathrm {idf} & = - log P (t | D) & = log { frac {1} {P (t | D)}} & = log { frac {N} {| {d in D: t in d } |}} end {align}}}

А именно, обратная частота документа - это логарифм «обратной» относительной частоты документа.

Эта вероятностная интерпретация, в свою очередь, принимает ту же форму, что и самоинформация. Однако применение таких теоретико-информационных понятий к проблемам поиска информации приводит к проблемам при попытке определить подходящие места для мероприятий для необходимого распределения вероятностей: нужно учитывать не только документы, но и запросы и сроки.^[7]

Связь с теорией информации

Частота термина и обратная частота документа могут быть сформулированы с использованием Теория информации; это помогает понять, почему их продукт имеет значение с точки зрения общего информационного содержания документа. Характерное предположение о распределении ${ Displaystyle р (д, т)}$ в том, что:

{ displaystyle p (d | t) = { frac {1} {| {d in D: t in d } |}}}

Это предположение и его последствия, согласно Айзаве: «представляют собой эвристику, которую использует tf-idf».^[9]

Вспомните выражение Условная энтропия «случайно выбранного» документа в корпусе ${ displaystyle D}$ при условии, что он содержит конкретный термин ${ displaystyle t}$ (и предположим, что все документы имеют равную вероятность быть выбранными, и небольшие ${ displaystyle p}$ будучи r = вероятности)):

{ displaystyle H ({ cal {D}} | { cal {T}} = t) = - sum _ {d} p_ {d | t} log p_ {d | t} = - log { frac {1} {| {d in D: t in d } |}} = log { frac {| {d in D: t in d } |} {| D | }} + log | D | = - mathrm {idf} (t) + log | D |}

Что касается обозначений, ${ displaystyle { cal {D}}}$ и ${ displaystyle { cal {T}}}$ являются «случайными величинами», соответствующими отрисовке документа или термина. Теперь вспомним определение Взаимная информация и обратите внимание, что это может быть выражено как

{ displaystyle M ({ cal {T}}; { cal {D}}) = H ({ cal {D}}) - H ({ cal {D}} | { cal {T}} ) = sum _ {t} p_ {t} cdot (H ({ cal {D}}) - H ({ cal {D}} | W = t)) = sum _ {t} p_ { т} cdot mathrm {idf} (т)}

Последний шаг - расширить ${ displaystyle p_ {t}}$ , безусловная вероятность нарисовать термин относительно (случайного) выбора документа, чтобы получить:

{ displaystyle M ({ cal {T}}; { cal {D}}) = sum _ {t, d} p_ {t | d} cdot p_ {d} cdot mathrm {idf} ( t) = sum _ {t, d} mathrm {tf} (t, d) cdot { frac {1} {| D |}} cdot mathrm {idf} (t) = { frac { 1} {| D |}} sum _ {t, d} mathrm {tf} (t, d) cdot mathrm {idf} (t).}

Это выражение показывает, что суммирование Tf-idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином с учетом всех особенностей их совместного распределения.^[10]. Следовательно, каждый Tf-idf несет «бит информации», прикрепленный к паре документов термин x.

Пример tf – idf

Предположим, что у нас есть таблицы подсчета терминов в корпусе, состоящем только из двух документов, как указано справа.

Документ 2
Срок	Срок действия
этот	1
является	1
еще один	2
пример	3

Документ 1
Срок	Срок действия
этот	1
является	1
а	2
образец	1

Расчет tf – idf для термина «это» выполняется следующим образом:

В необработанной форме частоты tf - это просто частота «this» для каждого документа. В каждом документе слово «это» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

{ displaystyle mathrm {tf} ({ mathsf {'' this ''}}, d_ {1}) = { frac {1} {5}} = 0,2}

{ displaystyle mathrm {tf} ({ mathsf {'' this ''}}, d_ {2}) = { frac {1} {7}} приблизительно 0,14}

Idf является постоянным для корпуса, и учетные записи для соотношения документов, содержащих слово «это». В данном случае у нас есть корпус из двух документов, и все они включают слово «это».

{ displaystyle mathrm {idf} ({ mathsf {'' this ''}}, D) = log left ({ frac {2} {2}} right) = 0}

Таким образом, tf – idf равно нулю для слова this, что означает, что это слово не очень информативно, поскольку оно встречается во всех документах.

{ displaystyle mathrm {tfidf} ({ mathsf {'' this ''}}, d_ {1}, D) = 0,2 times 0 = 0}

{ displaystyle mathrm {tfidf} ({ mathsf {'' this ''}}, d_ {2}, D) = 0,14 times 0 = 0}

Слово «пример» более интересно - оно встречается трижды, но только во втором документе:

{ displaystyle mathrm {tf} ({ mathsf {'' example ''}}, d_ {1}) = { frac {0} {5}} = 0}

{ displaystyle mathrm {tf} ({ mathsf {'' example ''}}, d_ {2}) = { frac {3} {7}} приблизительно 0,429}

{ displaystyle mathrm {idf} ({ mathsf {'' example ''}}, D) = log left ({ frac {2} {1}} right) = 0,301}

В заключение,

{ displaystyle mathrm {tfidf} ({ mathsf {'' example ''}}, d_ {1}, D) = mathrm {tf} ({ mathsf {'' example ''}}, d_ {1 }) times mathrm {idf} ({ mathsf {'' example ''}}, D) = 0 times 0.301 = 0}

{ displaystyle mathrm {tfidf} ({ mathsf {'' example ''}}, d_ {2}, D) = mathrm {tf} ({ mathsf {'' example ''}}, d_ {2 }) times mathrm {idf} ({ mathsf {'' example ''}}, D) = 0,429 times 0,301 приблизительно 0,129}

(с использованием логарифм по основанию 10 ).

Вне сроков

Идея tf – idf также применима к объектам, отличным от терминов. В 1998 году к цитатам была применена концепция idf.^[11] Авторы утверждали, что «если очень необычная цитата встречается в двух документах, это должно иметь больший вес, чем цитирование, сделанное большим количеством документов». Кроме того, tf – idf применялся к «визуальным словам» с целью сопоставления объектов в видео,^[12] и целые предложения.^[13] Однако концепция tf – idf не во всех случаях оказалась более эффективной, чем простая схема tf (без idf). Когда к цитированию применялся tf – idf, исследователи не смогли найти никаких улучшений по сравнению с простым весом цитирования, в котором не было компонента idf.^[14]

Производные

Ряд схем взвешивания членов произошел от tf – idf. Один из них - TF – PDF (Term Frequency * Proportional Document Frequency).^[15] TF – PDF был введен в 2001 году в контексте выявления новых тем в СМИ. Компонент PDF измеряет разницу в том, как часто термин встречается в разных доменах. Другая производная - TF – IDuF. В TF – IDuF,^[16] idf не рассчитывается на основе корпуса документов, в котором необходимо выполнить поиск или который будет рекомендован. Вместо этого idf рассчитывается для личных коллекций документов пользователей. Авторы сообщают, что TF-IDuF был столь же эффективен, как и tf-idf, но также мог применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.

Смотрите также

Внешние ссылки и рекомендуемое чтение

Gensim представляет собой библиотеку Python для моделирования векторного пространства и включает взвешивание tf – idf.
Надежная гиперссылка: Применение tf – idf для стабильной адресации документов.
Анатомия поисковой системы
tf – idf и связанные определения как используется в Lucene
TfidfTransformer в scikit-learn
Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который можно использовать для различных задач интеллектуального анализа текста (TM), в частности: i) индексирование, ii) поиск, iii) уменьшение размерности, iv) кластеризация, v) классификация. Шаг индексации предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf – idf.

[1] Раджараман, А .; Ульман, Дж. Д. (2011). "Сбор данных" (PDF). Майнинг массивных наборов данных. С. 1–17. Дои:10.1017 / CBO9781139058452.002. ISBN 978-1-139-05845-2.

[2] Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (26 июля 2015 г.). «Рекомендательные системы для исследовательских работ: обзор литературы». Международный журнал электронных библиотек. 17 (4): 305–338. Дои:10.1007 / s00799-015-0156-0. ISSN 1432-5012. S2CID 207035184.

[3] Лун, Ганс Петер (1957). «Статистический подход к механизированному кодированию и поиску литературной информации» (PDF). Журнал исследований и разработок IBM. 1 (4): 309–317. Дои:10.1147 / rd.14.0309. Получено 2 марта 2015. Также существует вероятность того, что чем чаще встречается понятие и сочетание понятий, тем большее значение автор придает им как отражению сущности его общей идеи.

[4] Спэрк Джонс, К. (1972). «Статистическая интерпретация специфики термина и его применение при поиске». Журнал документации. 28: 11–21. CiteSeerX 10.1.1.115.8343. Дои:10.1108 / eb026526.

[5] Manning, C.D .; Raghavan, P .; Шутце, Х. (2008). «Оценка, взвешивание терминов и модель векторного пространства» (PDF). Введение в поиск информации. п. 100. Дои:10.1017 / CBO9780511809071.007. ISBN 978-0-511-80907-1.

[6] "Статистика TFIDF | SAX-VSM".

[understanding-7] а ^б ^c Робертсон, С. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Журнал документации. 60 (5): 503–520. Дои:10.1108/00220410410560582.

[8] Смотрите также Вероятностные оценки на практике в Введение в поиск информации.

[9] Айзава, Акико (2003). "Теоретико-информационная перспектива мер tf – idf". Обработка информации и управление. 39 (1): 45–65. Дои:10.1016 / S0306-4573 (02) 00021-3.

[10] Айзава, Акико (2003). "Теоретико-информационная перспектива мер tf – idf". Обработка информации и управление. 39 (1): 45–65. Дои:10.1016 / S0306-4573 (02) 00021-3.

[11] Bollacker, Kurt D .; Лоуренс, Стив; Джайлз, К. Ли (1998-01-01). CiteSeer: автономный веб-агент для автоматического поиска и идентификации интересных публикаций. Труды Второй Международной конференции по автономным агентам. АГЕНТЫ '98. С. 116–123. Дои:10.1145/280765.280786. ISBN 978-0-89791-983-8. S2CID 3526393.

[12] Сивич, Йозеф; Зиссерман, Андрей (01.01.2003). Видео Google: метод поиска текста для сопоставления объектов в видео. Труды Девятой Международной конференции IEEE по компьютерному зрению - Том 2. ICCV '03. С. 1470–. Дои:10.1109 / ICCV.2003.1238663. ISBN 978-0-7695-1950-0. S2CID 14457153.

[13] Секи, Йохей. «Извлечение предложений с помощью tf / idf и взвешивание позиций из газетных статей» (PDF). Национальный институт информатики.

[14] Бил, Джоран; Брайтингер, Коринна (2017). «Оценка схемы взвешивания цитирования CC-IDF - Насколько эффективно« обратная частота документов »(IDF) может быть применена к ссылкам?» (PDF). Материалы 12-й ICконференции..

[15] Khoo Khyou Bun; Бун, Ху Кхё; Ишизука, М. (2001). Система отслеживания новых тем. Труды Третьего международного семинара по передовым вопросам электронной коммерции и информационных систем на базе Интернета. WECWIS 2001. п. 2. CiteSeerX 10.1.1.16.7986. Дои:10.1109 / wecwis.2001.933900. ISBN 978-0-7695-1224-2. S2CID 1049263.

[16] Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе коллекций личных документов пользователей» (PDF). IConference.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Tf – idf - Tf–idf

Содержание

Мотивации

Частота сроков

Частота обратного документа

Определение

Частота сроков

Частота обратного документа

Частота термина - обратная частота документа

Обоснование idf

Связь с теорией информации

Пример tf – idf

Вне сроков

Производные

Смотрите также

Рекомендации

Внешние ссылки и рекомендуемое чтение