Термин Дискриминация - Term Discrimination

Термин Дискриминация это способ ранжировать ключевые слова по их полезности для поиск информации.

Обзор

Этот метод похож на tf-idf но он занимается поиском ключевых слов, подходящих для поиск информации и те, которые нет. Пожалуйста, обратитесь к Векторная модель пространства первый.

В этом методе используется концепция Векторная пространственная плотность что менее плотный матрица вхождений есть, тем лучше будет запрос на поиск информации.

Оптимальный индексный термин - это термин, который может отличать два разных документа друг от друга и связывать два одинаковых документа. С другой стороны, неоптимальный индексный термин не может отличить два разных документа от двух похожих документов.

Значение дискриминации - это разница в плотности векторного пространства матрицы вхождений по сравнению с векторным пространством той же матрицы без плотности индексного члена.

Позволять: матрица вхождений - матрица вхождений без индексного члена и  быть плотностью . Затем: значение дискриминации индексного члена.  является: 

Как вычислить

Учитывая матрица встречаемости: и одно ключевое слово:

  • Найдите глобальный документ центроид: (это просто средний вектор документа)
  • Найдите среднее Евклидово расстояние из каждого вектора документа, к
  • Найдите среднее евклидово расстояние от каждого вектора документа, к ИГНОРИРОВАНИЕ
  • Разница между двумя значениями на шаге выше - это значение дискриминации для ключевого слова

Чем выше значение, тем лучше, потому что включение ключевого слова приведет к лучшему поиску информации.

Качественные наблюдения

Ключевые слова, которые редкий должны быть плохими дискриминаторами, потому что у них плохие отзывать,тогда как ключевые слова, которые частый должны быть плохими дискриминаторами, потому что у них плохие точность.

Рекомендации

  • Дж. Солтон, А. Вонг и К. С. Янг (1975) "Модель векторного пространства для автоматического индексирования," Коммуникации ACM, т. 18, н. 11, страницы 613–620. (Статья, в которой впервые была представлена ​​модель векторного пространства)
  • Джан Ф., Озкарахан Э. А. (1987), «Вычисление значений различения терминов / документов с использованием концепции коэффициента покрытия». Журнал Американского общества информационных наук, т. 38, н. 3, страницы 171-183.