Вероятностный латентно-семантический анализ - Probabilistic latent semantic analysis

Вероятностный латентно-семантический анализ (PLSA), также известный как вероятностное латентно-семантическое индексирование (PLSI, особенно в информационно-поисковых кругах) является статистический метод для анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их сродства к некоторым скрытым переменным, как в латентно-семантический анализ, из которого произошла PLSA.

По сравнению со стандартным латентно-семантический анализ который проистекает из линейная алгебра и уменьшает размер таблиц вхождений (обычно через разложение по сингулярным числам ) вероятностный латентно-семантический анализ основан на декомпозиции смеси, полученной из модель скрытого класса.

Модель

Обозначение пластины представляющая модель PLSA («асимметричная» формулировка). переменная индекса документа, тема слова, взятая из распределения тем документа, , и это слово, взятое из распределения слов в теме этого слова, . В и находятся наблюдаемые переменные, тема это скрытая переменная.

Рассмотрение наблюдений в форме совпадений слов и документов, PLSA моделирует вероятность каждого совпадения как смесь условно независимых полиномиальные распределения:

где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричный формулировка, где и оба генерируются из скрытого класса аналогичным образом (используя условные вероятности и ), тогда как вторая формулировка асимметричный формулировка, где для каждого документа , латентный класс выбирается условно документу согласно , и слово затем генерируется из этого класса в соответствии с . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно таким же образом.

Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов.

Их параметры изучаются с помощью EM алгоритм.

Заявление

PLSA можно использовать в дискриминационных настройках через Ядра Фишера.[1]

PLSA имеет приложения в поиск информации и фильтрация, обработка естественного языка, машинное обучение из текста и связанных областей.

Сообщается, что модель аспекта используемый в вероятностном латентно-семантическом анализе имеет серьезную переоснащение проблемы.[2]

Расширения

  • Иерархические расширения:
    • Асимметричный: MASHA («Полиномиальный асимметричный иерархический анализ»)[3]
    • Симметричный: HPLSA («Иерархический вероятностный скрытый семантический анализ»)[4]
  • Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
  • Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

История

Это пример модель скрытого класса (см. ссылки там), и это связано[5][6] к неотрицательная матричная факторизация. Настоящая терминология была изобретена в 1999 г. Томас Хофманн.[7]

Смотрите также

Ссылки и примечания

  1. ^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и классификации документов, Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press, 2000
  2. ^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. 3: 993–1022. Дои:10.1162 / jmlr.2003.3.4-5.993.
  3. ^ Алексей Винокуров и Марк Гиролами, Вероятностная основа для иерархической организации и классификации коллекций документов, в Обработка информации и управление, 2002
  4. ^ Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен,Иерархическая модель для кластеризации и категоризации документов В архиве 2016-03-04 в Wayback Machine, в "Достижения в области информационного поиска - Труды 24-го BCS-IRSG Европейский коллоквиум по ИК-исследованиям (ECIR-02) », 2002 г.
  5. ^ Крис Дин, Тао Ли, Вэй Пэн (2006). "Факторизация неотрицательной матрицы и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006 "
  6. ^ Крис Дин, Тао Ли, Вэй Пэн (2008). "Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования »
  7. ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование, Труды двадцать второй ежегодной международной СИГИР Конференция по исследованиям и разработкам в Поиск информации (СИГИР-99), 1999 г.

внешняя ссылка