Вероятностный латентно-семантический анализ - Probabilistic latent semantic analysis
Вероятностный латентно-семантический анализ (PLSA), также известный как вероятностное латентно-семантическое индексирование (PLSI, особенно в информационно-поисковых кругах) является статистический метод для анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их сродства к некоторым скрытым переменным, как в латентно-семантический анализ, из которого произошла PLSA.
По сравнению со стандартным латентно-семантический анализ который проистекает из линейная алгебра и уменьшает размер таблиц вхождений (обычно через разложение по сингулярным числам ) вероятностный латентно-семантический анализ основан на декомпозиции смеси, полученной из модель скрытого класса.
Модель
Рассмотрение наблюдений в форме совпадений слов и документов, PLSA моделирует вероятность каждого совпадения как смесь условно независимых полиномиальные распределения:
где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричный формулировка, где и оба генерируются из скрытого класса аналогичным образом (используя условные вероятности и ), тогда как вторая формулировка асимметричный формулировка, где для каждого документа , латентный класс выбирается условно документу согласно , и слово затем генерируется из этого класса в соответствии с . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно таким же образом.
Итак, количество параметров равно . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов.
Их параметры изучаются с помощью EM алгоритм.
Заявление
PLSA можно использовать в дискриминационных настройках через Ядра Фишера.[1]
PLSA имеет приложения в поиск информации и фильтрация, обработка естественного языка, машинное обучение из текста и связанных областей.
Сообщается, что модель аспекта используемый в вероятностном латентно-семантическом анализе имеет серьезную переоснащение проблемы.[2]
Расширения
- Иерархические расширения:
- Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
- Скрытое размещение Дирихле - добавляет Дирихле Prior о распределении тем по документам
- Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.
История
Это пример модель скрытого класса (см. ссылки там), и это связано[5][6] к неотрицательная матричная факторизация. Настоящая терминология была изобретена в 1999 г. Томас Хофманн.[7]
Смотрите также
Ссылки и примечания
- ^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и классификации документов, Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press, 2000
- ^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. 3: 993–1022. Дои:10.1162 / jmlr.2003.3.4-5.993.
- ^ Алексей Винокуров и Марк Гиролами, Вероятностная основа для иерархической организации и классификации коллекций документов, в Обработка информации и управление, 2002
- ^ Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен,Иерархическая модель для кластеризации и категоризации документов В архиве 2016-03-04 в Wayback Machine, в "Достижения в области информационного поиска - Труды 24-го BCS-IRSG Европейский коллоквиум по ИК-исследованиям (ECIR-02) », 2002 г.
- ^ Крис Дин, Тао Ли, Вэй Пэн (2006). "Факторизация неотрицательной матрицы и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006 "
- ^ Крис Дин, Тао Ли, Вэй Пэн (2008). "Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования »
- ^ Томас Хофманн, Вероятностное скрытое семантическое индексирование, Труды двадцать второй ежегодной международной СИГИР Конференция по исследованиям и разработкам в Поиск информации (СИГИР-99), 1999 г.