Вероятностный латентно-семантический анализ - Probabilistic latent semantic analysis

Вероятностный латентно-семантический анализ (PLSA), также известный как вероятностное латентно-семантическое индексирование (PLSI, особенно в информационно-поисковых кругах) является статистический метод для анализа двухрежимных и одновременных данных. Фактически, можно получить низкоразмерное представление наблюдаемых переменных с точки зрения их сродства к некоторым скрытым переменным, как в латентно-семантический анализ, из которого произошла PLSA.

По сравнению со стандартным латентно-семантический анализ который проистекает из линейная алгебра и уменьшает размер таблиц вхождений (обычно через разложение по сингулярным числам ) вероятностный латентно-семантический анализ основан на декомпозиции смеси, полученной из модель скрытого класса.

Модель

Обозначение пластины представляющая модель PLSA («асимметричная» формулировка).

{ displaystyle d}

переменная индекса документа,

{ displaystyle c}

тема слова, взятая из распределения тем документа,

{ Displaystyle P (c | d)}

, и

{ displaystyle w}

это слово, взятое из распределения слов в теме этого слова,

{ Displaystyle P (ш | с)}

. В

{ displaystyle d}

и

{ displaystyle w}

находятся наблюдаемые переменные, тема

{ displaystyle c}

это скрытая переменная.

Рассмотрение наблюдений в форме совпадений ${ Displaystyle (ш, г)}$ слов и документов, PLSA моделирует вероятность каждого совпадения как смесь условно независимых полиномиальные распределения:

{ Displaystyle P (вес, d) = сумма _ {c} P (c) P (d | c) P (w | c) = P (d) sum _ {c} P (c | d) P (w | c)}

где «c» означает тему «слова». Обратите внимание, что количество тем - это гиперпараметр, который необходимо выбирать заранее и не оценивается на основе данных. Первая формулировка - это симметричный формулировка, где ${ displaystyle w}$ и ${ displaystyle d}$ оба генерируются из скрытого класса ${ displaystyle c}$ аналогичным образом (используя условные вероятности ${ Displaystyle P (d | c)}$ и ${ Displaystyle P (ш | с)}$ ), тогда как вторая формулировка асимметричный формулировка, где для каждого документа ${ displaystyle d}$ , латентный класс выбирается условно документу согласно ${ Displaystyle P (c | d)}$ , и слово затем генерируется из этого класса в соответствии с ${ Displaystyle P (ш | с)}$ . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных можно смоделировать точно таким же образом.

Итак, количество параметров равно ${ displaystyle cd + wc}$ . Количество параметров растет линейно с количеством документов. Кроме того, хотя PLSA представляет собой генеративную модель документов в коллекции, по которой она оценивается, это не генеративная модель новых документов.

Их параметры изучаются с помощью EM алгоритм.

Заявление

PLSA можно использовать в дискриминационных настройках через Ядра Фишера.^[1]

PLSA имеет приложения в поиск информации и фильтрация, обработка естественного языка, машинное обучение из текста и связанных областей.

Сообщается, что модель аспекта используемый в вероятностном латентно-семантическом анализе имеет серьезную переоснащение проблемы.^[2]

Расширения

Иерархические расширения:
- Асимметричный: MASHA («Полиномиальный асимметричный иерархический анализ»)^[3]
- Симметричный: HPLSA («Иерархический вероятностный скрытый семантический анализ»)^[4]

Генеративные модели: следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что это не подходящая генеративная модель для новых документов.
- Скрытое размещение Дирихле - добавляет Дирихле Prior о распределении тем по документам
Данные более высокого порядка: хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три режима и выше), то есть он может моделировать совместное появление трех или более переменных. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

История

Это пример модель скрытого класса (см. ссылки там), и это связано^[5]^[6] к неотрицательная матричная факторизация. Настоящая терминология была изобретена в 1999 г. Томас Хофманн.^[7]

Смотрите также

Ссылки и примечания

^ Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и классификации документов, Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press, 2000
^ Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. 3: 993–1022. Дои:10.1162 / jmlr.2003.3.4-5.993.
^ Алексей Винокуров и Марк Гиролами, Вероятностная основа для иерархической организации и классификации коллекций документов, в Обработка информации и управление, 2002
^ Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен,Иерархическая модель для кластеризации и категоризации документов В архиве 2016-03-04 в Wayback Machine, в "Достижения в области информационного поиска - Труды 24-го BCS-IRSG Европейский коллоквиум по ИК-исследованиям (ECIR-02) », 2002 г.
^ Крис Дин, Тао Ли, Вэй Пэн (2006). "Факторизация неотрицательной матрицы и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006 "
^ Крис Дин, Тао Ли, Вэй Пэн (2008). "Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования »
^ Томас Хофманн, Вероятностное скрытое семантическое индексирование, Труды двадцать второй ежегодной международной СИГИР Конференция по исследованиям и разработкам в Поиск информации (СИГИР-99), 1999 г.

внешняя ссылка

[1] Томас Хофманн, Изучение подобия документов: информационно-геометрический подход к поиску и классификации документов, Достижения в системах обработки нейронной информации 12, стр-914-920, MIT Press, 2000

[2] Блей, Дэвид М .; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое размещение Дирихле» (PDF). Журнал исследований в области машинного обучения. 3: 993–1022. Дои:10.1162 / jmlr.2003.3.4-5.993.

[3] Алексей Винокуров и Марк Гиролами, Вероятностная основа для иерархической организации и классификации коллекций документов, в Обработка информации и управление, 2002

[4] Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен,Иерархическая модель для кластеризации и категоризации документов В архиве 2016-03-04 в Wayback Machine, в "Достижения в области информационного поиска - Труды 24-го BCS-IRSG Европейский коллоквиум по ИК-исследованиям (ECIR-02) », 2002 г.

[5] Крис Дин, Тао Ли, Вэй Пэн (2006). "Факторизация неотрицательной матрицы и вероятностное скрытое семантическое индексирование: статистика хи-квадрат эквивалентности и гибридный метод. AAAI 2006 "

[6] Крис Дин, Тао Ли, Вэй Пэн (2008). "Об эквивалентности неотрицательной матричной факторизации и вероятностного скрытого семантического индексирования »

[7] Томас Хофманн, Вероятностное скрытое семантическое индексирование, Труды двадцать второй ежегодной международной СИГИР Конференция по исследованиям и разработкам в Поиск информации (СИГИР-99), 1999 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]