Модель динамических тем - Википедия - Dynamic topic model

Динамические тематические модели находятся генеративные модели которые можно использовать для анализа эволюции (ненаблюдаемых) тем коллекции документов с течением времени. Это семейство моделей было предложено Дэвид Блей и Джона Лафферти и является продолжением Скрытое размещение Дирихле (LDA), который может обрабатывать последовательные документы.[1]

В LDA как порядок слов в документе, так и порядок появления документов в корпусе не зависят от модели. В то время как слова по-прежнему считаются обмениваемый, в динамической тематической модели порядок документов играет фундаментальную роль. Точнее, документы сгруппированы по временным отрезкам (например, по годам), и предполагается, что документы каждой группы исходят из набора тем, которые развились из набора предыдущего среза.

Темы

Аналогично LDA и pLSA в динамической тематической модели каждый документ рассматривается как смесь ненаблюдаемых тем. Кроме того, каждая тема определяет полиномиальное распределение над набором условий. Таким образом, для каждого слова каждого документа тема выбирается из смеси, а термин впоследствии извлекается из полиномиального распределения, соответствующего этой теме.

Тем не менее, темы со временем развиваются. Например, два наиболее вероятных термина в теме т может быть "сеть" и "Zipf" (в порядке убывания), тогда как наиболее вероятные по времени т + 1 может быть «Zipf» и «percolation» (в порядке убывания).

Модель

Определять

как распределение тем по документам во времени т.
как распределение слов по теме k вовремя т.
как распространение темы для документа d во время т,
как тема для пое слово в документе d во время т, и
как конкретное слово.

В этой модели полиномиальные распределения и генерируются из и Несмотря на то, что полиномиальные распределения обычно записываются в терминах средних параметров, представление их в терминах естественных параметров лучше в контексте динамических тематических моделей.

Первое представление имеет некоторые недостатки, связанные с тем, что параметры должны быть неотрицательными и равны единице.[2] При определении эволюции этих распределений необходимо убедиться, что такие ограничения выполнены. Поскольку оба дистрибутива находятся в экспоненциальная семья, одним из решений этой проблемы является представление их в терминах естественных параметров, которые могут принимать любое реальное значение и могут быть изменены индивидуально.

Используя естественную параметризацию, динамика тематической модели задается выражением

и

.

Таким образом, генеративный процесс на временном отрезке t:

  1. Рисовать темы
  2. Нарисуйте модель смеси
  3. Для каждого документа:
    1. Рисовать
    2. Для каждого слова:
      1. Нарисовать тему
      2. Нарисуйте слово

куда отображение из естественной параметризации Икс к средней параметризации, а именно

.

Вывод

В динамической тематической модели только наблюдается. Изучение других параметров представляет собой проблему вывода. Блей и Лафферти утверждают, что применение Выборка Гиббса сделать вывод в этой модели труднее, чем в статических моделях, из-за несопряженности гауссова и полиномиального распределений. Они предлагают использовать вариационные методы, в частности, вариационная фильтрация Калмана и вариационная вейвлет-регрессия.

Приложения

В исходной статье динамическая тематическая модель применяется к корпусу научных статей, опубликованных между 1881 и 1999 годами, с целью показать, что этот метод может быть использован для анализа тенденций использования слов внутри тем.[1] Авторы также показывают, что модель, обученная на прошлых документах, может лучше соответствовать документам наступающего года, чем LDA.

Непрерывная динамическая тематическая модель была разработана Wang et al. и применяется для прогнозирования метки времени документов.[3]

Помимо текстовых документов, динамические тематические модели использовались для изучения музыкального влияния путем изучения музыкальных тем и их развития в новейшей истории.[4]

Рекомендации

  1. ^ а б Блей, Дэвид М; Лафферти, Джон Д. (2006). Динамические тематические модели. Материалы ICML. ICML'06. С. 113–120. Дои:10.1145/1143844.1143859. ISBN  978-1-59593-383-6. S2CID  5405229.
  2. ^ Ренни, Джейсон Д. М. «Смеси полиномов» (PDF). Получено 5 декабря 2011.
  3. ^ Ван, Чонг; Блей, Дэвид; Хекерман, Дэвид (2008). «Динамические тематические модели с непрерывным временем». Материалы ICML. ICML '08.
  4. ^ Шалит, Ури; Вайншалл, Дафна; Чечик, Гал (2013). «Моделирование музыкального влияния с помощью тематических моделей» (PDF). Журнал исследований в области машинного обучения.