Иерархический процесс Дирихле - Hierarchical Dirichlet process

В статистика и машинное обучение, то иерархический процесс Дирихле (HDP) это непараметрический Байесовский подход к кластеризации сгруппированные данные.[1][2] Он использует Процесс Дирихле для каждой группы данных с процессами Дирихле для всех групп, разделяющих базовое распределение, которое, в свою очередь, основано на процессе Дирихле. Этот метод позволяет группам обмениваться статистической силой посредством разделения кластеров между группами. Базовое распределение, полученное из процесса Дирихле, важно, потому что заимствования из процесса Дирихле представляют собой атомные вероятностные меры, и атомы будут присутствовать во всех процессах Дирихле на уровне группы. Поскольку каждый атом соответствует кластеру, кластеры являются общими для всех групп. Он был разработан Йи Уай Тех, Майкл И. Джордан, Мэтью Дж. Бил и Дэвид Блей и опубликованы в Журнал Американской статистической ассоциации в 2006 г.[1] как формализация и обобщение бесконечная скрытая марковская модель опубликовано в 2002 г.[3]

Модель

Это описание модели взято из.[1] HDP - это модель сгруппированных данных. Это означает, что элементы данных входят в несколько отдельных групп. Например, в тематическая модель слова организованы в документы, при этом каждый документ состоит из пакета (группы) слов (элементов данных). Индексирование групп по , предположим, что каждая группа состоит из элементов данных .

HDP параметризуется базовым распределением который управляет априорным распределением по элементам данных, а также рядом параметров концентрации, которые определяют априорное количество кластеров и степень совместного использования между группами. В -я группа связана со случайной вероятностной мерой который имеет распределение, заданное процессом Дирихле:

где - параметр концентрации, связанный с группой, и - это базовое распределение, общее для всех групп. В свою очередь, общее базовое распределение - это распределенный процесс Дирихле:

с параметром концентрации и базовое распределение . Наконец, чтобы связать процессы Дирихле с наблюдаемыми данными, каждый элемент данных связан со скрытым параметром :

В первой строке указано, что каждый параметр имеет предварительное распределение, заданное следующим образом: , а во второй строке указано, что каждый элемент данных имеет распределение параметризованный соответствующим параметром. Результирующая модель выше называется моделью смеси HDP, где HDP относится к иерархически связанному набору процессов Дирихле, а модель смеси относится к тому, как процессы Дирихле связаны с элементами данных.

Чтобы понять, как HDP реализует модель кластеризации и как кластеры становятся общими для групп, вспомните, что заимствовано из Процесс Дирихле являются атомарными вероятностными мерами с вероятностью единица. Это означает, что общее базовое распределение имеет форму, которую можно записать как:

где есть бесконечное количество атомов, , предполагая, что общее базовое распределение имеет бесконечную поддержку. Каждый атом связан с массой . Массы должны суммироваться до одного, поскольку - вероятностная мера. поскольку сам является базовым распределением для групповых процессов Дирихле, каждый будет иметь атомы, заданные атомами , и само может быть записано в виде:

Таким образом, набор атомов является общим для всех групп, причем каждая группа имеет свои собственные групповые атомные массы. Связывая это представление с наблюдаемыми данными, мы видим, что каждый элемент данных описывается смешанной моделью:

где атомы играют роль параметров компонентов смеси, а массы играют роль пропорции смешивания. В заключение, каждая группа данных моделируется с использованием модели смеси, при этом компоненты смеси используются во всех группах, но пропорции смешивания зависят от группы. В терминах кластеризации мы можем интерпретировать каждый компонент смеси как моделирование кластера элементов данных с кластерами, общими для всех групп, и каждой группой, имеющей свои собственные пропорции смешивания, состоящей из различных комбинаций кластеров.

Приложения

Модель смеси HDP является естественным непараметрическим обобщением Скрытое размещение Дирихле, где количество тем может быть неограниченным и изучаться на основе данных.[1] Здесь каждая группа - это документ, состоящий из набора слов, каждый кластер - это тема, а каждый документ - смесь тем. HDP также является основным компонентом бесконечная скрытая марковская модель,[3] которое является непараметрическим обобщением скрытая марковская модель позволяя количеству состояний быть неограниченным и извлекаться из данных.[1] [4]

Обобщения

HDP можно обобщить по нескольким направлениям. Процессы Дирихле можно заменить на Процессы Питмана-Йорка и Гамма-процессы, в результате чего Иерархический процесс Питмана-Йорка и процесс иерархической гаммы. Иерархия может быть более глубокой, с несколькими уровнями групп, организованными в иерархию. Такое расположение использовалось в мемоизатор последовательности, байесовская непараметрическая модель для последовательностей, которая имеет многоуровневую иерархию процессов Питмана-Йорка. Кроме того, модель байесовского многодоменного обучения (BMDL) выводит зависящие от домена скрытые представления сверхдисперсных данных подсчета на основе иерархической отрицательной биномиальной факторизации для точного выделения подтипов рака, даже если количество образцов для конкретного типа рака невелико.[5]

Смотрите также

использованная литература

  1. ^ а б c d е Teh, Y. W .; Jordan, M. I .; Бил, М. Дж .; Блей, Д. М. (2006). «Иерархические процессы Дирихле» (PDF). Журнал Американской статистической ассоциации. 101 (476): стр. 1566–1581. CiteSeerX  10.1.1.5.9094. Дои:10.1198/016214506000000302.
  2. ^ Teh, Y. W .; Джордан, М. И. (2010). Иерархические байесовские непараметрические модели с приложениями (PDF). Байесовские непараметрики. Издательство Кембриджского университета. С. 158–207. CiteSeerX  10.1.1.157.9451. Дои:10.1017 / CBO9780511802478.006. ISBN  9780511802478.
  3. ^ а б Бил М.Дж., Гахрамани З. и Расмуссен С.Е. (2002). «Бесконечная скрытая марковская модель» (PDF). Достижения в системах обработки нейронной информации 14: 577–585. Кембридж, Массачусетс: MIT Press.
  4. ^ Фокс, Эмили Б. и др. «Липкий HDP-HMM с приложением для записи в дневник оратора». Анналы прикладной статистики (2011): 1020-1056.
  5. ^ Хаджирамезанали, Э., Даданех, С. З., Кербалайгара, А., Чжоу, З., Цянь, X. «Байесовское мультидоменное обучение для обнаружения подтипа рака на основе данных секвенирования следующего поколения» (PDF). 32-я конференция по системам обработки нейронной информации (NIPS 2018), Монреаль, Канада.