Модель смеси - Mixture model

В статистика, а модель смеси это вероятностная модель для представления наличия субпопуляции в общей популяции, не требуя, чтобы набор наблюдаемых данных определял подгруппу, к которой принадлежит индивидуальное наблюдение. Формально модель смеси соответствует распределение смеси что представляет собой распределение вероятностей наблюдений в общей популяции. Однако, в то время как проблемы, связанные со «смешанными распределениями», связаны с получением свойств общей популяции из характеристик подгрупп, «смешанные модели» используются для создания статистические выводы о свойствах субпопуляций даны только наблюдения за объединенной популяцией, без информации об идентичности субпопуляции.

Модели смесей не следует путать с моделями для композиционные данные, то есть данные, компоненты которых должны суммироваться до постоянного значения (1, 100% и т. д.). Однако композиционные модели можно рассматривать как смешанные модели, в которых члены совокупности отбираются случайным образом. И наоборот, модели смеси можно рассматривать как композиционные модели, в которых общий размер количество читающих было нормализовано до 1.

Структура

Общая модель смеси

Типичная конечномерная модель смеси - это иерархическая модель состоящий из следующих компонентов:

  • N наблюдаемые случайные величины, каждая из которых распределена в соответствии со смесью K компоненты, причем компоненты принадлежат к одному параметрическая семья дистрибутивов (например, все нормальный, все Zipfian и т. д.), но с другими параметрами
  • N случайный скрытые переменные с указанием идентичности компонента смеси каждого наблюдения, каждое из которых распределено в соответствии с K-размерный категориальное распределение
  • Набор K веса смеси, которые представляют собой вероятности, сумма которых равна 1.
  • Набор K параметры, каждый из которых определяет параметр соответствующего компонента смеси. Во многих случаях каждый «параметр» на самом деле представляет собой набор параметров. Например, если компоненты смеси Гауссовские распределения, там будет иметь в виду и отклонение для каждого компонента. Если компоненты смеси категориальные распределения (например, когда каждое наблюдение является токеном из конечного алфавита размера V) будет вектор V вероятности в сумме до 1.

Кроме того, в Байесовская установка, веса и параметры смеси сами будут случайными величинами, а предыдущие распределения будет помещен над переменными. В таком случае веса обычно рассматриваются как K-мерный случайный вектор, взятый из Распределение Дирихлесопряженный предшествующий категориального распределения), и параметры будут распределены согласно их соответствующим сопряженным априорным значениям.

Математически базовая параметрическая модель смеси может быть описана следующим образом:

В байесовской настройке все параметры связаны со случайными величинами следующим образом:

Эта характеристика использует F и ЧАС для описания произвольных распределений по наблюдениям и параметрам соответственно. Обычно ЧАС будет сопряженный предшествующий из F. Два наиболее распространенных варианта F находятся Гауссовский иначе "нормальный "(для реальных наблюдений) и категоричный (для дискретных наблюдений). Другими распространенными возможностями распределения компонентов смеси являются:

Конкретные примеры

Модель гауссовой смеси

Модель небайесовской гауссовой смеси с использованием обозначение на табличке. Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K.

Типичный небайесовский Гауссовский Модель смеси выглядит так:

Модель байесовской гауссовской смеси с использованием обозначение на табличке. Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K.

Байесовская версия Гауссовский Модель смеси выглядит следующим образом:

Анимация процесса кластеризации для одномерных данных с использованием модели байесовской гауссовской смеси, в которой нормальные распределения строятся из Процесс Дирихле. Гистограммы кластеров показаны разными цветами. Во время процесса оценки параметров создаются и растут новые кластеры на данных. В легенде показаны цвета кластера и количество точек данных, назначенных каждому кластеру.

Многомерная модель гауссовой смеси

Модель байесовской гауссовской смеси обычно расширяется, чтобы соответствовать вектору неизвестных параметров (выделенных жирным шрифтом) или многомерным нормальным распределениям. В многомерном распределении (т.е. моделирующем вектор с N случайных величин) можно смоделировать вектор параметров (например, несколько наблюдений сигнала или участков в изображении), используя априорное распределение гауссовой модели смеси на векторе оценок, заданных формулой

где яth векторная компонента характеризуется нормальными распределениями с весами , средства и ковариационные матрицы . Чтобы включить это априорное значение в байесовскую оценку, априор умножается на известное распределение. данных обусловлено параметрами быть оцененным. При такой формулировке апостериорное распределение является также модель гауссовой смеси вида

с новыми параметрами и которые обновляются с помощью EM алгоритм.[2] Хотя обновление параметров на основе ЭМ хорошо известно, предоставление первоначальных оценок для этих параметров в настоящее время является областью активных исследований. Обратите внимание, что эта формулировка дает решение в замкнутой форме для полного апостериорного распределения. Оценки случайной величины может быть получен с помощью одного из нескольких оценщиков, таких как среднее или максимальное значение апостериорного распределения.

Такие распределения полезны, например, для предположения патч-форм изображений и кластеров. В случае представления изображения каждый гауссиан может быть наклонен, расширен и деформирован в соответствии с ковариационными матрицами. . Одно распределение Гаусса из набора соответствует каждому фрагменту (обычно размером 8x8 пикселей) на изображении. Примечательно, что любое распределение точек вокруг кластера (см. k-средства ) могут быть точно заданы достаточно гауссовскими компонентами, но вряд ли превышают K= 20 компонентов необходимы для точного моделирования данного распределения изображений или кластера данных.

Категориальная модель смеси

Модель небайесовской категориальной смеси с использованием обозначение на табличке. Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K; аналогично для [V].

Типичная небайесовская модель смеси с категоричный наблюдения выглядят так:

  • как указано выше
  • как указано выше
  • как указано выше
  • измерение категориальных наблюдений, например, размер словарного запаса
  • вероятность для компонента наблюдательного пункта
  • вектор размерности состоит из должно быть в сумме 1

Случайные величины:


Байесовская модель категориальной смеси с использованием обозначение на табличке. Меньшие квадраты обозначают фиксированные параметры; большие кружки обозначают случайные величины. Закрашенные фигуры указывают известные значения. Индикация [K] означает вектор размера K; аналогично для [V].

Типичная байесовская модель смеси с категоричный наблюдения выглядят так:

  • как указано выше
  • как указано выше
  • как указано выше
  • измерение категориальных наблюдений, например, размер словарного запаса
  • вероятность для компонента наблюдательного пункта
  • вектор размерности состоит из должно быть в сумме 1
  • общий гиперпараметр концентрации для каждого компонента
  • гиперпараметр концентрации

Случайные величины:


Примеры

Финансовая модель

В нормальное распределение построен с использованием различных средств и отклонений

Финансовая отдача в нормальных ситуациях и во время кризиса часто бывает разной. Модель смеси[3] для возвращаемых данных кажется разумным. Иногда используется модель скачко-диффузионная модель, или как смесь двух нормальных распределений. Видеть Финансовая экономика # Проблемы и критика для дальнейшего контекста.

Цены на дома

Предположим, что мы наблюдаем цены на N разные дома. Разные типы домов в разных кварталах будут иметь совершенно разные цены, но цена определенного типа дома в конкретном районе (например, дома с тремя спальнями в умеренно престижном районе) будет иметь тенденцию довольно близко группироваться вокруг среднего значения. Одной из возможных моделей таких цен было бы предположение, что цены точно описываются смешанной моделью с K различные компоненты, каждый из которых распределен как нормальное распределение с неизвестным средним значением и дисперсией, при этом каждый компонент определяет конкретную комбинацию типа дома / района. Подгонка этой модели к наблюдаемым ценам, например, с использованием алгоритм максимизации ожидания, будет стремиться сгруппировать цены по типу дома / району и выявить разброс цен в каждом типе / районе. (Обратите внимание, что для таких значений, как цены или доходы, которые гарантированно положительны и имеют тенденцию к росту экспоненциально, а логнормальное распределение на самом деле может быть лучшей моделью, чем нормальное распределение.)

Темы в документе

Предположим, что документ состоит из N разные слова из общего словаря размера V, где каждому слову соответствует одно из K возможные темы. Распределение таких слов можно смоделировать как смесь K разные V-размерный категориальные распределения. Модель такого типа обычно называют тематическая модель. Обратите внимание, что максимизация ожидания применение к такой модели, как правило, не дает реалистичных результатов из-за (среди прочего) чрезмерное количество параметров. Для получения хороших результатов обычно необходимы некоторые дополнительные предположения. Обычно к модели добавляются два вида дополнительных компонентов:

  1. А предварительное распространение размещается над параметрами, описывающими распределение тем, с помощью Распределение Дирихле с параметр концентрации который установлен значительно ниже 1, чтобы способствовать разреженным распределениям (где только небольшое количество слов имеет значительно ненулевые вероятности).
  2. Некоторое дополнительное ограничение накладывается на тематические идентичности слов, чтобы воспользоваться преимуществом естественной кластеризации.
  • Например, Цепь Маркова могут быть помещены на идентичности темы (то есть скрытые переменные, определяющие компонент смеси каждого наблюдения), что соответствует тому факту, что близлежащие слова принадлежат к аналогичным темам. (Это приводит к скрытая марковская модель, в частности тот, где предварительное распространение помещается над переходами между состояниями, что способствует переходам, которые остаются в том же состоянии.)
  • Другая возможность - это скрытое размещение Дирихле модель, которая делит слова на D различных документов и предполагает, что в каждом документе с любой частотой встречается лишь небольшое количество тем.

Распознавание почерка

Следующий пример основан на примере в Кристофер М. Бишоп, Распознавание образов и машинное обучение.[4]

Представьте, что нам дали N×N черно-белое изображение, которое, как известно, представляет собой сканирование рукописной цифры от 0 до 9, но мы не знаем, какая цифра написана. Мы можем создать смешанную модель с различные компоненты, где каждый компонент представляет собой вектор размера из Распределения Бернулли (по одному на пиксель). Такую модель можно обучить с помощью алгоритм максимизации ожидания на немаркированном наборе рукописных цифр и эффективно группирует изображения в соответствии с записываемой цифрой. Затем ту же модель можно использовать для распознавания цифры другого изображения, просто сохраняя параметры постоянными, вычисляя вероятность нового изображения для каждой возможной цифры (тривиальное вычисление) и возвращая цифру, которая сгенерировала наибольшую вероятность.

Оценка точности снаряда (также известная как круговая вероятность ошибки, CEP)

Модели смешивания применяются в задаче наведения нескольких снарядов на цель (например, в приложениях для защиты в воздухе, на суше или на море), где физические и / или статистические характеристики снарядов различаются в пределах нескольких снарядов. Примером могут быть выстрелы из нескольких типов боеприпасов или выстрелы из нескольких мест, направленные по одной цели. Комбинацию типов снарядов можно охарактеризовать как модель смеси Гаусса.[5] Кроме того, хорошо известной мерой точности для группы снарядов является круговая вероятная ошибка (CEP), то есть число р такой, что в среднем половина группы снарядов попадает в круг радиуса р о целевой точке. Модель смеси может использоваться для определения (или оценки) значения р. Модель смеси правильно захватывает различные типы снарядов.

Прямые и косвенные приложения

Приведенный выше финансовый пример представляет собой одно прямое применение смешанной модели, ситуации, в которой мы предполагаем наличие базового механизма, так что каждое наблюдение принадлежит одному из некоторого количества различных источников или категорий. Однако этот основной механизм может быть или не наблюдаться. В этой форме смеси каждый из источников описывается функцией плотности вероятности компонента, а его вес смеси представляет собой вероятность того, что наблюдение исходит от этого компонента.

При косвенном применении модели смеси мы не предполагаем такой механизм. Модель смеси используется просто из-за ее математической гибкости. Например, смесь двух нормальные распределения разными способами может привести к плотности с двумя режимы, который не моделируется стандартными параметрическими распределениями. Другой пример - возможность смешанных распределений для моделирования более толстых хвостов, чем основные гауссовы, чтобы быть кандидатом для моделирования более экстремальных явлений. В сочетании с динамическая согласованность, этот подход был применен к финансовые производные оценка при наличии непостоянство улыбка в контексте местная волатильность модели. Это определяет наше приложение.

Профилактическое обслуживание

Кластеризация на основе смешанной модели также преимущественно используется для определения состояния машины в профилактическое обслуживание. Графики плотности используются для анализа плотности объектов большого размера. Если наблюдаются многомодельные плотности, то предполагается, что конечный набор плотностей формируется конечным набором нормальных смесей. Многомерная модель гауссовой смеси используется для кластеризации данных признаков в k групп, где k представляет каждое состояние машины. Состояние машины может быть нормальным, отключенным или неисправным.[6] Каждый сформированный кластер можно диагностировать с помощью таких методов, как спектральный анализ. В последние годы это также широко использовалось в других областях, таких как раннее обнаружение неисправностей.[7]

Сегментация нечетких изображений

Пример гауссовой смеси в сегментации изображения с серой гистограммой

В обработке изображений и компьютерном зрении традиционные сегментация изображения модели часто приписывают к одному пиксель только один эксклюзивный узор. При нечеткой или мягкой сегментации любой шаблон может иметь определенное «право собственности» на любой отдельный пиксель. Если шаблоны являются гауссовскими, нечеткая сегментация естественным образом приводит к гауссовым смесям. В сочетании с другими аналитическими или геометрическими инструментами (например, фазовые переходы через диффузионные границы) такие пространственно регуляризованные модели смеси могут привести к более реалистичным и вычислительно эффективным методам сегментации.[8]

Регистрация набора точек

Вероятностные модели смеси, такие как Модели гауссовой смеси (GMM) используются для решения регистрация набора точек проблемы в области обработки изображений и компьютерного зрения. Для попарного регистрация набора точек, один набор точек рассматривается как центроиды моделей смеси, а другой набор точек рассматривается как точки данных (наблюдения). Современные методы, например, когерентный дрейф точки (CPD)[9] и Распределение Стьюдента смешанные модели (TMM).[10] Результат недавних исследований демонстрирует превосходство моделей гибридных смесей.[11] (например, объединение t-распределения Стьюдента и распределения Ватсона /Распределение Бингема для раздельного моделирования пространственных положений и ориентации осей) по сравнению с CPD и TMM с точки зрения присущей устойчивости, точности и дискриминирующей способности.

Идентифицируемость

Идентифицируемость означает наличие уникальной характеристики для любой из моделей рассматриваемого класса (семейства). Процедуры оценки могут быть плохо определены, и асимптотическая теория может не выполняться, если модель не идентифицируема.

Пример

Позволять J - класс всех биномиальных распределений с п = 2. Затем смесь двух членов J имел бы

и п2 = 1 − п0п1. Очевидно, учитывая п0 и п1, невозможно однозначно определить указанную выше модель смеси, так как есть три параметра (π, θ1, θ2) быть определенным.

Определение

Рассмотрим смесь параметрических распределений одного класса. Позволять

быть классом всех компонентных распределений. Затем выпуклый корпус K из J определяет класс всей конечной смеси распределений в J:

K считается идентифицируемым, если все его члены уникальны, то есть при наличии двух членов п и п' в K, являясь смесью k распределения и k ′ распределения соответственно в J, у нас есть p = p ′ тогда и только тогда, когда, прежде всего, k = k ′ а во-вторых, мы можем переупорядочить суммирование так, чтобы ая = ая и ƒя = ƒя для всех я.

Оценка параметров и идентификация системы

Параметрические модели смеси часто используются, когда мы знаем распределение Y и мы можем пробовать из Икс, но мы хотели бы определить ая и θя значения. Такие ситуации могут возникать в исследованиях, в которых мы выбираем группу, состоящую из нескольких отдельных субпопуляций.

Принято думать о моделировании смеси вероятностей как о проблеме с отсутствующими данными. Один из способов понять это - предположить, что рассматриваемые точки данных имеют «членство» в одном из распределений, которые мы используем для моделирования данных. Когда мы начинаем, это членство неизвестно или отсутствует. Задача оценки состоит в том, чтобы разработать соответствующие параметры для функций модели, которые мы выбираем, с подключением к точкам данных, представленным как их членство в отдельных распределениях модели.

Было предложено множество подходов к проблеме разложения смеси, многие из которых сосредоточены на методах максимального правдоподобия, таких как максимизация ожидания (EM) или максимум апостериорный оценка (MAP). Как правило, эти методы рассматривают отдельно вопросы идентификации системы и оценки параметров; Методы определения количества и функциональной формы компонентов в смеси отличаются от методов оценки соответствующих значений параметров. Некоторыми заметными отклонениями являются графические методы, описанные в Tarter and Lock.[12] и совсем недавно минимальная длина сообщения (MML), такие как Фигейредо и Джайн[13] и до некоторой степени процедуры анализа шаблонов моментального сопоставления, предложенные McWilliam и Loh (2009).[14]

Максимизация ожиданий (EM)

Максимизация ожиданий (EM), по-видимому, самый популярный метод, используемый для определения параметров смеси с априори заданное количество компонентов. Это особый способ реализации максимальная вероятность оценка для этой проблемы. EM особенно привлекательна для конечных нормальных смесей, где возможны выражения в замкнутой форме, например, в следующем итерационном алгоритме Демпстера и другие. (1977)[15]

с апостериорными вероятностями

Таким образом, исходя из текущей оценки параметров, условная возможность для данного наблюдения Икс(т) генерируется из состояния s определяется для каждого т = 1, …, N ; N размер выборки. Затем параметры обновляются таким образом, чтобы новые веса компонентов соответствовали средней условной вероятности, а среднее значение и ковариация каждого компонента были средневзвешенными значениями среднего и ковариации для каждого компонента для всей выборки.

Демпстер[15] также показали, что каждая последующая итерация ЭМ не будет уменьшать вероятность - свойство, не разделяемое другими методами максимизации на основе градиента. Более того, EM естественным образом включает в себя ограничения на вектор вероятности, и для достаточно больших размеров выборки повторяется положительная определенность ковариации. Это ключевое преимущество, поскольку методы с явными ограничениями требуют дополнительных вычислительных затрат для проверки и поддержания соответствующих значений. Теоретически EM является алгоритмом первого порядка и поэтому медленно сходится к решению с фиксированной точкой. Реднер и Уокер (1984)[требуется полная цитата ] утверждают, что аргументируют это в пользу суперлинейных методов Ньютона и квазиньютона второго порядка и сообщают о медленной сходимости в ЭМ на основе их эмпирических тестов. Они действительно признают, что сходимость в вероятности была быстрой, даже если сходимости в самих значениях параметров не было. Относительные преимущества EM и других алгоритмов по сравнению с конвергенцией обсуждались в другой литературе.[16]

Другие распространенные возражения против использования ЭМ заключаются в том, что он имеет склонность к ложному определению локальных максимумов, а также к отображению чувствительности к начальным значениям.[17][18] Можно решить эти проблемы, оценивая ЭМ в нескольких начальных точках в пространстве параметров, но это требует больших вычислительных затрат и других подходов, таких как метод ЭМ отжига Удэа и Накано (1998) (в котором начальные компоненты по существу вынуждены перекрываться, предоставление менее неоднородной основы для первоначальных предположений), может быть предпочтительным.

Фигейредо и джайн[13] Обратите внимание, что сходимость к «бессмысленным» значениям параметров, полученным на границе (где нарушение условий регулярности, например, Ghosh and Sen (1985)), часто наблюдается, когда количество компонентов модели превышает оптимальное / истинное. На этой основе предлагается единый подход к оценке и идентификации, при котором исходные п выбрано так, чтобы значительно превышать ожидаемое оптимальное значение. Их процедура оптимизации построена на основе критерия минимальной длины сообщения (MML), который эффективно исключает компонент-кандидат, если для его поддержки недостаточно информации. Таким образом можно систематизировать сокращения п и рассматривать оценку и идентификацию совместно.

В Алгоритм ожидания-максимизации может использоваться для расчета параметров параметрической модели распределения смеси ( ая и θя). Это итерационный алгоритм с двумя шагами: шаг ожидания и шаг максимизации. Практические примеры электромагнитного моделирования и моделирования смеси включены в SOCR демонстрации.

Шаг ожидания

С начальными предположениями о параметрах нашей модели смеси, "частичное членство" каждой точки данных в каждом распределении составляющих вычисляется путем вычисления ожидаемые значения для переменных принадлежности каждой точки данных. То есть для каждой точки данных Иксj и распространение Yя, значение членства уя, j является:

Шаг максимизации

Имея ожидаемые значения для членства в группе, оценки плагина пересчитываются для параметров распределения.

Коэффициенты смешивания ая являются средства ценностей членства над N точки данных.

Параметры компонентной модели θя также рассчитываются путем максимизации ожидания с использованием точек данных Иксj которые были взвешены с использованием значений членства. Например, если θ это среднее μ

С новыми оценками для ая и θя's, шаг ожидания повторяется для пересчета новых значений членства. Вся процедура повторяется до схождения параметров модели.

Цепь Маркова Монте-Карло

В качестве альтернативы алгоритму EM параметры модели смеси могут быть выведены с использованием задний отбор как указано Теорема Байеса. Это все еще рассматривается как проблема неполных данных, когда принадлежность точек данных является недостающими данными. Двухэтапная итерационная процедура, известная как Выборка Гиббса может быть использован.

Предыдущий пример смеси двух Гауссовские распределения может продемонстрировать, как работает метод. Как и прежде, делаются первоначальные предположения о параметрах модели смеси. Вместо вычисления частичного членства для каждого элементарного распределения значение членства для каждой точки данных берется из Распределение Бернулли (то есть он будет назначен либо первому, либо второму гауссиану). Параметр Бернулли θ определяется для каждой точки данных на основе одного из составляющих распределений.[нечеткий ] Чертежи из распределения создают ассоциации членства для каждой точки данных. Затем можно использовать дополнительные модули оценки, как на этапе M программы EM, чтобы сгенерировать новый набор параметров модели смеси, и повторить этап биномиального рисования.

Соответствие моментов

В метод согласования моментов является одним из старейших методов определения параметров смеси, восходящим к основополагающей работе Карла Пирсона 1894 г. В этом подходе параметры смеси определяются таким образом, что составное распределение имеет моменты, соответствующие некоторому заданному значению. Во многих случаях получение решений моментных уравнений может представлять нетривиальные алгебраические или вычислительные проблемы. Более того, численный анализ по дням[19] указал, что такие методы могут быть неэффективными по сравнению с EM. Тем не менее, интерес к этому методу возобновился, например, Craigmile and Titterington (1998) и Wang.[20]

McWilliam и Loh (2009) рассматривают характеристику гиперкабовидной нормальной смеси связка в больших размерных системах, для которых ЭМ будет недопустимо с вычислительной точки зрения. Здесь процедура анализа паттернов используется для генерации многомерных хвостовых зависимостей, согласующихся с набором одномерных и (в некотором смысле) двумерных моментов. Затем эффективность этого метода оценивается с использованием данных журнала-доходности капитала с Колмогоров – Смирнов статистика тестов, свидетельствующая о хорошем описательном соответствии.

Спектральный метод

Некоторые проблемы оценки модели смеси могут быть решены с помощью спектральные методы. В частности, это становится полезным, если точки данных Икся точки в многомерном реальное пространство, а скрытые распределения известны как бревенчатый (Такие как Гауссово распределение или же Экспоненциальное распределение ).

Спектральные методы изучения моделей смесей основаны на использовании Разложение по сингулярным значениям матрицы, содержащей точки данных. Идея состоит в том, чтобы рассмотреть верхний k сингулярные векторы, где k количество распределений, которые нужно изучить. Проекция каждой точки данных на линейное подпространство Охваченные этими векторами группы точек, происходящих из одного распределения, очень близко друг к другу, в то время как точки из разных распределений остаются далеко друг от друга.

Отличительной особенностью спектрального метода является то, что он позволяет нам доказывать что если распределения удовлетворяют определенному условию разделения (например, не слишком близко), то оцененная смесь будет очень близка к истинной с большой вероятностью.

Графические методы

Тартер и Лок[12] описать графический подход к идентификации смеси, в котором функция ядра применяется к эмпирической частотной диаграмме, чтобы уменьшить внутрикомпонентную дисперсию. Таким образом можно легче идентифицировать компоненты, имеющие разные средства. Пока это λ-метод не требует предварительных знаний о количестве или функциональной форме компонентов, его успех зависит от выбора параметров ядра, которые в некоторой степени неявно включают предположения о структуре компонента.

Другие методы

Некоторые из них, вероятно, даже могут выучить смеси распределения с тяжелыми хвостами в том числе в пределах бесконечного отклонение (видеть ссылки на статьи ниже). В этой настройке методы на основе EM не будут работать, так как шаг ожидания будет отличаться из-за наличиявыбросы.

Симуляция

Для моделирования выборки размера N то есть из смеси распределений Fя, я= От 1 до п, с вероятностями пя (сумма =пя = 1):

  1. Генерировать N случайные числа из категориальное распределение размера п и вероятности пя за я= 1 = чтобып. Они скажут вам, какой из Fя каждый из N значения будут исходить из. Обозначим через мя количество случайных чисел, присвоенных яth категория.
  2. Для каждого я, генерировать мя случайные числа из Fя распределение.

Расширения

В Байесовская установка, можно добавить дополнительные уровни в графическая модель определение модели смеси. Например, в общем скрытое размещение Дирихле тематическая модель, наблюдения - это наборы слов, взятые из D различные документы и K Компоненты смеси представляют собой темы, общие для всех документов. Каждый документ имеет различный набор весов смеси, которые определяют преобладающие в этом документе темы. Все наборы весов смеси имеют общие гиперпараметры.

Очень распространенное расширение - подключение скрытые переменные определение идентичностей компонентов смеси в Цепь Маркова, вместо того, чтобы предполагать, что они независимые одинаково распределенные случайные переменные. Получившаяся модель называется скрытая марковская модель и является одной из наиболее распространенных последовательных иерархических моделей. Были разработаны многочисленные расширения скрытых марковских моделей; см. получившуюся статью для получения дополнительной информации.

История

Распределение смеси и проблема разложения смеси, то есть идентификация составляющих ее компонентов и их параметров, цитировались в литературе еще в 1846 году (Quetelet in McLachlan, [17] 2000), хотя часто упоминаются работы Карл Пирсон (1894)[21] как первый автор, который явно обратился к проблеме декомпозиции при характеристике ненормальных атрибутов отношения лба к длине тела в популяциях самок берегового краба. Мотивацию к этой работе предоставил зоолог. Уолтер Франк Рафаэль Велдон кто размышлял в 1893 году (в Tarter and Lock[12]), что асимметрия гистограммы этих соотношений может сигнализировать об эволюционной дивергенции. Подход Пирсона заключался в подборе одномерной смеси двух нормалей к данным путем выбора пяти параметров смеси таким образом, чтобы эмпирические моменты совпадали с данными модели.

В то время как его работа была успешной в идентификации двух потенциально различных субпопуляций и в демонстрации гибкости смесей как инструмента согласования моментов, формулировка требовала решения полинома 9-й степени (nonic), что в то время представляло собой значительную вычислительную проблему.

Последующие работы были сосредоточены на решении этих проблем, но только с появлением современного компьютера и популяризацией Максимальное правдоподобие (MLE) методы параметризации, которые действительно стали популярными.[22] С того времени было проведено огромное количество исследований в таких областях, как рыбохозяйственные исследования, сельское хозяйство, ботаника, экономика, лекарство, генетика, психология, палеонтология, электрофорез, финансы, геология и зоология.[23]

Смотрите также

Смесь

Иерархические модели

Обнаружение выбросов

Рекомендации

  1. ^ Сотириос П. Хатзис, Димитриос И. Космопулос, Теодора А. Варваригу, «Моделирование и классификация сигналов с использованием надежной модели скрытого пространства на основе t-распределений», IEEE Transactions on Signal Processing, vol. 56, нет. 3. С. 949–963, март 2008 г. [1]
  2. ^ Ю, Guoshen (2012). «Решение обратных задач с кусочно-линейными оценками: от моделей гауссовой смеси к структурированной разреженности». IEEE Transactions по обработке изображений. 21 (5): 2481–2499. arXiv:1006.3056. Bibcode:2012ITIP ... 21.2481G. Дои:10.1109 / tip.2011.2176743. PMID  22180506. S2CID  479845.
  3. ^ Динов, ИД. "Учебное пособие по максимизации ожиданий и смешанному моделированию ". Калифорнийская цифровая библиотека, Статистический онлайн-ресурс, документ EM_MM, http://repositories.cdlib.org/socr/EM_MM, 9 декабря 2008 г.
  4. ^ Епископ, Кристофер (2006). Распознавание образов и машинное обучение. Нью-Йорк: Спрингер. ISBN  978-0-387-31073-2.
  5. ^ Сполл, Дж. К. и Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей для точности снаряда на основе данных, отличных от i.i.d». Журнал Американской статистической ассоциации, т. 87 (419), стр. 676–681. JSTOR  2290205
  6. ^ Амрутнатх, Нагдев; Гупта, Тарун (02.02.2018). Прогнозирование класса неисправности при обучении без учителя с использованием подхода кластеризации на основе моделей. Не опубликовано. Дои:10.13140 / rg.2.2.22085.14563.
  7. ^ Амрутнатх, Нагдев; Гупта, Тарун (01.02.2018). Исследование алгоритмов неконтролируемого машинного обучения для обнаружения неисправностей при профилактическом обслуживании. Не опубликовано. Дои:10.13140 / rg.2.2.28822.24648.
  8. ^ Шен, Цзяньхун (Джеки) (2006). «Стохастико-вариационная модель для мягкой сегментации Мамфорда-Шаха». Международный журнал биомедицинской визуализации. 2006: 2–16. Bibcode:2006IJBI.200649515H. Дои:10.1155 / IJBI / 2006/92329. ЧВК  2324060. PMID  23165059.
  9. ^ Мироненко, Андрей; Песня, Сюбо (2010). «Регистрация набора точек: когерентный дрейф точки». IEEE Trans. Pattern Anal. Мах. Intell. 32 (12): 2262–2275. arXiv:0905.2635. Дои:10.1109 / TPAMI.2010.46. PMID  20975122. S2CID  10809031.
  10. ^ Равикумар, Нишант; Гуйя, Али; Цимен, Серкан; Франги, Александро; Тейлор, Зейке (2018). «Групповая регистрация подобия наборов точек с использованием модели t-смеси Стьюдента для статистических моделей форм». Med. Изображение. Анальный. 44: 156–176. Дои:10.1016 / j.media.2017.11.012. PMID  29248842.
  11. ^ Байер, Симинг; Равикумар, Нишант; Струмия, Маддалена; Тонг, Сяогуан; Гао, Инь; Остермайер, Мартин; Фариг, Ребекка; Майер, Андреас (2018). «Компенсация интраоперационного сдвига мозга с использованием модели гибридной смеси». Вычисление медицинских изображений и компьютерное вмешательство - MICCAI 2018. Гранада, Испания: Спрингер, Чам. С. 116–124. Дои:10.1007/978-3-030-00937-3_14.
  12. ^ а б c Тартер, Майкл Э. (1993), Оценка модели свободной кривой, Чепмен и Холл
  13. ^ а б Фигейредо, М.А.Т .; Джайн, А. (Март 2002 г.). "Неконтролируемое обучение моделей конечной смеси". IEEE Transactions по анализу шаблонов и машинному анализу. 24 (3): 381–396. CiteSeerX  10.1.1.362.9811. Дои:10.1109/34.990138.
  14. ^ McWilliam, N .; Ло, К. (2008), Включение многомерных хвостовых зависимостей в оценку кредитных деривативов (рабочий документ) [2]
  15. ^ а б Демпстер, А.П .; Laird, N.M .; Рубин, Д. (1977). «Максимальная вероятность неполных данных с помощью алгоритма EM». Журнал Королевского статистического общества, серия B. 39 (1): 1–38. CiteSeerX  10.1.1.163.7580. JSTOR  2984875.
  16. ^ Xu, L .; Иордания, М. (Январь 1996 г.). «О свойствах сходимости алгоритма ЭМ для гауссовских смесей». Нейронные вычисления. 8 (1): 129–151. Дои:10.1162 / neco.1996.8.1.129. HDL:10338.dmlcz / 135225. S2CID  207714252.
  17. ^ а б Маклахлан, Г.Дж. (2000), Модели конечной смеси, Wiley
  18. ^ Ботев, З.И .; Крезе, Д. (2004). Оптимизация глобального правдоподобия методом кросс-энтропии с приложением к смешанным моделям. Материалы зимней конференции по моделированию 2004 г.. 1. п. 517. CiteSeerX  10.1.1.331.2319. Дои:10.1109 / WSC.2004.1371358. ISBN  978-0-7803-8786-7. S2CID  6880171.
  19. ^ Дэй, Н. Э. (1969). «Оценка компонентов смеси нормальных распределений». Биометрика. 56 (3): 463–474. Дои:10.2307/2334652. JSTOR  2334652.
  20. ^ Ван, Дж. (2001), «Создание ежедневных изменений рыночных переменных с использованием многомерной смеси нормальных распределений», Материалы 33-й Зимней конференции по моделированию.: 283–289
  21. ^ Амендола, Карлос; и другие. (2015). «Моментные разновидности гауссовых смесей». Журнал алгебраической статистики. 7. arXiv:1510.04654. Bibcode:2015arXiv151004654A. Дои:10.18409 / jas.v7i1.42. S2CID  88515304.
  22. ^ McLachlan, G.J .; Басфорд, К. (1988), "Модели смеси: вывод и приложения к кластеризации", Статистика: учебники и монографии, Bibcode:1988mmia.book ..... M
  23. ^ Титерингтон, Смит и Маков 1985

дальнейшее чтение

Книги по моделям смесей

Применение моделей гауссовой смеси

  1. Reynolds, D.A .; Роуз, Р. (Январь 1995 г.). «Надежная независимая от текста идентификация говорящего с использованием моделей говорящего на смеси Гаусса». Транзакции IEEE по обработке речи и звука. 3 (1): 72–83. Дои:10.1109/89.365379.
  2. Permuter, H .; Francos, J .; Джермин, И. (2003). Модели гауссовой смеси текстуры и цвета для поиска в базе данных изображений. IEEE Международная конференция по акустике, речи и обработке сигналов, 2003. Труды (ICASSP '03). Дои:10.1109 / ICASSP.2003.1199538.
  3. Лемке, Вольфганг (2005). Моделирование и оценка структуры терминов в рамках пространства состояний. Springer Verlag. ISBN  978-3-540-28342-3.
  4. Бриго, Дамиано; Меркурио, Фабио (2001). Смещенная и смешанная диффузия для аналитически поддающихся обработке моделей улыбки. Математические финансы - Конгресс бакалавриата 2000. Труды. Springer Verlag.
  5. Бриго, Дамиано; Меркурио, Фабио (июнь 2002 г.). «Логнормальная динамика смеси и калибровка волатильности рынка улыбается». Международный журнал теоретических и прикладных финансов. 5 (4): 427. CiteSeerX  10.1.1.210.4165. Дои:10.1142 / S0219024902001511.
  6. Spall, J.C .; Марьяк, Дж. Л. (1992). «Возможная байесовская оценка квантилей для точности снаряда на основе не-i.i.d. Данных». Журнал Американской статистической ассоциации. 87 (419): 676–681. Дои:10.1080/01621459.1992.10475269. JSTOR  2290205.
  7. Александр, Кэрол (декабрь 2004 г.). «Нормальная диффузия смеси с неопределенной летучестью: моделирование краткосрочных и долгосрочных эффектов улыбки» (PDF). Журнал банковского дела и финансов. 28 (12): 2957–80. Дои:10.1016 / j.jbankfin.2003.10.017.
  8. Стилиану, Яннис; Пантазис, Яннис; Кальдереро, Фелипе; Ларрой, Педро; Северин, Франсуа; Шимке, Саша; Бонал, Роландо; Матта, Федерико; Валсамакис, Афанасиос (2005). Мультимодальная биометрическая проверка на основе GMM (PDF).
  9. Chen, J .; Adebomi, 0.E .; Olusayo, O.S .; Кулеша, В. (2010). Оценка плотности гипотезы вероятности гауссовой смеси для отслеживания нескольких целей. IEEE Международная конференция по системам и технологиям визуализации, 2010. Дои:10.1109 / IST.2010.5548541.

внешняя ссылка

  • Нильсен, Франк (23 марта 2012 г.). «K-MLE: быстрый алгоритм для изучения моделей статистической смеси». k-MLE: быстрый алгоритм для изучения моделей статистической смеси. 2012 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP). С. 869–872. arXiv:1203.5181. Bibcode:2012arXiv1203.5181N. Дои:10.1109 / ICASSP.2012.6288022. ISBN  978-1-4673-0046-9. S2CID  935615.
  • В SOCR демонстрации электромагнитного моделирования и моделирования смеси
  • Страница моделирования смесиСноб программа для Минимальная длина сообщения (MML ) применительно к моделям конечной смеси), поддерживаемый Д.Л. Доу.
  • PyMix - Пакет Python Mixture, алгоритмы и структуры данных для широкого спектра приложений интеллектуального анализа данных на основе моделей смеси в Python
  • sklearn.mixture - Пакет Python для изучения моделей гауссовой смеси (и выборки из них), ранее входивший в состав SciPy и теперь упакован как SciKit
  • GMM.m Код Matlab для реализации GMM
  • GPUmix Реализация на C ++ моделей байесовской смеси с использованием EM и MCMC со 100-кратным ускорением с использованием GPGPU.
  • [3] Код Matlab для реализации GMM с использованием алгоритма EM
  • [4] jMEF: библиотека Java с открытым исходным кодом для изучения и обработки смесей экспоненциальных семейств (с использованием двойственности с расходимостями Брегмана). Включает оболочку Matlab.
  • Очень быстрая и чистая реализация C Максимизация ожиданий (EM) алгоритм оценки Модели гауссовой смеси (GMM).
  • Макласт представляет собой пакет R для моделирования смеси.
  • dpgmm Реализация модели гауссовой смеси процесса Дирихле на чистом Python (вариационная).
  • Модели гауссовой смеси Сообщение в блоге о моделях гауссовской смеси, обученных с помощью максимизации ожиданий, с реализацией на Python.