Генеративная топографическая карта - Generative topographic map

Генеративная топографическая карта (GTM) это машинное обучение метод, который является вероятностным аналогом самоорганизующаяся карта (SOM), вероятно, сходится и не требует усадки район или уменьшение размера шага. Это генеративная модель: предполагается, что данные возникают при первом вероятностном выборе точки в низкоразмерном пространстве, отображении точки на наблюдаемое многомерное входное пространство (через сглаженную функцию), а затем добавлении шума в это пространство. Параметры низкоразмерного распределения вероятностей, гладкой карты и шума извлекаются из обучающих данных с использованием ожидание-максимизация (EM) алгоритм. GTM был представлен в 1996 году в статье Кристофер Бишоп, Маркус Свенсен и Кристофер К. И. Уильямс.

Детали алгоритма

Подход тесно связан с сети плотности которые используют выборка по важности и многослойный персептрон сформировать нелинейный скрытая переменная модель. В GTM скрытое пространство - это дискретная сетка точек, которая, как предполагается, нелинейно проецируется в пространство данных. А Гауссов шум затем делается допущение в пространстве данных, так что модель становится ограниченной смесь гауссианцев. Тогда вероятность модели может быть максимизирована с помощью EM.

Теоретически можно использовать произвольную нелинейную параметрическую деформацию. Оптимальные параметры можно найти методом градиентного спуска и т. Д.

Предлагаемый подход к нелинейному отображению заключается в использовании сеть радиальных базисных функций (RBF) для создания нелинейного отображения между скрытым пространством и пространством данных. Затем узлы сети RBF образуют пространство функций и тогда нелинейное отображение можно принять как линейное преобразование этого функционального пространства. Этот подход имеет преимущество перед предлагаемым подходом к сети плотности в том, что его можно оптимизировать аналитически.

Использует

В анализе данных GTM похожи на нелинейную версию анализ основных компонентов, который позволяет моделировать данные высокой размерности как результат добавления гауссовского шума к источникам в скрытом пространстве меньшей размерности. Например, чтобы найти акции в табличном 2D-пространстве на основе их высокоразмерных форм временных рядов. Другим приложениям может потребоваться меньше источников, чем точек данных, например смешанные модели.

В генеративном деформационное моделирование, скрытые пространства и пространства данных имеют одинаковые размеры, например, 2D-изображения или звуковые волны 1. К источнику добавляются дополнительные «пустые» измерения (известные как «шаблон» в этой форме моделирования), например, размещение одномерной звуковой волны в двухмерном пространстве. Затем добавляются дополнительные нелинейные размеры, полученные путем объединения исходных размеров. Увеличенное скрытое пространство затем проецируется обратно в пространство одномерных данных. Вероятность данной проекции, как и прежде, дается произведением правдоподобия данных в рамках модели гауссова шума с априорными значениями параметра деформации. В отличие от обычного моделирования деформации на основе пружины, это имеет то преимущество, что его можно оптимизировать аналитически. Недостатком является то, что это подход «интеллектуального анализа данных», то есть форма предшествующей деформации вряд ли будет иметь смысл в качестве объяснения возможных деформаций, поскольку она основана на очень высокой, искусственно построенной и произвольно построенной нелинейной скрытой Космос. По этой причине априор извлекается из данных, а не создается специалистом-человеком, как это возможно для моделей на основе пружин.

Сравнение с самоорганизующимися картами Кохонена

Пока узлы в самоорганизующаяся карта (SOM) могут блуждать по своему желанию, узлы GTM ограничены допустимыми преобразованиями и их вероятностями. Если деформации ведутся правильно, топология скрытого пространства сохраняется.

SOM была создана как биологическая модель нейронов и представляет собой эвристический алгоритм. Напротив, GTM не имеет ничего общего с нейробиологией или познанием и является вероятностно принципиальной моделью. Таким образом, он имеет ряд преимуществ перед SOM, а именно:

  • он явно формулирует модель плотности над данными.
  • он использует функцию стоимости, которая количественно определяет, насколько хорошо карта обучена.
  • он использует процедуру оптимизации звука (ЭМ алгоритм).

GTM был представлен Бишопом, Свенсеном и Уильямсом в их техническом отчете в 1997 году (Technical Report NCRG / 96/015, Aston University, UK), опубликованном позже в Neural Computation. Это также было описано в кандидат наук диссертация Маркуса Свенсена (Aston, 1998).

Приложения

Смотрите также

внешняя ссылка