Машина Больцмана - Boltzmann machine

Графическое изображение примера машины Больцмана.
Графическое изображение примера машины Больцмана. Каждое неориентированное ребро представляет зависимость. В этом примере есть 3 скрытых блока и 4 видимых блока. Это не ограниченная машина Больцмана.

А Больцман машина (также называемый стохастическая сеть Хопфилда со скрытыми блоками или же Модель Шеррингтона – Киркпатрика с внешним полем. или же стохастическая модель Изинга-Ленца-Литтла) является разновидностью стохастический рекуррентная нейронная сеть. Это Марковское случайное поле.[1] Это было переведено с статистическая физика для использования в наука о мышлении. Машина Больцмана основана на стохастической модели спинового стекла с внешним полем, т.е. Модель Шеррингтона – Киркпатрика это стохастик Модель Изинга[2] и применяется к машинному обучению.[3]

Теоретически они интересны своим месторасположением и Hebbian характер их алгоритма обучения (обучение по правилу Хебба), и из-за их параллелизм и сходство их динамики с простыми физические процессы. Машины Больцмана с неограниченной связью не оказались полезными для практических задач в машинном обучении или логическом выводе, но если связность должным образом ограничена, обучение может быть достаточно эффективным, чтобы быть полезным для практических задач.[4]

Они названы в честь Распределение Больцмана в статистическая механика, который используется в их функция выборки. Вот почему их называют "модели на основе энергии "(EBM). Их активно популяризировали и продвигали Джеффри Хинтон и Терри Сейновски в сообществах когнитивных наук и в машинное обучение.[5]

Структура

Графическое изображение примера машины Больцмана с весовыми метками.
Графическое изображение машины Больцмана с несколькими обозначенными весами. Каждое неориентированное ребро представляет зависимость и имеет вес . В этом примере есть 3 скрытых объекта (синие) и 4 видимых объекта (белые). Это не ограниченная машина Больцмана.

Машина Больцмана, как Сеть Хопфилда, представляет собой сеть единиц с «энергией» (Гамильтониан ) определен для всей сети. Его подразделения производят двоичный полученные результаты. В отличие от сетей Хопфилда, машины Больцмана стохастический. Мировая энергия в машине Больцмана идентична по форме Сети Хопфилда и Модели Изинга:

Где:

  • сила связи между единицами и единица .
  • это государство, , единицы .
  • это смещение единицы в глобальной энергетической функции. ( это порог активации для устройства.)

Часто веса представлены в виде симметричной матрицы с нулями по диагонали.

Вероятность состояния единицы

Разница в глобальной энергии, получаемая от одной единицы равняется 0 (выключено) по сравнению с 1 (включено), записывается в предположении симметричной матрицы весов определяется выражением:

Это можно выразить как разность энергий двух состояний:

Подставляя энергию каждого состояния его относительной вероятностью в соответствии с Фактор Больцмана (собственность Распределение Больцмана что энергия состояния пропорциональна отрицательной логарифмической вероятности этого состояния) дает:

куда постоянная Больцмана и поглощена искусственным понятием температуры . Затем мы переставляем термины и считаем, что вероятности включения и выключения устройства должны в сумме равняться единице:

Решение для , вероятность того, что -й блок включен дает:

где скаляр называется температура системы. Это отношение является источником логистическая функция найдены в вероятностных выражениях в вариантах машины Больцмана.

Состояние равновесия

Сеть работает путем многократного выбора устройства и сброса его состояния. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния, согласно Распределение Больцмана, а не в исходном состоянии, из которого был запущен процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своей энергии. Это соотношение верно, когда машина находится на тепловое равновесие ", что означает, что распределение вероятностей глобальных состояний сошлось. При запуске сети, начиная с высокой температуры, ее температура постепенно снижается до достижения тепловое равновесие при более низкой температуре. Затем он может сходиться к распределению, в котором уровень энергии колеблется около глобального минимума. Этот процесс называется имитация отжига.

Чтобы обучить сеть так, чтобы вероятность ее схождения к глобальному состоянию в соответствии с внешним распределением по этим состояниям, необходимо установить так, чтобы глобальные состояния с наивысшими вероятностями получали наименьшую энергию. Это делается тренировкой.

Обучение персонала

Единицы в машине Больцмана делятся на «видимые» единицы, V, и «скрытые» единицы, H. Видимые единицы - это те, которые получают информацию из «окружающей среды», т.е. обучающий набор представляет собой набор двоичных векторов над множество V. Распределение по обучающей выборке обозначено .

Распределение по глобальным состояниям сходится, когда машина Больцмана достигает тепловое равновесие. Обозначим это распределение после того, как маргинализировать это над скрытыми блоками, как .

Наша цель - приблизить "реальное" распределение с использованием производится машиной. Сходство двух распределений измеряется Дивергенция Кульбака – Лейблера, :

где сумма берется по всем возможным состояниям . является функцией весов, поскольку они определяют энергию состояния, а энергия определяет , как и было обещано распределением Больцмана. А градиентный спуск алгоритм закончился , изменяет заданный вес, путем вычитания частная производная из по весу.

Тренировка на машине Больцмана включает в себя две чередующиеся фазы. Одна из них - это «положительная» фаза, когда состояния видимых блоков ограничиваются конкретным двоичным вектором состояния, выбранным из обучающего набора (согласно ). Другая - это «отрицательная» фаза, когда сети разрешено работать свободно, т.е. состояние всех устройств не определяется внешними данными. Градиент относительно данного веса, , задается уравнением:[6]

куда:

  • вероятность того, что единицы я и j оба включены, когда машина находится в состоянии равновесия на положительной фазе.
  • вероятность того, что единицы я и j оба включены, когда машина находится в равновесии на отрицательной фазе.
  • обозначает скорость обучения

Этот результат следует из того, что при тепловое равновесие вероятность любого глобального государства когда сеть находится в автономном режиме, определяется распределением Больцмана.

Это правило обучения биологически правдоподобно, потому что единственная информация, необходимая для изменения веса, предоставляется «местной» информацией. То есть связь (синапс, биологически) не нуждается ни в чем, кроме двух нейронов, которые он соединяет. Это более биологически реалистично, чем информация, необходимая для соединения во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение.

Тренировка на машине Больцмана не использует EM алгоритм, который широко используется в машинное обучение. Минимизируя KL-дивергенция, это эквивалентно максимизации логарифмической вероятности данных. Следовательно, процедура обучения выполняет градиентное восхождение на логарифмической вероятности наблюдаемых данных. Это отличается от алгоритма EM, где апостериорное распределение скрытых узлов должно быть вычислено до максимизации ожидаемого значения правдоподобия полных данных во время M-шага.

Обучение смещений аналогично, но использует только активность одного узла:

Проблемы

Теоретически машина Больцмана представляет собой довольно общую вычислительную среду. Например, при обучении работе с фотографиями машина теоретически смоделирует распределение фотографий и может использовать эту модель, например, для завершения частичной фотографии.

К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно: они перестают правильно учиться, когда машина масштабируется до любого размера, превышающего тривиальный размер.[нужна цитата ] Это связано с важными эффектами, а именно:

  • требуемый временной порядок для сбора статистических данных о равновесии экспоненциально растет с размером машины и с величиной силы соединения[нужна цитата ]
  • сила соединения более пластична, когда у соединенных блоков вероятность активации находится между нулем и единицей, что приводит к так называемой ловушке отклонения. Чистый эффект заключается в том, что шум приводит к тому, что сила соединения случайная прогулка пока деятельность не пропитается.

Типы

Ограниченная машина Больцмана

Графическое представление примера ограниченной машины Больцмана
Графическое представление ограниченной машины Больцмана. Четыре синих блока представляют скрытые блоки, а три красных блока представляют видимые состояния. В ограниченных машинах Больцмана есть только связи (зависимости) между скрытыми и видимыми модулями, и нет связей между модулями одного типа (нет скрытых-скрытых или видимых-видимых соединений).

Хотя обучение в машинах Больцмана в целом непрактично, его можно сделать достаточно эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутрислойных связей между скрытыми и видимыми блоками, то есть нет связи между видимыми и видимыми и скрытыми для скрытых блоков. . После обучения одного RBM действия его скрытых блоков можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод объединения RBM позволяет эффективно обучать многие уровни скрытых модулей и является одним из наиболее распространенных. глубокое обучение стратегии. По мере добавления каждого нового слоя генеративная модель улучшается.

Расширение ограниченной машины Больцмана позволяет использовать вещественные данные, а не двоичные данные.[7]

Одним из примеров практического применения RBM является распознавание речи.[8]

Глубокая машина Больцмана

Глубокая машина Больцмана (ДБМ) - это тип двоичной попарной Марковское случайное поле (ненаправленный вероятностный графическая модель ) с несколькими слоями скрытый случайные переменные. Это сеть симметрично связанных стохастических двоичные единицы. Он состоит из набора видимых элементов и слои скрытых единиц . Нет соединений, связывающих блоки одного уровня (например, УОР ). Для DBM, вероятность, присвоенная вектору ν является

куда набор скрытых единиц, и - параметры модели, представляющие взаимодействия видимого-скрытого и скрытого-скрытого.[9] В DBN только два верхних слоя образуют ограниченную машину Больцмана (которая является ненаправленным графическая модель ), а нижние слои образуют направленную генеративную модель. В DBM все уровни симметричны и неориентированы.

Нравиться DBN, DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как объект или же распознавание речи с использованием ограниченных помеченных данных для точной настройки представлений, построенных с использованием большого набора немаркированных входных сенсорных данных. Однако в отличие от ДБН и глубоких сверточные нейронные сети, они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур.[10][11][12]

Однако низкая скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение методом максимального правдоподобия невозможно для DBM, возможно только приблизительное обучение методом максимального правдоподобия. Другой вариант - использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимировать ожидаемую достаточную статистику с помощью Цепь Маркова Монте-Карло (MCMC).[9] Этот приблизительный вывод, который необходимо делать для каждого входного теста, примерно в 25-50 раз медленнее, чем один восходящий проход в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление функций.

Шип-плиты RBMs

Необходимость глубокого обучения с ценный входы, как в Гауссовский RBMs привели к шипу-плите УОР (SSУОР ), который моделирует входы с непрерывными значениями с двоичный скрытые переменные.[13] Подобно базовому RBMs и его вариантов, шипованная УКР является двудольный граф, пока нравится GRBM, видимые единицы (входные) являются действительными. Разница заключается в скрытом слое, где каждый скрытый блок имеет двоичную переменную пика и переменную плиты с действительным знаком. Шип - это дискретный вероятностная масса в нуле, а плита - плотность над непрерывной областью;[14] их смесь образует прежний.[15]

Расширение ssУОР называется µ-SSУОР предоставляет дополнительные возможности моделирования с использованием дополнительных терминов в функция энергии. Один из этих терминов позволяет модели сформировать условное распределение переменных спайка на маргинализация переменные плиты с учетом наблюдения.

История

Машина Больцмана основана на спин-стакан модель стохастика Шеррингтона-Киркпатрика Модель Изинга.[16]

Оригинальный вклад в применение таких моделей, основанных на энергии, в когнитивной науке появился в статьях Хинтона и Сейновски.[17][18]

Основополагающая публикация Джона Хопфилда соединила физику и статистическую механику, упомянув спиновые стекла.[19]

Идея применения модели Изинга с отожженным Выборка Гиббса присутствует в Дуглас Хофштадтер с Подражатель проект.[20][21]

Подобные идеи (со сменой знака в энергетической функции) встречаются в Павел Смоленский "Теория гармонии".

Явная аналогия, проведенная со статистической механикой в ​​формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия», а не «гармония»), которая стала стандартом в этой области. Широкому распространению этой терминологии, возможно, способствовал тот факт, что ее использование привело к заимствованию множества концепций и методов из статистической механики. Различные предложения использовать имитацию отжига для вывода, по-видимому, независимы.

Модели Изинга стали рассматриваться как частный случай Марковские случайные поля, которые находят широкое применение в лингвистика, робототехника, компьютерное зрение и искусственный интеллект.

Смотрите также

.

Рекомендации

  1. ^ Хинтон, Джеффри Э. (24 мая 2007 г.). «Машина Больцмана». Scholarpedia. 2 (5): 1668. Bibcode:2007SchpJ ... 2.1668H. Дои:10.4249 / scholarpedia.1668. ISSN  1941-6016.
  2. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975), "Решаемая модель спин-стекла", Письма с физическими проверками, 35 (35): 1792–1796, Bibcode:1975ПхРвЛ..35.1792С, Дои:10.1103 / PhysRevLett.35.1792
  3. ^ Экли, Дэвид Х; Хинтон Джеффри Э; Сейновски, Терренс Дж (1985), «Алгоритм обучения для машин Больцмана» (PDF), Наука о мышлении, 9 (1): 147–169, Дои:10.1207 / s15516709cog0901_7
  4. ^ Осборн, Томас Р. (1 января 1990 г.). «Быстрое обучение машин Больцмана с локальным торможением». Международная конференция по нейронным сетям. Springer Нидерланды. стр.785. Дои:10.1007/978-94-009-0643-3_76. ISBN  978-0-7923-0831-7.
  5. ^ Экли, Дэвид Х; Хинтон Джеффри Э; Сейновски, Терренс Дж (1985), «Алгоритм обучения для машин Больцмана» (PDF), Наука о мышлении, 9 (1): 147–169, Дои:10.1207 / s15516709cog0901_7
  6. ^ Экли, Дэвид Х .; Хинтон, Джеффри Э .; Сейновски, Терренс Дж. (1985). «Алгоритм обучения для машин Больцмана» (PDF). Наука о мышлении. 9 (1): 147–169. Дои:10.1207 / s15516709cog0901_7. Архивировано из оригинал (PDF) 18 июля 2011 г.
  7. ^ Последние разработки в области глубокого обучения, получено 2020-02-17
  8. ^ Ю, Донг; Даль, Джордж; Асеро, Алекс; Дэн, Ли (2011). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом» (PDF). Microsoft Research. 20.
  9. ^ а б Хинтон, Джеффри; Салахутдинов, Руслан (2012). «Лучший способ предварительного обучения глубоких станков Больцмана» (PDF). Достижения в нейронной. 3: 1–9. Архивировано из оригинал (PDF) на 2017-08-13. Получено 2017-08-18.
  10. ^ Хинтон, Джеффри; Салахутдинов, Руслан (2009). «Эффективное изучение глубинных машин Больцмана» (PDF). 3: 448–455. Архивировано из оригинал (PDF) на 2015-11-06. Получено 2017-08-18. Цитировать журнал требует | журнал = (помощь)
  11. ^ Бенхио, Йошуа; ЛеКун, Янн (2007). «Масштабирование алгоритмов обучения в сторону ИИ» (PDF). 1: 1–41. Цитировать журнал требует | журнал = (помощь)
  12. ^ Ларошель, Хьюго; Салахутдинов, Руслан (2010). «Эффективное изучение глубинных машин Больцмана» (PDF): 693–700. Архивировано из оригинал (PDF) на 2017-08-14. Получено 2017-08-18. Цитировать журнал требует | журнал = (помощь)
  13. ^ Курвиль, Аарон; Бергстра, Джеймс; Бенжио, Йошуа (2011). "Машина Больцмана с ограничением по шипам и плитам" (PDF). JMLR: Материалы семинара и конференции. 15: 233–241. Архивировано из оригинал (PDF) на 2016-03-04. Получено 2019-08-25.
  14. ^ Курвиль, Аарон; Бергстра, Джеймс; Бенжио, Йошуа (2011). "Неконтролируемые модели изображений, полученные с помощью RBM" Spike-and-Slab " (PDF). Материалы 28-й Международной конференции по машинному обучению. 10. С. 1–8.
  15. ^ Митчелл, Т; Beauchamp, J (1988). «Байесовская переменная в линейной регрессии». Журнал Американской статистической ассоциации. 83 (404): 1023–1032. Дои:10.1080/01621459.1988.10478694.
  16. ^ Шеррингтон, Дэвид; Киркпатрик, Скотт (1975-12-29). «Решаемая модель спин-стекла». Письма с физическими проверками. 35 (26): 1792–1796. Bibcode:1975ПхРвЛ..35.1792С. Дои:10.1103 / Physrevlett.35.1792. ISSN  0031-9007.
  17. ^ Хинтон, Джеффери; Сейновски, Терренс Дж. (Май 1983 г.). Анализ кооперативных вычислений. 5-й ежегодный конгресс общества когнитивных наук. Рочестер, Нью-Йорк. Проверено февраль 2020. Проверить значения даты в: | дата доступа = (помощь)
  18. ^ Хинтон, Джеффри Э .; Сейновски, Терренс Дж. (Июнь 1983 г.). Оптимальный перцепционный вывод. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). Вашингтон, округ Колумбия: Компьютерное общество IEEE. С. 448–453.
  19. ^ Хопфилд, Дж. Дж. (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными возможностями». Труды Национальной академии наук Соединенных Штатов Америки. [s.n.] 79 (8): 2554–8. Bibcode:1982PNAS ... 79.2554H. Дои:10.1073 / pnas.79.8.2554. OCLC  848771572. ЧВК  346238. PMID  6953413.
  20. ^ Хофштадтер, Д. Р. (январь 1984 г.). Проект Copycat: эксперимент в недетерминизме и творческих аналогиях. Центр оборонной технической информации. OCLC  227617764.
  21. ^ Хофштадтер, Дуглас Р. (1988). «Недетерминированный подход к аналогии, включающий модель ферромагнетизма Изинга». В Каяниелло, Эдуардо Р. (ред.). Физика познавательных процессов. Тинек, Нью-Джерси: World Scientific. ISBN  9971-5-0255-0. OCLC  750950619.
  22. ^ Liou, C.-Y .; Линь, С.-Л. (1989). «Другой вариант машины Больцмана». Международная совместная конференция по нейронным сетям. Вашингтон, округ Колумбия, США: IEEE. С. 449–454. Дои:10.1109 / IJCNN.1989.118618.
  1. https://www.mis.mpg.de/preprints/2018/preprint2018_87.pdf

дальнейшее чтение

внешняя ссылка