Области нейронного моделирования - Neural modeling fields

Поле нейронного моделирования (NMF) математическая основа для машинное обучение который сочетает в себе идеи из нейронные сети, нечеткая логика, и распознавание на основе модели. Это также упоминалось как поля моделирования, теория моделирования полей (MFT), Искусственные нейронные сети максимального правдоподобия (МЛАНС).[1][2][3][4][5][6]Эта структура была разработана Леонид Перловский на AFRL. NMF интерпретируется как математическое описание механизмов разума, включая концепции, эмоции, инстинкты, воображение, мышление, и понимание. NMF - это многоуровневая гетероиерархическая система. На каждом уровне в NMF есть концептуальные модели, содержащие знания; они генерируют так называемые нисходящие сигналы, взаимодействуя с входными восходящими сигналами. Эти взаимодействия регулируются динамическими уравнениями, которые стимулируют изучение концептуальной модели, адаптацию и формирование новых концептуальных моделей для лучшего соответствия входным восходящим сигналам.

Концептуальные модели и меры сходства

В общем случае система NMF состоит из нескольких уровней обработки. На каждом уровне выходные сигналы - это концепции, распознаваемые (или формируемые) входными восходящими сигналами. Входные сигналы связаны с концепциями (или распознаются, или сгруппированы в) в соответствии с моделями и на этом уровне. В процессе обучения концептуальные модели адаптируются для лучшего представления входных сигналов, так что сходство между концептуальными моделями и сигналами увеличивается. Это увеличение сходства можно интерпретировать как удовлетворение инстинкта знания и ощущается как эстетические эмоции.

Каждый иерархический уровень состоит из N «нейронов», пронумерованных индексом n = 1,2..N. Эти нейроны получают входные восходящие сигналы, Х (п), с нижних уровней иерархии обработки. Икс(n) - это поле восходящей нейрональной синаптической активации, исходящей от нейронов на более низком уровне. Каждый нейрон имеет несколько синапсов; для общности каждая активация нейрона описывается как набор чисел,

, где D - количество или размеры, необходимые для описания активации отдельного нейрона.

Эти нейроны посылают нисходящие или предварительные сигналы с помощью концептуальных моделей, Mм(Sм, п)

, где M - количество моделей. Каждая модель характеризуется своими параметрами, Sм; в нейронной структуре мозга они кодируются силой синаптических связей, математически они задаются набором чисел,

, где A - количество измерений, необходимых для описания отдельной модели.

Модели представляют сигналы следующим образом. Предположим, что сигнал ИКС(п) исходит от сенсорных нейронов n, активированных объектом m, который характеризуется параметрами Sм. Эти параметры могут включать в себя положение, ориентацию или освещение объекта m. Модель Mм(Sм, n) предсказывает значение Икс(n) сигнала на нейроне n. Например, во время зрительного восприятия нейрон n зрительной коры получает сигнал Икс(n) от сетчатки и грунтовка сигнал Mм(Sм, n) из объектной концепции-модели м. Нейрон п активируется, если как восходящий сигнал от входа более низкого уровня, так и нисходящий предварительный сигнал являются сильными. Различные модели конкурируют за свидетельство восходящих сигналов, адаптируя свои параметры для лучшего соответствия, как описано ниже. Это упрощенное описание восприятия. Самое мягкое повседневное зрительное восприятие использует множество уровней от сетчатки до восприятия объектов. Предпосылка NMF заключается в том, что одни и те же законы описывают базовую динамику взаимодействия на каждом уровне. Восприятие мельчайших деталей или повседневных предметов или познание сложных абстрактных понятий происходит благодаря тому же механизму, который описан ниже. Восприятие и познание включают концептуальные модели и обучение. В восприятии концепт-модели соответствуют объектам; в познании модели соответствуют отношениям и ситуациям.

Обучение - важная часть восприятия и познания, и в теории NMF оно определяется динамикой, которая увеличивает мера сходства между наборами моделей и сигналов, L ({Икс},{M}). Мера подобия является функцией параметров модели и ассоциаций между входными восходящими сигналами и нисходящими сигналами концептуальной модели. При построении математического описания меры подобия важно признать два принципа:

Первый, содержание поля зрения неизвестно до того, как произошло восприятие
Второй, он может содержать любой из множества объектов. Важная информация может содержаться в любом восходящем сигнале;

Следовательно, мера подобия построена так, чтобы учитывать все восходящие сигналы, Икс(п),

    (1)

Это выражение содержит произведение частичного сходства l (Икс(n)) по всем восходящим сигналам; поэтому он заставляет систему NMF учитывать каждый сигнал (даже если один член в продукте равен нулю, продукт равен нулю, сходство низкое и инстинкт знания не удовлетворяется); это отражение первого принципа. Во-вторых, до того, как происходит восприятие, разум не знает, какой объект вызвал сигнал от конкретного нейрона сетчатки. Поэтому мера частичного сходства строится так, что она рассматривает каждую модель как альтернативу (сумму по концептуальным моделям) для каждого входного сигнала нейрона. Составляющие его элементы - это условные частичные сходства между сигнальными Икс(n) и модель Mм, l (Икс(п) | м). Эта мера «обусловлена» присутствием объекта m, поэтому при объединении этих величин в общую меру подобия, L, они умножаются на r (m), что представляет собой вероятностную меру фактического присутствия объекта m. Комбинируя эти элементы с двумя указанными выше принципами, мера сходства строится следующим образом:

   (2)

Структура приведенного выше выражения соответствует стандартным принципам теории вероятностей: по альтернативам m суммируются и умножаются различные свидетельства n. Это выражение не обязательно является вероятностью, но оно имеет вероятностную структуру. Если обучение проходит успешно, оно приближается к вероятностному описанию и приводит к почти оптимальным байесовским решениям. Название «условное частичное подобие» для l (Икс(n) | m) (или просто l (n | m)) следует вероятностной терминологии. Если обучение прошло успешно, l (n | m) становится условной функцией плотности вероятности, вероятностной мерой того, что сигнал в нейроне n исходит от объекта m. Тогда L - это полная вероятность наблюдения сигналов {Икс(n)} исходящие от объектов, описываемых концептуальной моделью {Mм}. Коэффициенты r (m), называемые априорными в теории вероятностей, содержат предварительные смещения или ожидания, ожидаемые объекты m имеют относительно высокие значения r (m); их истинные значения обычно неизвестны и должны быть изучены, как и другие параметры Sм.

Обратите внимание, что в теории вероятностей произведение вероятностей обычно предполагает независимость свидетельств. Выражение для L содержит произведение над n, но не предполагает независимости между различными сигналами. Икс(п). Между сигналами существует зависимость из-за концепт-моделей: каждая модель Mм(Sм, n) предсказывает ожидаемые значения сигнала во многих нейронах n.

В процессе обучения концептуальные модели постоянно модифицируются. Обычно функциональные формы моделей, Mм(Sм, n), все фиксированы, и обучение-адаптация включает только параметры модели, Sм. Время от времени система формирует новую концепцию, сохраняя при этом старую; в качестве альтернативы старые концепции иногда объединяются или исключаются. Это требует модификации меры подобия L; Причина в том, что большее количество моделей всегда приводит к лучшему соответствию между моделями и данными. Это хорошо известная проблема, она решается путем уменьшения сходства L с помощью «скептической штрафной функции» (Штрафной метод ) p (N, M), которая растет с числом моделей M, и этот рост тем сильнее для меньшего количества данных N. Например, асимптотически несмещенная оценка максимального правдоподобия приводит к мультипликативному p (N, M) = exp ( -Nноминал/ 2), где Nноминал - общее количество адаптивных параметров во всех моделях (эта штрафная функция известна как Информационный критерий Акаике см. (Перловский 2001) для дальнейшего обсуждения и ссылок).

Обучение в NMF с использованием алгоритма динамической логики

Процесс обучения состоит из оценки параметров модели. S и связывание сигналов с концепциями путем максимизации сходства L. Обратите внимание, что все возможные комбинации сигналов и моделей учитываются в выражении (2) для L. Это можно увидеть, развернув сумму и умножив все члены, в результате чего получится MN предметов, огромное количество. Это количество комбинаций между всеми сигналами (N) и всеми моделями (M). Это источник комбинаторной сложности, которая решается в NMF за счет использования идеи динамическая логика,.[7][8] Важным аспектом динамической логики является сопоставление нечеткости или нечеткости мер подобия с неопределенностью моделей. Первоначально значения параметров неизвестны, а неопределенность моделей высока; такова нечеткость мер подобия. В процессе обучения модели становятся более точными, а мера сходства более четкой, ценность подобия возрастает.

Максимизация подобия L выполняется следующим образом. Во-первых, неизвестные параметры {Sм} инициализируются случайным образом. Затем вычисляются ассоциативные переменные f (m | n),

    (3).

Уравнение для f (m | n) выглядит как формула Байеса для апостериорных вероятностей; если l (n | m) в результате обучения становится условной вероятностью, f (m | n) становится байесовской вероятностью для сигнала n, исходящего от объекта m. Динамическая логика NMF определяется следующим образом:

    (4).
    (5)

Доказана следующая теорема (Перловский, 2001):

Теорема. Уравнения (3), (4) и (5) определяют сходящуюся динамическую систему NMF со стационарными состояниями, определяемыми max {Sм} L.

Отсюда следует, что стационарные состояния МП-системы являются состояниями максимального подобия. Когда частичные сходства указаны как функции плотности вероятности (PDF) или правдоподобия, стационарные значения параметров {Sм} являются асимптотически несмещенными и эффективными оценками этих параметров.[9] Вычислительная сложность динамической логики линейна по N.

Практически, при решении уравнений с помощью последовательных итераций, f (m | n) может быть повторно вычислен на каждой итерации, используя (3), в отличие от инкрементной формулы (5).

Доказательство приведенной выше теоремы содержит доказательство того, что подобие L увеличивается на каждой итерации. Это имеет психологическую интерпретацию, что инстинкт увеличения знаний удовлетворяется на каждом этапе, что приводит к положительным эмоциям: NMF-динамическая логическая система эмоционально получает удовольствие от обучения.

Пример динамических логических операций

Поиск закономерностей под шумом может быть чрезвычайно сложной проблемой. Если точная форма шаблона неизвестна и зависит от неизвестных параметров, эти параметры должны быть найдены путем подбора модели шаблона к данным. Однако, когда расположение и ориентация шаблонов неизвестны, неясно, какое подмножество точек данных следует выбрать для подгонки. Стандартный подход к решению такого рода проблем - проверка множественных гипотез (Сингер и др., 1974). Поскольку все комбинации подмножеств и моделей перебираются исчерпывающе, этот метод сталкивается с проблемой комбинаторной сложности. В текущем примере ищутся шумные модели «улыбки» и «хмурого взгляда». На рис. 1а они показаны без шума, а на рис. 1б - с шумом, измеренным в действительности. Истинное количество паттернов - 3, что неизвестно. Следовательно, данным должно соответствовать как минимум 4 шаблона, чтобы решить, что 3 шаблона подходят лучше всего. Размер изображения в этом примере составляет 100x100 = 10 000 точек. Если попытаться подогнать 4 модели ко всем подмножествам из 10 000 точек данных, вычисление сложности, MN ~ 106000. Альтернативное вычисление путем поиска в пространстве параметров дает меньшую сложность: каждый шаблон характеризуется параболической формой с 3 параметрами. Подгонка 4x3 = 12 параметров к сетке 100x100 методом грубой силы займет около 1032 до 1040 операций, по-прежнему является непомерно высокой вычислительной сложностью. Чтобы применить NMF и динамическую логику к этой проблеме, необходимо разработать параметрические адаптивные модели ожидаемых паттернов. Модели и условные частичные подобия для этого случая подробно описаны в:[10] унифицированная модель для шума, гауссовы капли для сильно размытых и плохо разрешенных паттернов и параболические модели для «улыбок» и «хмурых взглядов». Количество компьютерных операций в этом примере было около 1010. Таким образом, проблема, которая не была решена из-за комбинаторной сложности, становится решаемой с помощью динамической логики.

Во время процесса адаптации изначально нечеткие и неопределенные модели связаны со структурами входных сигналов, а нечеткие модели становятся более определенными и четкими с последовательными итерациями. Тип, форма и количество моделей выбираются так, чтобы внутреннее представление в системе было похоже на входные сигналы: концептуальные модели NMF представляют структурные объекты в сигналах. На рисунке ниже показаны операции динамической логики. На рис. 1 (а) истинная «улыбка» и «хмурый взгляд» показаны без шума; (б) фактическое изображение, доступное для распознавания (сигнал ниже шума, отношение сигнал / шум составляет от –2 дБ до –0,7 дБ); (в) исходная нечеткая модель, большая нечеткость соответствует неопределенности знаний; (d) - (m) показывают улучшенные модели на различных этапах итерации (всего 22 итерации). Каждые пять итераций алгоритм пытался увеличить или уменьшить количество моделей. Между итерациями (d) и (e) алгоритм решил, что ему нужны три гауссовские модели для «наилучшего» соответствия.

Существует несколько типов моделей: одна унифицированная модель, описывающая шум (она не показана), и переменное количество моделей капли и параболических моделей; их количество, расположение и кривизна оцениваются по данным. Примерно до этапа (g) алгоритм использовал простые модели больших двоичных объектов, на этапе (g) и далее алгоритм решил, что для описания данных необходимы более сложные параболические модели. Итерации останавливались на (h), когда сходство перестало увеличиваться.

Рисунок 1. Поиск моделей «улыбка» и «хмурый взгляд» в шуме, пример динамической логической операции: (а) истинные модели «улыбка» и «хмурый взгляд» показаны без шума; (б) фактическое изображение, доступное для распознавания (сигнал ниже шума, отношение сигнал / шум составляет от –2 дБ до –0,7 дБ); (в) исходная нечеткая blob-модель, нечеткость соответствует неопределенности знаний; (d) - (m) показывают улучшенные модели на различных этапах итерации (всего 22 итерации). Между этапами (d) и (e) алгоритм попытался сопоставить данные с более чем одной моделью и решил, что ему нужны три blob-модели, чтобы «понять» содержание данных. Существует несколько типов моделей: одна унифицированная модель, описывающая шум (не показана), и переменное количество blob-моделей и параболических моделей, количество, расположение и кривизна которых оцениваются по данным. Примерно до этапа (g) алгоритм «мыслил» в терминах простых моделей больших двоичных объектов, на этапе (g) и далее алгоритм решил, что для описания данных необходимы более сложные параболические модели. Итерации остановились на (m), когда сходство L перестало увеличиваться. Этот пример более подробно обсуждается в (Linnehan et al. 2003).

Иерархическая организация полей нейронного моделирования

Выше был описан единственный уровень обработки в иерархической системе NMF. На каждом уровне иерархии есть входные сигналы с более низких уровней, модели, меры сходства (L), эмоции, которые определяются как изменения в сходстве, и действия; действия включают адаптацию, поведение, удовлетворяющее инстинкт познания - максимизацию сходства. Вход на каждый уровень - это набор сигналов Икс(n), или в нейронной терминологии, поле ввода нейрональных активаций. Результатом обработки сигналов на заданном уровне являются активированные модели или концепции m, распознаваемые во входных сигналах n; эти модели вместе с соответствующими инстинктивными сигналами и эмоциями могут активировать поведенческие модели и генерировать поведение на этом уровне.

Активированные модели инициируют другие действия. Они служат входными сигналами для следующего уровня обработки, на котором распознаются или создаются более общие концептуальные модели. Выходные сигналы с заданного уровня, служащие входными для следующего уровня, являются сигналами активации модели,м, определяется как

ам = ∑п = 1..N е (м | п).

Иерархическая система NMF проиллюстрирована на рис. 2. Внутри иерархии разума каждая концептуальная модель находит свое «ментальное» значение и цель на более высоком уровне (в дополнение к другим целям). Например, рассмотрим концептуальную модель «стул». Он имеет «поведенческую» цель инициировать сидячее поведение (если сидение требуется телом), это «телесная» цель на том же иерархическом уровне. Кроме того, он имеет «чисто ментальную» цель на более высоком уровне иерархии, цель помочь распознать более общую концепцию, скажем, «концертный зал», модель которого содержит ряды стульев.

Рис 2. Иерархическая система NMF. На каждом уровне иерархии есть модели, меры сходства и действия (включая адаптацию, максимизацию инстинкта познания - подобие). Высокие уровни показателей частичного сходства соответствуют концепциям, признанным на данном уровне. Активация концепций - это выходные сигналы на этом уровне, и они становятся входными сигналами на следующий уровень, распространяя знания вверх по иерархии.

Время от времени система формирует новую концепцию или устраняет старую. На каждом уровне система NMF всегда сохраняет резерв расплывчатых (нечетких) неактивных концептуальных моделей. Они неактивны в том смысле, что их параметры не адаптированы к данным; поэтому их сходство с сигналами невелико. Тем не менее, из-за большой неопределенности (ковариантности) сходства не совсем нулевые. Когда новый сигнал не вписывается ни в одну из активных моделей, его сходство с неактивными моделями автоматически увеличивается (потому что, во-первых, учитывается каждый фрагмент данных, а во-вторых, неактивные модели расплывчаты и потенциально могут «схватить» каждый сигнал, который не подходит для более конкретных, менее нечетких, активных моделей. Когда сигнал активации aм если неактивная модель m превышает определенный порог, модель активируется. Аналогичным образом, когда сигнал активации для конкретной модели падает ниже порогового значения, модель деактивируется. Пороги активации и деактивации обычно устанавливаются на основе информации, существующей на более высоком иерархическом уровне (предварительная информация, системные ресурсы, количество активированных моделей различных типов и т. Д.). Сигналы активации для активных моделей на определенном уровне {aм } образуют «нейронное поле», которое служит входными сигналами для следующего уровня, где формируются более абстрактные и более общие концепции.

Рекомендации

  1. ^ [1]: Перловский, Л. 2001. Нейронные сети и интеллект: использование модельных концепций. Нью-Йорк: Издательство Оксфордского университета
  2. ^ Перловский, Л. (2006). К физике разума: концепции, эмоции, сознание и символы. Phys. Life Rev.3 (1), стр. 22-55.
  3. ^ [2]: Деминг Р.У., Автоматическое обнаружение заглубленных мин с использованием адаптивной нейронной системы максимального правдоподобия (MLANS), in Proceedings of Интеллектуальное управление (ISIC), 1998. Проведено совместно с Международный симпозиум IEEE по вычислительному интеллекту в робототехнике и автоматизации (CIRA), интеллектуальным системам и семиотике (ISAS)
  4. ^ [3]: Веб-сайт программы MDA Technology Applications Program
  5. ^ [4]: Cangelosi, A .; Тиханов, В .; Fontanari, J.F .; Хурдакис, Э., Интеграция языка и познания: подход когнитивной робототехники, Computational Intelligence Magazine, IEEE, том 2, выпуск 3, август 2007 г. Стр .: 65-70
  6. ^ [5]: Датчики и технологии командования, управления, связи и разведки (C3I) для внутренней безопасности и обороны страны III (Сборник материалов), редактор (и): Эдвард М. Карапецца, Дата: 15 сентября 2004 г.,ISBN  978-0-8194-5326-6, См. Главу: Архитектура прогнозирования антитеррористических угроз
  7. ^ Перловский, Л. (1996). Математические концепции интеллекта. Proc. Всемирный конгресс по нейронным сетям, Сан-Диего, Калифорния; Лоуренс Эрлбаум Ассошиэйтс, Нью-Джерси, стр. 1013-16.
  8. ^ Перловский, Л.И. (1997). Физические концепции интеллекта. Proc. Российская академия наук, 354 (3), с. 320-323.
  9. ^ Крамер, Х. (1946). Математические методы статистики, Princeton University Press, Princeton NJ.
  10. ^ Линнехан, Р., Муц, Перловский, Л.И., К., Вейерс, Б., Шиндлер, Дж., Брокетт, Р. (2003). Обнаружение закономерностей ниже беспорядка на изображениях. Int. Конф. Об интеграции интеллектуальных многоагентных систем, Кембридж, Массачусетс, 1-3 октября 2003 г.

Связанный