M-Theory (учебная среда) - M-Theory (learning framework)

В Машинное обучение и Компьютерное зрение, М-Теория это учебная среда, вдохновленная обработкой с прямой связью в брюшной поток из зрительная кора и изначально разрабатывался для распознавания и классификации объектов в визуальных сценах. Позже М-теория была применена к другим областям, таким как распознавание речи. В определенных задачах распознавания изображений алгоритмы, основанные на конкретном экземпляре M-Theory, HMAX, достигли производительности человеческого уровня.[1]

Основной принцип M-Theory - извлечение представлений, инвариантных к различным преобразованиям изображений (перевод, масштаб, 2D и 3D вращение и другие). В отличие от других подходов, использующих инвариантные представления, в M-Theory они не жестко закодированы в алгоритмы, а изучены. M-Theory также разделяет некоторые принципы с Сжатое зондирование. Теория предлагает многоуровневую иерархическую архитектуру обучения, аналогичную архитектуре зрительной коры.

Интуиция

Инвариантные представления

Большой проблемой в задачах визуального распознавания является то, что один и тот же объект можно увидеть в разных условиях. Его можно увидеть с разных расстояний, с разных точек обзора, при разном освещении, частично закрытом и т. Д. Кроме того, для объектов определенных классов, таких как лица, могут быть актуальны очень сложные специфические преобразования, такие как изменение выражений лица. Чтобы научиться распознавать изображения, очень полезно учитывать эти вариации. Это приводит к гораздо более простой проблеме классификации и, как следствие, к значительному сокращению сложность образца модели.

Эту идею иллюстрирует простой вычислительный эксперимент. Два экземпляра классификатора были обучены отличать изображения самолетов от изображений автомобилей. Для обучения и тестирования первого экземпляра использовались изображения с произвольными точками обзора. Другой экземпляр получил только изображения, видимые с определенной точки зрения, что было эквивалентно обучению и тестированию системы на инвариантном представлении изображений. Видно, что второй классификатор работал достаточно хорошо даже после получения одного примера из каждой категории, в то время как производительность первого классификатора была близка к случайному предположению даже после просмотра 20 примеров.

Инвариантные представления были включены в несколько архитектур обучения, таких как неокогнитроны. Однако большинство этих архитектур обеспечивали инвариантность за счет специально разработанных функций или свойств самой архитектуры. Хотя это помогает учитывать некоторые виды преобразований, такие как переводы, очень нетривиально учитывать другие виды преобразований, такие как трехмерные вращения и изменение выражений лица. M-Theory предоставляет основу для изучения таких преобразований. Помимо большей гибкости, эта теория также предполагает, что человеческий мозг может иметь аналогичные возможности.

Шаблоны

Еще одна ключевая идея M-Theory близка по духу идеям из области сжатое зондирование. Следствие из Лемма Джонсона – Линденштрауса говорит, что определенное количество изображений может быть встроено в низкоразмерный пространство функций с одинаковыми расстояниями между изображениями с помощью случайных проекций. Этот результат предполагает, что скалярное произведение между наблюдаемым изображением и каким-либо другим изображением, хранящимся в памяти, называемым шаблоном, можно использовать как функцию, помогающую отличить изображение от других изображений. Шаблон не обязательно должен быть каким-либо образом связан с изображением, его можно выбрать случайным образом.

Объединение шаблонов и инвариантных представлений

Две идеи, изложенные в предыдущих разделах, можно объединить, чтобы построить основу для изучения инвариантных представлений. Ключевое наблюдение заключается в том, как скалярное произведение между изображениями и шаблон ведет себя при преобразовании изображения (путем таких преобразований, как перевод, поворот, масштаб и т. д.). Если преобразование является членом унитарная группа преобразований, то имеет место следующее:

Другими словами, скалярное произведение преобразованного изображения и шаблона равно скалярному произведению исходного изображения и обратно преобразованного шаблона. Например, для изображения, повернутого на 90 градусов, обратно преобразованный шаблон будет повернут на -90 градусов.

Рассмотрим набор скалярных произведений изображения на все возможные преобразования шаблона: . Если применить преобразование к , набор станет . Но в силу свойства (1) это равно . Набор равно просто набору всех элементов в . Чтобы увидеть это, обратите внимание, что каждый в из-за свойства закрытия группы, и для каждого в G существует его прототип Такие как (а именно, ). Таким образом, . Видно, что набор скалярных произведений остается прежним, несмотря на то, что к изображению было применено преобразование! Этот набор сам по себе может служить (очень громоздким) инвариантным представлением изображения. Из него можно сделать более практические представления.

Во вводной части утверждалось, что M-теория позволяет изучать инвариантные представления. Это связано с тем, что шаблоны и их преобразованные версии могут быть изучены на основе визуального опыта - подвергая систему последовательностям преобразований объектов. Вполне вероятно, что подобные визуальные переживания происходят в ранний период жизни человека, например, когда младенцы вертят игрушки в руках. Поскольку шаблоны могут быть совершенно не связаны с изображениями, которые система позже попытается классифицировать, воспоминания об этих визуальных впечатлениях могут служить основой для распознавания многих различных типов объектов в более поздней жизни. Однако, как будет показано ниже, для некоторых видов преобразований требуются определенные шаблоны.

Теоретические аспекты

От орбит к мерам распределения

Чтобы реализовать идеи, описанные в предыдущих разделах, необходимо знать, как получить вычислительно эффективное инвариантное представление изображения. Такое уникальное представление для каждого изображения может быть охарактеризовано, как оно появляется, набором одномерных распределений вероятностей (эмпирические распределения скалярных произведений между изображением и набором шаблонов, сохраненных во время обучения без учителя). Эти вероятностные распределения, в свою очередь, могут быть описаны либо гистограммами, либо набором ее статистических моментов, как это будет показано ниже.

Орбита это набор изображений создается из одного изображения под действием группы .

Другими словами, изображения объекта и его преобразований соответствуют орбите . Если две орбиты имеют общую точку, они везде идентичны,[2] т.е. орбита - это инвариантное и уникальное представление изображения. Итак, два изображения называются эквивалентными, если они принадлежат одной орбите: если такой, что . И наоборот, две орбиты различны, если ни одно из изображений на одной орбите не совпадает с каким-либо изображением на другой.[3]

Возникает естественный вопрос: как сравнить две орбиты? Есть несколько возможных подходов. Один из них использует тот факт, что интуитивно две эмпирические орбиты одинаковы, независимо от порядка их точек. Таким образом, можно рассматривать распределение вероятностей вызванные действием группы на изображения ( можно рассматривать как реализацию случайной величины).

Это распределение вероятностей можно почти однозначно охарактеризовать одномерные распределения вероятностей индуцированные (одномерными) результатами проекций , куда представляют собой набор шаблонов (случайно выбранных изображений) (основанный на теореме Крамера-Вольда [4] и концентрация мер).

Учитывать изображений . Позволять , куда - универсальная постоянная. потом

с вероятностью , для всех .

Этот результат (неформально) говорит о том, что приблизительно инвариантное и уникальное представление изображения можно получить из оценок Одномерные распределения вероятностей за . Номер проекций, необходимых для различения орбиты, индуцированные изображения, с точностью до (и с уверенностью ) является , куда - универсальная постоянная.

Для классификации изображения можно использовать следующий «рецепт»:

  1. Запомните набор изображений / объектов, называемых шаблонами;
  2. Запомните наблюдаемые преобразования для каждого шаблона;
  3. Вычислить скалярные произведения его преобразований с изображением;
  4. Вычислить гистограмму полученных значений, названную подпись изображения;
  5. Сравните полученную гистограмму с сохраненными в памяти сигнатурами.

Оценки таких одномерных функций плотности вероятности (PDF) в терминах гистограмм можно записать как , куда представляет собой набор нелинейных функций. Эти одномерные распределения вероятностей могут быть охарактеризованы гистограммами N-бина или набором статистических моментов. Например, HMAX представляет архитектуру, в которой пул выполняется с максимальной операцией.

Некомпактные группы преобразований

В «рецепте» классификации изображений группы преобразований аппроксимируются конечным числом преобразований. Такое приближение возможно только тогда, когда группа компактный.

Такие группы, как все трансляции и все масштабирования изображения, не являются компактными, поскольку они допускают сколь угодно большие преобразования. Однако они локально компактный. Для локально компактных групп инвариантность достижима в определенном диапазоне преобразований.[2]

Предположить, что это подмножество преобразований из для которых преобразованные шаблоны существуют в памяти. Для изображения и шаблон , предположить, что равен нулю всюду, кроме некоторого подмножества . Это подмножество называется поддерживать из и обозначается как . Можно доказать, что если для преобразования , набор опор также будет находиться в пределах , затем подпись инвариантен относительно .[2] Эта теорема определяет диапазон преобразований, для которых гарантирована инвариантность.

Видно, что чем меньше , тем больше диапазон преобразований, для которых гарантирована инвариантность. Это означает, что для группы, которая компактна только локально, не все шаблоны больше будут работать одинаково хорошо. Предпочтительными являются шаблоны с достаточно маленьким для общего изображения. Это свойство называется локализацией: шаблоны чувствительны только к изображениям в небольшом диапазоне преобразований. Обратите внимание, что хотя не является абсолютно необходимым для работы системы, это улучшает приближение инвариантности. Требование локализации одновременно для перевода и масштабирования дает очень специфический вид шаблонов: Функции Габора.[2]

Желательность настраиваемых шаблонов для некомпактной группы противоречит принципу обучения инвариантным представлениям. Однако для некоторых видов регулярно встречающихся преобразований изображений шаблоны могут быть результатом эволюционной адаптации. Нейробиологические данные свидетельствуют о том, что в первом слое зрительной коры есть настройка, подобная Габору.[5] Оптимальность шаблонов Gabor для переводов и шкал - возможное объяснение этого явления.

Негрупповые преобразования

Многие интересные преобразования изображений не образуют групп. Например, преобразования изображений, связанные с трехмерным вращением соответствующего трехмерного объекта, не образуют группу, потому что невозможно определить обратное преобразование (два объекта могут выглядеть одинаково с одного угла, но по-разному - с другого). Однако приближенная инвариантность все еще достижима даже для негрупповых преобразований, если выполняется условие локализации для шаблонов и преобразование может быть локально линеаризовано.

Как было сказано в предыдущем разделе, для конкретного случая переводов и масштабирования условие локализации может быть выполнено с помощью общих шаблонов Gabor. Однако для общего (негруппового) преобразования условие локализации может выполняться только для определенного класса объектов.[2] В частности, чтобы удовлетворить условию, шаблоны должны быть похожи на объекты, которые нужно распознать. Например, если кто-то хочет создать систему для распознавания трехмерных повернутых граней, нужно использовать другие трехмерные повернутые грани в качестве шаблонов. Это может объяснить существование в мозгу таких специализированных модулей, как один, ответственный за распознавание лица.[2] Даже с настраиваемыми шаблонами для локализации необходимо кодирование изображений и шаблонов, похожее на шум. Это может быть естественно достигнуто, если негрупповое преобразование обрабатывается на любом уровне, кроме первого в иерархической архитектуре распознавания.

Иерархические архитектуры

В предыдущем разделе предлагается одна мотивация для иерархических архитектур распознавания изображений. Однако у них есть и другие преимущества.

Во-первых, иерархические архитектуры лучше всего достигают цели «анализа» сложной визуальной сцены с множеством объектов, состоящих из многих частей, относительное положение которых может сильно различаться. В этом случае разные элементы системы должны реагировать на разные предметы и части. В иерархической архитектуре представления частей на разных уровнях иерархии внедрения могут храниться на разных уровнях иерархии.

Во-вторых, иерархические архитектуры, которые имеют инвариантные представления для частей объектов, могут облегчить изучение сложных композиционных концепций. Это облегчение может происходить путем повторного использования заученных представлений частей, которые были созданы ранее в процессе изучения других концепций. В результате примерная сложность изучения композиционных концепций может быть значительно снижена.

Наконец, иерархические архитектуры лучше переносят беспорядок. Проблема беспорядка возникает, когда целевой объект находится на неоднородном фоне, который действует как отвлекающий фактор для визуальной задачи. Иерархическая архитектура предоставляет подписи для частей целевых объектов, которые не включают части фона и не подвержены изменениям фона.[6]

В иерархической архитектуре один уровень не обязательно инвариантен ко всем преобразованиям, которые обрабатываются иерархией в целом. Некоторые преобразования могут проходить через этот уровень на верхние уровни, как в случае негрупповых преобразований, описанных в предыдущем разделе. Для других преобразований элемент слоя может создавать инвариантные представления только в пределах небольшого диапазона преобразований. Например, элементы нижних уровней иерархии имеют небольшое поле зрения и, таким образом, могут обрабатывать только небольшой диапазон перевода. Для таких преобразований слой должен обеспечивать ковариантный а не неизменные подписи. Свойство ковариантности можно записать как , куда это слой, - подпись изображения на этом слое, и означает «распределение значений выражения для всех ".

Отношение к биологии

М-теория основана на количественной теории вентрального потока зрительной коры.[7][8] Понимание того, как работает зрительная кора при распознавании объектов, по-прежнему остается сложной задачей для нейробиологии. Люди и приматы способны запоминать и распознавать объекты, увидев всего пару примеров, в отличие от любых современных систем машинного зрения, которые обычно требуют большого количества данных для распознавания объектов. До того, как использование визуальной нейробиологии в компьютерном зрении ограничивалось ранним зрением для получения стереоалгоритмов (например,[9]) и для обоснования использования фильтров DoG (производная от Гаусса), а в последнее время и фильтров Габора.[10][11] Никакого реального внимания не было уделено биологически вероятным характеристикам более высокой сложности. Хотя массовое компьютерное зрение всегда вдохновлялось и бросало вызов человеческому зрению, похоже, оно никогда не продвигалось дальше самых первых этапов обработки в простых ячейках в V1 и V2. Хотя некоторые из систем, вдохновленных - в разной степени - нейробиологией, были протестированы по крайней мере на некоторых естественных изображениях, нейробиологические модели распознавания объектов в коре головного мозга еще не были расширены для работы с базами данных изображений реального мира.[12]

Обучающая среда M-теории использует новую гипотезу об основной вычислительной функции вентрального потока: представление новых объектов / изображений в терминах сигнатуры, которая инвариантна к трансформациям, усвоенным во время визуального опыта. Это позволяет распознавать очень немногие помеченные примеры - в пределах одного.

Нейробиология предполагает, что естественные функционалы, которые нейрон вычисляет, представляют собой многомерное точечное произведение между «фрагментом изображения» и другим фрагментом изображения (называемым шаблоном), которое хранится в терминах синаптических весов (синапсов на нейрон). Стандартная вычислительная модель нейрона основана на скалярном произведении и пороге. Еще одна важная особенность зрительной коры - то, что она состоит из простых и сложных клеток. Первоначально эта идея была предложена Хьюбелом и Визелем.[9] М-теория использует эту идею. Простые ячейки вычисляют точечные произведения изображения и преобразования шаблонов за ( - количество простых ячеек). Сложные ячейки отвечают за объединение и вычисление эмпирических гистограмм или их статистических моментов. Следующая формула построения гистограммы может быть вычислена нейронами:

куда гладкая версия ступенчатой ​​функции, ширина ячейки гистограммы, а номер корзины.

Приложения

Приложения к компьютерному зрению

В[требуется разъяснение ][13][14] Авторы применили М-теорию для распознавания лиц на естественных фотографиях. В отличие от метода DAR (обнаружение, выравнивание и распознавание), который обрабатывает беспорядок, обнаруживая объекты и обрезая их близко к ним, так что остается очень мало фона, этот подход выполняет обнаружение и выравнивание неявно, сохраняя преобразования обучающих изображений (шаблонов), а не явно обнаружение и выравнивание или обрезка лиц во время тестирования. Эта система построена в соответствии с принципами недавней теории инвариантности в иерархических сетях и может избежать проблемы беспорядка, которая обычно проблематична для систем с прямой связью. Полученная в результате сквозная система обеспечивает резкое улучшение состояния техники в этой сквозной задаче, достигая того же уровня производительности, что и лучшие системы, работающие с выровненными, близко обрезанными изображениями (без внешних обучающих данных) . Он также хорошо работает с двумя новыми наборами данных, аналогичными LFW, но более сложными: версия LFW и SUFR-W со значительным дрожанием (смещением) (например, точность модели в категории LFW «невыровненные и внешние данные не используются» составляет 87,55 ± 1,41% по сравнению с современным APEM (адаптивное вероятностное согласование упругости): 81,70 ± 1,78%).

Теория также применялась к ряду задач распознавания: от инвариантного распознавания одиночных объектов в беспорядке до задач мультиклассовой категоризации на общедоступных наборах данных (CalTech5, CalTech101, MIT-CBCL) и сложных (уличных) задач понимания сцены, требующих распознавания объекты как на основе формы, так и на основе текстуры (на основе набора данных StreetScenes).[12] Подход работает очень хорошо: он способен учиться только на нескольких обучающих примерах и, как было показано, превосходит несколько более сложных современных моделей созвездий систем, иерархическую систему обнаружения лиц на основе SVM. Ключевым элементом подхода является новый набор детекторов признаков, толерантных к масштабу и положению, которые биологически правдоподобны и количественно согласуются со свойствами настройки клеток вдоль вентрального потока зрительной коры. Эти функции адаптируются к обучающему набору, хотя мы также показываем, что универсальный набор функций, извлеченный из набора естественных изображений, не связанных с какой-либо задачей категоризации, также обеспечивает хорошую производительность.

Приложения для распознавания речи

Эту теорию также можно распространить на область распознавания речи.[15] Было предложено расширение теории неконтролируемого обучения инвариантным визуальным представлениям на слуховую область и эмпирическую оценку ее применимости для классификации звуков голосовой речи. Авторы эмпирически продемонстрировали, что однослойное представление на уровне телефона, извлеченное из базовых речевых характеристик, повышает точность классификации сегментов и уменьшает количество обучающих примеров по сравнению со стандартными спектральными и кепстральными функциями для задачи акустической классификации на наборе данных TIMIT.[16]

Рекомендации

  1. ^ Серр Т., Олива А., Поджио Т. (2007) Архитектура с прямой связью обеспечивает быструю категоризацию. PNAS, т. 104, нет. 15. С. 6424-6429.
  2. ^ а б c d е ж Ф. Ансельми, Дж. З. Лейбо, Л. Росаско, Дж. Матч, А. Таккетти, Т. Поджио (2014) Неконтролируемое обучение инвариантных представлений в иерархических архитектурах Препринт arXiv arXiv: 1311.4158
  3. ^ Х. Шульц-Мирбах. Построение инвариантных признаков методами усреднения. В распознавании образов, 1994. Vol. 2 - Конференция B: Computer Vision amp; Обработка изображений., Труды 12-й Международной ассоциации журналистов. Конференция, том 2, страницы 387–390, том 2, 1994.
  4. ^ Х. Крамер и Х. Уолд. Некоторые теоремы о функциях распределения. J. London Math. Soc., 4: 290–294, 1936.
  5. ^ Ф. Ансельми, Дж. З. Лейбо, Л. Розаско, Дж. Мутч, А. Таккетти, Т. Поджио (2013) Волшебные материалы: теория глубокой иерархической архитектуры для изучения сенсорных представлений. Документ CBCL, Массачусетский технологический институт, Кембридж, Массачусетс
  6. ^ Ляо К., Лейбо Дж., Мруэ Ю., Поджио Т. (2014) Может ли биологически правдоподобная иерархия эффективно заменить конвейеры обнаружения, выравнивания и распознавания лиц? Меморандум CBMM № 003, Массачусетский технологический институт, Кембридж, Массачусетс
  7. ^ М. Ризенхубер и Т. Поджио Иерархические модели распознавания объектов в коре (1999) Nature Neuroscience, т. 2, вып. 11. С. 1019-1025, 1999.
  8. ^ Т. Серр, М. Кох, К. Кадье, У. Кноблих, Г. Крейман и Т. Поджио (2005) Теория распознавания объектов: вычисления и схемы на прямом пути вентрального потока в зрительной коре приматов Записка AI 2005-036 / Записка CBCL 259, Massachusetts Inst. технологий, Кембридж.
  9. ^ а б Д.Х. Хьюбел, Т. Визель (1962) Рецептивные поля, бинокулярное взаимодействие и функциональная архитектура зрительной коры головного мозга кошки Журнал физиологии 160.
  10. ^ Д. Габор (1946) Теория коммуникации J. IEE, т. 93, стр. 429-459.
  11. ^ Дж. П. Джонс и Л. А. Палмер (1987) Оценка двумерной модели фильтра Габора простых рецептивных полей в полосатой коре головного мозга кошки J. Neurophysiol., Vol. 58, стр. 1233-1258.
  12. ^ а б Томас Серр, Лиор Вольф, Стэнли Билески, Максимилиан Ризенхубер и Томазо Поджио (2007) Надежное распознавание объектов с помощью механизмов, подобных кортексу IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL. 29, NO. 3
  13. ^ Цяньли Ляо, Джоэл З. Лейбо, Юсеф Мруэ, Томазо Поджио (2014) Может ли биологически правдоподобная иерархия эффективно заменить конвейеры обнаружения, выравнивания и распознавания лиц? Меморандум CBMM № 003
  14. ^ Цяньли Ляо, Джоэл З. Лейбо и Томазо Поджио (2014) Изучение инвариантных представлений и приложений для проверки лицом к лицу НИПС 2014
  15. ^ Георгиос Эвангелопулос, Стивен Войнеа, Чиюан Чжан, Лоренцо Росаско, Томазо Поджио (2014) Изучение инвариантного речевого представления Меморандум CBMM № 022
  16. ^ https://catalog.ldc.upenn.edu/LDC93S1