Метод ядра - Kernel method

В машинное обучение, ядерные машины представляют собой класс алгоритмов для анализ паттернов, самым известным участником которого является Машина опорных векторов (SVM). Общая задача анализ паттернов найти и изучить общие типы отношений (например, кластеры, рейтинги, основные компоненты, корреляции, классификации ) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные в необработанном представлении должны быть явно преобразованы в вектор признаков представления через указанный пользователем карта характеристик: напротив, методы ядра требуют только указанного пользователем ядро, т.е. функция подобия над парами точек данных в необработанном представлении.

Методы ядра получили свое название от использования функции ядра, которые позволяют им работать в многомерном, скрытый пространство функций без вычисления координат данных в этом пространстве, а просто вычисляя внутренние продукты между изображений всех пар данных в пространстве функций. Эта операция часто бывает дешевле в вычислительном отношении, чем явное вычисление координат. Такой подход называется "трюк с ядром".[1] Функции ядра были введены для данных последовательности, графики, текст, изображения, а также векторы.

Алгоритмы, способные работать с ядрами, включают перцептрон ядра, опорные векторные машины (SVM), Гауссовские процессы, анализ основных компонентов (PCA), канонический корреляционный анализ, регресс гребня, спектральная кластеризация, линейные адаптивные фильтры и много других. Любой линейная модель можно превратить в нелинейную модель, применив к модели трюк с ядром: заменив ее свойства (предикторы) на функцию ядра.[нужна цитата ]

Большинство алгоритмов ядра основаны на выпуклая оптимизация или же собственные проблемы и являются статистически обоснованными. Обычно их статистические свойства анализируются с использованием теория статистического обучения (например, используя Радемахерская сложность ).

Мотивация и неформальное объяснение

Методы ядра можно рассматривать как обучающиеся на основе экземпляров: вместо того, чтобы изучать некоторый фиксированный набор параметров, соответствующий характеристикам их входных данных, они вместо этого "запоминают" -й обучающий пример и узнать для него соответствующий вес . Прогнозирование для немаркированных входов, то есть тех, которые не входят в обучающий набор, обрабатывается применением функция подобия , называется ядро, между вводом без метки и каждый из обучающих входов . Например, ядро двоичный классификатор обычно вычисляет взвешенную сумму сходств

,

куда

  • прогнозируемая метка ядрового двоичного классификатора для немаркированного ввода чей скрытый истинный ярлык представляет интерес;
  • это функция ядра, которая измеряет сходство между любой парой входов ;
  • сумма колеблется в пределах п помеченные примеры в обучающей выборке классификатора, с ;
  • в - веса для обучающих примеров, определенные алгоритмом обучения;
  • в функция знака определяет, соответствует ли предсказанная классификация выходит положительным или отрицательным.

Классификаторы ядра были описаны еще в 1960-х, с изобретением перцептрон ядра.[2] Они приобрели большую известность с популярностью Машина опорных векторов (SVM) в 1990-х, когда выяснилось, что SVM может конкурировать с нейронные сети по таким задачам, как распознавание почерка.

Математика: трюк с ядром

SVM с ядром в виде φ ((а, б)) = (а, б, а2 + б2) и поэтому K(Икс , у) = . Точки обучения отображаются в трехмерном пространстве, где можно легко найти разделяющую гиперплоскость.

Уловка с ядром позволяет избежать явного отображения, которое необходимо для получения линейного алгоритмы обучения чтобы узнать нелинейную функцию или граница решения. Для всех и во входном пространстве , некоторые функции можно выразить как внутренний продукт в другом месте . Функция часто называют ядро или функция ядра. Слово «ядро» используется в математике для обозначения весовой функции для взвешенной суммы или интеграл.

Некоторые задачи машинного обучения имеют более сложную структуру, чем произвольная весовая функция. . Вычисления станут намного проще, если ядро ​​можно будет записать в виде «карты характеристик». что удовлетворяет

Ключевое ограничение заключается в том, что должен быть правильным внутренним продуктом. С другой стороны, явное представление для не нужно, пока является внутреннее пространство продукта. Альтернатива следует из Теорема Мерсера: неявно определенная функция существует всякий раз, когда пространство может быть оборудован подходящим мера обеспечение функции удовлетворяет Состояние Мерсера.

Теорема Мерсера похожа на обобщение результата из линейной алгебры, что связывает внутренний продукт с любой положительно определенной матрицей. Фактически, условие Мерсера можно свести к этому более простому случаю. Если мы выберем в качестве нашей меры счетная мера для всех , который считает количество точек внутри множества , то интеграл в теореме Мерсера сводится к суммированию

Если это суммирование выполняется для всех конечных последовательностей точек в и все варианты действительные коэффициенты (ср. положительно определенное ядро ), то функция удовлетворяет условию Мерсера.

Некоторые алгоритмы, зависящие от произвольных отношений в родном пространстве на самом деле будет иметь линейную интерпретацию в другом контексте: в пространстве диапазона . Линейная интерпретация дает нам представление об алгоритме. Кроме того, часто нет необходимости вычислять непосредственно во время вычисления, как в случае с опорные векторные машины. Некоторые называют это сокращение времени работы основным преимуществом. Исследователи также используют его для обоснования значений и свойств существующих алгоритмов.

Теоретически Матрица Грама относительно (иногда также называемый "ядерной матрицей"[3]), куда , должно быть положительный полуопределенный (PSD).[4] Эмпирически для эвристики машинного обучения выбор функции которые не удовлетворяют условию Мерсера, могут работать разумно, если по крайней мере, приближается к интуитивному представлению о сходстве.[5] Несмотря на погоду ядро Mercer, все еще может называться «ядром».

Если функция ядра также ковариационная функция как используется в Гауссовские процессы, то матрица Грама также можно назвать ковариационная матрица.[6]

Приложения

Области применения методов ядра разнообразны и включают геостатистика,[7] кригинг, обратное взвешивание расстояний, 3D реконструкция, биоинформатика, химиоинформатика, извлечение информации и распознавание почерка.

Популярные ядра

Смотрите также

Рекомендации

  1. ^ Теодоридис, Сергиос (2008). Распознавание образов. Elsevier B.V. p. 203. ISBN  9780080949123.
  2. ^ Айзерман, М. А .; Браверман, Эммануэль М .; Розоноэр, Л. И. (1964). «Теоретические основы метода потенциальных функций в обучении распознаванию образов». Автоматизация и дистанционное управление. 25: 821–837. Цитируется в Гийон, Изабель; Boser, B .; Вапник, Владимир (1993). Автоматическая настройка емкости классификаторов очень больших размеров VC. Достижения в области нейронных систем обработки информации. CiteSeerX  10.1.1.17.7215.
  3. ^ Хофманн, Томас; Шолкопф, Бернхард; Смола, Александр Дж. (2008). «Методы ядра в машинном обучении». Цитировать журнал требует | журнал = (помощь)
  4. ^ Мохри, Мехриар; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения. США, Массачусетс: MIT Press. ISBN  9780262018258.
  5. ^ Сьюэлл, Мартин. «Машины опорных векторов: состояние Мерсера». www.svms.org.
  6. ^ Rasmussen, C.E .; Уильямс, К. К. И. (2006). «Гауссовские процессы для машинного обучения». Цитировать журнал требует | журнал = (помощь)
  7. ^ Honarkhah, M .; Каерс, Дж. (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле. 42: 487–517. Дои:10.1007 / s11004-010-9276-7.

дальнейшее чтение

внешняя ссылка