Метод ядра - Kernel method

В машинное обучение, ядерные машины представляют собой класс алгоритмов для анализ паттернов, самым известным участником которого является Машина опорных векторов (SVM). Общая задача анализ паттернов найти и изучить общие типы отношений (например, кластеры, рейтинги, основные компоненты, корреляции, классификации ) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные в необработанном представлении должны быть явно преобразованы в вектор признаков представления через указанный пользователем карта характеристик: напротив, методы ядра требуют только указанного пользователем ядро, т.е. функция подобия над парами точек данных в необработанном представлении.

Методы ядра получили свое название от использования функции ядра, которые позволяют им работать в многомерном, скрытый пространство функций без вычисления координат данных в этом пространстве, а просто вычисляя внутренние продукты между изображений всех пар данных в пространстве функций. Эта операция часто бывает дешевле в вычислительном отношении, чем явное вычисление координат. Такой подход называется "трюк с ядром".^[1] Функции ядра были введены для данных последовательности, графики, текст, изображения, а также векторы.

Алгоритмы, способные работать с ядрами, включают перцептрон ядра, опорные векторные машины (SVM), Гауссовские процессы, анализ основных компонентов (PCA), канонический корреляционный анализ, регресс гребня, спектральная кластеризация, линейные адаптивные фильтры и много других. Любой линейная модель можно превратить в нелинейную модель, применив к модели трюк с ядром: заменив ее свойства (предикторы) на функцию ядра.^{[нужна цитата ]}

Большинство алгоритмов ядра основаны на выпуклая оптимизация или же собственные проблемы и являются статистически обоснованными. Обычно их статистические свойства анализируются с использованием теория статистического обучения (например, используя Радемахерская сложность ).

Мотивация и неформальное объяснение

Методы ядра можно рассматривать как обучающиеся на основе экземпляров: вместо того, чтобы изучать некоторый фиксированный набор параметров, соответствующий характеристикам их входных данных, они вместо этого "запоминают" ${ displaystyle i}$ -й обучающий пример ${ Displaystyle ( mathbf {х} _ {я}, у_ {я})}$ и узнать для него соответствующий вес ${ displaystyle w_ {i}}$ . Прогнозирование для немаркированных входов, то есть тех, которые не входят в обучающий набор, обрабатывается применением функция подобия ${ displaystyle k}$ , называется ядро, между вводом без метки ${ Displaystyle mathbf {х '}}$ и каждый из обучающих входов ${ Displaystyle mathbf {х} _ {я}}$ . Например, ядро двоичный классификатор обычно вычисляет взвешенную сумму сходств

{ displaystyle { hat {y}} = operatorname {sgn} sum _ {i = 1} ^ {n} w_ {i} y_ {i} k ( mathbf {x} _ {i}, mathbf {Икс'} )}

,

куда

${ displaystyle { hat {y}} in {- 1, + 1 }}$ прогнозируемая метка ядрового двоичного классификатора для немаркированного ввода ${ Displaystyle mathbf {х '}}$ чей скрытый истинный ярлык ${ displaystyle y}$ представляет интерес;
${ Displaystyle к двоеточие { mathcal {X}} times { mathcal {X}} to mathbb {R}}$ это функция ядра, которая измеряет сходство между любой парой входов ${ displaystyle mathbf {x}, mathbf {x '} in { mathcal {X}}}$ ;
сумма колеблется в пределах $п$ помеченные примеры ${ Displaystyle {( mathbf {х} _ {я}, y_ {я}) } _ {я = 1} ^ {п}}$ в обучающей выборке классификатора, с ${ Displaystyle у_ {я} в {- 1, + 1 }}$ ;
в ${ displaystyle w_ {i} in mathbb {R}}$ - веса для обучающих примеров, определенные алгоритмом обучения;
в функция знака ${ displaystyle operatorname {sgn}}$ определяет, соответствует ли предсказанная классификация ${ displaystyle { hat {y}}}$ выходит положительным или отрицательным.

Классификаторы ядра были описаны еще в 1960-х, с изобретением перцептрон ядра.^[2] Они приобрели большую известность с популярностью Машина опорных векторов (SVM) в 1990-х, когда выяснилось, что SVM может конкурировать с нейронные сети по таким задачам, как распознавание почерка.

Математика: трюк с ядром

SVM с ядром в виде φ ((а, б)) = (а, б, а² + б²) и поэтому K(Икс , у) =

{ Displaystyle mathbf {x} cdot mathbf {y} + left | mathbf {x} right | ^ {2} left | mathbf {y} right | ^ {2} }

. Точки обучения отображаются в трехмерном пространстве, где можно легко найти разделяющую гиперплоскость.

Уловка с ядром позволяет избежать явного отображения, которое необходимо для получения линейного алгоритмы обучения чтобы узнать нелинейную функцию или граница решения. Для всех ${ displaystyle mathbf {x}}$ и ${ Displaystyle mathbf {х '}}$ во входном пространстве ${ displaystyle { mathcal {X}}}$ , некоторые функции ${ Displaystyle К ( mathbf {х}, mathbf {х '})}$ можно выразить как внутренний продукт в другом месте ${ Displaystyle { mathcal {V}}}$ . Функция ${ Displaystyle к двоеточие { mathcal {X}} times { mathcal {X}} to mathbb {R}}$ часто называют ядро или функция ядра. Слово «ядро» используется в математике для обозначения весовой функции для взвешенной суммы или интеграл.

Некоторые задачи машинного обучения имеют более сложную структуру, чем произвольная весовая функция. ${ displaystyle k}$ . Вычисления станут намного проще, если ядро можно будет записать в виде «карты характеристик». ${ Displaystyle varphi двоеточие { mathcal {X}} to { mathcal {V}}}$ что удовлетворяет

{ Displaystyle К ( mathbf {x}, mathbf {x '}) = langle varphi ( mathbf {x}), varphi ( mathbf {x'}) rangle _ { mathcal {V} }.}

Ключевое ограничение заключается в том, что ${ Displaystyle langle cdot, cdot rangle _ { mathcal {V}}}$ должен быть правильным внутренним продуктом. С другой стороны, явное представление для ${ displaystyle varphi}$ не нужно, пока ${ Displaystyle { mathcal {V}}}$ является внутреннее пространство продукта. Альтернатива следует из Теорема Мерсера: неявно определенная функция ${ displaystyle varphi}$ существует всякий раз, когда пространство ${ displaystyle { mathcal {X}}}$ может быть оборудован подходящим мера обеспечение функции ${ displaystyle k}$ удовлетворяет Состояние Мерсера.

Теорема Мерсера похожа на обобщение результата из линейной алгебры, что связывает внутренний продукт с любой положительно определенной матрицей. Фактически, условие Мерсера можно свести к этому более простому случаю. Если мы выберем в качестве нашей меры счетная мера ${ Displaystyle му (Т) = | Т |}$ для всех ${ displaystyle T subset X}$ , который считает количество точек внутри множества ${ displaystyle T}$ , то интеграл в теореме Мерсера сводится к суммированию

{ displaystyle sum _ {я = 1} ^ {n} sum _ {j = 1} ^ {n} k ( mathbf {x} _ {i}, mathbf {x} _ {j}) c_ {i} c_ {j} geq 0.}

Если это суммирование выполняется для всех конечных последовательностей точек ${ displaystyle ( mathbf {x} _ {1}, dotsc, mathbf {x} _ {n})}$ в ${ displaystyle { mathcal {X}}}$ и все варианты ${ displaystyle n}$ действительные коэффициенты ${ displaystyle (c_ {1}, dots, c_ {n})}$ (ср. положительно определенное ядро ), то функция ${ displaystyle k}$ удовлетворяет условию Мерсера.

Некоторые алгоритмы, зависящие от произвольных отношений в родном пространстве ${ displaystyle { mathcal {X}}}$ на самом деле будет иметь линейную интерпретацию в другом контексте: в пространстве диапазона ${ displaystyle varphi}$ . Линейная интерпретация дает нам представление об алгоритме. Кроме того, часто нет необходимости вычислять ${ displaystyle varphi}$ непосредственно во время вычисления, как в случае с опорные векторные машины. Некоторые называют это сокращение времени работы основным преимуществом. Исследователи также используют его для обоснования значений и свойств существующих алгоритмов.

Теоретически Матрица Грама ${ Displaystyle mathbf {K} in mathbb {R} ^ {п раз п}}$ относительно ${ displaystyle { mathbf {x} _ {1}, dotsc, mathbf {x} _ {n} }}$ (иногда также называемый "ядерной матрицей"^[3]), куда ${ Displaystyle К_ {ij} = к ( mathbf {x} _ {i}, mathbf {x} _ {j})}$ , должно быть положительный полуопределенный (PSD).^[4] Эмпирически для эвристики машинного обучения выбор функции ${ displaystyle k}$ которые не удовлетворяют условию Мерсера, могут работать разумно, если ${ displaystyle k}$ по крайней мере, приближается к интуитивному представлению о сходстве.^[5] Несмотря на погоду ${ displaystyle k}$ ядро Mercer, ${ displaystyle k}$ все еще может называться «ядром».

Если функция ядра ${ displaystyle k}$ также ковариационная функция как используется в Гауссовские процессы, то матрица Грама ${ displaystyle mathbf {K}}$ также можно назвать ковариационная матрица.^[6]

Приложения

Области применения методов ядра разнообразны и включают геостатистика,^[7] кригинг, обратное взвешивание расстояний, 3D реконструкция, биоинформатика, химиоинформатика, извлечение информации и распознавание почерка.

Смотрите также

дальнейшее чтение

Шоу-Тейлор, Дж.; Кристианини, Н. (2004). Методы ядра для анализа паттернов. Издательство Кембриджского университета.
Liu, W .; Principe, J .; Хайкин, С. (2010). Адаптивная фильтрация ядра: всестороннее введение. Вайли.
Шёлкопф, Б.; Smola, A.J .; Бах, Ф. (2018). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и не только. MIT Press. ISBN 978-0-262-53657-8.

внешняя ссылка

Kernel-Machines Org —Сайт сообщества
www.support-vector-machines.org (Литература, обзор, программное обеспечение, ссылки, связанные с машинами опорных векторов - академический сайт)
Статья о методах ядра onlineprediction.net

[1] Теодоридис, Сергиос (2008). Распознавание образов. Elsevier B.V. p. 203. ISBN 9780080949123.

[2] Айзерман, М. А .; Браверман, Эммануэль М .; Розоноэр, Л. И. (1964). «Теоретические основы метода потенциальных функций в обучении распознаванию образов». Автоматизация и дистанционное управление. 25: 821–837. Цитируется в Гийон, Изабель; Boser, B .; Вапник, Владимир (1993). Автоматическая настройка емкости классификаторов очень больших размеров VC. Достижения в области нейронных систем обработки информации. CiteSeerX 10.1.1.17.7215.

[3] Хофманн, Томас; Шолкопф, Бернхард; Смола, Александр Дж. (2008). «Методы ядра в машинном обучении». Цитировать журнал требует | журнал = (помощь)

[4] Мохри, Мехриар; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения. США, Массачусетс: MIT Press. ISBN 9780262018258.

[5] Сьюэлл, Мартин. «Машины опорных векторов: состояние Мерсера». www.svms.org.

[6] Rasmussen, C.E .; Уильямс, К. К. И. (2006). «Гауссовские процессы для машинного обучения». Цитировать журнал требует | журнал = (помощь)

[7] Honarkhah, M .; Каерс, Дж. (2010). «Стохастическое моделирование паттернов с использованием дистанционного моделирования паттернов». Математические науки о Земле. 42: 487–517. Дои:10.1007 / s11004-010-9276-7.

[1]

[2]

[3]

[4]

[5]

[6]

[7]