Воспроизведение ядра гильбертова пространства - Reproducing kernel Hilbert space

На рисунке показаны связанные, но разные подходы к просмотру RKHS.

В функциональный анализ (филиал математика ), а воспроизводящее ядро ​​гильбертова пространства (РХС) это Гильбертово пространство функций, в которых точечная оценка является непрерывной линейной функциональный. Грубо говоря, это означает, что если две функции и в РХС близки по норме, т.е. маленький, то и также поточечно близки, т.е. мал для всех . Обратное не обязательно.

Не совсем просто построить гильбертово пространство функций, которое не является RKHS.[1] Обратите внимание, что L2 пробелы не являются гильбертовыми пространствами функций (и, следовательно, не RKHS), а скорее гильбертовыми пространствами классов эквивалентности функций (например, функций и определяется и эквивалентны в L2). Однако есть РКХС, в которых норма L2-norm, например, пространство функций с ограниченной полосой пропускания (см. пример ниже).

RKHS связан с ядром, которое воспроизводит каждую функцию в пространстве в том смысле, что для любого в наборе, на котором определены функции, "оценка на "можно выполнить, взяв внутренний продукт с функцией, определяемой ядром. Такой воспроизводящее ядро существует тогда и только тогда, когда каждый оценочный функционал непрерывен.

Воспроизводящее ядро ​​было впервые представлено в 1907 г. Станислав Заремба что касается краевые задачи для гармонический и бигармонические функции. Джеймс Мерсер одновременно исследовал функции которые удовлетворяют воспроизводящему свойству в теории интегральные уравнения. Идея воспроизводящего ядра оставалась нетронутой в течение почти двадцати лет, пока не появилась в диссертациях Габор Сегу, Стефан Бергман, и Саломон Бохнер. В конечном итоге этот предмет систематически развивался в начале 1950-х годов. Нахман Ароншайн и Стефан Бергман.[2]

Эти пространства имеют широкое применение, в том числе комплексный анализ, гармонический анализ, и квантовая механика. Воспроизводящие ядерные гильбертовы пространства особенно важны в области теория статистического обучения из-за знаменитого теорема о представителе в котором говорится, что каждая функция в RKHS, которая минимизирует функционал эмпирического риска, может быть записана как линейная комбинация функции ядра, оцененной в точках обучения. Это практически полезный результат, поскольку он эффективно упрощает минимизация эмпирического риска Задача от бесконечномерной к конечномерной задаче оптимизации.

Для простоты понимания мы предоставляем основу для вещественнозначных гильбертовых пространств. Теория может быть легко расширена на пространства комплекснозначных функций и, следовательно, включает в себя множество важных примеров воспроизведения ядерных гильбертовых пространств, которые являются пространствами аналитические функции.[3]

Определение

Позволять быть произвольным набор и а Гильбертово пространство из действительные функции на . В оценка функционал над гильбертовым пространством функций - линейный функционал, оценивающий каждую функцию в точке ,

Мы говорим что ЧАС это воспроизводящее ядро ​​гильбертова пространства если для всех в , является непрерывный в любом в или, что то же самое, если это ограниченный оператор на , т.е. существует некая M> 0 такой, что

 

 

 

 

(1)

Пока свойство (1) является самым слабым условием, которое обеспечивает как существование внутреннего продукта, так и оценку каждой функции в в каждой точке предметной области он не поддается легкому применению на практике. Более интуитивное определение RKHS можно получить, заметив, что это свойство гарантирует, что функционал оценки может быть представлен путем взятия внутреннего произведения с функцией в . Эта функция так называемая воспроизводящее ядро для гильбертова пространства отсюда и название РКХС. Более формально Теорема Рисса о представлении означает, что для всех в существует уникальный элемент из с воспроизводящим свойством,

 

 

 

 

(2)

поскольку сам является функцией, определенной на со значениями в поле (или в случае комплексных гильбертовых пространств) и как в у нас есть это

где это элемент в связаны с .

Это позволяет нам определить воспроизводящее ядро как функция от

Из этого определения легко увидеть, что (или в сложном случае) одновременно симметрична (соответственно полуторалинейная) и положительно определенный, т.е.

для любого [4] Теорема Мура – ​​Ароншайна (см. Ниже) является чем-то вроде обратного к этому: если функция удовлетворяет этим условиям, то существует гильбертово пространство функций на для которого это воспроизводящее ядро.

пример

Пространство ограниченный диапазон непрерывные функции это RKHS, как мы сейчас показываем. Формально исправить некоторые частота среза и определим гильбертово пространство

где - множество непрерывных функций, а это преобразование Фурье из .

От Теорема обращения Фурье, у нас есть

Затем следует Неравенство Коши – Шварца и Теорема Планшереля это для всех ,

Это неравенство показывает ограниченность оценочного функционала, доказывая, что это действительно РКХС.

Функция ядра в этом случае дается

Чтобы убедиться в этом, сначала отметим, что преобразование Фурье определенное выше дается

что является следствием свойство сдвига во времени преобразования Фурье. Следовательно, используя Теорема Планшереля, у нас есть

Таким образом, мы получаем воспроизводящее свойство ядра.

Обратите внимание, что в данном случае это "версия с ограничением полосы пропускания" Дельта-функция Дирака, и это сходится к в слабом смысле как частота среза стремится к бесконечности.

Теорема Мура – ​​Ароншайна.

Мы видели, как гильбертово пространство воспроизводящего ядра определяет функцию воспроизводящего ядра, которая одновременно является симметричной и положительно определенный. Теорема Мура – ​​Ароншайна идет в другом направлении; он утверждает, что каждое симметричное, положительно определенное ядро ​​определяет уникальное воспроизводящее ядро ​​гильбертова пространство. Теорема впервые появилась в работе Ароншайна. Теория воспроизводства ядер, хотя он приписывает это Э. Х. Мур.

Теорема. Предположим K является симметричным, положительно определенное ядро на съемочной площадке Икс. Тогда существует единственное гильбертово пространство функций на Икс для которого K воспроизводящее ядро.

Доказательство. Для всех Икс в Икс, определить KИкс = K(Икс, ⋅). Позволять ЧАС0 - линейная оболочка {KИкс : ИксИкс}. Определите внутренний продукт на ЧАС0 от

что подразумевает .Симметрия этого внутреннего произведения следует из симметрии K а невырожденность следует из того, что K положительно определен.

Позволять ЧАС быть завершение из ЧАС0 относительно этого внутреннего продукта. потом ЧАС состоит из функций вида

Теперь мы можем проверить воспроизводящее свойство (2):

Чтобы доказать единственность, пусть г - другое гильбертово пространство функций, для которого K воспроизводящее ядро. Для любого Икс и у в Икс, (2) следует, что

По линейности на промежутке . потом потому что г полный и содержит ЧАС0 и, следовательно, содержит его завершение.

Теперь нам нужно доказать, что каждый элемент г в ЧАС. Позволять быть элементом г. поскольку ЧАС является замкнутым подпространством в г, мы можем написать где и . Сейчас если тогда, поскольку K воспроизводящее ядро г и ЧАС:

где мы использовали тот факт, что принадлежит ЧАС так что его внутренний продукт с в г равен нулю, что показывает, что в г и завершаем доказательство.

Интегральные операторы и теорема Мерсера

Мы можем охарактеризовать симметричное положительно определенное ядро через интегральный оператор, используя Теорема Мерсера и получить дополнительное представление о РХС. Позволять - компактное пространство со строго положительным конечным Мера Бореля и непрерывная, симметричная и положительно определенная функция. Определим интегральный оператор так как

где - пространство функций, суммируемых с квадратом относительно .

Теорема Мерсера утверждает, что спектральное разложение интегрального оператора из дает представление в виде ряда через собственные значения и собственные функции . Отсюда следует, что является воспроизводящим ядром, так что соответствующий RKHS может быть определен в терминах этих собственных значений и собственных функций. Подробности приводим ниже.

При этих предположениях компактный, непрерывный, самосопряженный и положительный оператор. В спектральная теорема для самосопряженных операторов следует, что существует не более чем счетная убывающая последовательность такой, что и, где образуют ортонормированный базис . По положительности для всех Можно также показать, что непрерывно отображается в пространство непрерывных функций и поэтому мы можем выбрать в качестве собственных векторов непрерывные функции, т. е. для всех Тогда по теореме Мерсера можно записать в терминах собственных значений и непрерывных собственных функций как

для всех такой, что

Это представление серии выше называется ядром Мерсера или представлением Мерсера .

Кроме того, можно показать, что RKHS из дан кем-то

где внутренний продукт данный

Такое представление RKHS имеет применение в области вероятности и статистики, например, в Представительство Karhunen-Loève для случайных процессов и ядро PCA.

Карты характеристик

А карта характеристик это карта , где является гильбертовым пространством, которое мы будем называть пространством признаков. В первых разделах была представлена ​​связь между ограниченными / непрерывными оценочными функциями, положительно определенными функциями и интегральными операторами, а в этом разделе мы даем другое представление RKHS в терминах карт характеристик.

Сначала отметим, что каждая карта функций определяет ядро ​​через

 

 

 

 

(3)

Ясно является симметричным, а положительная определенность следует из свойств скалярного произведения в . И наоборот, каждая положительно определенная функция и соответствующее воспроизводящее ядро ​​гильбертова пространство имеет бесконечно много связанных отображений признаков, таких что (3) имеет место.

Например, мы можем тривиально взять и для всех . Потом (3) удовлетворяется воспроизводящим свойством. Другой классический пример карты признаков относится к предыдущему разделу, касающемуся интегральных операторов, взяв и .

Эта связь между ядрами и картами функций дает нам новый способ понять положительно определенные функции и, следовательно, воспроизводить ядра как внутренние продукты в . Более того, каждая карта признаков может естественным образом определять RKHS посредством определения положительно определенной функции.

Наконец, карты характеристик позволяют нам создавать функциональные пространства, раскрывающие другую перспективу RKHS. Рассмотрим линейное пространство

Мы можем определить норму на от

Можно показать, что является RKHS с ядром, определенным . Это представление подразумевает, что элементы RKHS являются внутренними продуктами элементов в пространстве признаков и, соответственно, могут рассматриваться как гиперплоскости. Этот взгляд на РКХС связан с трюк с ядром в машинном обучении.[5]

Свойства

Читателям могут быть полезны следующие свойства RKHS.

  • Позволять последовательность множеств и - набор соответствующих положительно определенных функций на Отсюда следует, что
это ядро ​​на
  • Позволять то ограничение к также является воспроизводящим ядром.
  • Рассмотрим нормализованное ядро такой, что для всех . Определим псевдометрику на X как
.
Посредством Неравенство Коши – Шварца,
Это неравенство позволяет нам рассматривать как мера сходства между входами. Если похожи тогда будет ближе к 1, а если непохожи тогда будет ближе к 0.
  • Закрытие пролета совпадает с .[6]

Общие примеры

Билинейные ядра

РХС этому ядру соответствует дуальное пространство, состоящее из функций удовлетворение

Полиномиальные ядра

Ядра радиальных базисных функций

Это еще один общий класс ядер, удовлетворяющих Вот некоторые примеры:

  • Гауссовский или квадратное экспоненциальное ядро:
  • Ядро лапласа:
Квадрат нормы функции в РХС с этим ядром это:[7]
.

Ядра Бергмана

Мы также приводим примеры Ядра Бергмана. Позволять Икс быть конечным и пусть ЧАС состоят из всех комплексных функций на Икс. Тогда элемент ЧАС можно представить в виде массива комплексных чисел. Если обычный внутренний продукт используется, то KИкс - функция, значение которой равно 1 при Икс и 0 везде, и можно рассматривать как единичную матрицу, поскольку

В таком случае, ЧАС изоморфен

Случай (где обозначает единичный диск ) более сложный. Здесь Пространство Бергмана это пространство интегрируемый с квадратом голоморфные функции на Можно показать, что воспроизводящее ядро ​​для является

Наконец, пространство полосно-ограниченных функций в с пропускной способностью РХС с воспроизводящим ядром

Расширение на вектор-функции

В этом разделе мы расширяем определение RKHS на пространства векторных функций, поскольку это расширение особенно важно в многозадачное обучение и регуляризация многообразия. Основное отличие состоит в том, что воспроизводящее ядро является симметричной функцией, которая теперь является положительно полуопределенной матрица для любого в . Более формально, мы определяем вектор-RKHS (vvRKHS) как гильбертово пространство функций такой, что для всех и

и

Это второе свойство аналогично воспроизводящему свойству для скалярнозначного случая. Отметим, что это определение также может быть связано с интегральными операторами, ограниченными оценочными функциями и отображениями признаков, как мы видели для скалярнозначного RKHS. Мы можем эквивалентным образом определить vvRKHS как векторное гильбертово пространство с ограниченным оценивающим функционалом и показать, что это влечет существование единственного воспроизводящего ядра по теореме о представлении Рисса. Теорема Мерсера также может быть расширена, чтобы обратиться к векторной настройке, и поэтому мы можем получить представление карты функций vvRKHS. Наконец, можно также показать, что закрытие промежутка совпадает с , еще одно свойство, аналогичное скалярному случаю.

Мы можем получить интуицию относительно vvRKHS, покомпонентно рассматривая эти пространства. В частности, мы находим, что каждый vvRKHS изометрически изоморфный к скалярнозначному RKHS на конкретном входном пространстве. Позволять . Рассмотрим пространство и соответствующее воспроизводящее ядро

 

 

 

 

(4)

Как отмечалось выше, RKHS, связанный с этим воспроизводящим ядром, задается закрытием диапазона где для каждого набора пар .

Связь со скалярнозначным RKHS тогда может быть сделана тем фактом, что каждое матричнозначное ядро ​​можно отождествить с ядром вида (4) через

Более того, каждое ядро ​​вида (4) определяет матричное ядро ​​с указанным выше выражением. Теперь позволяя карте быть определенным как

где это компонент канонической основы , можно показать, что биективен и изометрия между и .

Хотя этот взгляд на vvRKHS может быть полезен при многозадачном обучении, эта изометрия не сводит изучение случая векторных значений к случаю скалярных значений. Фактически, эта процедура изометрии может сделать как скалярное ядро, так и пространство ввода слишком сложными для практической работы, поскольку свойства исходных ядер часто теряются.[8][9][10]

Важным классом матричнозначных воспроизводящих ядер являются отделяемый ядра, которые можно разложить на множители как произведение скалярнозначного ядра и -мерная симметричная положительно полуопределенная матрица. В свете нашего предыдущего обсуждения эти ядра имеют вид

для всех в и в . Поскольку скалярное ядро ​​кодирует зависимости между входами, мы можем наблюдать, что матричное ядро ​​кодирует зависимости между входами и выходами.

Наконец, отметим, что вышеупомянутая теория может быть расширена на пространства функций со значениями в функциональных пространствах, но получение ядер для этих пространств является более сложной задачей.[11]


Связь между RKHS с функцией ReLU

В Функция ReLU обычно определяется как и является основой архитектуры нейронных сетей, где он используется как функция активации. Можно построить ReLU-подобную нелинейную функцию, используя теорию воспроизводящих ядерных гильбертовых пространств. Ниже мы выводим эту конструкцию и показываем, как она подразумевает репрезентативную мощность нейронных сетей с активациями ReLU.

Мы будем работать с гильбертовым пространством абсолютно непрерывных функций с внутренним продуктом

.

Позволять и . Начнем с построения воспроизводящего ядра с помощью фундаментальной теоремы исчисления,

где

и

Из этого следует воспроизводит , и мы можем записать его общий вид как

Взяв предел , получаем функцию ReLU,

Используя эту формулировку, мы можем применить Теорема о представителях в RKHS, позволив доказать оптимальность использования ReLU-активаций в настройках нейросети.

Смотрите также

Заметки

  1. ^ Алпей Д. и Т. М. Миллс. «Семейство гильбертовых пространств, не воспроизводящих ядерных гильбертовых пространств». J. Anal. Appl. 1.2 (2003): 107–111.
  2. ^ Окутмустур
  3. ^ Полсон
  4. ^ Durrett
  5. ^ Росаско
  6. ^ Росаско
  7. ^ Берлинет, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в теории вероятностей и статистики, Kluwer Academic Publishers, 2004 г.
  8. ^ Де Вито
  9. ^ Чжан
  10. ^ Альварес
  11. ^ Росаско

использованная литература

  • Альварес, Маурисио, Росаско, Лоренцо и Лоуренс, Нил, «Ядра для векторно-значных функций: обзор», https://arxiv.org/abs/1106.6251, Июнь 2011 г.
  • Ароншайн, Нахман (1950). «Теория воспроизводства ядер». Труды Американского математического общества. 68 (3): 337–404. Дои:10.1090 / S0002-9947-1950-0051437-7. JSTOR  1990404. Г-Н  0051437.
  • Берлинет, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в теории вероятностей и статистики, Kluwer Academic Publishers, 2004.
  • Кукер, Фелипе; Смейл, Стив (2002). «О математических основах обучения». Бюллетень Американского математического общества. 39 (1): 1–49. Дои:10.1090 / S0273-0979-01-00923-5. Г-Н  1864085.
  • Де Вито, Эрнест, Уманита, Вероника и Вилла, Сильвия. «Распространение теоремы Мерсера на векторнозначные измеримые ядра», arXiv:1110.4017, Июнь 2013.
  • Дарретт, Грег. 9. 520 Курсовые заметки, Массачусетский технологический институт, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf, Февраль 2010 г.
  • Кимелдорф, Джордж; Вахба, Грейс (1971). "Некоторые результаты о чебичефских сплайн-функциях" (PDF). Журнал математического анализа и приложений. 33 (1): 82–95. Дои:10.1016 / 0022-247X (71) 90184-3. Г-Н  0290013.
  • Окутмустур, Бавер. «Воспроизведение ядерных гильбертовых пространств», М.С. диссертации, Билькентский университет, http://www.thesis.bilkent.edu.tr/0002953.pdf, Август 2005 г.
  • Паульсен, Верн. «Введение в теорию воспроизводящих ядерных гильбертовых пространств», http://www.math.uh.edu/~vern/rkhs.pdf.
  • Стейнварт, Инго; Сковел, Клинт (2012). «Теорема Мерсера об общих областях: о взаимодействии между мерами, ядрами и RKHS». Констр. Приблизительно. 35 (3): 363–417. Дои:10.1007 / s00365-012-9153-3. Г-Н  2914365.
  • Росаско, Лоренцо и Поджио, Томас. Рукопись «Регуляризационный тур по машинному обучению - MIT 9.520», декабрь 2014 г.
  • Вахба, Грейс, Сплайновые модели для данных наблюдений, СИАМ, 1990.
  • Чжан, Хайчжан; Сюй Юешэн; Чжан, Цинхуэй (2012). «Доработка операторских воспроизводящих ядер» (PDF). Журнал исследований в области машинного обучения. 13: 91–136.