Воспроизведение ядра гильбертова пространства - Reproducing kernel Hilbert space

На рисунке показаны связанные, но разные подходы к просмотру RKHS.

В функциональный анализ (филиал математика ), а воспроизводящее ядро гильбертова пространства (РХС) это Гильбертово пространство функций, в которых точечная оценка является непрерывной линейной функциональный. Грубо говоря, это означает, что если две функции ${ displaystyle f}$ и ${ displaystyle g}$ в РХС близки по норме, т.е. ${ Displaystyle | е-г |}$ маленький, то ${ displaystyle f}$ и ${ displaystyle g}$ также поточечно близки, т.е. ${ Displaystyle | е (х) -g (х) |}$ мал для всех ${ displaystyle x}$ . Обратное не обязательно.

Не совсем просто построить гильбертово пространство функций, которое не является RKHS.^[1] Обратите внимание, что L² пробелы не являются гильбертовыми пространствами функций (и, следовательно, не RKHS), а скорее гильбертовыми пространствами классов эквивалентности функций (например, функций ${ displaystyle f}$ и ${ displaystyle g}$ определяется ${ displaystyle f (x) = 0}$ и ${ Displaystyle г (х) = 1 _ { mathbb {Q}}}$ эквивалентны в L²). Однако есть РКХС, в которых норма L²-norm, например, пространство функций с ограниченной полосой пропускания (см. пример ниже).

RKHS связан с ядром, которое воспроизводит каждую функцию в пространстве в том смысле, что для любого ${ displaystyle x}$ в наборе, на котором определены функции, "оценка на ${ displaystyle x}$ "можно выполнить, взяв внутренний продукт с функцией, определяемой ядром. Такой воспроизводящее ядро существует тогда и только тогда, когда каждый оценочный функционал непрерывен.

Воспроизводящее ядро было впервые представлено в 1907 г. Станислав Заремба что касается краевые задачи для гармонический и бигармонические функции. Джеймс Мерсер одновременно исследовал функции которые удовлетворяют воспроизводящему свойству в теории интегральные уравнения. Идея воспроизводящего ядра оставалась нетронутой в течение почти двадцати лет, пока не появилась в диссертациях Габор Сегу, Стефан Бергман, и Саломон Бохнер. В конечном итоге этот предмет систематически развивался в начале 1950-х годов. Нахман Ароншайн и Стефан Бергман.^[2]

Эти пространства имеют широкое применение, в том числе комплексный анализ, гармонический анализ, и квантовая механика. Воспроизводящие ядерные гильбертовы пространства особенно важны в области теория статистического обучения из-за знаменитого теорема о представителе в котором говорится, что каждая функция в RKHS, которая минимизирует функционал эмпирического риска, может быть записана как линейная комбинация функции ядра, оцененной в точках обучения. Это практически полезный результат, поскольку он эффективно упрощает минимизация эмпирического риска Задача от бесконечномерной к конечномерной задаче оптимизации.

Для простоты понимания мы предоставляем основу для вещественнозначных гильбертовых пространств. Теория может быть легко расширена на пространства комплекснозначных функций и, следовательно, включает в себя множество важных примеров воспроизведения ядерных гильбертовых пространств, которые являются пространствами аналитические функции.^[3]

Определение

Позволять ${ displaystyle X}$ быть произвольным набор и ${ displaystyle H}$ а Гильбертово пространство из действительные функции на ${ displaystyle X}$ . В оценка функционал над гильбертовым пространством функций ${ displaystyle H}$ - линейный функционал, оценивающий каждую функцию в точке ${ displaystyle x}$ ,

{ displaystyle L_ {x}: f mapsto f (x) { text {}} forall f in H.}

Мы говорим что ЧАС это воспроизводящее ядро гильбертова пространства если для всех ${ displaystyle x}$ в ${ displaystyle X}$ , ${ displaystyle L_ {x}}$ является непрерывный в любом ${ displaystyle f}$ в ${ displaystyle H}$ или, что то же самое, если ${ displaystyle L_ {x}}$ это ограниченный оператор на ${ displaystyle H}$ , т.е. существует некая M> 0 такой, что

{ displaystyle | L_ {x} (f) |: = | f (x) | leq M | f | _ {H} { text {}} forall f in H. ,}

(1)

Пока свойство (1) является самым слабым условием, которое обеспечивает как существование внутреннего продукта, так и оценку каждой функции в ${ displaystyle H}$ в каждой точке предметной области он не поддается легкому применению на практике. Более интуитивное определение RKHS можно получить, заметив, что это свойство гарантирует, что функционал оценки может быть представлен путем взятия внутреннего произведения ${ displaystyle f}$ с функцией ${ displaystyle K_ {x}}$ в ${ displaystyle H}$ . Эта функция так называемая воспроизводящее ядро для гильбертова пространства ${ displaystyle H}$ отсюда и название РКХС. Более формально Теорема Рисса о представлении означает, что для всех ${ displaystyle x}$ в ${ displaystyle X}$ существует уникальный элемент ${ displaystyle K_ {x}}$ из ${ displaystyle H}$ с воспроизводящим свойством,

{ Displaystyle f (x) = L_ {x} (f) = langle f, K_ {x} rangle _ {H} quad forall f in H.}

(2)

поскольку ${ displaystyle K_ {x}}$ сам является функцией, определенной на ${ displaystyle X}$ со значениями в поле ${ Displaystyle mathbb {R}}$ (или ${ Displaystyle mathbb {C}}$ в случае комплексных гильбертовых пространств) и как ${ displaystyle K_ {x}}$ в ${ displaystyle H}$ у нас есть это

{ Displaystyle K_ {x} (y) = L_ {y} (K_ {x}) = langle K_ {x}, K_ {y} rangle _ {H},}

где ${ displaystyle K_ {y} in H}$ это элемент в ${ displaystyle H}$ связаны с ${ displaystyle L_ {y}}$ .

Это позволяет нам определить воспроизводящее ядро ${ displaystyle H}$ как функция ${ displaystyle K: X times X to mathbb {R}}$ от

{ displaystyle K (x, y) = langle K_ {x}, K_ {y} rangle _ {H}.}

Из этого определения легко увидеть, что ${ displaystyle K: X times X to mathbb {R}}$ (или ${ Displaystyle mathbb {C}}$ в сложном случае) одновременно симметрична (соответственно полуторалинейная) и положительно определенный, т.е.

{ displaystyle sum _ {i, j = 1} ^ {n} c_ {i} c_ {j} K (x_ {i}, x_ {j}) = sum _ {i = 1} ^ {n} c_ {i} left langle K_ {x_ {i}}, sum _ {j = 1} ^ {n} c_ {j} K_ {x_ {j}} right rangle _ {H} = left langle sum _ {i = 1} ^ {n} c_ {i} K_ {x_ {i}}, sum _ {j = 1} ^ {n} c_ {j} K_ {x_ {j}} right rangle _ {H} = left | sum _ {i = 1} ^ {n} c_ {i} K_ {x_ {i}} right | _ {H} ^ {2} geq 0 }

для любого ${ displaystyle n in mathbb {N}, x_ {1}, dots, x_ {n} in X, { text {and}} c_ {1}, dots, c_ {n} in mathbb {R}.}$ ^[4] Теорема Мура – Ароншайна (см. Ниже) является чем-то вроде обратного к этому: если функция ${ displaystyle K}$ удовлетворяет этим условиям, то существует гильбертово пространство функций на ${ displaystyle X}$ для которого это воспроизводящее ядро.

пример

Пространство ограниченный диапазон непрерывные функции ${ displaystyle H}$ это RKHS, как мы сейчас показываем. Формально исправить некоторые частота среза ${ Displaystyle 0 <а < infty}$ и определим гильбертово пространство

{ Displaystyle Н = {е в С ( mathbb {R}) | OperatorName {Supp} (F) subset [-a, a] }}

где ${ Displaystyle С ( mathbb {R})}$ - множество непрерывных функций, а ${ Displaystyle F ( omega) = int _ {- infty} ^ { infty} f (t) e ^ {- я omega t} dt}$ это преобразование Фурье из ${ displaystyle f}$ .

От Теорема обращения Фурье, у нас есть

{ displaystyle f (x) = { frac {1} {2 pi}} int _ {- a} ^ {a} F ( omega) e ^ {ix omega} d omega.}

Затем следует Неравенство Коши – Шварца и Теорема Планшереля это для всех ${ displaystyle x}$ ,

{ Displaystyle | е (х) | leq { frac {1} {2 pi}} { sqrt { int _ {- a} ^ {a} 2a | F ( omega) | ^ {2} d omega}} = { frac {1} { pi}} { sqrt {{ frac {a} {2}} int _ {- infty} ^ { infty} | F ( omega) | ^ {2} d omega}} = { sqrt { frac {a} { pi}}} | f | _ {L ^ {2}}.}

Это неравенство показывает ограниченность оценочного функционала, доказывая, что ${ displaystyle H}$ это действительно РКХС.

Функция ядра ${ displaystyle K_ {x}}$ в этом случае дается

{ displaystyle K_ {x} (y) = { frac {a} { pi}} operatorname {sinc} (a (yx)) = { frac { sin (a (yx))} { pi (yx)}}.}

Чтобы убедиться в этом, сначала отметим, что преобразование Фурье ${ displaystyle K_ {x} (y)}$ определенное выше дается

{ displaystyle int _ {- infty} ^ { infty} K_ {x} (y) e ^ {- i omega y} dy = { begin {cases} e ^ {- i omega x} & { text {if}} omega in [-a, a], 0 & { text {if}} { textrm {else}}, end {case}}}

что является следствием свойство сдвига во времени преобразования Фурье. Следовательно, используя Теорема Планшереля, у нас есть

{ displaystyle langle f, K_ {x} rangle _ {L ^ {2}} = int _ {- infty} ^ { infty} f (y) cdot { overline {K_ {x} ( y)}} dy = { frac {1} {2 pi}} int _ {- a} ^ {a} F ( omega) cdot e ^ {i omega x} d omega = f ( Икс).}

Таким образом, мы получаем воспроизводящее свойство ядра.

Обратите внимание, что ${ displaystyle K_ {x}}$ в данном случае это "версия с ограничением полосы пропускания" Дельта-функция Дирака, и это ${ displaystyle K_ {x} (y)}$ сходится к ${ Displaystyle дельта (у-х)}$ в слабом смысле как частота среза ${ displaystyle a}$ стремится к бесконечности.

Теорема Мура – Ароншайна.

Мы видели, как гильбертово пространство воспроизводящего ядра определяет функцию воспроизводящего ядра, которая одновременно является симметричной и положительно определенный. Теорема Мура – Ароншайна идет в другом направлении; он утверждает, что каждое симметричное, положительно определенное ядро определяет уникальное воспроизводящее ядро гильбертова пространство. Теорема впервые появилась в работе Ароншайна. Теория воспроизводства ядер, хотя он приписывает это Э. Х. Мур.

Теорема. Предположим K является симметричным, положительно определенное ядро на съемочной площадке Икс. Тогда существует единственное гильбертово пространство функций на Икс для которого K воспроизводящее ядро.

Доказательство. Для всех Икс в Икс, определить K_Икс = K(Икс, ⋅). Позволять ЧАС₀ - линейная оболочка {K_Икс : Икс ∈ Икс}. Определите внутренний продукт на ЧАС₀ от

{ displaystyle left langle sum _ {j = 1} ^ {n} b_ {j} K_ {y_ {j}}, sum _ {i = 1} ^ {m} a_ {i} K_ {x_ {i}} right rangle _ {H_ {0}} = sum _ {i = 1} ^ {m} sum _ {j = 1} ^ {n} {a_ {i}} b_ {j} K (y_ {j}, x_ {i}),}

что подразумевает ${ displaystyle K (x, y) = left langle K_ {x}, K_ {y} right rangle _ {H_ {0}}}$ .Симметрия этого внутреннего произведения следует из симметрии K а невырожденность следует из того, что K положительно определен.

Позволять ЧАС быть завершение из ЧАС₀ относительно этого внутреннего продукта. потом ЧАС состоит из функций вида

{ displaystyle f (x) = sum _ {i = 1} ^ { infty} a_ {i} K_ {x_ {i}} (x) quad { text {where}} quad lim _ { n to infty} sup _ {p geq 0} left | sum _ {i = n} ^ {n + p} a_ {i} K_ {x_ {i}} right | _ { H_ {0}} = 0.}

Теперь мы можем проверить воспроизводящее свойство (2):

{ displaystyle langle f, K_ {x} rangle _ {H} = sum _ {i = 1} ^ { infty} a_ {i} left langle K_ {x_ {i}}, K_ {x } right rangle _ {H_ {0}} = sum _ {i = 1} ^ { infty} a_ {i} K (x_ {i}, x) = f (x).}

Чтобы доказать единственность, пусть г - другое гильбертово пространство функций, для которого K воспроизводящее ядро. Для любого Икс и у в Икс, (2) следует, что

{ displaystyle langle K_ {x}, K_ {y} rangle _ {H} = K (x, y) = langle K_ {x}, K_ {y} rangle _ {G}.}

По линейности ${ Displaystyle langle cdot, cdot rangle _ {H} = langle cdot, cdot rangle _ {G}}$ на промежутке ${ displaystyle {K_ {x}: x in X }}$ . потом ${ Displaystyle H подмножество G}$ потому что г полный и содержит ЧАС₀ и, следовательно, содержит его завершение.

Теперь нам нужно доказать, что каждый элемент г в ЧАС. Позволять ${ displaystyle f}$ быть элементом г. поскольку ЧАС является замкнутым подпространством в г, мы можем написать ${ displaystyle f = f_ {H} + f_ {H ^ { bot}}}$ где ${ displaystyle f_ {H} in H}$ и ${ displaystyle f_ {H ^ { bot}} in H ^ { bot}}$ . Сейчас если ${ displaystyle x in X}$ тогда, поскольку K воспроизводящее ядро г и ЧАС:

{ displaystyle f (x) = langle K_ {x}, f rangle _ {G} = langle K_ {x}, f_ {H} rangle _ {G} + langle K_ {x}, f_ { H ^ { bot}} rangle _ {G} = langle K_ {x}, f_ {H} rangle _ {G} = langle K_ {x}, f_ {H} rangle _ {H} = f_ {H} (x),}

где мы использовали тот факт, что ${ displaystyle K_ {x}}$ принадлежит ЧАС так что его внутренний продукт с ${ displaystyle f_ {H ^ { bot}}}$ в г равен нулю, что показывает, что ${ displaystyle f = f_ {H}}$ в г и завершаем доказательство.

Интегральные операторы и теорема Мерсера

Мы можем охарактеризовать симметричное положительно определенное ядро ${ displaystyle K}$ через интегральный оператор, используя Теорема Мерсера и получить дополнительное представление о РХС. Позволять ${ displaystyle X}$ - компактное пространство со строго положительным конечным Мера Бореля ${ displaystyle mu}$ и ${ displaystyle K: X times X to mathbb {R}}$ непрерывная, симметричная и положительно определенная функция. Определим интегральный оператор ${ displaystyle T_ {K}: L_ {2} (X) to L_ {2} (X)}$ так как

{ Displaystyle [T_ {K} f] ( cdot) = int _ {X} K ( cdot, t) f (t) , d mu (t)}

где ${ Displaystyle L_ {2} (X)}$ - пространство функций, суммируемых с квадратом относительно ${ displaystyle mu}$ .

Теорема Мерсера утверждает, что спектральное разложение интегрального оператора ${ displaystyle T_ {K}}$ из ${ displaystyle K}$ дает представление в виде ряда ${ displaystyle K}$ через собственные значения и собственные функции ${ displaystyle T_ {K}}$ . Отсюда следует, что ${ displaystyle K}$ является воспроизводящим ядром, так что соответствующий RKHS может быть определен в терминах этих собственных значений и собственных функций. Подробности приводим ниже.

При этих предположениях ${ displaystyle T_ {K}}$ компактный, непрерывный, самосопряженный и положительный оператор. В спектральная теорема для самосопряженных операторов следует, что существует не более чем счетная убывающая последовательность ${ Displaystyle ( sigma _ {я}) _ {я} geq 0}$ такой, что ${ Displaystyle lim _ {я к infty} sigma _ {я} = 0}$ и ${ Displaystyle Т_ {К} фи _ {я} (х) = сигма _ {я} фи _ {я} (х)}$ , где ${ Displaystyle { phi _ {я} }}$ образуют ортонормированный базис ${ displaystyle L_ {2} (X)}$ . По положительности ${ displaystyle T_ {K}, sigma _ {i}> 0}$ для всех ${ displaystyle i.}$ Можно также показать, что ${ displaystyle T_ {K}}$ непрерывно отображается в пространство непрерывных функций ${ Displaystyle C (X)}$ и поэтому мы можем выбрать в качестве собственных векторов непрерывные функции, т. е. ${ Displaystyle phi _ {я} в C (X)}$ для всех ${ displaystyle i.}$ Тогда по теореме Мерсера ${ displaystyle K}$ можно записать в терминах собственных значений и непрерывных собственных функций как

{ Displaystyle К (х, y) = сумма _ {j = 1} ^ { infty} sigma _ {j} , phi _ {j} (x) , phi _ {j} (y )}

для всех ${ displaystyle x, y in X}$ такой, что

{ displaystyle lim _ {n to infty} sup _ {u, v} left | K (u, v) - sum _ {j = 1} ^ {n} sigma _ {j} , phi _ {j} (u) , phi _ {j} (v) right | = 0.}

Это представление серии выше называется ядром Мерсера или представлением Мерсера ${ displaystyle K}$ .

Кроме того, можно показать, что RKHS ${ displaystyle H}$ из ${ displaystyle K}$ дан кем-то

{ Displaystyle H = left {е in L_ {2} (X) left | sum _ {я = 1} ^ { infty} { frac { left langle f, phi _ {я } right rangle _ {L_ {2}} ^ {2}} { sigma _ {i}}} < infty right. right }}

где внутренний продукт ${ displaystyle H}$ данный

{ displaystyle left langle f, g right rangle _ {H} = sum _ {i = 1} ^ { infty} { frac { left langle f, phi _ {i} right rangle _ {L_ {2}} left langle g, phi _ {i} right rangle _ {L_ {2}}} { sigma _ {i}}}.}

Такое представление RKHS имеет применение в области вероятности и статистики, например, в Представительство Karhunen-Loève для случайных процессов и ядро PCA.

Карты характеристик

А карта характеристик это карта ${ Displaystyle varphi двоеточие X rightarrow F}$ , где ${ displaystyle F}$ является гильбертовым пространством, которое мы будем называть пространством признаков. В первых разделах была представлена связь между ограниченными / непрерывными оценочными функциями, положительно определенными функциями и интегральными операторами, а в этом разделе мы даем другое представление RKHS в терминах карт характеристик.

Сначала отметим, что каждая карта функций определяет ядро через

{ Displaystyle К (х, y) = langle varphi (x), varphi (y) rangle _ {F}.}

(3)

Ясно ${ displaystyle K}$ является симметричным, а положительная определенность следует из свойств скалярного произведения в ${ displaystyle F}$ . И наоборот, каждая положительно определенная функция и соответствующее воспроизводящее ядро гильбертова пространство имеет бесконечно много связанных отображений признаков, таких что (3) имеет место.

Например, мы можем тривиально взять ${ Displaystyle F = H}$ и ${ Displaystyle varphi (х) = К_ {х}}$ для всех ${ displaystyle x in X}$ . Потом (3) удовлетворяется воспроизводящим свойством. Другой классический пример карты признаков относится к предыдущему разделу, касающемуся интегральных операторов, взяв ${ Displaystyle F = ell ^ {2}}$ и ${ Displaystyle varphi (х) = ({ sqrt { sigma _ {я}}} phi _ {я} (х)) _ {я}}$ .

Эта связь между ядрами и картами функций дает нам новый способ понять положительно определенные функции и, следовательно, воспроизводить ядра как внутренние продукты в ${ displaystyle H}$ . Более того, каждая карта признаков может естественным образом определять RKHS посредством определения положительно определенной функции.

Наконец, карты характеристик позволяют нам создавать функциональные пространства, раскрывающие другую перспективу RKHS. Рассмотрим линейное пространство

{ Displaystyle H _ { varphi} = {е: X к mathbb {R} | существует w in F, f (x) = langle w, varphi (x) rangle _ {F}, forall { text {}} x in X }.}

Мы можем определить норму на ${ displaystyle H _ { varphi}}$ от

{ displaystyle | е | _ { varphi} = { text {inf}} { | w | _ {F}: w in F, f (x) = langle w, varphi ( x) rangle _ {F}, forall { text {}} x in X }.}

Можно показать, что ${ displaystyle H _ { varphi}}$ является RKHS с ядром, определенным ${ Displaystyle К (х, y) = langle varphi (x), varphi (y) rangle _ {F}}$ . Это представление подразумевает, что элементы RKHS являются внутренними продуктами элементов в пространстве признаков и, соответственно, могут рассматриваться как гиперплоскости. Этот взгляд на РКХС связан с трюк с ядром в машинном обучении.^[5]

Свойства

Читателям могут быть полезны следующие свойства RKHS.

Позволять ${ Displaystyle (X_ {я}) _ {я = 1} ^ {p}}$ последовательность множеств и ${ Displaystyle (К_ {я}) _ {я = 1} ^ {p}}$ - набор соответствующих положительно определенных функций на ${ displaystyle (X_ {i}) _ {i = 1} ^ {p}.}$ Отсюда следует, что

{ Displaystyle К ((x_ {1}, ldots, x_ {p}), (y_ {1}, ldots, y_ {p})) = K_ {1} (x_ {1}, y_ {1} ) cdots K_ {p} (x_ {p}, y_ {p})}

это ядро на

{ displaystyle X = X_ {1} times dots times X_ {p}.}

Позволять ${ displaystyle X_ {0} subset X,}$ то ограничение ${ displaystyle K}$ к ${ displaystyle X_ {0} times X_ {0}}$ также является воспроизводящим ядром.
Рассмотрим нормализованное ядро ${ displaystyle K}$ такой, что ${ Displaystyle К (х, х) = 1}$ для всех ${ displaystyle x in X}$ . Определим псевдометрику на X как

{ displaystyle d_ {K} (x, y) = | K_ {x} -K_ {y} | _ {H} ^ {2} = 2 (1-K (x, y)) qquad forall x in X}

.

Посредством Неравенство Коши – Шварца,

{ Displaystyle К (х, y) ^ {2} Leq К (х, х) К (y, y) = 1 qquad forall x, y in X.}

Это неравенство позволяет нам рассматривать

{ displaystyle K}

как мера сходства между входами. Если

{ displaystyle x, y in X}

похожи тогда

{ Displaystyle К (х, у)}

будет ближе к 1, а если

{ displaystyle x, y in X}

непохожи тогда

{ Displaystyle К (х, у)}

будет ближе к 0.

Закрытие пролета ${ displaystyle {K_ {x} | x in X }}$ совпадает с ${ displaystyle H}$ .^[6]

Общие примеры

Билинейные ядра

{ Displaystyle К (х, y) = langle x, y rangle}

РХС ${ displaystyle H}$ этому ядру соответствует дуальное пространство, состоящее из функций ${ Displaystyle е (х) = langle х, бета rangle}$ удовлетворение ${ Displaystyle | е | _ {H} ^ {2} = | beta | ^ {2}.}$

Полиномиальные ядра

{ Displaystyle К (х, y) = ( альфа langle х, y rangle +1) ^ {d}, qquad alpha in mathbb {R}, d in mathbb {N}}

Ядра радиальных базисных функций

Это еще один общий класс ядер, удовлетворяющих ${ Displaystyle К (х, у) = К ( | х-у |).}$ Вот некоторые примеры:

Гауссовский или квадратное экспоненциальное ядро:

{ Displaystyle К (х, у) = е ^ {- { гидроразрыва { | х-у | ^ {2}} {2 sigma ^ {2}}}}, qquad sigma> 0}

Ядро лапласа:

{ Displaystyle К (х, у) = е ^ {- { гидроразрыва { | х-у |} { sigma}}}, qquad sigma> 0}

Квадрат нормы функции

{ displaystyle f}

в РХС

{ displaystyle H}

с этим ядром это:^[7]

{ Displaystyle | е | _ {H} ^ {2} = int f (x) ^ {2} dx + int f '(x) ^ {2} dx}

.

Ядра Бергмана

Мы также приводим примеры Ядра Бергмана. Позволять Икс быть конечным и пусть ЧАС состоят из всех комплексных функций на Икс. Тогда элемент ЧАС можно представить в виде массива комплексных чисел. Если обычный внутренний продукт используется, то K_Икс - функция, значение которой равно 1 при Икс и 0 везде, и ${ Displaystyle К (х, у)}$ можно рассматривать как единичную матрицу, поскольку

{ Displaystyle К (х, y) = { begin {cases} 1 & x = y 0 & x neq y end {cases}}}

В таком случае, ЧАС изоморфен ${ displaystyle mathbb {C} ^ {n}.}$

Случай ${ Displaystyle X = mathbb {D}}$ (где ${ Displaystyle mathbb {D}}$ обозначает единичный диск ) более сложный. Здесь Пространство Бергмана ${ Displaystyle Н ^ {2} ( mathbb {D})}$ это пространство интегрируемый с квадратом голоморфные функции на ${ displaystyle mathbb {D}.}$ Можно показать, что воспроизводящее ядро для ${ Displaystyle Н ^ {2} ( mathbb {D})}$ является

{ displaystyle K (x, y) = { frac {1} { pi}} { frac {1} {(1-x { overline {y}}) ^ {2}}}.}

Наконец, пространство полосно-ограниченных функций в ${ Displaystyle L ^ {2} ( mathbb {R})}$ с пропускной способностью ${ displaystyle 2a}$ РХС с воспроизводящим ядром

{ displaystyle K (x, y) = { frac { sin a (x-y)} { pi (x-y)}}.}

Расширение на вектор-функции

В этом разделе мы расширяем определение RKHS на пространства векторных функций, поскольку это расширение особенно важно в многозадачное обучение и регуляризация многообразия. Основное отличие состоит в том, что воспроизводящее ядро ${ displaystyle Gamma}$ является симметричной функцией, которая теперь является положительно полуопределенной матрица для любого ${ displaystyle x, y}$ в ${ displaystyle X}$ . Более формально, мы определяем вектор-RKHS (vvRKHS) как гильбертово пространство функций ${ displaystyle f: X to mathbb {R} ^ {T}}$ такой, что для всех ${ displaystyle c in mathbb {R} ^ {T}}$ и ${ displaystyle x in X}$

{ Displaystyle Gamma _ {x} c (y) = Gamma (x, y) c in H { text {for}} y in X}

и

{ displaystyle langle f, Gamma _ {x} c rangle _ {H} = f (x) ^ { intercal} c.}

Это второе свойство аналогично воспроизводящему свойству для скалярнозначного случая. Отметим, что это определение также может быть связано с интегральными операторами, ограниченными оценочными функциями и отображениями признаков, как мы видели для скалярнозначного RKHS. Мы можем эквивалентным образом определить vvRKHS как векторное гильбертово пространство с ограниченным оценивающим функционалом и показать, что это влечет существование единственного воспроизводящего ядра по теореме о представлении Рисса. Теорема Мерсера также может быть расширена, чтобы обратиться к векторной настройке, и поэтому мы можем получить представление карты функций vvRKHS. Наконец, можно также показать, что закрытие промежутка ${ displaystyle { Gamma _ {x} c: x in X, c in mathbb {R} ^ {T} }}$ совпадает с ${ displaystyle H}$ , еще одно свойство, аналогичное скалярному случаю.

Мы можем получить интуицию относительно vvRKHS, покомпонентно рассматривая эти пространства. В частности, мы находим, что каждый vvRKHS изометрически изоморфный к скалярнозначному RKHS на конкретном входном пространстве. Позволять ${ Displaystyle Lambda = {1, точки, T }}$ . Рассмотрим пространство ${ displaystyle X times Lambda}$ и соответствующее воспроизводящее ядро

{ displaystyle gamma: X times Lambda times X times Lambda to mathbb {R}.}

(4)

Как отмечалось выше, RKHS, связанный с этим воспроизводящим ядром, задается закрытием диапазона ${ displaystyle { gamma _ {(x, t)}: x in X, t in Lambda }}$ где ${ Displaystyle гамма _ {(х, т)} (у, s) = гамма ((х, т), (у, s))}$ для каждого набора пар ${ Displaystyle (х, т), (у, s) в х раз лямбда}$ .

Связь со скалярнозначным RKHS тогда может быть сделана тем фактом, что каждое матричнозначное ядро можно отождествить с ядром вида (4) через

{ displaystyle Gamma (x, y) _ {(t, s)} = gamma ((x, t), (y, s)).}

Более того, каждое ядро вида (4) определяет матричное ядро с указанным выше выражением. Теперь позволяя карте ${ displaystyle D: H _ { Gamma} to H _ { gamma}}$ быть определенным как

{ displaystyle (Df) (x, t) = langle f (x), e_ {t} rangle _ { mathbb {R} ^ {T}}}

где ${ displaystyle e_ {t}}$ это ${ displaystyle t ^ {th}}$ компонент канонической основы ${ Displaystyle mathbb {R} ^ {T}}$ , можно показать, что ${ displaystyle D}$ биективен и изометрия между ${ displaystyle H _ { Gamma}}$ и ${ displaystyle H _ { gamma}}$ .

Хотя этот взгляд на vvRKHS может быть полезен при многозадачном обучении, эта изометрия не сводит изучение случая векторных значений к случаю скалярных значений. Фактически, эта процедура изометрии может сделать как скалярное ядро, так и пространство ввода слишком сложными для практической работы, поскольку свойства исходных ядер часто теряются.^[8]^[9]^[10]

Важным классом матричнозначных воспроизводящих ядер являются отделяемый ядра, которые можно разложить на множители как произведение скалярнозначного ядра и ${ displaystyle T}$ -мерная симметричная положительно полуопределенная матрица. В свете нашего предыдущего обсуждения эти ядра имеют вид

{ Displaystyle гамма ((х, т), (у, s)) = К (х, у) K_ {T} (т, s)}

для всех ${ displaystyle x, y}$ в ${ displaystyle X}$ и ${ displaystyle t, s}$ в ${ displaystyle T}$ . Поскольку скалярное ядро кодирует зависимости между входами, мы можем наблюдать, что матричное ядро кодирует зависимости между входами и выходами.

Наконец, отметим, что вышеупомянутая теория может быть расширена на пространства функций со значениями в функциональных пространствах, но получение ядер для этих пространств является более сложной задачей.^[11]

Связь между RKHS с функцией ReLU

В Функция ReLU обычно определяется как ${ Displaystyle е (х) = макс (0, х)}$ и является основой архитектуры нейронных сетей, где он используется как функция активации. Можно построить ReLU-подобную нелинейную функцию, используя теорию воспроизводящих ядерных гильбертовых пространств. Ниже мы выводим эту конструкцию и показываем, как она подразумевает репрезентативную мощность нейронных сетей с активациями ReLU.

Мы будем работать с гильбертовым пространством ${ displaystyle { mathcal {H}} = C ^ {1} [0, infty)}$ абсолютно непрерывных функций с внутренним продуктом

${ displaystyle langle f, g rangle _ { mathcal {H}} = int _ {0} ^ { infty} f '(x) g' (x) dx}$ .

Позволять ${ Displaystyle е в С ^ {1} [0, infty)}$ и ${ displaystyle f (0) = 0}$ . Начнем с построения воспроизводящего ядра с помощью фундаментальной теоремы исчисления,

${ displaystyle f (y) = int _ {0} ^ {y} f '(x) dx = int _ {0} ^ { infty} G (x, y) f' (x) dx = langle K_ {y} ( cdot), f rangle}$

где

${ displaystyle G (x, y) = { begin {case} 1, & x$

и

${ displaystyle K_ {y} ^ { prime} (x) = G (x, y), K_ {y} (0) = 0}$

Из этого следует ${ Displaystyle К_ {y} = К ( cdot, y)}$ воспроизводит ${ displaystyle f}$ , и мы можем записать его общий вид как

${ Displaystyle К (х, у) = К_ {у} (х) = int _ {0} ^ { infty} G (х, у) dx = { begin {case} х, & 0 leq x < y y, & { text {else}}. end {case}} = min (x, y)}$

Взяв предел ${ Displaystyle у rightarrow infty}$ , получаем функцию ReLU,

${ displaystyle K _ { infty} (x) = { begin {case} x, & { text {if}} x geq 0 0, & { text {else}} end {cases}} = ReLU (x)}$

Используя эту формулировку, мы можем применить Теорема о представителях в RKHS, позволив доказать оптимальность использования ReLU-активаций в настройках нейросети.

Смотрите также

Заметки

^ Алпей Д. и Т. М. Миллс. «Семейство гильбертовых пространств, не воспроизводящих ядерных гильбертовых пространств». J. Anal. Appl. 1.2 (2003): 107–111.
^ Окутмустур
^ Полсон
^ Durrett
^ Росаско
^ Росаско
^ Берлинет, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в теории вероятностей и статистики, Kluwer Academic Publishers, 2004 г.
^ Де Вито
^ Чжан
^ Альварес
^ Росаско

использованная литература

Альварес, Маурисио, Росаско, Лоренцо и Лоуренс, Нил, «Ядра для векторно-значных функций: обзор», https://arxiv.org/abs/1106.6251, Июнь 2011 г.
Ароншайн, Нахман (1950). «Теория воспроизводства ядер». Труды Американского математического общества. 68 (3): 337–404. Дои:10.1090 / S0002-9947-1950-0051437-7. JSTOR 1990404. Г-Н 0051437.
Берлинет, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в теории вероятностей и статистики, Kluwer Academic Publishers, 2004.
Кукер, Фелипе; Смейл, Стив (2002). «О математических основах обучения». Бюллетень Американского математического общества. 39 (1): 1–49. Дои:10.1090 / S0273-0979-01-00923-5. Г-Н 1864085.
Де Вито, Эрнест, Уманита, Вероника и Вилла, Сильвия. «Распространение теоремы Мерсера на векторнозначные измеримые ядра», arXiv:1110.4017, Июнь 2013.
Дарретт, Грег. 9. 520 Курсовые заметки, Массачусетский технологический институт, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf, Февраль 2010 г.
Кимелдорф, Джордж; Вахба, Грейс (1971). "Некоторые результаты о чебичефских сплайн-функциях" (PDF). Журнал математического анализа и приложений. 33 (1): 82–95. Дои:10.1016 / 0022-247X (71) 90184-3. Г-Н 0290013.
Окутмустур, Бавер. «Воспроизведение ядерных гильбертовых пространств», М.С. диссертации, Билькентский университет, http://www.thesis.bilkent.edu.tr/0002953.pdf, Август 2005 г.
Паульсен, Верн. «Введение в теорию воспроизводящих ядерных гильбертовых пространств», http://www.math.uh.edu/~vern/rkhs.pdf.
Стейнварт, Инго; Сковел, Клинт (2012). «Теорема Мерсера об общих областях: о взаимодействии между мерами, ядрами и RKHS». Констр. Приблизительно. 35 (3): 363–417. Дои:10.1007 / s00365-012-9153-3. Г-Н 2914365.
Росаско, Лоренцо и Поджио, Томас. Рукопись «Регуляризационный тур по машинному обучению - MIT 9.520», декабрь 2014 г.
Вахба, Грейс, Сплайновые модели для данных наблюдений, СИАМ, 1990.
Чжан, Хайчжан; Сюй Юешэн; Чжан, Цинхуэй (2012). «Доработка операторских воспроизводящих ядер» (PDF). Журнал исследований в области машинного обучения. 13: 91–136.

[1] Алпей Д. и Т. М. Миллс. «Семейство гильбертовых пространств, не воспроизводящих ядерных гильбертовых пространств». J. Anal. Appl. 1.2 (2003): 107–111.

[2] Окутмустур

[3] Полсон

[4] Durrett

[5] Росаско

[6] Росаско

[7] Берлинет, Ален и Томас, Кристина. Воспроизведение ядерных гильбертовых пространств в теории вероятностей и статистики, Kluwer Academic Publishers, 2004 г.

[8] Де Вито

[9] Чжан

[10] Альварес

[11] Росаско

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]