Положительно определенное ядро - Positive-definite kernel

В теория операторов, раздел математики, положительно определенное ядро является обобщением положительно определенная функция или положительно определенная матрица. Впервые он был представлен Джеймс Мерсер в начале ХХ века в контексте решения интегральные операторные уравнения. С тех пор положительно определенные функции и их различные аналоги и обобщения возникли в различных разделах математики. Они встречаются в природе в Анализ Фурье, теория вероятности, теория операторов, комплексная теория функций, момент проблемы, интегральные уравнения, краевые задачи за уравнения в частных производных, машинное обучение, проблема встраивания, теория информации, и другие области.

В этой статье будут обсуждаться некоторые исторические и текущие разработки теории положительно определенных ядер, начиная с общей идеи и свойств до рассмотрения практических приложений.

Определение

Позволять быть непустым набором, иногда называемым набором индексов. А симметричная функция называется положительно определенным (п.о.) ядром на если

справедливо для любого , данный .

В теории вероятностей иногда различают положительно определенные ядра, для которых равенство в (1.1) влечет , и положительные полуопределенные (p.s.d.) ядра, которые не накладывают этого условия. Обратите внимание, что это эквивалентно требованию, чтобы любая конечная матрица, построенная путем попарного вычисления, , имеет либо полностью положительный (p.d.), либо неотрицательный (p.s.d.) собственные значения.

В математической литературе ядра обычно представляют собой комплексные функции, но в этой статье мы предполагаем, что функции действительны, что является обычной практикой в ​​приложениях p.d. ядра.

Некоторые общие свойства

  • Для семьи п.д. ядра
    • Сумма это p.d., учитывая
    • Продукт это p.d., учитывая
    • Лимит это p.d. если предел существует.
  • Если - последовательность множеств, а последовательность п.о. ядра, затем оба
и
являются p.d. ядра на .
  • Позволять . Тогда ограничение из к также п.д. ядро.

Примеры p.d. ядра

  • Распространенные примеры p.d. ядра, определенные на евклидовом пространстве включают:
    • Линейное ядро: .
    • Полиномиальное ядро: .
    • Гауссово ядро ​​(Ядро RBF ): .
    • Ядро лапласа: .
    • Ядро Абеля: .
    • ядро, генерирующее Соболевские пространства : , куда - функция Бесселя третьего рода.
    • ядро, генерирующее пространство Пэли-Винера: .
  • Если это Гильбертово пространство, то соответствующий ему внутренний продукт п.д. ядро. Действительно, у нас есть
  • Ядра определены на и гистограммы: гистограммы часто встречаются при решении реальных задач. Большинство наблюдений обычно доступны в виде неотрицательных векторов подсчетов, которые, если нормализовать, дают гистограммы частот. Было показано [1] что следующее семейство квадратов метрик, соответственно дивергенции Дженсена, -квадрат, общая вариация и два варианта расстояния Хеллингера:

может использоваться для определения p.d. ядра по следующей формуле

История

Положительно определенные ядра, как они определены в (1.1), впервые появились в 1909 г. в статье Джеймса Мерсера об интегральных уравнениях.[2] Несколько других авторов использовали эту концепцию в следующие два десятилетия, но ни один из них явно не использовал ядра. , т.е. p.d. функции (действительно, М. Матиас и С. Бохнер похоже, не знал об исследовании p.d. ядра). Работа Мерсера возникла из статьи Гильберта 1904 года. [3] на Интегральные уравнения Фредгольма второго вида:

В частности, Гильберт показал, что

куда - непрерывное вещественное симметричное ядро, непрерывно, это полная система ортонормированные собственные функции, и Соответствующие собственные значения из (1.2). Гильберт определил «определенное» ядро ​​как ядро, для которого двойной интеграл

удовлетворяет кроме . Первоначальной целью статьи Мерсера было охарактеризовать ядра, определенные в смысле Гильберта, но Мерсер вскоре обнаружил, что класс таких функций слишком ограничен, чтобы характеризовать их в терминах определителей. Поэтому он определил непрерывное вещественное симметричное ядро быть положительным типом (т.е. положительно определенным), если для всех реальных непрерывных функций на , и он доказал, что (1.1) является необходимым и достаточным условием положительного типа ядра. Затем Мерсер доказал, что для любого непрерывного п.о. ядро расширение

держится абсолютно и равномерно.

Примерно в то же время У. Х. Янг,[4] мотивированный другим вопросом теории интегральных уравнений, показал, что для непрерывных ядер условие (1.1) эквивалентно для всех .

E.H. Мур [5][6] инициировал изучение очень общего вида п.о. ядро. Если это абстрактный набор, он вызывает функции определено на «Положительные эрмитовы матрицы», если они удовлетворяют (1.1) для всех . Мур интересовался обобщением интегральных уравнений и показал, что для каждого такого есть гильбертово пространство таких функций, что для каждой . Это свойство называется воспроизводящим свойством ядра и оказывается важным при решении краевых задач для эллиптических уравнений в частных производных.

Еще одно направление развития, в котором п.д. ядра сыграли большую роль в теории гармоник на однородных пространствах, начатой Э. Картан в 1929 г. и продолжил Х. Вейль и С. Ито. Самая полная теория п.д. ядра в однородных пространствах - это ядро М. Крейн[7] который включает как частные случаи работы над p.d. функции и неприводимые унитарные представления локально компактных групп.

В теории вероятностей п.о. ядра возникают как ядра ковариации случайных процессов.[8]

Связь с воспроизводящим ядром Гильбертовы пространства и карты характеристик

Положительно определенные ядра обеспечивают основу, которая охватывает некоторые основные конструкции гильбертова пространства. В дальнейшем мы представляем тесную связь между положительно определенными ядрами и двумя математическими объектами, а именно воспроизводящими гильбертовыми пространствами и отображениями признаков.

Позволять быть набором, гильбертово пространство функций , и соответствующий внутренний продукт на . Для любого Функционал оценки определяется . Сначала определим воспроизводящее ядро ​​гильбертова пространство (RKHS):

Определение: Космос называется гильбертовым пространством воспроизводящего ядра, если функционалы вычисления непрерывны.

С каждым RKHS связана специальная функция, а именно воспроизводящее ядро:

Определение: Воспроизведение ядра - это функция такой, что

1) , и
2) , для всех и .

Последнее свойство называется воспроизводящим свойством.

Следующий результат показывает эквивалентность RKHS и воспроизводящих ядер:

Теорема: Каждое воспроизводящее ядро индуцирует уникальный RKHS, и каждый RKHS имеет уникальное воспроизводящее ядро.

Теперь связь между p.d. ядра и RKHS дается следующей теоремой

Теорема: Каждое воспроизводящее ядро ​​положительно определено, и каждый p.d. Ядро определяет уникальный RKHS, единственное воспроизводящее ядро ​​которого.

Таким образом, для положительно определенного ядра , можно построить связанный RKHS с как воспроизводящее ядро.

Как было сказано ранее, p.d. ядра могут быть построены из внутренних продуктов. Этот факт можно использовать для подключения п.о. ядра с другим интересным объектом, который возникает в приложениях машинного обучения, а именно картой функций. Позволять - гильбертово пространство, и соответствующий внутренний продукт. Любая карта называется картой характеристик. В этом случае мы называем пространство функций. Легко увидеть [9] что каждая карта функций определяет уникальный p.d. ядро

Действительно, положительная определенность следует из п.о. свойство внутреннего продукта. С другой стороны, каждый p.d. Ядро и соответствующий ему RKHS имеют много связанных карт функций. Например: пусть , и для всех . потом , благодаря свойству воспроизведения, что позволяет по-новому взглянуть на p.d. ядра как скалярные произведения в соответствующих гильбертовых пространствах, или, другими словами, p.d. ядра можно рассматривать как карты сходства, которые эффективно количественно определяют, насколько похожие две точки и через ценность . Более того, в силу эквивалентности p.d. ядра и соответствующий RKHS, каждая карта функций может быть использована для построения RKHS.

Ядра и расстояния

Методы ядра часто сравнивают с методами, основанными на расстоянии, такими как ближайшие соседи. В этом разделе мы обсуждаем параллели между их двумя соответствующими ингредиентами, а именно ядрами. и расстояния .

Здесь функцией расстояния между каждой парой элементов некоторого множества , мы имеем в виду метрика определенная на этом множестве, т.е. любая неотрицательная функция на что удовлетворяет

  • , и если и только если ,
  • ,
  • .

Одно звено между расстояниями и п.д. Ядра задаются определенным типом ядра, называемым отрицательно определенным ядром, и определяются следующим образом

Определение: Симметричная функция называется отрицательно определенным (н.о.) ядром на если

справедливо для любого и такой, что.

Параллель между n.d. ядра и расстояния в следующем: всякий раз, когда н.д. ядро исчезает на множестве , и равен нулю только на этом множестве, то его квадратный корень - это расстояние для .[10] В то же время каждое расстояние не обязательно соответствует н.о. ядро. Это верно только для гильбертовских расстояний, где расстояние называется гильбертовым, если можно вложить метрическое пространство изометрически в какое-то гильбертово пространство.

С другой стороны, n.d. ядра можно идентифицировать с подсемейством p.d. ядра, известные как безгранично делимые ядра. Неотрицательное ядро называется безгранично делимым, если для каждого существует положительно определенное ядро такой, что .

Еще одна ссылка - п.д. ядро индуцирует псевдометрический, где первое ограничение на функцию расстояния ослаблено, чтобы позволить за . Для положительно определенного ядра , мы можем определить функцию расстояния как:

Некоторые приложения

Ядра в машинном обучении

Положительно определенные ядра, благодаря их эквивалентности с воспроизводящими ядерными гильбертовыми пространствами, особенно важны в области теория статистического обучения из-за знаменитого теорема о представителе в котором говорится, что каждая функция минимизатора в RKHS может быть записана как линейная комбинация функции ядра, вычисленной в точках обучения. Это практически полезный результат, так как он эффективно упрощает задачу минимизации эмпирического риска от бесконечномерной задачи до конечномерной задачи оптимизации.

Ядра в вероятностных моделях

В теории вероятностей ядра возникают по-разному.

  • Недетерминированные проблемы восстановления: предположим, что мы хотим найти ответ неизвестной модельной функции в новой точке набора , при условии, что у нас есть образец пар вход-ответ дано наблюдением или экспериментом. Ответ в не является фиксированной функцией а скорее реализация действительной случайной величины . Цель - получить информацию о функции который заменяет в детерминированной обстановке. Для двух элементов случайные величины и не будет некоррелированным, потому что если слишком близко к случайные эксперименты, описанные и часто будет демонстрировать подобное поведение. Это описывается ядром ковариации . Такое ядро ​​существует и положительно определено при слабых дополнительных предположениях. Теперь хорошая оценка для может быть получен с помощью интерполяции ядра с ядром ковариации, полностью игнорируя вероятностный фон.

Предположим теперь, что шумовая переменная , с нулевым средним и дисперсией , добавляется к , такая, что шум независим для разных и независимо от там тогда проблема нахождения хорошей оценки для идентичен приведенному выше, но с модифицированным ядром, заданным .

  • Оценка плотности по ядрам: проблема в том, чтобы восстановить плотность многомерного распределения по домену , из большой выборки включая повторы. Там, где точки выборки расположены плотно, функция истинной плотности должна принимать большие значения. Простая оценка плотности возможна путем подсчета количества выборок в каждой ячейке сетки и построения результирующей гистограммы, которая дает кусочно-постоянную оценку плотности. Более точную оценку можно получить, используя ядро, инвариантное по отношению к сдвигу. , с полным интегралом, равным единице, и определим

как гладкая оценка.

Численное решение уравнений в частных производных

Одна из самых больших областей применения так называемых бессеточные методы находится в численном решении PDEs. Некоторые из популярных методов без сетки тесно связаны с положительно определенными ядрами (например, бессеточный местный Петров Галёркин (МЛПГ), Воспроизведение метода ядерных частиц (RKPM) и гидродинамика сглаженных частиц (SPH) ). Эти методы используют радиальное базисное ядро ​​для словосочетание.[11]

Теорема Стайнспринга о расширении

Другие приложения

В литературе по компьютерным экспериментам [12] и других инженерных экспериментов все чаще встречаются модели, основанные на p.d. ядра, RBF или кригинг. Одна из таких тем - моделирование поверхности отклика. Другие типы приложений, которые сводятся к подгонке данных: быстрое прототипирование и компьютерная графика. Здесь часто используются неявные модели поверхности для аппроксимации или интерполяции данных облака точек.

Приложения p.d. ядра в различных других разделах математики находятся в многомерной интеграции, многомерной оптимизации, а также в численном анализе и научных вычислениях, где изучаются быстрые, точные и адаптивные алгоритмы, идеально реализованные в высокопроизводительных вычислительных средах.[13]

Смотрите также

Рекомендации

  1. ^ Хайн М. и Буске О. (2005). "Гильбертовы метрики и положительно определенные ядра на вероятностных мерах ". В Ghahramani, Z. и Cowell, R., редакторы, Proceedings of AISTATS 2005.
  2. ^ Мерсер, Дж. (1909). «Функции положительного и отрицательного типа и их связь с теорией интегральных уравнений». Философские труды Лондонского королевского общества, серия A 209, стр. 415-446.
  3. ^ Гильберт, Д. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, math.-Phys. K1 (1904), стр. 49-91.
  4. ^ Янг, В. Х. (1909). «Заметка об одном классе симметричных функций и одной теореме, необходимой в теории интегральных уравнений», Филос. Пер. Roy.Soc. Лондон, сер. А, 209, стр. 415-446.
  5. ^ Мур, Э. (1916). «О собственно положительных эрмитовых матрицах», Бюлл. Амер. Математика. Soc. 23, 59, с. 66-67.
  6. ^ Мур, Э. (1935). «Общий анализ, часть I», Воспоминания амер. Филос. Soc. 1, Филадельфия.
  7. ^ Крейн. М (1949/1950). «Эрмитово-положительные ядра на однородных пространствах I и II», Укр. Мат. Z.1 (1949), стр. 64-98, и 2 (1950), стр. 10-59. Английский перевод: амер. Математика. Soc. Переводы сер. 2, 34 (1963), стр. 69-164.
  8. ^ Лёв, М. (1960). "Теория вероятностей", 2-е изд., Van Nostrand, Princeton, N.J.
  9. ^ Росаско, Л. и Поджио, Т. (2015). Рукопись «Регуляризационный тур по машинному обучению - MIT 9.520 Lecture Notes».
  10. ^ Берг К., Кристенсен Дж. П. Р. и Рессел П. (1984). «Гармонический анализ на полугруппах». Номер 100 в текстах для выпускников по математике, Springer Verlag.
  11. ^ Шабак Р. и Вендланд Х. (2006). «Методы ядра: от машинного обучения к бессеточным методам», Cambridge University Press, Acta Numerica (2006), стр. 1-97.
  12. ^ Хааланд Б. и Цянь П. З. Г. (2010). «Точные эмуляторы для крупномасштабных компьютерных экспериментов», Ann. Стат.
  13. ^ Гумеров, Н.А., Дурайсвами, Р. (2007). "Быстрая интерполяция радиальной базисной функции с помощью предобусловленной итерации Крылова "SIAM J. Scient. Computing 29/5, pp. 1876-1899.