Дивергенция Брегмана - Bregman divergence

В математика в частности статистика и информационная геометрия, а Расхождение Брегмана или Расстояние Брегмана это мера расстояние между двумя точками, определенными в терминах строго выпуклая функция; они составляют важный класс расхождения. Когда точки интерпретируются как распределения вероятностей - особенно как значения параметра параметрическая модель или как набор данных наблюдаемых значений - результирующее расстояние статистическое расстояние. Самое основное расхождение Брегмана - это квадрат евклидова расстояния.

Расхождения Брегмана похожи на метрики, но не удовлетворяют ни неравенство треугольника (когда-либо) ни симметрии (вообще). Однако они удовлетворяют обобщению теорема Пифагора, а в информационной геометрии соответствующие статистическое многообразие интерпретируется как (двойственно) плоский коллектор. Это позволяет использовать многие методы теория оптимизации быть обобщенным на расходимости Брегмана, геометрически как обобщения наименьших квадратов.

Дивергенции Брегмана названы в честь Лев М. Брегман, который представил концепцию в 1967 году.

Определение

Позволять быть непрерывно дифференцируемым, строго выпуклая функция определено на закрытом выпуклый набор .

Расстояние Брегмана, связанное с F для очков разница между значением F в точке п и значение первого порядка Расширение Тейлора из F вокруг точки q оценивается в точке п:

Характеристики

  • Неотрицательность: для всех p, q. Это следствие выпуклости F.
  • Выпуклость: выпукла по первому аргументу, но не обязательно по второму (см. [1])
  • Линейность: Если мы подумаем о расстоянии Брегмана как об операторе функции F, то она линейна по неотрицательным коэффициентам. Другими словами, для строго выпуклый и дифференцируемый, и ,
  • Двойственность: Функция F имеет выпуклый сопряженный . Расстояние Брегмана, определенное относительно имеет интересное отношение к
Вот, и - двойственные точки, соответствующие p и q.
  • Имею ввиду как минимизатор: Ключевым результатом о расходимостях Брегмана является то, что для заданного случайного вектора средний вектор минимизирует ожидаемое расхождение Брегмана от случайного вектора. Этот результат обобщает результат учебника о том, что среднее значение набора минимизирует общую квадратичную ошибку для элементов набора. Этот результат был доказан для векторного случая (Banerjee et al. 2005) и распространен на случай функций / распределений (Frigyik et al. 2008). Этот результат важен, поскольку он дополнительно оправдывает использование среднего как представителя случайного набора, особенно при байесовской оценке.

Примеры

  • Квадратное евклидово расстояние является каноническим примером расстояния Брегмана, порожденного выпуклой функцией
  • Квадрат Расстояние Махаланобиса, которое порождается выпуклой функцией . Это можно рассматривать как обобщение приведенного выше квадрата евклидова расстояния.
  • Обобщенный Дивергенция Кульбака – Лейблера
порождается отрицательным энтропия функция
порождается выпуклой функцией

Обобщение проективной двойственности

Ключевой инструмент в вычислительная геометрия это идея проективная двойственность, который сопоставляет точки с гиперплоскостями и наоборот, сохраняя при этом угол падения и отношения сверху-снизу. Существует множество аналитических форм проективного дуального: одна общая форма отображает точку к гиперплоскости . Это отображение можно интерпретировать (идентифицируя гиперплоскость с ее нормалью) как выпуклое сопряженное отображение, которое переводит точку p в ее двойственную точку , где F определяет d-мерный параболоид .

Если мы теперь заменим параболоид произвольной выпуклой функцией, мы получим другое двойственное отображение, сохраняющее инцидентность и свойства сверху-снизу стандартного проективного двойственного. Это означает, что естественные двойственные концепции вычислительной геометрии, такие как Диаграммы Вороного и Триангуляции Делоне сохраняют свой смысл в пространствах расстояний, определяемых произвольной дивергенцией Брегмана. Таким образом, алгоритмы из «нормальной» геометрии распространяются непосредственно на эти пространства (Boissonnat, Nielsen and Nock, 2010).

Обобщение расхождений Брегмана.

Расхождения Брегмана можно интерпретировать как предельные случаи перекоса Расхождения Дженсена (см. Nielsen and Boltz, 2011). Расходимости Дженсена могут быть обобщены с помощью сравнительной выпуклости, а предельные случаи этих обобщений искаженных расходимостей Дженсена дают обобщенную дивергенцию Брегмана (см. Nielsen and Nock, 2017).[2] получается путем взятия хорды вместо касательной.

Расхождение Брегмана по другим объектам

Дивергенции Брегмана также могут быть определены между матрицами, между функциями и между мерами (распределениями). Расхождения Брегмана между матрицами включают Потеря Штейна и энтропия фон Неймана. Расхождения Брегмана между функциями включают общую квадратную ошибку, относительную энтропию и квадрат смещения; см. ссылки Frigyik et al. ниже для определений и свойств. Точно так же расходимости Брегмана также были определены над множествами через функция субмодульного набора который известен как дискретный аналог выпуклая функция. Субмодулярные расходимости Брегмана включают в себя ряд дискретных мер расстояния, таких как Расстояние Хэмминга, точность и отзыв, взаимная информация и некоторые другие меры расстояния, основанные на наборе (см. Iyer & Bilmes, 2012) для получения более подробной информации и свойств субмодульного модуля Брегмана.)

Список распространенных матричных расхождений Брегмана см. В таблице 15.1 дюйм.[3]

Приложения

В машинном обучении дивергенции Брегмана используются для расчета двумерных логистических потерь, которые работают лучше, чем функция softmax с зашумленными наборами данных.[4]

использованная литература

  1. ^ «Совместная и раздельная выпуклость расстояния Брегмана», Х. Баушке и Дж. Борвейн, в Д. Бутнариу, Ю. Цензоре и С. Райхе, редакторах, По сути, параллельные алгоритмы в технико-экономическом обосновании и оптимизации и их приложения, Elsevier 2001
  2. ^ Нильсен, Франк; Нок, Ричард (2018). «Расхождение аккордов Брегмана». arXiv:1810.09113 [cs.LG ].
  3. ^ «Матричная информационная геометрия», Р. Нок, Б. Магдалу, Э. Брайс и Ф. Нильсен, pdf, из этого книга
  4. ^ Эхсан Амид, Манфред К. Вармут, Рохан Анил, Томер Корен (2019). «Надежная двухмерная логистическая потеря, основанная на расхождениях Брегмана». Конференция по нейронным системам обработки информации. С. 14987-14996. pdf

внешняя ссылка