Дивергенция (статистика) - Divergence (statistics)
В статистика и информационная геометрия, расхождение или функция контраста это функция, которая устанавливает "расстояние" одного распределение вероятностей к другому на статистическое многообразие. Дивергенция - более слабое понятие, чем у расстояние, в частности, расхождение не обязательно должно быть симметричным (то есть, вообще говоря, расхождение от п к q не равно отклонению от q к п), и не обязательно удовлетворять неравенство треугольника.
Определение
Предполагать S это пространство всех распределения вероятностей с общей поддержкой. Затем расхождение на S это функция D(· || ·): S × S → р удовлетворение [1]
- D(п || q) ≥ 0 для всех п, q ∈ S,
- D(п || q) = 0 тогда и только тогда, когда п = q,
В двойная дивергенция D * определяется как
Геометрические свойства
Многие свойства расходимостей можно получить, если ограничить S быть статистическим многообразием, что означает, что его можно параметризовать с помощью конечномерной системы координат θ, так что для распределения п ∈ S мы можем написать п = п(θ).
За пару очков п, q ∈ S с координатами θп и θq, обозначим частные производные от D(п || q) в качестве
Теперь ограничим эти функции диагональю п = q, и обозначим [2]
По определению функция D(п || q) минимизируется при п = q, и поэтому
где матрица грамм(D) является положительный полуопределенный и определяет уникальный Риманова метрика на коллекторе S.
Расхождение D(· || ·) также определяет единственное кручение -свободный аффинная связь ∇(D) с коэффициентами
и двойной этой связи ∇ * порождается двойственной расходимостью D*.
Таким образом, расхождение D(· || ·) порождает на статистическом многообразии единственную дуалистическую структуру (грамм(D), ∇(D), ∇(D*)). Верно и обратное: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть единственной).[3]
Например, когда D является f-расхождение для некоторой функции ƒ (·), то она порождает метрика грамм(Dж) = c · g и связь ∇(Dж) = ∇(α), куда грамм канонический Информационная метрика Fisher, ∇(α) это α-связь, c = ƒ ′ ′ (1), и α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1).
Примеры
Два наиболее важных расхождения - это относительная энтропия (Дивергенция Кульбака – Лейблера, KL дивергенция), что является центральным теория информации и статистика, и квадрат евклидова расстояния (САС). Минимизация этих двух расхождений - главный способ линейная обратная задача решаются через принцип максимальной энтропии и наименьших квадратов, особенно в логистическая регрессия и линейная регрессия.[4]
Двумя наиболее важными классами расхождений являются ж-расхождения и Расхождения Брегмана; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение, которое одновременно ж-дивергенция и дивергенция Брегмана - дивергенция Кульбака – Лейблера; квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ), но не ж-расхождение.
f-расхождения
Это семейство расхождений порождается функциями ж(ты), выпуклая на ты > 0 и такой, что ж(1) = 0. Затем ж-дивергенция определяется как
Дивергенция Кульбака – Лейблера: | |
в квадрате Расстояние Хеллингера: | |
Дивергенция Джеффриса: | |
Чернова α-расходимость: | |
экспоненциальное расхождение: | |
Расхождение Кагана: | |
(α,β) -расхождение продукта: |
Если Марковский процесс имеет положительное равновесное распределение вероятностей тогда - монотонная (невозрастающая) функция времени, где распределение вероятностей это решение Колмогоровские прямые уравнения (или же Главное уравнение ), используемый для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все ж-дивергенции являются Функции Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием и имеет форму следа () тогда , для некоторой выпуклой функции ж.[5][6] Дивергенции Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах.
Расхождения Брегмана
Расходимости Брегмана соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклый, непрерывно дифференцируемая функция F на выпуклый набор, известный как Генератор Брегмана, то Дивергенция Брегмана измеряет выпуклость: погрешность линейной аппроксимации F из q как приблизительное значение при п:
Двойная дивергенция к дивергенции Брегмана - это дивергенция, порожденная выпуклый сопряженный F* генератора Брегмана исходной дивергенции. Например, для квадрата евклидова расстояния генератор , а для относительной энтропии генератором является отрицательная энтропия .
История
Термин «дивергенция» для статистического расстояния использовался неформально в различных контекстах от c. 1910 до с. 1940. Его официальное использование датируется по крайней мере до Бхаттачарья (1943) под названием «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», в котором Бхаттачарья расстояние, и Бхаттачарья (1946) , озаглавленный «Об оценке расхождения между двумя полиномиальными популяциями», в котором Угол Бхаттачарьи. Этот термин был популяризирован его использованием для Дивергенция Кульбака – Лейблера в Кульбак и Лейблер (1951) , его использование в учебнике Кульбак (1959) , а затем Али и Сильви (1966) как правило, для класса ж-расхождения. Термин «расстояние Брегмана» все еще используется, но теперь предпочтение отдается «дивергенции Брегмана». В информационной геометрии изначально использовались альтернативные термины, в том числе «квазидистанция». Амари (1982), п. 369) и «функция контраста» Егучи (1985), хотя «дивергенция» использовалась в Амари (1985) для α-расходимость и стала стандартной (например, Амари и Цихоцкий (2010) ).
Смотрите также
Рекомендации
- ^ Егучи (1985)
- ^ Егучи (1992)
- ^ Матумото (1993)
- ^ Чисар 1991.
- ^ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica A. 328 (3–4): 380–390. arXiv:cond-mat / 0304131. Дои:10.1016 / S0378-4371 (03) 00578-8.
- ^ Амари, Шуньити (2009). Leung, C.S .; Ли, М .; Чан, Дж. (ред.). Дивергенция, Оптимизация, Геометрия. 16-я Международная конференция по обработке нейронной информации (ICONIP 20009), Бангкок, Таиланд, 1-5 декабря 2009 г. Конспект лекций по информатике, том 5863. Берлин, Гейдельберг: Springer. С. 185--193. Дои:10.1007/978-3-642-10677-4_21.
- Амари, Шун-ичи; Нагаока, Хироши (2000). Методы информационной геометрии. Издательство Оксфордского университета. ISBN 0-8218-0531-2.
- Егучи, синтоизм (1985). «Дифференциально-геометрический подход к статистическому выводу на основе функционалов контраста». Математический журнал Хиросимы. 15 (2): 341–391. Дои:10.32917 / hmj / 1206130775.
- Егучи, синтоизм (1992). «Геометрия минимального контраста». Математический журнал Хиросимы. 22 (3): 631–647. Дои:10.32917 / hmj / 1206128508.
- Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста - на C³-функциях, принимающих минимум на диагонали многообразия-произведения». Математический журнал Хиросимы. 23 (2): 327–332. Дои:10.32917 / hmj / 1206128255.