Распределение вероятностей максимальной энтропии - Maximum entropy probability distribution

В статистика и теория информации, а распределение вероятностей максимальной энтропии имеет энтропия это, по крайней мере, не хуже, чем у всех других членов указанного класса распределения вероятностей. Согласно принцип максимальной энтропии, если о распределении ничего не известно, кроме того, что оно принадлежит к определенному классу (обычно определяемому в терминах указанных свойств или показателей), то распределение с наибольшей энтропией должно быть выбрано как наименее информативное по умолчанию. Мотивация двоякая: во-первых, максимизация энтропии минимизирует количество предварительная информация встроен в раздачу; во-вторых, многие физические системы со временем имеют тенденцию двигаться к конфигурациям с максимальной энтропией.

Определение энтропии и дифференциальной энтропии

Если Икс это дискретная случайная величина с распределением, данным

тогда энтропия Икс определяется как

Если Икс это непрерывная случайная величина с плотность вероятности п(Икс), то дифференциальная энтропия из Икс определяется как[1][2][3]

Количество п(Икс) бревно п(Икс) считается равным нулю всякий раз, когда п(Икс) = 0.

Это частный случай более общих форм, описанных в статьях. Энтропия (теория информации), Принцип максимальной энтропии, и дифференциальная энтропия. В связи с максимальным распределением энтропии это единственное, что необходимо, потому что максимизация также максимизирует более общие формы.

Основа логарифм не имеет значения, если одно и то же используется последовательно: изменение базы просто приводит к изменению масштаба энтропии. Теоретики информации могут предпочесть использовать основание 2, чтобы выразить энтропию в биты; математики и физики часто предпочитают натуральный логарифм, что дает единицу нац для энтропии.

Выбор меры однако имеет решающее значение для определения энтропии и результирующего максимального распределения энтропии, даже несмотря на то, что обычное обращение к Мера Лебега часто защищается как "естественный"

Распределения с измеренными константами

Многие статистические распределения, представляющие интерес, - это те, для которых моменты или другие измеримые величины должны быть постоянными. Следующая теорема Людвиг Больцманн дает вид плотности вероятности при этих ограничениях.

Непрерывный случай

Предполагать S это закрытое подмножество из действительные числа р и мы решили указать п измеримые функции ж1,...,жп и п числа а1,...,ап. Мы рассматриваем класс C всех действительных случайных величин, которые поддерживаются на S (т.е. чья функция плотности равна нулю вне S) и которые удовлетворяют п моментные условия:

Если есть участник в C функция плотности которого положительна всюду в S, и если существует максимальное распределение энтропии для C, то его плотность вероятности п(Икс) имеет следующий вид:

где мы предполагаем, что . Постоянная и п Множители Лагранжа решить задачу ограниченной оптимизации с (это условие гарантирует, что интегрируется в единство):[4]

С использованием Условия Каруша – Куна – Таккера., можно показать, что задача оптимизации имеет единственное решение, поскольку целевая функция в оптимизации является вогнутой по .

Обратите внимание, что если моментными условиями являются равенства (а не неравенства), то есть

тогда условие ограничения опускается, что делает оптимизацию по множителям Лагранжа неограниченной.

Дискретный корпус

Предполагать S = {Икс1,Икс2, ...} является (конечным или бесконечным) дискретным подмножеством вещественных чисел, и мы решили указать п функции ж1,...,жп и п числа а1,...,ап. Мы рассматриваем класс C всех дискретных случайных величин Икс которые поддерживаются на S и которые удовлетворяют п моментные условия

Если существует член C который присваивает положительную вероятность всем членам S и если существует максимальное распределение энтропии для C, то это распределение имеет следующий вид:

где мы предполагаем, что и константы решить задачу ограниченной оптимизации с :[5]

Опять же, если моментными условиями являются равенства (а не неравенства), то условие ограничения нет в оптимизации.

Доказательство в случае ограничений-равенств

В случае ограничений типа равенства эта теорема доказывается с помощью вариационное исчисление и Множители Лагранжа. Ограничения можно записать как

Мы считаем функциональный

куда и - множители Лагранжа. Нулевое ограничение обеспечивает вторая аксиома вероятности. Другие ограничения заключаются в том, что измерениям функции задаются константы до порядка . Энтропия достигает экстремума, когда функциональная производная равно нулю:

Это упражнение для читателя[нужна цитата ] что этот экстремум действительно является максимумом. Следовательно, максимальное распределение вероятностей энтропии в этом случае должно иметь вид ()

Доказательство дискретной версии по сути такое же.

Уникальность максимум

Предполагать , - распределения, удовлетворяющие ограничениям на ожидание. Сдача и учитывая распределение ясно, что это распределение удовлетворяет ограничениям ожидания и, кроме того, имеет поддержку . Из основных фактов об энтропии следует, что . Принимая ограничения и соответственно дает .

Отсюда следует, что распределение, удовлетворяющее ограничениям ожидания и максимизирующее энтропию, обязательно должно иметь полную поддержку - я. е. распределение почти везде положительное. Отсюда следует, что максимизирующее распределение должно быть внутренней точкой в ​​пространстве распределений, удовлетворяющих ограничениям на ожидание, то есть оно должно быть локальным экстремумом. Таким образом, достаточно показать, что локальный экстремум уникален, чтобы показать и то, и другое, что распределение, максимизирующее энтропию, уникально (и это также показывает, что локальный экстремум является глобальным максимумом).

Предполагать местные крайности. Переформулируя приведенные выше вычисления, они характеризуются параметрами через и аналогично для , куда . Теперь отметим серию тождеств: удовлетворяя ограничения на ожидание и используя градиенты / производные по направлениям, можно получить и аналогично для . Сдача получается:

куда для некоторых . Дальнейшие вычисления

куда похоже на распределение выше, только параметризованное . Предполагая что никакая нетривиальная линейная комбинация наблюдаемых почти всюду (п.в.) постоянна (что например выполняется, если наблюдаемые независимы, а не п.в. константа) справедливо имеет ненулевую дисперсию, если только . Таким образом, из приведенного выше уравнения ясно, что последнее должно иметь место. Следовательно , поэтому параметры, характеризующие локальные экстремумы идентичны, что означает, что сами дистрибутивы идентичны. Таким образом, локальный экстремум уникален, и, согласно приведенному выше обсуждению, максимум уникален при условии, что локальный экстремум действительно существует.

Предостережения

Обратите внимание, что не все классы распределений содержат максимальное распределение энтропии. Возможно, что класс содержит распределения сколь угодно большой энтропии (например, класс всех непрерывных распределений на р со средним 0, но с произвольным стандартным отклонением), или что энтропии ограничены сверху, но нет распределения, которое достигает максимальной энтропии.[а] Также возможно, что ограничения ожидаемого значения для класса C заставить распределение вероятностей равняться нулю в определенных подмножествах S. В этом случае наша теорема неприменима, но можно обойти это, уменьшив набор S.

Примеры

Каждое распределение вероятностей является тривиальным распределением вероятностей максимальной энтропии при условии, что это распределение имеет собственную энтропию. Чтобы увидеть это, перепишите плотность как и сравните с выражением теоремы выше. Выбирая быть измеримой функцией и

быть постоянным, - максимальное распределение вероятностей энтропии при ограничении

.

Нетривиальные примеры - это распределения, на которые накладываются несколько ограничений, отличных от назначения энтропии. Их часто можно найти, начав с одной и той же процедуры. и обнаружив, что можно разделить на части.

Таблица с примерами распределения максимальной энтропии дана Лисманом (1972). [6] и Парк и Бера (2009)[7]

Равномерные и кусочно-однородные распределения

В равномерное распределение на интервале [а,б] - максимальное распределение энтропии среди всех непрерывных распределений, которые поддерживаются в интервале [а, б], и, таким образом, плотность вероятности равна 0 вне интервала. Эта однородная плотность может быть связана с величиной Лапласа. принцип безразличия, иногда называемый принципом недостаточной причины. В более общем плане, если нам дать подразделение а=а0 < а1 < ... < аk = б интервала [а,б] и вероятности п1,...,пk которые в сумме дают единицу, то мы можем рассмотреть класс всех непрерывных распределений таких, что

Плотность распределения максимальной энтропии для этого класса постоянна на каждом из интервалов [аj-1,аj). Равномерное распределение на конечном множестве {Икс1,...,Иксп} (который присваивает вероятность 1 /п для каждого из этих значений) - максимальное распределение энтропии среди всех дискретных распределений, поддерживаемых в этом наборе.

Положительное и указанное среднее: экспоненциальное распределение

В экспоненциальное распределение, для которого функция плотности равна

максимальное распределение энтропии среди всех непрерывных распределений, поддерживаемых в [0, ∞), которые имеют заданное среднее значение 1 / λ.

Заданная дисперсия: нормальное распределение

В нормальное распределение N (μ, σ2), для которого функция плотности равна

имеет максимальную энтропию среди всех настоящий -значные распределения с носителем на (−∞, ∞) с указанным отклонение σ2 (конкретный момент ). Следовательно, предположение о нормальности налагает минимальные априорные структурные ограничения после этого момента. (См. дифференциальная энтропия статья для вывода.)

В случае распределений, поддерживаемых на [0, ∞), максимальное распределение энтропии зависит от соотношений между первым и вторым моментами. В определенных случаях это может быть экспоненциальное распределение, может быть другое распределение или может быть неопределимым.[8]

Дискретные распределения с заданным средним значением

Среди всех поддерживаемых на множестве {Икс1,...,Иксп} с заданным средним значением μ максимальное распределение энтропии имеет следующий вид:

где положительные постоянные C и р может быть определено требованиями, что сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ.

Например, если большое количество N кубиков, и вам сообщают, что сумма всех показанных чисел равна S. Основываясь только на этой информации, какое будет разумное предположение для количества игральных костей, показывающих 1, 2, ..., 6? Это случай рассмотренной выше ситуации с {Икс1,...,Икс6} = {1, ..., 6} и μ = S/N.

Наконец, среди всех дискретных распределений с носителями на бесконечном множестве {Икс1,Икс2, ...} при среднем μ максимальное распределение энтропии имеет вид:

где снова константы C и р были определены из требований, что сумма всех вероятностей должна быть 1, а ожидаемое значение должно быть μ. Например, в случае, если Иксk = k, это дает

такое, что соответствующее максимальное распределение энтропии есть геометрическое распределение.

Круговые случайные величины

Для непрерывной случайной величины распределены по единичной окружности, Распределение фон Мизеса максимизирует энтропию, когда действительная и мнимая части первого круговой момент указаны[9] или, что то же самое, круговое среднее и круговая дисперсия указаны.

Когда среднее и дисперсия углов по модулю указаны, обернутое нормальное распределение максимизирует энтропию.[9]

Максимизатор для указанного среднего, дисперсии и перекоса

Существует верхняя оценка энтропии непрерывных случайных величин на с указанным средним значением, дисперсией и перекосом. Однако есть нет распределения, которое достигает этой верхней границы, потому что неограничен, кроме случаев, когда (см. Cover & Thomas (2006: глава 12)).[требуется разъяснение (объяснение)]

Однако максимальная энтропия равна ε-достижимо: энтропия распределения может быть сколь угодно близкой к верхней границе. Начните с нормального распределения указанного среднего и дисперсии. Чтобы ввести положительный перекос, немного поднимите нормальное распределение вверх со значением много σ больше среднего. На асимметрию, пропорциональную третьему моменту, повлияет больше, чем на моменты более низкого порядка.

Максимизатор для указанной меры риска среднего и отклонения

Каждый раздача с бревенчатый плотность - максимальное распределение энтропии с заданным средним μ и Мера риска отклонения D.[10]

В частности, максимальное распределение энтропии с заданным средним и отклонение является:

  • В нормальное распределение , если это стандартное отклонение;
  • В Распределение Лапласа, если это среднее абсолютное отклонение;[6]
  • Распределение с плотностью вида если - стандартное нижнее полуотклонение, где , и а, б, в являются константами.[10]

Другие примеры

В таблице ниже каждое перечисленное распределение максимизирует энтропию для определенного набора функциональных ограничений, перечисленных в третьем столбце, и ограничения, в соответствии с которым x должен быть включен в поддержку плотности вероятности, которая указана в четвертом столбце.[6][7] Несколько перечисленных примеров (Бернулли, геометрический, экспоненциальный, Лаплас, Парето) тривиально верны, потому что связанные с ними ограничения эквивалентны заданию их энтропии. Они все равно включены, потому что их ограничение связано с общей или легко измеряемой величиной. Для справки, это гамма-функция, это функция дигаммы, это бета-функция, и γE это Постоянная Эйлера-Маскерони.

Таблица вероятностных распределений и соответствующих ограничений максимальной энтропии
Название дистрибутиваПлотность вероятности / функция массыОграничение максимальной энтропииПоддерживать
Равномерное (дискретное)Никто
Равномерное (непрерывное)Никто
Бернулли
Геометрический
Экспоненциальный
Лаплас
Асимметричный лаплас
Парето
Нормальный
Усеченный нормальный(см. статью)
фон Мизес
Рэлей
Бета за
Коши
Чи
Хи-квадрат
Erlang
Гамма
Логнормальный
Максвелл – Больцманн
Weibull
Многомерный нормальный
Биномиальный[11]
Пуассон[11]

Смотрите также

Примечания

  1. ^ Например, класс всех непрерывных распределений Икс на р с E (Икс) = 0 и E (Икс2) = E (Икс3) = 1 (см. Обложку, гл. 12).

Цитаты

  1. ^ Уильямс, Д. (2001), Взвешивая шансы, Издательство Кембриджского университета, ISBN  0-521-00618-X (страницы 197-199).
  2. ^ Бернардо, Дж. М., Смит, А. Ф. М. (2000), Байесовская теория, Wiley. ISBN  0-471-49464-X (страницы 209, 366)
  3. ^ О'Хаган, А. (1994), Продвинутая теория статистики Кендалла, том 2B, байесовский вывод, Эдвард Арнольд. ISBN  0-340-52922-9 (Раздел 5.40)
  4. ^ Ботев, З. И .; Крезе, Д. П. (2011). «Обобщенный метод кросс-энтропии с приложениями к оценке вероятностной плотности» (PDF). Методология и вычисления в прикладной теории вероятностей. 13 (1): 1–27. Дои:10.1007 / s11009-009-9133-7. S2CID  18155189.
  5. ^ Ботев, З. И .; Круз, Д. П. (2008). «Неасимптотический выбор пропускной способности для оценки плотности дискретных данных». Методология и вычисления в прикладной теории вероятностей. 10 (3): 435. Дои:10.1007 / s11009-007-9057-z. S2CID  122047337.
  6. ^ а б c Лисман, Дж. Х. С .; ван Зуйлен, М.С.А. (1972). «Примечание о генерации наиболее вероятных частотных распределений». Statistica Neerlandica. 26 (1): 19–23. Дои:10.1111 / j.1467-9574.1972.tb00152.x.
  7. ^ а б Park, Sung Y .; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF). Журнал эконометрики. 150 (2): 219–230. CiteSeerX  10.1.1.511.9750. Дои:10.1016 / j.jeconom.2008.12.014. Архивировано из оригинал (PDF) на 2016-03-07. Получено 2011-06-02.
  8. ^ Dowson, D .; Рэгг, А. (сентябрь 1973 г.). «Распределения максимальной энтропии с заданными первым и вторым моментами». IEEE Transactions по теории информации (переписка). 19 (5): 689–693. Дои:10.1109 / tit.1973.1055060. ISSN  0018-9448.
  9. ^ а б Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы циркулярной статистики. Нью-Джерси: World Scientific. ISBN  978-981-02-3778-3. Получено 2011-05-15.
  10. ^ а б Гречук Б., Молибоха А., Забаранкин М. (2009) Принцип максимальной энтропии с общими мерами отклонения, Математика исследования операций 34 (2), 445--467, 2009.
  11. ^ а б Харремес, Питер (2001), "Биномиальные и пуассоновские распределения как распределения максимальной энтропии", IEEE Transactions по теории информации, 47 (5): 2039–2041, Дои:10.1109/18.930936.

Рекомендации