Максимальная апостериорная оценка - Maximum a posteriori estimation

В Байесовская статистика, а максимальная апостериорная вероятность (КАРТА) оценивать оценка неизвестной величины, которая равна Режим из апостериорное распределение. MAP можно использовать для получения точечная оценка ненаблюдаемой величины на основе эмпирических данных. Это тесно связано с методом максимальная вероятность (ML) оценка, но использует расширенный цель оптимизации который включает предварительное распространение (который дает количественную оценку дополнительной информации, доступной благодаря предварительному знанию связанного события) по количеству, которое необходимо оценить. Поэтому оценку MAP можно рассматривать как регуляризация оценки максимального правдоподобия.

Описание

Предположим, что мы хотим оценить ненаблюдаемый параметр популяции ${ displaystyle theta}$ на основании наблюдений ${ displaystyle x}$ . Позволять ${ displaystyle f}$ быть выборочное распределение из ${ displaystyle x}$ , так что ${ Displaystyle е (х середина тета)}$ это вероятность ${ displaystyle x}$ когда основной параметр населения ${ displaystyle theta}$ . Тогда функция:

{ Displaystyle тета mapsto е (х середина тета) !}

известен как функция правдоподобия и оценка:

{ displaystyle { hat { theta}} _ { mathrm {MLE}} (x) = { underset { theta} { operatorname {arg , max}}} f (x mid theta) !}

оценка максимального правдоподобия ${ displaystyle theta}$ .

Теперь предположим, что предварительное распространение ${ displaystyle g}$ над ${ displaystyle theta}$ существуют. Это позволяет лечить ${ displaystyle theta}$ как случайная переменная как в Байесовская статистика. Мы можем рассчитать апостериорное распределение из ${ displaystyle theta}$ с помощью Теорема Байеса:

{ displaystyle theta mapsto f ( theta mid x) = { frac {f (x mid theta) , g ( theta)} { displaystyle int _ { Theta} f (x mid vartheta) , g ( vartheta) , d vartheta}} !}

куда ${ displaystyle g}$ функция плотности ${ displaystyle theta}$ , ${ displaystyle Theta}$ это область ${ displaystyle g}$ .

Затем метод максимальной апостериорной оценки оценивает ${ displaystyle theta}$ как Режим апостериорного распределения этой случайной величины:

{ displaystyle { hat { theta}} _ { mathrm {MAP}} (x) = { underset { theta} { operatorname {arg , max}}} f ( theta mid x) = { underset { theta} { operatorname {arg , max}}} { frac {f (x mid theta) , g ( theta)} { displaystyle int _ { Theta} f (x mid vartheta) , g ( vartheta) , d vartheta}} = { underset { theta} { operatorname {arg , max}}} f (x mid theta) , g ( theta). !}

Знаменатель апостериорного распределения (так называемый предельная вероятность ) всегда положительна и не зависит от ${ displaystyle theta}$ и поэтому не играет никакой роли в оптимизации. Обратите внимание, что оценка MAP ${ displaystyle theta}$ совпадает с оценкой ML, когда априорная ${ displaystyle g}$ равномерно (то есть постоянная функция ).

Когда функция потерь имеет форму

{ displaystyle L ( theta, a) = { begin {cases} 0, & { text {if}} | a- theta |

в качестве ${ displaystyle c}$ переходит в 0, Байесовская оценка приближается к оценке MAP при условии, что распределение ${ displaystyle theta}$ квазивогнутая.^[1] Но, как правило, оценка MAP не является Байесовская оценка пока не ${ displaystyle theta}$ является дискретный.

Вычисление

Оценки MAP можно рассчитать несколькими способами:

Аналитически, когда режим (ы) апостериорного распределения может быть представлен в закрытая форма. Это тот случай, когда сопряженные приоры используются.
Через числовой оптимизация такой как метод сопряженных градиентов или же Метод Ньютона. Обычно для этого требуется первое или второе производные, которые необходимо оценивать аналитически или численно.
Через модификацию алгоритм максимизации ожидания. Для этого не требуются производные от апостериорной плотности.
Через Метод Монте-Карло с помощью имитация отжига

Ограничения

Хотя для оценки MAP требуются только мягкие условия, чтобы быть предельным случаем Оценка Байеса (под функцией потерь 0–1),^[1] это не очень характерно для байесовских методов в целом. Это связано с тем, что оценки MAP являются точечными оценками, тогда как байесовские методы характеризуются использованием распределений для обобщения данных и вывода выводов: таким образом, байесовские методы имеют тенденцию сообщать апостериорные иметь в виду или же медиана вместо этого вместе с достоверные интервалы. Причина в том, что эти оценки оптимальны при квадратичной ошибке и потере линейной ошибки соответственно, которые более репрезентативны для типичных функции потерь —И для непрерывного апостериорного распределения нет функции потерь, которая предполагает, что MAP является оптимальной точечной оценкой. Кроме того, апостериорное распределение часто может не иметь простой аналитической формы: в этом случае распределение можно смоделировать с помощью Цепь Маркова Монте-Карло методы, в то время как оптимизация для поиска его режима (-ов) может быть трудной или невозможной.^{[нужна цитата ]}

Пример плотности бимодальное распределение в котором самый высокий режим нехарактерен для большинства распределения

Во многих типах моделей, таких как модели смеси, задняя часть может быть мультимодальный. В таком случае обычно рекомендуется выбирать самый высокий режим: это не всегда возможно (глобальная оптимизация является сложной проблемой), а в некоторых случаях даже возможной (например, когда идентифицируемость возникают вопросы). Более того, самая высокая мода может быть нехарактерна для большинства задних зубов.

Наконец, в отличие от оценок ML, оценка MAP не является инвариантен при репараметризации. Переход от одной параметризации к другой включает введение якобиана, влияющего на положение максимума.^[2]

В качестве примера разницы между байесовскими оценками, упомянутыми выше (средняя и медианная оценки), и использованием оценки MAP, рассмотрим случай, когда есть необходимость классифицировать входные данные. ${ displaystyle x}$ как положительный, так и отрицательный (например, займы как рискованные или безопасные). Предположим, есть всего три возможных гипотезы о правильном методе классификации. ${ displaystyle h_ {1}}$ , ${ displaystyle h_ {2}}$ и ${ displaystyle h_ {3}}$ с задними 0,4, 0,3 и 0,3 соответственно. Предположим, что дан новый экземпляр, ${ displaystyle x}$ , ${ displaystyle h_ {1}}$ классифицирует его как положительный, тогда как два других классифицируют его как отрицательный. Использование оценки MAP для правильного классификатора ${ displaystyle h_ {1}}$ , ${ displaystyle x}$ классифицируется как положительный, тогда как байесовские оценки усредняют все гипотезы и классифицируют ${ displaystyle x}$ как отрицательный.

Пример

Предположим, что нам дана последовательность ${ displaystyle (x_ {1}, dots, x_ {n})}$ из IID ${ Displaystyle N ( му, sigma _ {v} ^ {2})}$ случайные переменные и априорное распределение ${ displaystyle mu}$ дан кем-то ${ Displaystyle N ( mu _ {0}, sigma _ {m} ^ {2})}$ . Мы хотим найти оценку MAP для ${ displaystyle mu}$ . Обратите внимание, что нормальное распределение само по себе сопряженный предшествующий, так что мы сможем найти закрытое решение аналитически.

Максимизируемая функция тогда задается выражением

{ Displaystyle е ( му) е (х мид му) = пи ( му) L ( му) = { гидроразрыва {1} {{ sqrt {2 pi}} sigma _ {м }}} exp left (- { frac {1} {2}} left ({ frac { mu - mu _ {0}} { sigma _ {m}}} right) ^ { 2} right) prod _ {j = 1} ^ {n} { frac {1} {{ sqrt {2 pi}} sigma _ {v}}} exp left (- { frac {1} {2}} left ({ frac {x_ {j} - mu} { sigma _ {v}}} right) ^ {2} right),}

что эквивалентно минимизации следующей функции от ${ displaystyle mu}$ :

{ displaystyle sum _ {j = 1} ^ {n} left ({ frac {x_ {j} - mu} { sigma _ {v}}} right) ^ {2} + left ( { frac { mu - mu _ {0}} { sigma _ {m}}} right) ^ {2}.}

Таким образом, мы видим, что Оценщик MAP для μ определяется как

{ displaystyle { hat { mu}} _ { mathrm {MAP}} = { frac { sigma _ {m} ^ {2} , n} { sigma _ {m} ^ {2} , n + sigma _ {v} ^ {2}}} left ({ frac {1} {n}} sum _ {j = 1} ^ {n} x_ {j} right) + { frac { sigma _ {v} ^ {2}} { sigma _ {m} ^ {2} , n + sigma _ {v} ^ {2}}} , mu _ {0} = { frac { sigma _ {m} ^ {2} left ( sum _ {j = 1} ^ {n} x_ {j} right) + sigma _ {v} ^ {2} , mu _ { 0}} { sigma _ {m} ^ {2} , n + sigma _ {v} ^ {2}}}.}

что оказывается линейной интерполяцией между априорным средним и средним выборочным, взвешенными по их соответствующим ковариациям.

Случай ${ displaystyle sigma _ {m} to infty}$ называется неинформативным априорным и приводит к неточно определенному априорному распределению вероятностей; в этом случае ${ displaystyle { hat { mu}} _ { mathrm {MAP}} to { hat { mu}} _ { mathrm {ML}}.}$

Максимальная апостериорная оценка - Maximum a posteriori estimation

Содержание

Описание

Вычисление

Ограничения

Пример

Рекомендации