Оценка Бриера - Brier score

В Оценка Бриера это правильная функция оценки который измеряет точность вероятностных прогнозов. Для одномерных предсказаний это строго эквивалентно среднеквадратичная ошибка.

Оценка Бриера применима к задачам, в которых прогнозы должны назначать вероятности набору взаимоисключающий дискретные исходы. Набор возможных результатов может быть бинарным или категориальным по своей природе, и вероятности, присвоенные этому набору результатов, должны в сумме равняться единице (где каждая индивидуальная вероятность находится в диапазоне от 0 до 1). Его предложил Гленн В. Брайер в 1950 году.^[1]

Балл Брайера можно рассматривать как функция стоимости. Точнее, по всем позициям ${ displaystyle i in {1 ... N}}$ в комплекте N предсказания, показатель Бриера измеряет среднеквадратичную разницу между:

Прогнозируемая вероятность, присвоенная возможным результатам для элемента я
Фактический результат ${ displaystyle o_ {i}}$

Следовательно ниже оценка Брайера предназначена для набора прогнозов, лучше прогнозы откалиброваны. Обратите внимание, что показатель Бриера в его наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат наибольшей возможной разницы между предсказанной вероятностью (которая должна быть между нулем и единицей) и фактическим результатом (которая может принимать значения только 0 или 1). В первоначальной (1950 г.) формулировке шкалы Брайера диапазон удваивается, от нуля до двух.

Оценка Бриера подходит для двоичных и категориальных результатов, которые могут быть структурированы как истинные или ложные, но не подходит для порядковых переменных, которые могут принимать три или более значений.

Определение

Наиболее распространенная формулировка оценки Брайера:

{ displaystyle BS = { frac {1} {N}} sum limits _ {t = 1} ^ {N} (f_ {t} -o_ {t}) ^ {2} , !}

в котором ${ displaystyle f_ {t}}$ вероятность, которая была предсказана, ${ displaystyle o_ {t}}$ фактический исход события на экземпляре ${ displaystyle t}$ ( ${ displaystyle 0}$ если этого не произойдет и ${ displaystyle 1}$ если это произойдет) и ${ displaystyle N}$ - количество экземпляров прогноза. По сути, это среднеквадратичная ошибка прогноза. Эта формулировка в основном используется для двоичных событий (например, «дождь» или «без дождя»). Вышеприведенное уравнение является правильным правилом подсчета очков только для двоичных событий; если должен оцениваться прогноз по нескольким категориям, то следует использовать исходное определение, данное Бриером ниже.

Пример

Предположим, что прогнозируется вероятность ${ displaystyle P}$ что в определенный день пойдет дождь. Затем оценка Бриера рассчитывается следующим образом:

Если прогноз 100% ( ${ displaystyle P}$ = 1) и идет дождь, тогда оценка Брайера равна 0, что является наилучшей достижимой оценкой.
Если прогноз 100% и дождь не идет, то оценка Брайера равна 1, что является наихудшим достижимым результатом.
Если прогноз 70% ( ${ displaystyle P}$ = 0,70) и идет дождь, то оценка Бриера составляет (0,70−1)² = 0.09.

Напротив, если прогноз составляет 70% ( ${ displaystyle P}$ = 0,70) и не идет дождь, то оценка Бриера составляет (0,70-0)² = 0.49.
Аналогично, если прогноз 30% ( ${ displaystyle P}$ = 0,30) и идет дождь, то оценка Бриера составляет (0,30−1)² = 0.49.
Если прогноз 50% ( ${ displaystyle P}$ = 0,50), то оценка Бриера составляет (0,50–1)² = (0.50−0)² = 0,25, независимо от того, идет ли дождь.

Оригинальное определение Брайера

Хотя приведенная выше формулировка является наиболее широко используемой, исходное определение Брайера^[1] применимо к прогнозам с несколькими категориями, а также остается правильным правилом оценки, в то время как двоичная форма (используемая в приведенных выше примерах) подходит только для двоичных событий. Для бинарных прогнозов исходная формулировка «вероятностной оценки Бриера» имеет вдвое большее значение, чем оценка, известная в настоящее время как оценка Брайера.

{ displaystyle BS = { frac {1} {N}} sum limits _ {t = 1} ^ {N} sum limits _ {i = 1} ^ {R} (f_ {ti} -o_ {ti}) ^ {2} , !}

В котором ${ displaystyle R}$ - количество возможных классов, в которые может попасть событие, и ${ displaystyle N}$ общее количество экземпляров всех классов. Для случая Дождь / Нет дождя, ${ Displaystyle R = 2}$ , а для прогноза Холодный / Нормальный / Теплый, ${ Displaystyle R = 3}$ .

Разложения

Существует несколько декомпозиций оценки Бриера, которые обеспечивают более глубокое понимание поведения двоичного классификатора.

3-компонентное разложение

Оценка Бриера может быть разделена на 3 дополнительных компонента: неопределенность, надежность и разрешающая способность. (Мерфи 1973)^[2]

{ displaystyle BS = REL-RES + UNC}

Каждый из этих компонентов может быть дополнительно разложен в соответствии с количеством возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:

{ displaystyle BS = { frac {1} {N}} sum limits _ {k = 1} ^ {K} {n_ {k} ( mathbf {f_ {k}} - mathbf { bar { o}} _ { mathbf {k}})} ^ {2} - { frac {1} {N}} sum limits _ {k = 1} ^ {K} {n_ {k} ( mathbf {{ bar {o}} _ {k}} - { bar { mathbf {o}}})} ^ {2} + mathbf { bar {o}} left ({1- mathbf { bar {o}}} right)}

С ${ displaystyle textstyle N}$ общее количество выпущенных прогнозов, ${ displaystyle textstyle K}$ количество выданных уникальных прогнозов, ${ displaystyle mathbf { bar {o}} = { sum _ {t = 1} ^ {N}} mathbf {o_ {t}} / N}$ наблюдаемая климатологическая базовая скорость события, ${ displaystyle n_ {k}}$ количество прогнозов с одинаковой категорией вероятности и ${ displaystyle mathbf { overline {o}} _ { mathbf {k}}}$ наблюдаемая частота, учитывая прогнозы вероятности ${ Displaystyle mathbf {е_ {к}}}$ . Жирное обозначение в приведенной выше формуле указывает векторы, что является еще одним способом обозначить исходное определение оценки и разложить его в соответствии с количеством возможных классов, в которые может попасть событие. Например, вероятность дождя 70% и его отсутствие обозначается как ${ displaystyle mathbf {f} = (0,3,0,7)}$ и ${ Displaystyle mathbf {o} = (1,0)}$ соответственно. Считается, что такие операции, как возведение в квадрат и умножение этих векторов, покомпонентны. В этом случае оценка Брайера представляет собой сумму результирующего вектора в правой части.

Неопределенность

Срок неопределенности измеряет неотъемлемую неопределенность результатов события. Для бинарных событий он максимален, когда каждый результат происходит в 50% случаев, и минимален (ноль), если результат всегда возникает или никогда не происходит.

Надежность

Термин надежности измеряет, насколько близки вероятности прогноза к истинным вероятностям для данного прогноза. Надежность определяется в противоположном направлении по сравнению с английский язык. Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все случаи прогноза, в которых вероятность дождя составляла 80%, мы получим идеальную надежность только в том случае, если после выпуска такого прогноза дождь шел 4 из 5 раз.

Разрешение

Срок разрешения измеряет, насколько условные вероятности с учетом различных прогнозов отличаются от среднего климатического значения. Чем выше этот срок, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешающая способность равна неопределенности.

Двухкомпонентное разложение

Альтернативная (и связанная с ней) декомпозиция генерирует два члена вместо трех.

{ displaystyle BS = CAL + REF}

{ displaystyle BS = { frac {1} {N}} sum limits _ {k = 1} ^ {K} {n_ {k} ( mathbf {f_ {k}} - mathbf { bar { o}} _ { mathbf {k}})} ^ {2} + { frac {1} {N}} sum limits _ {k = 1} ^ {K} {n_ {k} ( mathbf {{ bar {o}} _ {k}} (1- mathbf {{ bar {o}} _ {k}}}))}

Первый термин известен как калибровка (и может использоваться как мера калибровки, см. статистическая калибровка ) и равняется надежности. Второй член известен как уточнение, он представляет собой совокупность разрешающей способности и неопределенности и относится к области под ROC Изгиб.

Оценка Бриера и разложение CAL + REF могут быть представлены графически с помощью так называемых кривых Бриера,^[3] где ожидаемые убытки показаны для каждого рабочего состояния. Это делает показатель Brier Score мерой совокупной производительности при равномерном распределении асимметрии классов.^[4]

Недостатки

Оценка Бриера становится недостаточной для очень редких (или очень частых) событий, потому что она не позволяет в достаточной степени различать небольшие изменения в прогнозе, значимые для редких событий.^[5] Уилкс (2010) обнаружил, что «[Q] очень большие размеры выборки, то есть n> 1000, необходимы для высококвалифицированных прогнозов относительно редких событий, тогда как только весьма скромные размеры выборки необходимы для низкоквалифицированных прогнозов общих событий». ^[6]

Смотрите также

внешняя ссылка

Композиция партитуры Брайера: мини-учебник

[Brier-1] а ^б Брайер (1950). «Проверка прогнозов, выраженных в вероятности» (PDF). Ежемесячный обзор погоды. 78: 1–3. Дои:10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2. Архивировано из оригинал (PDF) на 2017-10-23. Cite имеет пустой неизвестный параметр: | месяц = (помощь)

[Murphy1973-2] Мерфи, А. Х. (1973). «Новое векторное разбиение оценки вероятности». Журнал прикладной метеорологии. 12 (4): 595–600. Дои:10.1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2. Cite имеет пустой неизвестный параметр: | месяц = (помощь)

[hernandez2011brier-3] Hernandez-Orallo, J .; Flach, P.A .; Ферри, К. (2011). «Кривые Брайера: новая визуализация производительности классификатора на основе затрат» (PDF). Материалы 28-й Международной конференции по машинному обучению (ICML-11). С. 585–592.

[hernandez2012unified-4] Hernandez-Orallo, J .; Flach, P.A .; Ферри, К. (2012). «Единое представление метрик производительности: перевод выбора порога в ожидаемую потерю классификации» (PDF). Журнал исследований в области машинного обучения. 13: 2813–2869.

[5] Риккардо Бенедетти (01.01.2010). «Правила выставления оценок для проверки прогнозов». Ежемесячный обзор погоды. 138 (1): 203–211. Дои:10.1175 / 2009MWR2945.1.

[6] Уилкс, Д. С. (2010). «Выборочные распределения оценки Брайера и оценки навыков Брайера при серийной зависимости». Ежеквартальный журнал Королевского метеорологического общества. 136 (1): 2109–2118. Дои:10.1002 / qj.709.

[1]

[2]

[3]

[4]

[5]

[6]