Оценка Бриера - Brier score

В Оценка Бриера это правильная функция оценки который измеряет точность вероятностных прогнозов. Для одномерных предсказаний это строго эквивалентно среднеквадратичная ошибка.

Оценка Бриера применима к задачам, в которых прогнозы должны назначать вероятности набору взаимоисключающий дискретные исходы. Набор возможных результатов может быть бинарным или категориальным по своей природе, и вероятности, присвоенные этому набору результатов, должны в сумме равняться единице (где каждая индивидуальная вероятность находится в диапазоне от 0 до 1). Его предложил Гленн В. Брайер в 1950 году.[1]

Балл Брайера можно рассматривать как функция стоимости. Точнее, по всем позициям в комплекте N предсказания, показатель Бриера измеряет среднеквадратичную разницу между:

  • Прогнозируемая вероятность, присвоенная возможным результатам для элемента я
  • Фактический результат

Следовательно ниже оценка Брайера предназначена для набора прогнозов, лучше прогнозы откалиброваны. Обратите внимание, что показатель Бриера в его наиболее распространенной формулировке принимает значение от нуля до единицы, поскольку это квадрат наибольшей возможной разницы между предсказанной вероятностью (которая должна быть между нулем и единицей) и фактическим результатом (которая может принимать значения только 0 или 1). В первоначальной (1950 г.) формулировке шкалы Брайера диапазон удваивается, от нуля до двух.

Оценка Бриера подходит для двоичных и категориальных результатов, которые могут быть структурированы как истинные или ложные, но не подходит для порядковых переменных, которые могут принимать три или более значений.

Определение

Наиболее распространенная формулировка оценки Брайера:

в котором вероятность, которая была предсказана, фактический исход события на экземпляре ( если этого не произойдет и если это произойдет) и - количество экземпляров прогноза. По сути, это среднеквадратичная ошибка прогноза. Эта формулировка в основном используется для двоичных событий (например, «дождь» или «без дождя»). Вышеприведенное уравнение является правильным правилом подсчета очков только для двоичных событий; если должен оцениваться прогноз по нескольким категориям, то следует использовать исходное определение, данное Бриером ниже.

Пример

Предположим, что прогнозируется вероятность что в определенный день пойдет дождь. Затем оценка Бриера рассчитывается следующим образом:

  • Если прогноз 100% ( = 1) и идет дождь, тогда оценка Брайера равна 0, что является наилучшей достижимой оценкой.
  • Если прогноз 100% и дождь не идет, то оценка Брайера равна 1, что является наихудшим достижимым результатом.
  • Если прогноз 70% ( = 0,70) и идет дождь, то оценка Бриера составляет (0,70−1)2 = 0.09.
  • Напротив, если прогноз составляет 70% ( = 0,70) и не идет дождь, то оценка Бриера составляет (0,70-0)2 = 0.49.
  • Аналогично, если прогноз 30% ( = 0,30) и идет дождь, то оценка Бриера составляет (0,30−1)2 = 0.49.
  • Если прогноз 50% ( = 0,50), то оценка Бриера составляет (0,50–1)2 = (0.50−0)2 = 0,25, независимо от того, идет ли дождь.

Оригинальное определение Брайера

Хотя приведенная выше формулировка является наиболее широко используемой, исходное определение Брайера[1] применимо к прогнозам с несколькими категориями, а также остается правильным правилом оценки, в то время как двоичная форма (используемая в приведенных выше примерах) подходит только для двоичных событий. Для бинарных прогнозов исходная формулировка «вероятностной оценки Бриера» имеет вдвое большее значение, чем оценка, известная в настоящее время как оценка Брайера.

В котором - количество возможных классов, в которые может попасть событие, и общее количество экземпляров всех классов. Для случая Дождь / Нет дождя, , а для прогноза Холодный / Нормальный / Теплый, .

Разложения

Существует несколько декомпозиций оценки Бриера, которые обеспечивают более глубокое понимание поведения двоичного классификатора.

3-компонентное разложение

Оценка Бриера может быть разделена на 3 дополнительных компонента: неопределенность, надежность и разрешающая способность. (Мерфи 1973)[2]

Каждый из этих компонентов может быть дополнительно разложен в соответствии с количеством возможных классов, в которые может попасть событие. Злоупотребление знаком равенства:

С общее количество выпущенных прогнозов, количество выданных уникальных прогнозов, наблюдаемая климатологическая базовая скорость события, количество прогнозов с одинаковой категорией вероятности и наблюдаемая частота, учитывая прогнозы вероятности . Жирное обозначение в приведенной выше формуле указывает векторы, что является еще одним способом обозначить исходное определение оценки и разложить его в соответствии с количеством возможных классов, в которые может попасть событие. Например, вероятность дождя 70% и его отсутствие обозначается как и соответственно. Считается, что такие операции, как возведение в квадрат и умножение этих векторов, покомпонентны. В этом случае оценка Брайера представляет собой сумму результирующего вектора в правой части.

Неопределенность

Срок неопределенности измеряет неотъемлемую неопределенность результатов события. Для бинарных событий он максимален, когда каждый результат происходит в 50% случаев, и минимален (ноль), если результат всегда возникает или никогда не происходит.

Надежность

Термин надежности измеряет, насколько близки вероятности прогноза к истинным вероятностям для данного прогноза. Надежность определяется в противоположном направлении по сравнению с английский язык. Если надежность равна 0, прогноз абсолютно надежен. Например, если мы сгруппируем все случаи прогноза, в которых вероятность дождя составляла 80%, мы получим идеальную надежность только в том случае, если после выпуска такого прогноза дождь шел 4 из 5 раз.

Разрешение

Срок разрешения измеряет, насколько условные вероятности с учетом различных прогнозов отличаются от среднего климатического значения. Чем выше этот срок, тем лучше. В худшем случае, когда климатическая вероятность всегда прогнозируется, разрешение равно нулю. В лучшем случае, когда условные вероятности равны нулю и единице, разрешающая способность равна неопределенности.

Двухкомпонентное разложение

Альтернативная (и связанная с ней) декомпозиция генерирует два члена вместо трех.

Первый термин известен как калибровка (и может использоваться как мера калибровки, см. статистическая калибровка ) и равняется надежности. Второй член известен как уточнение, он представляет собой совокупность разрешающей способности и неопределенности и относится к области под ROC Изгиб.

Оценка Бриера и разложение CAL + REF могут быть представлены графически с помощью так называемых кривых Бриера,[3] где ожидаемые убытки показаны для каждого рабочего состояния. Это делает показатель Brier Score мерой совокупной производительности при равномерном распределении асимметрии классов.[4]

Недостатки

Оценка Бриера становится недостаточной для очень редких (или очень частых) событий, потому что она не позволяет в достаточной степени различать небольшие изменения в прогнозе, значимые для редких событий.[5] Уилкс (2010) обнаружил, что «[Q] очень большие размеры выборки, то есть n> 1000, необходимы для высококвалифицированных прогнозов относительно редких событий, тогда как только весьма скромные размеры выборки необходимы для низкоквалифицированных прогнозов общих событий». [6]

Смотрите также

Рекомендации

Примечания
  1. ^ а б Брайер (1950). «Проверка прогнозов, выраженных в вероятности» (PDF). Ежемесячный обзор погоды. 78: 1–3. Дои:10.1175 / 1520-0493 (1950) 078 <0001: vofeit> 2.0.co; 2. Архивировано из оригинал (PDF) на 2017-10-23. Cite имеет пустой неизвестный параметр: | месяц = (помощь)
  2. ^ Мерфи, А. Х. (1973). «Новое векторное разбиение оценки вероятности». Журнал прикладной метеорологии. 12 (4): 595–600. Дои:10.1175 / 1520-0450 (1973) 012 <0595: ANVPOT> 2.0.CO; 2. Cite имеет пустой неизвестный параметр: | месяц = (помощь)
  3. ^ Hernandez-Orallo, J .; Flach, P.A .; Ферри, К. (2011). «Кривые Брайера: новая визуализация производительности классификатора на основе затрат» (PDF). Материалы 28-й Международной конференции по машинному обучению (ICML-11). С. 585–592.
  4. ^ Hernandez-Orallo, J .; Flach, P.A .; Ферри, К. (2012). «Единое представление метрик производительности: перевод выбора порога в ожидаемую потерю классификации» (PDF). Журнал исследований в области машинного обучения. 13: 2813–2869.
  5. ^ Риккардо Бенедетти (01.01.2010). «Правила выставления оценок для проверки прогнозов». Ежемесячный обзор погоды. 138 (1): 203–211. Дои:10.1175 / 2009MWR2945.1.
  6. ^ Уилкс, Д. С. (2010). «Выборочные распределения оценки Брайера и оценки навыков Брайера при серийной зависимости». Ежеквартальный журнал Королевского метеорологического общества. 136 (1): 2109–2118. Дои:10.1002 / qj.709.
Источники

внешняя ссылка