F-оценка - Википедия - F-score

Точность и отзыв

В статистический анализ двоичная классификация, то F-оценка или же F-мера является мерой точности теста. Он рассчитывается из точность и отзывать теста, где точность - это количество правильно идентифицированных положительных результатов, деленное на количество всех положительных результатов, включая те, которые не были идентифицированы правильно, а отзыв - это количество правильно идентифицированных положительных результатов, деленное на количество всех образцов, которые должны быть были определены как положительные.

В F1 оценка гармоническое среднее точности и отзыва. Более общий Score применяет дополнительные веса, оценивая точность или отзывчивость одного больше, чем другого.

Максимально возможное значение F-оценки равно 1, что указывает на безупречную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. F1 оценка также известна как Коэффициент Соренсена – Дайса или коэффициент подобия игральных костей (DSC).[нужна цитата ]

Этимология

Считается, что название F-мера было названо в честь другой F-функции в книге Ван Рейсбергена, когда она была представлена ​​Четвертой Конференция по пониманию сообщений (MUC-4, 1992).[1]

Определение

Традиционная F-мера или сбалансированная F-оценка (F1 счет) это гармоническое среднее точности и отзывчивости:

.

Более общая оценка F, , который использует положительный действительный множитель β, где β выбирается таким образом, что отзыв считается в β раз важнее точности, составляет:

.

С точки зрения Ошибки типа I и типа II это становится:

.

Два обычно используемых значения β: 2, что весит отзыв выше, чем точность, и 0,5, что вес отзыва ниже, чем точность.

F-мера была получена так, что «измеряет эффективность поиска по отношению к пользователю, который придает воспоминаниям в β раз большее значение, чем точность».[2] Он основан на Ван Рийсберген мера эффективности

.

Их отношения куда .

Диагностическое тестирование

Это связано с областью двоичная классификация где отзыв часто называют «чувствительностью».

Истинное состояние
Всего населенияСостояние положительноеСостояние отрицательноеРаспространенность = Σ Условие положительное/Σ Всего населенияТочность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения
Прогнозируемое состояние
Прогнозируемое состояние
положительный
Истинно положительныйЛожный положительный результат,
Ошибка типа I
Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительноеУровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное
Прогнозируемое состояние
отрицательный
Ложноотрицательный,
Ошибка типа II
Правда отрицательныйУровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательноеОтрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительноеЛожноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательноеОтношение положительного правдоподобия (LR +) = TPR/FPRСоотношение диагностических шансов (DOR) = LR +/LR−F1 счет = 2 · Точность · Отзыв/Точность + отзыв
Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительноеСпецифика (SPC), селективность, Истинно отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательноеОтрицательное отношение правдоподобия (LR-) = FNR/TNR

Приложения

F-оценка часто используется в области поиск информации для измерения поиск, классификация документов, и классификация запросов спектакль.[3] Более ранние работы были сосредоточены в основном на F1 оценка, но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или отзыву[4] и так рассматривается в широком применении.

F-оценка также используется в машинное обучение.[5] Однако F-меры не принимают во внимание истинные отрицательные стороны, следовательно, такие меры, как Коэффициент корреляции Мэтьюза, Информированность или же Каппа Коэна может быть предпочтительным для оценки производительности двоичного классификатора.[нужна цитата ]

Оценка F широко использовалась в литературе по обработке естественного языка,[6] например, при оценке признание названного лица и сегментация слов.

Критика

Дэвид Хэнд и другие критикуют широкое использование F1 оценка, так как в нем одинаково важны точность и отзывчивость. На практике разные типы неправильной классификации влекут за собой разные затраты. Другими словами, относительная важность точности и отзывчивости - один из аспектов проблемы.[7]

По словам Давиде Чикко и Джузеппе Юрмана, F1 оценка менее правдива и информативна, чем Коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации.[8]

Дэвид Пауэрс указал, что F1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированность и Отмеченность для двух направлений, отмечая, что их среднее геометрическое является корреляцией.[9]

Отличие от индекса Фаулкса – Маллоуса

В то время как F-мера - это гармоническое среднее запоминания и точности, Индекс Фаулкса – Маллоуса является их среднее геометрическое.[10]

Расширение мультиклассовой классификации

F-оценка также используется для оценки задач классификации с более чем двумя классами (Мультиклассовая классификация ). В этой настройке окончательный результат получается путем микро-усреднения (смещенного на частоту класса) или макро-усреднения (принимая все классы как одинаково важные). Для макро-усреднения кандидатами использовались две разные формулы: F-оценка (арифметической) классовой точности и средств вспоминания или среднее арифметическое F-оценок по классам, где последние демонстрируют более желательные свойства.[11]

Смотрите также

Рекомендации

  1. ^ Сасаки, Ю. (2007). «Истина F-меры» (PDF).
  2. ^ Ван Рийсберген, К. Дж. (1979). Поиск информации (2-е изд.). Баттерворт-Хайнеманн.
  3. ^ Beitzel., Стивен М. (2006). О понимании и классификации веб-запросов (Кандидатская диссертация). ИИТ. CiteSeerX  10.1.1.127.634.
  4. ^ X. Li; Ю.-Й. Ванга; А. Асеро (июль 2008 г.). Изучение цели запроса на основе регуляризованных графиков кликов. Материалы 31-й конференции SIGIR. Дои:10.1145/1390334.1390393. S2CID  8482989.
  5. ^ См., Например, оценку [1].
  6. ^ Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП. Материалы Международной конференции по языковым ресурсам и оценке.
  7. ^ Рука, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей - Размеры». app.dimensions.ai. Дои:10.1007 / s11222-017-9746-6. HDL:10044/1/46235. S2CID  38782128. Получено 2018-12-08.
  8. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (6): 6. Дои:10.1186 / s12864-019-6413-7. ЧВК  6941312. PMID  31898477.
  9. ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, запоминания и F-Score до ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63. HDL:2328/27165.
  10. ^ Тарват А. (август 2018 г.). «Классификационные методы оценки». Прикладные вычисления и информатика (опережающий печать). Дои:10.1016 / j.aci.2018.08.003.
  11. ^ Дж. Опиц; С. Бурст (2019). «Макро F1 и Макро F1». arXiv:1911.03347 [stat.ML ].