F-оценка - Википедия - F-score

Точность и отзыв

В статистический анализ двоичная классификация, то F-оценка или же F-мера является мерой точности теста. Он рассчитывается из точность и отзывать теста, где точность - это количество правильно идентифицированных положительных результатов, деленное на количество всех положительных результатов, включая те, которые не были идентифицированы правильно, а отзыв - это количество правильно идентифицированных положительных результатов, деленное на количество всех образцов, которые должны быть были определены как положительные.

В F₁ оценка гармоническое среднее точности и отзыва. Более общий ${ displaystyle F _ { beta}}$ Score применяет дополнительные веса, оценивая точность или отзывчивость одного больше, чем другого.

Максимально возможное значение F-оценки равно 1, что указывает на безупречную точность и отзыв, а минимально возможное значение - 0, если точность или отзыв равны нулю. F₁ оценка также известна как Коэффициент Соренсена – Дайса или коэффициент подобия игральных костей (DSC).^{[нужна цитата ]}

Этимология

Считается, что название F-мера было названо в честь другой F-функции в книге Ван Рейсбергена, когда она была представлена Четвертой Конференция по пониманию сообщений (MUC-4, 1992).^[1]

Определение

Традиционная F-мера или сбалансированная F-оценка (F₁ счет) это гармоническое среднее точности и отзывчивости:

{ displaystyle F_ {1} = { frac {2} { mathrm {вспомнить} ^ {- 1} + mathrm {precision} ^ {- 1}}} = 2 cdot { frac { mathrm {precision } cdot mathrm {вспомнить}} { mathrm {precision} + mathrm {вспомнить}}} = { frac { mathrm {tp}} { mathrm {tp} + { frac {1} {2} } ( mathrm {fp} + mathrm {fn})}}}

.

${ displaystyle F _ { beta}}$

Более общая оценка F, ${ displaystyle F _ { beta}}$ , который использует положительный действительный множитель β, где β выбирается таким образом, что отзыв считается в β раз важнее точности, составляет:

{ Displaystyle F _ { beta} = (1+ beta ^ {2}) cdot { frac { mathrm {precision} cdot mathrm {вспомнить}} {( beta ^ {2} cdot mathrm {precision}) + mathrm {вспомнить}}}}

.

С точки зрения Ошибки типа I и типа II это становится:

{ Displaystyle F _ { beta} = { frac {(1+ beta ^ {2}) cdot mathrm {true positive}} {(1+ beta ^ {2}) cdot mathrm {true положительный} + бета ^ {2} cdot mathrm {ложный отрицательный} + mathrm {ложный положительный}}} ,}

.

Два обычно используемых значения β: 2, что весит отзыв выше, чем точность, и 0,5, что вес отзыва ниже, чем точность.

F-мера была получена так, что ${ displaystyle F _ { beta}}$ «измеряет эффективность поиска по отношению к пользователю, который придает воспоминаниям в β раз большее значение, чем точность».^[2] Он основан на Ван Рийсберген мера эффективности

{ displaystyle E = 1- left ({ frac { alpha} {p}} + { frac {1- alpha} {r}} right) ^ {- 1}}

.

Их отношения ${ displaystyle F _ { beta} = 1-E}$ куда ${ displaystyle alpha = { frac {1} {1+ beta ^ {2}}}}$ .

Диагностическое тестирование

Это связано с областью двоичная классификация где отзыв часто называют «чувствительностью».

		Истинное состояние
	Всего населения	Состояние положительное	Состояние отрицательное	Распространенность = Σ Условие положительное/Σ Всего населения	Точность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения
Прогнозируемое состояние	Прогнозируемое состояние положительный	Истинно положительный	Ложный положительный результат, Ошибка типа I	Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительное	Уровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное
	Прогнозируемое состояние отрицательный	Ложноотрицательный, Ошибка типа II	Правда отрицательный	Уровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное	Отрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
		Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительное	Ложноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательное	Отношение положительного правдоподобия (LR +) = TPR/FPR	Соотношение диагностических шансов (DOR) = LR +/LR−	F₁ счет = 2 · Точность · Отзыв/Точность + отзыв
		Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительное	Специфика (SPC), селективность, Истинно отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательное	Отрицательное отношение правдоподобия (LR-) = FNR/TNR

Приложения

F-оценка часто используется в области поиск информации для измерения поиск, классификация документов, и классификация запросов спектакль.^[3] Более ранние работы были сосредоточены в основном на F₁ оценка, но с распространением крупномасштабных поисковых систем цели производительности изменились, чтобы уделять больше внимания точности или отзыву^[4] и так ${ displaystyle F _ { beta}}$ рассматривается в широком применении.

F-оценка также используется в машинное обучение.^[5] Однако F-меры не принимают во внимание истинные отрицательные стороны, следовательно, такие меры, как Коэффициент корреляции Мэтьюза, Информированность или же Каппа Коэна может быть предпочтительным для оценки производительности двоичного классификатора.^{[нужна цитата ]}

Оценка F широко использовалась в литературе по обработке естественного языка,^[6] например, при оценке признание названного лица и сегментация слов.

Критика

Дэвид Хэнд и другие критикуют широкое использование F₁ оценка, так как в нем одинаково важны точность и отзывчивость. На практике разные типы неправильной классификации влекут за собой разные затраты. Другими словами, относительная важность точности и отзывчивости - один из аспектов проблемы.^[7]

По словам Давиде Чикко и Джузеппе Юрмана, F₁ оценка менее правдива и информативна, чем Коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации.^[8]

Дэвид Пауэрс указал, что F₁ игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированность и Отмеченность для двух направлений, отмечая, что их среднее геометрическое является корреляцией.^[9]

Отличие от индекса Фаулкса – Маллоуса

В то время как F-мера - это гармоническое среднее запоминания и точности, Индекс Фаулкса – Маллоуса является их среднее геометрическое.^[10]

Расширение мультиклассовой классификации

F-оценка также используется для оценки задач классификации с более чем двумя классами (Мультиклассовая классификация ). В этой настройке окончательный результат получается путем микро-усреднения (смещенного на частоту класса) или макро-усреднения (принимая все классы как одинаково важные). Для макро-усреднения кандидатами использовались две разные формулы: F-оценка (арифметической) классовой точности и средств вспоминания или среднее арифметическое F-оценок по классам, где последние демонстрируют более желательные свойства.^[11]

F-оценка - Википедия - F-score

Содержание

Этимология

Определение

${ displaystyle F _ { beta}}$

Диагностическое тестирование

Приложения

Критика

Отличие от индекса Фаулкса – Маллоуса

Расширение мультиклассовой классификации

Смотрите также

Рекомендации

F-оценка - Википедия - F-score

Этимология

Определение

F β { displaystyle F _ { beta}}

Диагностическое тестирование

Приложения

Критика

Отличие от индекса Фаулкса – Маллоуса

Расширение мультиклассовой классификации

Смотрите также

Рекомендации

${ displaystyle F _ { beta}}$