Точность и отзыв - Precision and recall

Точность и отзыв

В распознавание образов, поиск информации и классификация (машинное обучение), точность (также называемый положительная прогностическая ценность ) - это доля соответствующих экземпляров среди извлеченных экземпляров, а отзывать (также известен как чувствительность ) - это доля от общего количества релевантных экземпляров, которые были фактически получены. Таким образом, и точность, и отзыв основаны на понимании и измерении актуальность.

Предположим, компьютерная программа для распознавания собак на фотографиях идентифицирует 8 собак на фотографии, содержащей 10 кошек и 12 собак (соответствующие элементы). Из 8 идентифицированных как собак 5 на самом деле собаки (истинные положительные результаты), а остальные 3 - кошки (ложные срабатывания). 7 собак были пропущены (ложноотрицательные результаты), а 7 кошек были исключены правильно (истинные отрицательные результаты). Точность программы составляет 5/8 (истинные положительные результаты / все положительные результаты), а ее отзыв - 5/12 (истинные положительные результаты / соответствующие элементы). Когда поисковый движок возвращает 30 страниц, только 20 из которых были релевантными, и не возвращает 40 дополнительных релевантных страниц, его точность составляет 20/30 = 2/3, а его отзыв составляет 20/60 = 1/3. Итак, в этом случае точность - это «насколько достоверны результаты поиска», а напоминание - это «насколько полны результаты».

Принятие подхода к проверке гипотез от статистика, в котором в данном случае нулевая гипотеза это то, что данный предмет не имеющий отношения, т.е. не собака, отсутствие ошибки типа I и типа II (т.е. идеально чувствительность и специфичность 100% каждый) соответствует идеальной точности (без ложных срабатываний) и идеальному отзыву (без ложных отрицательных результатов).

В более общем смысле, отзыв - это просто дополнение к частоте ошибок типа II, т.е. единица минус частота ошибок типа II. Точность связана с частотой ошибок типа I, но несколько более сложным образом, поскольку она также зависит от предварительного распределения видимости релевантного элемента по сравнению с нерелевантным.

Вышеупомянутый пример кошек и собак содержал 8-5 = 3 ошибки типа I для частоты ошибок типа I 3/10 и 12-5 = 7 ошибок типа II для частоты ошибок типа II 7/12. Точность можно рассматривать как меру качества, а отзыв как меру количества. Более высокая точность означает, что алгоритм возвращает больше релевантных результатов, чем нерелевантных, а высокий уровень отзыва означает, что алгоритм возвращает большинство релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).

Вступление

В поиск информации, экземпляры являются документами, и задача состоит в том, чтобы вернуть набор соответствующих документов по запросу. Напомним, это количество соответствующих документов получено поиском деленное на общее количество существующих соответствующих документов, а точность - это количество соответствующих документов получено поиском деленное на общее количество извлеченных документов этим поиском.

В классификация задача, точность для класса - это количество истинных положительных результатов (т.е. количество элементов, правильно отнесенных к положительному классу) деленное на общее количество элементов, отнесенных к положительному классу (т.е. сумма истинных положительных результатов и ложные срабатывания, которые являются предметами, ошибочно помеченными как принадлежащие к классу). Напоминание в этом контексте определяется как количество истинных положительных результатов, деленное на общее количество элементов, которые фактически принадлежат к положительному классу (т.е. сумма истинных положительных результатов и ложные отрицания, которые являются предметами, которые не были помечены как принадлежащие к положительному классу, но должны были быть).

При поиске информации оценка идеальной точности 1,0 означает, что каждый результат, полученный в результате поиска, был релевантным (но ничего не говорит о том, были ли получены все соответствующие документы), тогда как оценка идеальной точности 1,0 означает, что все релевантные документы были извлечены в результате поиска ( но ничего не говорит о том, сколько нерелевантных документов было также найдено).

В задаче классификации оценка точности 1,0 для класса C означает, что каждый элемент, помеченный как принадлежащий классу C, действительно принадлежит классу C (но ничего не говорит о количестве элементов из класса C, которые были неправильно помечены), тогда как отзыв 1.0 означает, что каждый элемент из класса C был помечен как принадлежащий классу C (но ничего не говорит о том, сколько элементов из других классов были также неправильно помечены как принадлежащие классу C).

Часто существует обратная зависимость между точностью и отзывом, когда одно можно увеличить за счет уменьшения другого. Хирургия головного мозга является наглядным примером компромисса. Представьте себе, что хирург удаляет раковую опухоль из мозга пациента. Хирургу необходимо удалить все опухолевые клетки, поскольку оставшиеся раковые клетки регенерируют опухоль. И наоборот, хирург не должен удалять здоровые клетки головного мозга, так как это приведет к нарушению функции мозга пациента. Хирург может более либерально подходить к области мозга, которую он удаляет, чтобы убедиться, что он удалил все раковые клетки. Это решение увеличивает отзыв, но снижает точность. С другой стороны, хирург может быть более консервативным в отношении удаляемого мозга, чтобы гарантировать, что он извлекает только раковые клетки. Это решение увеличивает точность, но уменьшает отзыв. Другими словами, более высокий уровень отзыва увеличивает шансы на удаление здоровых клеток (отрицательный результат) и увеличивает шансы на удаление всех раковых клеток (положительный результат). Повышенная точность снижает вероятность удаления здоровых клеток (положительный результат), но также снижает вероятность удаления всех раковых клеток (отрицательный результат).

Обычно оценки точности и запоминания не обсуждаются изолированно. Вместо этого значения одного показателя сравниваются с фиксированным уровнем другого показателя (например, точность на уровне отзыва 0,75) или оба объединены в одну меру. Примерами мер, которые представляют собой сочетание точности и отзыва, являются F-мера (взвешенный гармоническое среднее точности и отзыва), или Коэффициент корреляции Мэтьюза, который является среднее геометрическое случайных вариантов: коэффициенты регрессии Информированность (DeltaP ') и Отмеченность (ДельтаП).[1][2] Точность представляет собой средневзвешенное арифметическое значение точности и обратной точности (взвешенное по смещению), а также средневзвешенное арифметическое значение отзыва и обратного отзыва (взвешенное по распространенности).[1] Обратная точность и обратный вызов - это просто точность и отзыв обратной задачи, в которой положительные и отрицательные метки меняются местами (как для реальных классов, так и для прогнозных меток). Отзыв и обратный отзыв, или, что то же самое, частота истинных положительных и ложных положительных результатов часто строятся друг против друга как ROC кривые и обеспечивают принципиальный механизм для изучения компромиссов рабочих точек. Помимо поиска информации, применение методов отзыва, точности и F-меры считается ошибочным, поскольку они игнорируют истинно отрицательную ячейку таблицы непредвиденных обстоятельств, и ими легко манипулировать, искажая прогнозы.[1] Первая проблема «решается» с помощью Точность а вторая проблема «решается» путем дисконтирования случайной составляющей и перенормировки на Каппа Коэна, но это больше не дает возможности графически исследовать компромиссы. Тем не мение, Информированность и Отмеченность являются каппа-подобными перенормировками памяти и точности,[3] и их среднее геометрическое Коэффициент корреляции Мэтьюза таким образом действует как ослабленная F-мера.

Определение (контекст поиска информации)

В поиск информации контексты, точность и отзыв определяются в терминах набора извлеченные документы (например, список документов, подготовленных поисковая система для запроса) и набор соответствующие документы (например, список всех документов в Интернете, относящихся к определенной теме), ср. актуальность.[4]

Точность

В области поиск информации, точность - это доля извлеченных документов, соответствующий на запрос:

Например, для текстового поиска по набору документов точность - это количество правильных результатов, деленное на количество всех возвращенных результатов.

Точность учитывает все извлеченные документы, но ее также можно оценить по заданному пороговому значению, учитывая только самые верхние результаты, возвращаемые системой. Эта мера называется точность на n или же P @ n.

Точность используется с отзывом, процент все соответствующие документы, возвращаемые поиском. Эти две меры иногда используются вместе в F1 Счет (или f-мера), чтобы обеспечить единичное измерение для системы.

Обратите внимание, что значение и использование термина «точность» в области поиска информации отличается от определения термина тщательность и точность в других отраслях науки и техники.

Отзывать

При поиске информации отзыв - это часть успешно извлеченных релевантных документов.

Например, для текстового поиска по набору документов отзыв - это количество правильных результатов, разделенное на количество результатов, которые должны были быть возвращены.

В бинарной классификации отзыв называется чувствительность. Его можно рассматривать как вероятность того, что соответствующий документ будет получен запросом.

Добиться 100% отзыва, вернув все документы в ответ на любой запрос, - тривиальная задача. Следовательно, одного отзыва недостаточно, необходимо также измерить количество нерелевантных документов, например, также вычислив точность.

Определение (контекст классификации)

Для задач классификации термины истинные положительные моменты, истинные негативы, ложные срабатывания, и ложные отрицания (видеть Ошибки типа I и типа II для определений) сравнить результаты тестируемого классификатора с достоверными внешними суждениями. Условия положительный и отрицательный относятся к прогнозу классификатора (иногда называемому ожидание), а условия истинный и ложный относятся к тому, соответствует ли этот прогноз внешнему суждению (иногда известному как наблюдение).

Определим эксперимент из п положительные примеры и N отрицательные примеры для какого-то состояния. Четыре исхода можно сформулировать в виде 2 × 2 Таблица сопряженности или же матрица путаницы, следующее:

Истинное состояние
Всего населенияСостояние положительноеСостояние отрицательноеРаспространенность = Σ Условие положительное/Σ Всего населенияТочность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения
Прогнозируемое состояние
Прогнозируемое состояние
положительный
Истинно положительныйЛожный положительный результат,
Ошибка типа I
Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительноеУровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное
Прогнозируемое состояние
отрицательный
Ложноотрицательный,
Ошибка типа II
Правда отрицательныйУровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательноеОтрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное
Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительноеЛожноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательноеОтношение положительного правдоподобия (LR +) = TPR/FPRСоотношение диагностических шансов (DOR) = LR +/LR−F1 счет = 2 · Точность · Отзыв/Точность + отзыв
Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительноеСпецифика (SPC), селективность, Истинная отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательноеОтрицательное отношение правдоподобия (LR-) = FNR/TNR
Терминология и производные
из матрица путаницы
положительное состояние (P)
количество реальных положительных случаев в данных
условие отрицательное (N)
количество реальных отрицательных случаев в данных

истинно положительный (TP)
экв. с хитом
истинно отрицательный (TN)
экв. с правильным отклонением
ложное срабатывание (FP)
экв. с ложная тревога, Ошибка типа I
ложноотрицательный (FN)
экв. с мисс, Ошибка типа II

чувствительность, отзывать, частота попаданий, или же истинно положительная ставка (TPR)
специфичность, избирательность или же истинно отрицательная ставка (TNR)
точность или же положительная прогностическая ценность (PPV)
отрицательная прогностическая ценность (ЧПС)
рейтинг промахов или ложноотрицательная ставка (FNR)
выпадать или же ложноположительный рейтинг (FPR)
коэффициент ложного обнаружения (FDR)
коэффициент ложных пропусков (ЗА)
Порог распространенности (PT)
Оценка угрозы (TS) или индекс критического успеха (CSI)

точность (АКК)
сбалансированная точность (BA)
Оценка F1
это гармоническое среднее из точность и чувствительность
Коэффициент корреляции Мэтьюза (MCC)
Индекс Фаулкса – Маллоуса (FM)
информированность или букмекерской конторы (BM)
отмеченность (МК) или deltaP

Источники: Fawcett (2006),[5] Полномочия (2011),[6] Тинг (2011),[7], CAWCR[8] Д. Чикко и Г. Джурман (2020),[9] Тарват (2018).[10]


Тогда точность и отзыв определяются как:[11]

Напоминание в этом контексте также называется истинно положительным показателем или чувствительность, а точность также называется положительная прогностическая ценность (PPV); другие связанные показатели, используемые при классификации, включают истинно отрицательную ставку и точность.[11] Истинно отрицательная ставка также называется специфичность.

Несбалансированные данные

Точность может быть неверным показателем для несбалансированных наборов данных. Рассмотрим образец с 95 отрицательными и 5 положительными значениями. Отнесение всех значений к отрицательным в этом случае дает оценку точности 0,95. Многие показатели не страдают от этой проблемы. Например, сбалансированная точность[12] (bACC) нормализует истинно положительные и истинно отрицательные предсказания на количество положительных и отрицательных выборок, соответственно, и делит их сумму на два:

Для предыдущего примера (95 отрицательных и 5 положительных образцов) отнесение всех к отрицательным дает 0,5 балла сбалансированной точности (максимальный балл bACC равен единице), что эквивалентно ожидаемому значению случайного предположения в сбалансированном наборе данных. Сбалансированная точность может служить показателем общей производительности для модели независимо от того, не сбалансированы ли истинные метки в данных, при условии, что стоимость FN такая же, как и FP.

Другой показатель - это прогнозируемая частота положительных результатов (PPCR), которая определяет процент от общей популяции, отмеченной флажком. Например, для поисковой системы, которая возвращает 30 результатов (извлеченных документов) из 1 000 000 документов, PPCR составляет 0,003%.

Согласно Сайто и Ремсмайеру, графики точного отзыва более информативны, чем графики ROC, при оценке двоичных классификаторов на несбалансированных данных. В таких сценариях графики ROC могут быть визуально обманчивыми в отношении выводов о надежности характеристик классификации.[13]

Вероятностная интерпретация

Можно также интерпретировать точность и вспоминание не как отношения, а как оценки вероятностей:[14]

  • Точность - это оценочная вероятность того, что документ, случайно выбранный из пула извлеченных документов, является релевантным.
  • Отзыв - это оценочная вероятность того, что будет извлечен документ, случайно выбранный из пула соответствующих документов.

Другая интерпретация состоит в том, что точность - это средняя вероятность релевантного извлечения, а отзыв - это средняя вероятность полного извлечения, усредненная по нескольким запросам извлечения.

F-мера

Показателем, сочетающим точность и отзывчивость, является гармоническое среднее точности и запоминания, традиционная F-мера или сбалансированная F-оценка:

Этот показатель является приблизительно средним из двух, когда они близки, и в более общем плане гармоническое среднее, что для случая двух чисел совпадает с квадратом числа среднее геометрическое разделенный на среднее арифметическое. Существует несколько причин, по которым F-балл может подвергаться критике в определенных обстоятельствах из-за его предвзятости в качестве метрики оценки.[1] Это также известно как измерять, потому что отзывчивость и точность равны.

Это частный случай общего мера (для неотрицательных реальных значений):

Два других широко используемых меры - это мера, весы которой напоминают больше, чем точность, а мера, в которой больше внимания уделяется точности, чем отзыву.

F-мера была получена ван Райсбергеном (1979) так, что "измеряет эффективность поиска по отношению к пользователю, который прикрепляет в разы важнее, чем точность ". Он основан на оценке эффективности ван Рейсбергена. , второй член представляет собой взвешенное гармоническое среднее значение точности и отзыва с весами . Их отношения куда .

Ограничения как цели

Существуют и другие параметры и стратегии для метрики производительности информационно-поисковой системы, например, область под Кривая ROC (AUC).[15]

Смотрите также

Рекомендации

  1. ^ а б c d Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF). Журнал технологий машинного обучения. 2 (1): 37–63. Архивировано из оригинал (PDF) на 2019-11-14.
  2. ^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика. 17 (2–3): 97–119. Дои:10.1016 / s0911-6044 (03) 00059-9. S2CID  17104364.
  3. ^ Пауэрс, Дэвид М. В. (2012). «Проблема с каппой». Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP.
  4. ^ * Кент, Аллен; Берри, Мэдлин М .; Luehrs, Jr., Fred U .; Перри, Дж. (1955). «Машинный поиск литературы VIII. Эксплуатационные критерии проектирования информационно-поисковых систем». Американская документация. 6 (2): 93. Дои:10.1002 / asi.5090060209.
  5. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF). Письма с распознаванием образов. 27 (8): 861–874. Дои:10.1016 / j.patrec.2005.10.010.
  6. ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63.
  7. ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри I (ред.). Энциклопедия машинного обучения. Springer. Дои:10.1007/978-0-387-30164-8. ISBN  978-0-387-30164-8.
  8. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов». Сотрудничество в области исследований погоды и климата Австралии. Всемирная метеорологическая организация. Получено 2019-07-17.
  9. ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (1): 6-1–6-13. Дои:10.1186 / s12864-019-6413-7. ЧВК  6941312. PMID  31898477.
  10. ^ Тарват А. (август 2018 г.). «Классификационные методы оценки». Прикладные вычисления и информатика. Дои:10.1016 / j.aci.2018.08.003.
  11. ^ а б Олсон, Дэвид Л .; и Делен, Дурсун (2008); Расширенные методы интеллектуального анализа данных, Springer, 1-е издание (1 февраля 2008 г.), стр. 138, ISBN  3-540-76916-1
  12. ^ Косилка, Джеффри П. (12 апреля 2005 г.). «PREP-Mt: предсказательный редактор РНК для митохондриальных генов растений». BMC Bioinformatics. 6: 96. Дои:10.1186/1471-2105-6-96. ISSN  1471-2105. ЧВК  1087475. PMID  15826309.
  13. ^ Сайто, Такая; Ремсмайер, Марк (4 марта 2015 г.). Брок, Гай (ред.). «График точности-отзыва более информативен, чем график ROC при оценке двоичных классификаторов на несбалансированных наборах данных». PLOS ONE. 10 (3): e0118432. Bibcode:2015PLoSO..1018432S. Дои:10.1371 / journal.pone.0118432. ISSN  1932-6203. ЧВК  4349800. PMID  25738806. Сложить резюме (Март 2017 г.).
  14. ^ Фатих Чакир, Кун Хе, Сиде Ся, Брайан Кулис, Стэн Скларофф, Глубокое метрическое обучение для ранжирования, В Proc. Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR), 2019.
  15. ^ Зигмунт Зайец. Что вы хотели знать о AUC. http://fastml.com/what-you-wanted-to-know-about-auc/
  • Баеза-Йейтс, Рикардо; Рибейро-Нето, Бертье (1999). Современный информационный поиск. Нью-Йорк, штат Нью-Йорк: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN  0-201-39829-X
  • Хьёрланд, Биргер (2010); Основа концепции актуальности, Журнал Американского общества информационных наук и технологий, 61 (2), 217-237.
  • Махоул, Джон; Кубала, Фрэнсис; Шварц, Ричард; и Вайшедель, Ральф (1999); Показатели эффективности для извлечения информации, в Труды семинара новостей вещания DARPA, Херндон, Вирджиния, февраль 1999 г.
  • ван Рейсберген, Корнелис Йост «Кейт» (1979); Поиск информации, Лондон, Великобритания; Бостон, Массачусетс: Баттерворт, 2-е издание, ISBN  0-408-70929-4

внешняя ссылка