Коэффициент корреляции Мэтьюза - Википедия - Matthews correlation coefficient
Было высказано предположение, что Коэффициент Phi быть слился в эту статью. (Обсуждать) Предлагается с августа 2020 года. |
В Коэффициент корреляции Мэтьюза (MCC) или коэффициент фи используется в машинное обучение как мера качества двоичного (двухклассного) классификации, представленный биохимиком Брайан В. Мэтьюз в 1975 г.[1] MCC определяется идентично Коэффициент фи Пирсона, представлен Карл Пирсон,[2][3] также известный как коэффициент Юля фи, от его введения Удный Йоль в 1912 г.[4] Несмотря на эти предшественники, которые предшествовали использованию Мэтьюзом на несколько десятилетий, термин MCC широко используется в области биоинформатики и машинного обучения.
Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно считается сбалансированной мерой, которую можно использовать, даже если классы очень разных размеров.[5] MCC - это, по сути, коэффициент корреляции между наблюдаемыми и предсказанными бинарными классификациями; он возвращает значение от -1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 не лучше, чем случайное предсказание, а -1 указывает на полное несоответствие между предсказанием и наблюдением. MCC тесно связан с статистика хи-квадрат для 2 × 2 Таблица сопряженности
куда п - общее количество наблюдений.
Хотя нет идеального способа описать матрица путаницы Для истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей.[6] Другие показатели, такие как доля правильных прогнозов (также называемая точность ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к большему набору обеспечивает высокую долю правильных прогнозов, но обычно не является полезной классификацией.
MCC можно рассчитать непосредственно из матрица путаницы по формуле:
В этом уравнении TP это количество истинные положительные моменты, TN количество истинные негативы, FP количество ложные срабатывания и FN количество ложные отрицания. Если любая из четырех сумм в знаменателе равна нулю, знаменатель может быть произвольно установлен на единицу; это приводит к нулевому коэффициенту корреляции Мэтьюза, который можно показать как правильное предельное значение.
MCC можно рассчитать по формуле:
с использованием положительного прогнозного значения, истинно положительного показателя, истинно отрицательного показателя, отрицательного прогнозного значения, показателя ложного обнаружения, ложноотрицательного показателя, ложноположительного показателя и показателя ложных пропусков.
Исходная формула, данная Мэтьюзом, была следующей:[1]
Это равно формуле, приведенной выше. Как коэффициент корреляции, коэффициент корреляции Мэтьюза - это среднее геометрическое из коэффициенты регрессии проблемы и ее двойной. Коэффициенты компонентной регрессии коэффициента корреляции Мэтьюза равны Отмеченность (Δp) и Статистика Юдена J (Информированность или Δp ').[6][7] Отмеченность и Информированность соответствуют разным направлениям информационного потока и обобщают Статистика Юдена J, то p статистики и (как их среднее геометрическое) коэффициент корреляции Мэтьюза для более чем двух классов.[6]
Некоторые ученые утверждают, что коэффициент корреляции Мэтьюса является наиболее информативной единичной оценкой для определения качества предсказания двоичного классификатора в контексте матрицы путаницы.[8]
Пример
Для выборки из 13 изображений 8 кошек и 5 собак, где кошки принадлежат к классу 1, а собаки относятся к классу 0,
- фактическое = [1,1,1,1,1,1,1,1,0,0,0,0,0],
Предположим, что классификатор, который проводит различие между кошками и собаками, обучен, и мы берем 13 изображений и пропускаем их через классификатор, и классификатор делает 8 точных прогнозов и пропускает 5: 3 кошек, ошибочно предсказанных как собак (первые 3 прогноза) и 2 собаки ошибочно предсказаны как кошки (последние 2 прогноза).
- прогноз = [0,0,0,1,1,1,1,1,0,0,0,1,1]
С помощью этих двух помеченных наборов (фактический и прогнозный) мы можем создать матрицу путаницы, которая суммирует результаты тестирования классификатора:
|
В этой матрице путаницы из 8 изображений кошек система определила, что 3 были собаками, а из 5 изображений собак она предсказала, что 2 были кошками. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому можно легко визуально проверить таблицу на предмет ошибок прогноза, поскольку они будут представлены значениями за пределами диагонали.
В абстрактном смысле матрица путаницы выглядит следующим образом:
|
где: P = положительный; N = отрицательный; TP = истинно положительный; FP = ложноположительный результат; TN = истинно отрицательный; FN = ложноотрицательный.
Подставляем числа из формулы:
MCC = [(5 * 3) - (2 * 3)] / SQRT [(5 + 2) * (5 + 3) * (3 + 2) * (3 + 3)] = 9 / SQRT [1680] = 0,219
Матрица путаницы
Источники: Fawcett (2006),[9] Полномочия (2011),[10] Тинг (2011),[11] CAWCR,[12] Д. Чикко и Г. Джурман (2020),[13] Тарват (2018).[14] |
Определим эксперимент из п положительные примеры и N отрицательные примеры для какого-то состояния. Четыре исхода можно сформулировать в виде 2 × 2 Таблица сопряженности или же матрица путаницы, следующее:
Истинное состояние | ||||||
Всего населения | Состояние положительное | Состояние отрицательное | Распространенность = Σ Условие положительное/Σ Всего населения | Точность (АКК) = Σ Истинно положительный + Σ Истинно отрицательный/Σ Всего населения | ||
Прогнозируемое состояние положительный | Истинно положительный | Ложный положительный результат, Ошибка типа I | Положительная прогностическая ценность (PPV), Точность = Σ Истинно положительный/Σ Прогнозируемое состояние положительное | Уровень ложного обнаружения (FDR) = Σ Ложноположительный/Σ Прогнозируемое состояние положительное | ||
Прогнозируемое состояние отрицательный | Ложноотрицательный, Ошибка типа II | Правда отрицательный | Уровень ложных пропусков (ДЛЯ) = Σ Ложноотрицательный/Σ Прогнозируемое состояние отрицательное | Отрицательная прогностическая ценность (ЧПС) = Σ Истинно отрицательный/Σ Прогнозируемое состояние отрицательное | ||
Истинно положительная оценка (TPR), Отзывать, Чувствительность, вероятность обнаружения, Мощность = Σ Истинно положительный/Σ Условие положительное | Ложноположительная ставка (FPR), Выпадать, вероятность ложной тревоги = Σ Ложноположительный/Σ Условие отрицательное | Отношение положительного правдоподобия (LR +) = TPR/FPR | Соотношение диагностических шансов (DOR) = LR +/LR− | F1 счет = 2 · Точность · Отзыв/Точность + отзыв | ||
Ложноотрицательная ставка (FNR), Рейтинг промахов = Σ Ложноотрицательный/Σ Условие положительное | Специфика (SPC), селективность, Истинно отрицательная ставка (TNR) = Σ Истинно отрицательный/Σ Условие отрицательное | Отрицательное отношение правдоподобия (LR-) = FNR/TNR |
Корпус Multiclass
Коэффициент корреляции Мэтьюза был обобщен на мультиклассовый случай. Это обобщение было названо статистики (для K различных классов) автором и определяется в терминах матрица путаницы [15].[16]
Когда имеется более двух меток, MCC больше не будет находиться в диапазоне от -1 до +1. Вместо этого минимальное значение будет между -1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.
Эту формулу легче понять, определив промежуточные переменные:[17]
- сколько раз действительно имел место класс k,
- количество предсказаний класса k,
- общее количество правильно спрогнозированных образцов,
- общее количество образцов. Это позволяет выразить формулу как:
Использование приведенной выше формулы для вычисления меры MCC для прогноза Dog & Cat, описанного выше, где матрица путаницы рассматривается как пример 2 x Multiclass:
число = (8 * 13) - (7 * 8) - (6 * 5) = 18
деном = КОРЕНЬ [(13 ^ 2 - 7 ^ 2 - 6 ^ 2) * (13 ^ 2 - 8 ^ 2 - 5 ^ 2)] = КОРЕНЬ [6720]
MCC = 18 / 81,975 = 0,219
Преимущества MCC над точностью и оценкой F1
Как объяснил Давид Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии» (BioData Mining, 2017) и Джузеппе Юрманом в его статье «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации» (BMC Genomics, 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке задач бинарной классификации, поскольку он учитывает балансные соотношения четырех категорий матрицы путаницы (истинно положительные, истинно отрицательные, ложные положительные, ложно отрицательные).[8][18]
В предыдущей статье объясняется, что Совет 8:
Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако, даже если точность и оценка F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы неточностей при их окончательном вычислении.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами и только 5 являются отрицательными элементами (как описано в совете 5). А также предположим, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда дает положительные результаты. Представьте, что вы не знаете об этой проблеме.
Таким образом, применяя свой единственный положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
TP = 95, FP = 5; TN = 0, FN = 0.
Эти значения приводят к следующим оценкам производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и будете думать, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы ошиблись бы.
Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель производительности, который вы можете использовать: коэффициент корреляции Мэтьюса [40] (MCC).
(Уравнение 3, MCC: худшее значение = -1; лучшее значение = +1).
Если учесть долю каждого класса матрицы путаницы в ее формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере оценка MCC будет неопределенной (так как TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы узнаете, что есть проблемы, которые вам следует решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию того же набора данных, что привело к следующим значениям категорий матрицы неточностей:
TP = 90, FP = 4; TN = 1, FN = 5.
В этом примере классификатор хорошо зарекомендовал себя при классификации положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и оценка точности будут чрезвычайно высокими: точность = 91% и оценка F1 = 95,24%. Подобно предыдущему случаю, если бы исследователь проанализировал только эти два показателя оценки без учета MCC, он бы ошибочно подумал, что алгоритм достаточно хорошо выполняет свою задачу, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза снова будет иметь решающее значение. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюса (MCC) вместо точности и балла F1 для любой задачи двоичной классификации.
— Давид Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии[8]
Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный. В первом примере выше, оценка F1 высока, потому что класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:
TP = 0, FP = 0; TN = 5, FN = 95
Это дает оценку F1 = 0%.
MCC не зависит от того, какой класс является положительным, который имеет преимущество перед оценкой F1, чтобы избежать неправильного определения положительного класса.
Смотрите также
- Каппа Коэна
- Крамера V, аналогичная мера связи между номинальными переменными.
- Оценка F1
- Коэффициент Phi
- Индекс Фаулкса – Маллоуса
Рекомендации
- ^ а б Мэтьюз, Б. У. (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysica Acta (BBA) - Структура белка. 405 (2): 442–451. Дои:10.1016/0005-2795(75)90109-9. PMID 1180967.
- ^ Крамер, Х. (1946). Математические методы статистики. Princeton: Princeton University Press, стр. 282 (второй абзац). ISBN 0-691-08004-6
- ^ Дата неясна, но до его смерти в 1936 году.
- ^ Юля, Г. Удный (1912). «О методах измерения связи между двумя атрибутами». Журнал Королевского статистического общества. 75 (6): 579–652. Дои:10.2307/2340126. JSTOR 2340126.
- ^ Boughorbel, С. Б. (2017). «Оптимальный классификатор для несбалансированных данных с использованием метрики коэффициента корреляции Мэтьюза». PLOS ONE. 12 (6): e0177678. Bibcode:2017PLoSO..1277678B. Дои:10.1371 / journal.pone.0177678. ЧВК 5456046. PMID 28574989.
- ^ а б c Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции» (PDF). Журнал технологий машинного обучения. 2 (1): 37–63.
- ^ Perruchet, P .; Переман, Р. (2004). «Использование распределительной информации при обработке слогов». J. Нейролингвистика. 17 (2–3): 97–119. Дои:10.1016 / s0911-6044 (03) 00059-9. S2CID 17104364.
- ^ а б c Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии». BioData Mining. 10 (35): 35. Дои:10.1186 / s13040-017-0155-3. ЧВК 5721660. PMID 29234465.
- ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF). Письма с распознаванием образов. 27 (8): 861–874. Дои:10.1016 / j.patrec.2005.10.010.
- ^ Пауэрс, Дэвид М. В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, значимости и корреляции». Журнал технологий машинного обучения. 2 (1): 37–63.
- ^ Тинг, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри I (ред.). Энциклопедия машинного обучения. Springer. Дои:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Йонг; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ / РГЧЭ по исследованиям для проверки прогнозов». Сотрудничество в области исследований погоды и климата Австралии. Всемирная метеорологическая организация. Получено 2019-07-17.
- ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (1): 6-1–6-13. Дои:10.1186 / s12864-019-6413-7. ЧВК 6941312. PMID 31898477.
- ^ Тарват А. (август 2018 г.). «Классификационные методы оценки». Прикладные вычисления и информатика. Дои:10.1016 / j.aci.2018.08.003.
- ^ Городкин, янв (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия. 28 (5): 367–374. Дои:10.1016 / j.compbiolchem.2004.09.006. PMID 15556477.
- ^ Городкин, Янв. "Страница РК". Страница РК. Получено 28 декабря 2016.
- ^ «Коэффициент корреляции Мэтью». scikit-learn.org.
- ^ Chicco D, Jurman G (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) над оценкой F1 и точность оценки бинарной классификации». BMC Genomics. 21 (1): 6-1–6-13. Дои:10.1186 / s12864-019-6413-7. ЧВК 6941312. PMID 31898477.