Коэффициент Фи
В статистике коэффициент фи (или среднеквадратичный коэффициент непредвиденности , обозначаемый φ или r φ ) является мерой связи двух двоичных переменных .
В машинном обучении он известен как коэффициент корреляции Мэтьюза (MCC) и используется как мера качества бинарных (двухклассовых) классификаций , введенных биохимиком Брайаном Мэтьюзом в 1975 году. [1]
Представлено Карлом Пирсоном , [2] а также известный как коэффициент Юла-фи, поскольку он был введен Удным Юлом в 1912 году. [3] эта мера аналогична коэффициенту корреляции Пирсона по своей интерпретации.
Определение
[ редактировать ]Коэффициент корреляции Пирсона , оцененный для двух двоичных переменных, вернет коэффициент фи. [4]
Две двоичные переменные считаются положительно связанными, если большая часть данных приходится на диагональные ячейки. Напротив, две двоичные переменные считаются отрицательно связанными, если большая часть данных выходит за пределы диагонали.
Если у нас есть таблица 2×2 для двух случайных величин x и y
у = 1 | у = 0 | общий | |
х = 1 | |||
х = 0 | |||
общий |
где n 11 , n 10 , n 01 , n 00 — неотрицательные числа наблюдений, которые в сумме дают n — общее количество наблюдений. Коэффициент фи, который описывает связь x и y, равен
Phi связана с коэффициентом точечной бисериальной корреляции Коэна и d и оценивает степень связи между двумя переменными (2 × 2). [5]
Коэффициент фи также можно выразить, используя только , , , и , как
Максимальные значения
[ редактировать ]Хотя в вычислительном отношении коэффициент корреляции Пирсона сводится к коэффициенту фи в случае 2×2, в целом они не одинаковы. Коэффициент корреляции Пирсона находится в диапазоне от -1 до +1, где ±1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент фи имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. [ нужны дальнейшие объяснения ] См. Давенпорт и Эль-Санхури (1991). [6] для подробного обсуждения.
Машинное обучение
[ редактировать ]MCC определяется идентично коэффициенту фи, введенному Карлом Пирсоном : [2] [7] также известный как коэффициент Юла-фи, поскольку он был введен Удным Юлом в 1912 году. [3] Несмотря на эти предшественники, которые появились на несколько десятилетий раньше, чем использование Мэтьюза, термин MCC широко используется в области биоинформатики и машинного обучения.
Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно считается сбалансированной мерой, которую можно использовать, даже если классы имеют очень разные размеры. [8] MCC, по сути, представляет собой коэффициент корреляции между наблюдаемыми и прогнозируемыми бинарными классификациями; он возвращает значение от −1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 — не лучше, чем случайное предсказание, а —1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равен ни −1, ни 0, ни +1, это не является надежным индикатором того, насколько предиктор похож на случайное угадывание, поскольку MCC зависит от набора данных. [9] MCC тесно связан со статистикой хи-квадрат для таблицы непредвиденных обстоятельств 2 × 2.
где n — общее количество наблюдений.
Хотя не существует идеального способа описания матрицы путаницы истинных, ложных положительных и отрицательных результатов с помощью одного числа, коэффициент корреляции Мэтьюза обычно считается одним из лучших таких показателей. [10] Другие показатели, такие как доля правильных прогнозов (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, отнесение каждого объекта к более крупному набору позволяет добиться высокой доли правильных предсказаний, но, как правило, не является полезной классификацией.
MCC можно рассчитать непосредственно из матрицы путаницы по формуле:
В этом уравнении TP — количество истинных положительных результатов , TN — количество истинных отрицательных результатов , FP — количество ложных положительных результатов и FN — количество ложных отрицательных результатов . Если ровно одна из четырех сумм в знаменателе равна нулю, знаменатель можно произвольно установить равным единице; в результате коэффициент корреляции Мэтьюза равен нулю, что, как можно показать, является правильным предельным значением. В случае, если две или более суммы равны нулю (например, обе метки и прогнозы модели положительные или отрицательные), предел не существует.
МКК можно рассчитать по формуле:
используя прогностическую ценность положительного результата, уровень истинного положительного результата, уровень истинного отрицательного результата, прогностическую ценность отрицательного результата, уровень ложного открытия, уровень ложного отрицательного результата, уровень ложного положительного результата и уровень ложного пропуска.
Исходная формула, данная Мэтьюзом, была: [1]
Это соответствует формуле, приведенной выше. Как коэффициент корреляции , коэффициент корреляции Мэтьюза представляет собой среднее геометрическое коэффициентов регрессии задачи и ее двойника . Коэффициентами регрессии компонентов коэффициента корреляции Мэтьюза являются маркированность (Δp) и статистика Юдена J ( информированность или Δp'). [10] [11] Маркированность и информированность соответствуют разным направлениям потока информации и обобщают J-статистику Юдена , p-статистика, в то время как их среднее геометрическое обобщает коэффициент корреляции Мэтьюза на более чем два класса. [10]
Некоторые ученые утверждают, что коэффициент корреляции Мэтьюза является наиболее информативным единственным показателем, позволяющим установить качество прогноза двоичного классификатора в контексте матрицы путаницы. [12] [13]
Пример
[ редактировать ]Учитывая выборку из 12 изображений, 8 кошек и 4 собак, где кошки относятся к классу 1, а собаки относятся к классу 0,
- фактическое = [1,1,1,1,1,1,1,1,0,0,0,0],
предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 12 изображений и пропускаем их через классификатор, и классификатор делает 9 точных прогнозов и пропускает 3: 2 кошки ошибочно предсказаны как собаки (первые 2 прогноза) и 1 собака ошибочно была предсказана как кошка (последнее предсказание).
- прогноз = [0,0, 1 , 1 , 1 , 0 , 1 1 , 1 , 1 , , 0 , 0 ]
С помощью этих двух помеченных наборов (фактических и прогнозируемых) мы можем создать матрицу путаницы, которая будет суммировать результаты тестирования классификатора:
Предсказанный сорт Фактический класс | Кот | Собака |
---|---|---|
Кот | 6 | 2 |
Собака | 1 | 3 |
В этой матрице путаницы из 8 изображений кошек система решила, что 2 были собаками, а из 4 изображений собак она предсказала, что 1 — кошка. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому легко визуально проверить таблицу на наличие ошибок прогнозов, поскольку они будут представлены значениями вне диагонали.
В абстрактных терминах матрица путаницы выглядит следующим образом:
Предсказанный сорт Фактический класс | П | Н |
---|---|---|
П | Город | ФН |
Н | ФП | ТН |
где P = положительный; Н = отрицательный; TP = истинно положительный результат; FP = ложное срабатывание; TN = истинно отрицательный результат; ФН = ложноотрицательный результат.
Подставляем числа из формулы:
Матрица путаницы
[ редактировать ]Давайте определим эксперимент из P положительных экземпляров и N отрицательных экземпляров для некоторого условия. Четыре результата можно сформулировать в виде таблицы непредвиденных обстоятельств или матрицы путаницы 2×2 следующим образом:
Прогнозируемое состояние | Источники: [14] [15] [16] [17] [18] [19] [20] [21] | ||||
Общая численность населения = П + Н | Прогнозируемый положительный результат (PP) | Прогнозируемый отрицательный результат (PN) | Информированность , информированность букмекерских контор (БМ) = ТПР + ТНР − 1 | Порог распространенности (PT) = √ ТПР × ФПР - ФПР / ТПР - ФПР | |
Фактическое состояние | Положительный (П) [а] | Истинно положительный (TP), ударять [б] | Ложноотрицательный (ЛН), пропустить, недооценка | Доля истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота попаданий, мощность = ТП / П = 1 − ФНР | Ложноотрицательный показатель (FNR), процент промахов ошибка второго рода [с] = ФН / П = 1 − ТПР |
Отрицательный (Н) [д] | Ложноположительный (FP), ложная тревога, завышение оценок | Истинно отрицательный (TN), правильный отказ [и] | Ложноположительный показатель (FPR), вероятность ложной тревоги, выпадения ошибка типа I [ф] = ФП / Н = 1 − ТНР | Истинно отрицательный коэффициент (TNR), специфичность (SPC), селективность = ТН = / Н 1 − ФПР | |
Распространенность = П / П + Н | Положительная прогностическая ценность (PPV), точность = ТП / ПП = 1 − ФДР | Коэффициент ложного пропуска (FOR) = FN / PN = 1 − NPV | Положительное отношение правдоподобия (LR+) = TPR / FPR | Отрицательное отношение правдоподобия (LR-) = FNR / TNR | |
Точность (АКК) = ТП + ТН / П + Н | Уровень ложного обнаружения (FDR) = ФП / ПП = 1 − ППВ | Отрицательная прогностическая ценность (NPV) = ТН / ПН = 1 − ДЛЯ | Маркировка (МК), дельтаП (Δp) = ППВ + ЧПС − 1 | Диагностическое отношение шансов (DOR) = ЛР+ / ЛР- | |
Сбалансированная точность (BA) = ТПР + ТНР / 2 | F 1 балл = 2 PPV × TPR / PPV + TPR = 2 ТП / 2 ТП + ФП + ФН | Индекс Фаулкса-Мэллоуза (FM) = √ ППВ × TPR | Коэффициент корреляции Мэтьюза (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Оценка угрозы (TS), индекс критического успеха (CSI), индекс Жаккара = ТП / ТП + ФН + ФП |
- ^ количество реальных положительных случаев в данных
- ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
- ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
- ^ количество реальных отрицательных случаев в данных
- ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
- ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.
Мультиклассовый случай
[ редактировать ]Коэффициент корреляции Мэтьюза был обобщен на многоклассовый случай. Обобщение, названное статистика (для K разных классов) определялась как матрица путаницы [22] . [23]
При наличии более двух меток MCC больше не будет находиться в диапазоне от –1 до +1. Вместо этого минимальное значение будет между –1 и 0 в зависимости от истинного распределения. Максимальное значение всегда +1.
Эту формулу можно легче понять, определив промежуточные переменные: [24]
- сколько раз действительно возникал класс k,
- сколько раз класс k был предсказан,
- общее количество правильно предсказанных образцов,
- общее количество образцов. Это позволяет выразить формулу следующим образом:
Предсказанный сорт Фактический класс | Кот | Собака | Сумма | |
---|---|---|---|---|
Кот | 6 | 2 | 8 | |
Собака | 1 | 3 | 4 | |
Сумма | 7 | 5 | 12 |
Использование приведенной выше формулы для вычисления меры MCC для примера собаки и кошки, рассмотренного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:
Альтернативное обобщение коэффициента корреляции Мэтьюза на более чем два класса было дано Пауэрсом. [10] по определению Корреляции как среднего геометрического Информированности и Маркированности .
Несколько обобщений коэффициента корреляции Мэтьюза на более чем два класса вместе с новыми метриками многомерной корреляции для многомерной классификации были представлены П. Стойкой и П. Бабу. [25] .
Преимущества перед точностью и оценкой F1
[ редактировать ]Как объяснил Давиде Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии ». [12] ( BioData Mining , 2017) и «Преимущества коэффициента корреляции Мэтьюса (MCC) над показателем F1 и точностью при оценке двоичной классификации» [26] ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем показатель F1 и точность при оценке задач бинарной классификации, поскольку он учитывает балансовые коэффициенты четырех категорий матрицы путаницы (истинные положительные результаты, истинные отрицательные результаты, ложные положительные результаты, ложные негативы). [12] [26]
В предыдущей статье объясняется Совет 8 : [ чрезмерная цитата ]
Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
(Уравнение 1, точность: худшее значение = 0; лучшее значение = 1)
(Уравнение 2, оценка F1: худшее значение = 0; лучшее значение = 1)
Однако даже если точность и показатель F1 широко используются в статистике, оба могут вводить в заблуждение, поскольку они не полностью учитывают размер четырех классов матрицы путаницы при окончательном вычислении оценок.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами, и только 5 — отрицательными элементами (как описано в совете 5). Предположим также, что вы допустили некоторые ошибки при разработке и обучении классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда предсказывает положительный результат. Представьте, что вы не в курсе этой проблемы.
Таким образом, применяя свой только положительный предиктор к несбалансированному набору проверки, вы получаете значения для категорий матрицы путаницы:
- ТП = 95, ФП = 5; ТН = 0, ФН = 0.
Эти значения приводят к следующим оценкам производительности: точность = 95 % и оценка F1 = 97,44 %. Прочитав эти чрезмерно оптимистичные оценки, вы будете очень счастливы и подумаете, что ваш алгоритм машинного обучения отлично справляется со своей задачей. Очевидно, вы пойдете по неправильному пути.
Напротив, чтобы избежать этих опасных обманчивых иллюзий, вы можете использовать еще один показатель производительности: коэффициент корреляции Мэтьюза [40] (MCC).
(Уравнение 3, MCC: худшее значение = −1; лучшее значение = +1).
Учитывая долю каждого класса матрицы путаницы в формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере показатель MCC будет неопределенным (поскольку TN и FN будут равны 0, поэтому знаменатель уравнения 3 будет равен 0). Проверив это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы поймете, что есть проблемы, которые вам следует решить, прежде чем продолжить.
Рассмотрим другой пример. Вы выполнили классификацию на том же наборе данных, что привело к следующим значениям для категорий матрицы путаницы:
- ТП = 90, ФП = 4; ТН = 1, ФН = 5.
В этом примере классификатор хорошо справился с классификацией положительных экземпляров, но не смог правильно распознать отрицательные элементы данных. Опять же, итоговая оценка F1 и точность будут чрезвычайно высокими: точность = 91%, а оценка F1 = 95,24%. Как и в предыдущем случае, если бы исследователь проанализировал только эти два показателя оценки, не принимая во внимание MCC, он бы ошибочно решил, что алгоритм достаточно хорошо справляется со своей задачей, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюза будет иметь решающее значение еще раз. В этом примере значение MCC будет 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет проинформировать специалиста по интеллектуальному анализу данных о том, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать производительность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC), а не точности и оценки F1, для любой проблемы двоичной классификации.
— Давиде Чикко, «Десять быстрых советов по машинному обучению в вычислительной биологии». [12]
Отрывок Чикко можно рассматривать как одобрение оценки MCC в случаях с несбалансированными наборами данных. Это, однако, оспаривается; в частности, Чжу (2020) предлагает решительное опровержение. [27]
Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный класс. В первом примере выше оценка F1 высока, поскольку класс большинства определяется как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:
- ТП = 0, ФП = 0; ТН = 5, ФН = 95
Это дает оценку F1 = 0%.
MCC не зависит от того, какой класс является положительным, который имеет преимущество перед показателем F1, чтобы избежать неправильного определения положительного класса.
См. также
[ редактировать ]- Каппа Коэна
- Таблица непредвиденных обстоятельств
- V Крамера , аналогичная мера связи между номинальными переменными.
- Оценка F1
- Индекс Фаулкса-Мэллоуза
- Полихорическая корреляция (подтип: тетрахорическая корреляция), когда переменные рассматриваются как дихотомические версии (латентных) непрерывных переменных.
Ссылки
[ редактировать ]- ^ Jump up to: Перейти обратно: а б Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4». Biochimica et Biophysical Acta (BBA) — Структура белка . 405 (2): 442–451. дои : 10.1016/0005-2795(75)90109-9 . ПМИД 1180967 .
- ^ Jump up to: Перейти обратно: а б Крамер, Х. (1946). Математические методы статистики . Принстон: Издательство Принстонского университета, стр. 282 (второй абзац). ISBN 0-691-08004-6 https://archive.org/details/in.ernet.dli.2015.223699
- ^ Jump up to: Перейти обратно: а б Юле, Г. Удный (1912). «О методах измерения связи между двумя атрибутами» . Журнал Королевского статистического общества . 75 (6): 579–652. дои : 10.2307/2340126 . JSTOR 2340126 .
- ^ Гилфорд, Дж. (1936). Психометрические методы . Нью-Йорк: McGraw – Hill Book Company, Inc.
- ^ Аарон Б., Кромри Дж. Д. и Феррон Дж. М. (1998, ноябрь). Приравнивание индексов величины эффекта на основе r и d: проблемы с общепринятой формулой. Доклад представлен на ежегодном собрании Флоридской ассоциации исследований в области образования, Орландо, Флорида. (Служба воспроизведения документов ERIC № ED433353)
- ^ Давенпорт, Э.; Эль-Санхури, Н. (1991). «Фи/Фимакс: обзор и синтез». Образовательные и психологические измерения . 51 (4): 821–8. дои : 10.1177/0013164491051004 .
- ↑ Дата неясна, но до его смерти в 1936 году.
- ^ Бугорбель, С.Б. (2017). «Оптимальный классификатор несбалансированных данных с использованием метрики коэффициента корреляции Мэтьюза» . ПЛОС ОДИН . 12 (6): e0177678. Бибкод : 2017PLoSO..1277678B . дои : 10.1371/journal.pone.0177678 . ПМК 5456046 . ПМИД 28574989 .
- ^ Чикко, Д.; Тётч, Н.; Джурман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и маркированность при оценке двухклассовой матрицы путаницы» . Добыча биоданных . 14 (1): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД 33541410 .
- ^ Jump up to: Перейти обратно: а б с д Пауэрс, Дэвид М.В. (10 октября 2020 г.). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции». arXiv : 2010.16061 [ cs.LG ].
- ^ Перруче, П.; Пиреман, Р. (2004). «Использование распределительной информации при обработке слогов». Ж. Нейролингвистика . 17 (2–3): 97–119. дои : 10.1016/s0911-6044(03)00059-9 . S2CID 17104364 .
- ^ Jump up to: Перейти обратно: а б с д Чикко Д. (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии» . Добыча биоданных . 10 (35): 35. дои : 10.1186/s13040-017-0155-3 . ПМК 5721660 . ПМИД 29234465 .
- ^ Чикко Д., Джурман Дж. (февраль 2023 г.). «Коэффициент корреляции Мэтьюза (MCC) должен заменить ROC AUC в качестве стандартного показателя для оценки бинарной классификации» . Биологические данные Мин . 16 (1): 4. дои : 10.1186/s13040-023-00322-4 . ПМЦ 9938573 . ПМИД 36800973 .
- ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. дои : 10.1016/j.patrec.2005.10.010 . S2CID 2027090 .
- ^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении» . О'Рейли Медиа, Инк .
- ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
- ^ Тин, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8 . ISBN 978-0-387-30164-8 .
- ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов» . Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
- ^ Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477 .
- ^ Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекеров и маркированность при оценке двухклассовой матрицы путаницы» . Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД 33541410 .
- ^ Тарват А. (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
- ^ Городкин, Ян (2004). «Сравнение двух присвоений K-категории по коэффициенту корреляции K-категории». Вычислительная биология и химия . 28 (5): 367–374. doi : 10.1016/j.compbiolchem.2004.09.006 . ПМИД 15556477 .
- ^ Городкин, Ян. «Страница РК» . Страница РК . Проверено 28 декабря 2016 г.
- ^ «Коэффициент корреляции Мэтью» . scikit-learn.org .
- ^ Стойка П. и Бабу П. (2024), Коэффициенты корреляции Пирсона – Мэтьюза для бинарной и многонарной классификации, Elsevier Signal Processing, 222, 109511, doi = https://doi.org/10.1016/j.sigpro.2024.109511
- ^ Jump up to: Перейти обратно: а б Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477 .
- ^ Чжу, Цюмин (01 августа 2020 г.). «О работе коэффициента корреляции Мэтьюза (MCC) для несбалансированного набора данных» . Буквы для распознавания образов . 136 : 71–80. Бибкод : 2020ПаРеЛ.136...71Z . doi : 10.1016/j.patrec.2020.03.030 . ISSN 0167-8655 . S2CID 219762950 .