Частичная площадь под кривой ROC

Частичная площадь под кривой ROC (pAUC) — это показатель производительности двоичного классификатора.

Он рассчитывается на основе кривой рабочей характеристики приемника (ROC) , которая иллюстрирует диагностические возможности данной системы двоичного классификатора при изменении ее порога дискриминации. Кривая ROC создается путем построения графика истинной положительной оценки (TPR) и ложной положительной частоты (FPR) при различных пороговых значениях.

Площадь под кривой ROC (AUC) ^[1]^[2] часто используется для суммирования в одном числе диагностических возможностей классификатора. AUC просто определяется как область пространства ROC, которая находится ниже кривой ROC.

Однако в пространстве Китайской Республики есть регионы, где значения FPR или TPR неприемлемы или нежизнеспособны на практике. Например, область, где FPR больше 0,8, предполагает, что более 80% отрицательных субъектов ошибочно классифицируются как положительные: это неприемлемо во многих реальных случаях. Как следствие, AUC, вычисленная во всем пространстве ROC (т. е. как с FPR, так и с TPR в диапазоне от 0 до 1), может давать вводящие в заблуждение показания.

Чтобы преодолеть это ограничение AUC, было предложено ^[3] вычислить площадь под кривой ROC в области пространства ROC, которая соответствует интересным (т.е. практически жизнеспособным или приемлемым) значениям FPR и TPR.

Основная концепция

В пространстве ROC, где x=FPR (частота ложноположительных результатов) и y=ROC(x)=TPR (частота истинно положительных результатов), это

$AUC=\int _{x=0}^{1}ROC(x)\ dx$

AUC широко используется, особенно для сравнения характеристик двух (или более) бинарных классификаторов: классификатор, достигающий наивысшего значения AUC, считается лучшим. Однако при сравнении двух классификаторов $C_{a}$ и $C_{b}$ , возможны три ситуации:

кривая ROC $C_{a}$ никогда не находится выше кривой ROC $C_{b}$
кривая ROC $C_{a}$ никогда не находится ниже кривой ROC $C_{b}$
Кривые ROC классификаторов пересекаются.

Существует общее мнение, что в случае 1 классификатора $C_{b}$ предпочтительнее, а в случае 2) классификатор $C_{a}$ предпочтительнее. Вместо этого в случае 3) существуют области пространства ROC, где $C_{a}$ предпочтительнее и другие регионы, где $C_{b}$ предпочтительнее. Это наблюдение привело к оценке точности классификаций путем вычисления показателей производительности, которые учитывают только определенную область интереса (RoI) в пространстве ROC, а не все пространство. Эти показатели производительности обычно известны как «частичная AUC» (pAUC): pAUC — это площадь выбранной области пространства ROC, которая лежит под кривой ROC.

Частичная AUC, полученная путем ограничения FPR

Идея частичной AUC изначально была предложена ^[3] с целью ограничить оценку данных кривых ROC диапазоном ложноположительных результатов, которые считаются интересными для диагностических целей. Таким образом, частичная AUC рассчитывалась как площадь под кривой ROC в вертикальной полосе пространства ROC, где FPR находится в диапазоне [ $FPR_{low}$ , $FPR_{high}$ ].


pAUC рассчитывается как площадь под кривой, где $0.1\leq FPR\leq 0.3$	pAUC рассчитывается как площадь под кривой, где $0.2\leq FPR\leq 0.4$

pAUC, вычисленный путем ограничения FPR, помогает сравнить две частичные области. Тем не менее, у него есть несколько ограничений:

РоИ должна представлять собой вертикальную полосу пространства РПЦ;
не приводятся критерии для определения рентабельности инвестиций: ожидается, что какой-либо эксперт сможет определить $FPR_{low}$ и $FPR_{high}$ ;
при сравнении двух классификаторов через связанные ROC-кривые относительно небольшое изменение в выборе RoI может привести к разным выводам: в приведенном выше примере рассматривается диапазон, где $0.1\leq FPR\leq 0.3$ приводит к выводу, что $C_{b}$ лучше, учитывая группу, в которой $0.2\leq FPR\leq 0.4$ приводит к выводу, что $C_{a}$ лучше.

Частичная AUC, полученная путем ограничения TPR

Другой тип частичной AUC получается путем ограничения частоты истинно положительных результатов, а не частоты ложных срабатываний. То есть частичная AUC — это площадь под кривой ROC и над горизонтальной линией. $TPR=TPR_{0}$ . ^[4]

Частичная AUC рассчитывается как площадь под кривой ROC и выше. $TPR_{0}$

Другими словами, pAUC вычисляется в той части пространства ROC, где истинная положительная частота превышает заданный порог. $TPR_{0}$ (верхний предел не используется, поскольку ограничивать количество истинных положительных результатов не имеет смысла).

Это предложение также имеет несколько ограничений:

ограничивая долю истинно положительных результатов, также неявно устанавливается ограничение на долю ложных срабатываний;
не приводятся критерии для определения рентабельности инвестиций: ожидается, что эксперты смогут определить минимально приемлемый уровень истинно положительных результатов;
при сравнении двух классификаторов через соответствующие ROC-кривые относительно небольшое изменение в выборе RoI может привести к разным выводам: это происходит, когда $TPR_{0}$ находится близко к точке пересечения данных кривых ROC.

Частичная AUC, полученная путем ограничения FPR и TPR.

«Двустороннее» значение pAUC определялось путем ограничения как истинно положительных, так и ложноотрицательных показателей. ^[5] Минимальное значение $TPR_{0}$ указывается для TPR и максимального значения $FPR_{0}$ установлен для FPR, поэтому RoI представляет собой верхний левый прямоугольник с вершинами в точках ( $FPR_{0}$ , $TPR_{0}$ ), ( $FPR_{0}$ , 1), (0, 1) и (0, $TPR_{0}$ ). Двусторонняя pAUC — это площадь под кривой ROC, принадлежащая такому прямоугольнику.

Двусторонняя pAUC явно более гибкая, чем pAUC, определяемая ограничением только FPR или TPR. Фактически, последние два типа pAUC можно рассматривать как частные случаи двусторонней pAUC.

Как и в случае с pAUC, описанным выше, при сравнении двух классификаторов с помощью связанных кривых ROC относительно небольшое изменение в выборе RoI может привести к различным выводам. Это особенно деликатный вопрос, поскольку не приводятся критерии определения ROI (как и в случае с другими упомянутыми pAUC, ожидается, что эксперты смогут определить $TPR_{0}$ и $FPR_{0}$ ).

Частичная AUC, полученная путем применения объективных ограничений к интересующей области.

Было определено несколько объективных и обоснованных критериев для определения рентабельности инвестиций. ^[6]^[7] В частности, вычисление pAUC может быть ограничено областью, где

рассматриваемые классификаторы лучше (по некоторым выбранным метрикам производительности), чем случайная классификация;
рассматриваемые классификаторы достигают хотя бы минимального значения некоторых выбранных показателей производительности;
стоимость из-за ошибок классификации рассматриваемыми классификаторами является приемлемой.

Определение рентабельности инвестиций на основе эффективности случайной классификации

Возможный способ определения области, в которой вычисляется pAUC, состоит в исключении областей ROC-пространства, которые представляют характеристики хуже, чем производительность, достигнутая с помощью случайной классификации.

Случайная классификация оценивает данный элемент положительно с вероятностью. $\rho$ и отрицательный с вероятностью (1- $\rho$ ). В наборе данных из n элементов, из которых AP на самом деле положительны, наилучшее предположение получается, установив $\rho ={\frac {AP}{n}}$ ( $\rho$ также известно как «распространенность» положительных результатов в наборе данных).

Было показано, что случайная классификация с $\rho ={\frac {AP}{n}}$ достигает $TPR=\rho$ , $precision=\rho$ , и $FPR=\rho$ , в среднем. ^[6] Следовательно, если выбранными показателями производительности являются TPR, FPR и точность, рентабельность инвестиций должна быть ограничена той частью пространства ROC, где $TPR>\rho$ , $FPR<\rho$ , и $precision>\rho$ . Было показано, что эта область представляет собой прямоугольник с вершинами в (0,0), (0,1), ( $\rho$ , 1) и ( $\rho$ , $\rho$ ). ^[6]

Этот метод решает проблемы ограничения TPR и FPR, когда необходимо вычислить двустороннее pAUC: $FPR_{0}=TPR_{0}=\rho$ .

Индикатор «Соотношение соответствующих площадей» (RRA)

Для расчета pAUC необходимо сначала определить ROI. Например, если требуется более высокая точность, чем средняя случайная классификация, RoI представляет собой прямоугольник, имеющий вершины в (0,0), (0,1), ( $\rho$ , 1) и ( $\rho$ , $\rho$ ). Это означает, что размер рентабельности инвестиций варьируется в зависимости от $\rho$ . Кроме того, идеальный ROC, т. е. тот, который проходит через точку (0,1), имеет pAUC= $\rho$ (1- $\rho$ ).

Чтобы получить индикатор на основе pAUC, учитывающий $\rho$ и диапазоны в [0,1], был предложен RRA: ^[6]

$RRA={pAUC \over area\ of\ the\ RoI}$

RRA=1 указывает на идеальную точность, а RRA=0 указывает на то, что область под кривой ROC, принадлежащая RoI, равна нулю; таким образом, точность не лучше, чем у случайной классификации.

Определение рентабельности инвестиций на основе некоторого порогового значения показателя производительности.

Для двоичных классификаторов доступно несколько показателей производительности. Одним из самых популярных является коэффициент Фи. ^[8] (также известный как коэффициент корреляции Мэтьюза ^[9]). Phi измеряет, насколько лучше (или хуже) классификация по отношению к случайной классификации, которая характеризуется Phi = 0. Согласно эталонным значениям, предложенным Коэном, ^[8] можно принять Phi = 0,35 как минимально приемлемый уровень Phi для классификации. В пространстве ROC Phi, равная ненулевой константе, соответствует дуге эллипса, а Phi = 0 соответствует диагонали, т.е. точкам, где FPR=TPR. Итак, рассмотрение части ROC, где Phi>0,35, соответствует определению RoI как части пространства ROC над эллипсом. pAUC — это площадь над эллипсом и под кривой ROC.

Определение рентабельности инвестиций на основе стоимости неправильной классификации

Большинство бинарных классификаторов дают неправильную классификацию, что приводит к определенным затратам.

Стоимость C ошибок классификации определяется как $C=c_{FN}FN+c_{FP}FP$ , где $c_{FN}$ - унитарная стоимость ложноотрицательного результата, $c_{FP}$ — унитарная стоимость ложноположительного результата, а FN и FP — соответственно количество ложноотрицательных и ложноположительных результатов.

Нормализованная стоимость NC ^[10] определяется как $NC={\frac {C}{n(c_{FN}+c_{FP})}}$ .

Установив $\lambda ={\frac {c_{FN}}{c_{FP}+c_{FN}}}$ , мы получаем $NC=\lambda \rho (1-TPR)+(1-\lambda )(1-\rho )FPR$

Среднее значение NC, полученное с помощью случайной классификации, равно $NC_{rnd}={\frac {AP\cdot AN}{n^{2}}}$ ^[6]

Чтобы оценить классификатор, исключив характеристики, стоимость которых превышает $NC_{rnd}$ , можно определить рентабельность инвестиций, при которой нормализованная стоимость ниже, чем $NC_{rnd}$ : такая область находится над линией

${\frac {AP\cdot AN}{n^{2}}}=\lambda \rho (1-TPR)(1-\lambda )(1-\rho )FPR$

Также возможно определить рентабельность инвестиций, где NC меньше доли. $\mu$ из $NC_{rnd}$ . В таком случае нижней границей ROI является линия

$TPR={\frac {1-\lambda }{\lambda }}{\frac {1-\rho }{\rho }}(FPR-\mu \rho )+1-\mu (1-\rho )$

Различные значения $\lambda$ Определите рентабельность инвестиций так же, как некоторые из наиболее известных показателей производительности:

$\lambda =0$ эквивалентно использованию FPR для разграничения области инвестиций.
$\lambda =1-\rho$ эквивалентно использованию точности для разграничения области инвестиций
$\lambda =1-{\frac {\rho }{2}}$ эквивалентно использованию счета F-1 ^[11] для разграничения ROI
$\lambda =1$ эквивалентно использованию TPR для разграничения рентабельности инвестиций

Таким образом, выбор показателя производительности приравнивается к выбору конкретного значения относительной стоимости ложноположительных результатов по отношению к ложноотрицательным. В пространстве ROC наклон линии, представляющей постоянные нормированные затраты (следовательно, постоянные общие затраты), зависит от $\lambda$ или, что то же самое, от используемых показателей производительности.

Это обычная практика ^[12]^[13] выбрать в качестве наилучшей классификации точку ROC-кривой с наибольшим значением J Юдена =TPR−FPR. ^[14] При рассмотрении затрат, связанных с неправильными классификациями, эта практика соответствует выдвижению гипотезы об относительной стоимости ложноположительных и ложноотрицательных результатов, которая редко бывает верной. ^[7]

Как рассчитать pAUC и RRA

обеспечения для расчета pAUC и RRA доступны для Python и R. Библиотеки программного ^[15]

Ссылки

^ Ван дер Шоу, ЮТ; Вербек, А.; Руйс, Дж. Х. (1992). «Кривые ROC для первоначальной оценки новых диагностических тестов» . Семейная практика . 9 (4): 506–511. дои : 10.1093/фампра/9.4.506 . ISSN 0263-2136 . ПМИД 1490547 .
^ Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» . Распознавание образов . 30 (7): 1145–1159. Бибкод : 1997PatRe..30.1145B . дои : 10.1016/S0031-3203(96)00142-2 . ISSN 0031-3203 . S2CID 13806304 .
^ Перейти обратно: ^а ^б МакКлиш, ДК (1989). «Анализ части кривой ROC» . Принятие медицинских решений . 9 (3): 190–195. дои : 10.1177/0272989X8900900307 . ISSN 0272-989X . ПМИД 2668680 . S2CID 24442201 .
^ Цзян, Ю; Мец, CE; Нисикава, Р.М. (1996). «Индекс частичной площади рабочей характеристики приемника для высокочувствительных диагностических тестов» . Радиология . 201 (3): 745–750. doi : 10.1148/radiology.201.3.8939225 . ISSN 0033-8419 . ПМИД 8939225 .
^ Ян, Ханьфан; Лу, Кун; Лю, Сян; Ху, Фейфан (14 июля 2017 г.). «Двусторонняя частичная AUC и ее свойства» . Статистические методы в медицинских исследованиях . 28 (1): 184–195. arXiv : 1508.00298 . дои : 10.1177/0962280217718866 . ISSN 0962-2802 . ПМИД 28707503 . S2CID 10666428 .
^ Перейти обратно: ^а ^б ^с ^д ^и Мораска, Сандро; Лавацца, Луиджи (19 августа 2020 г.). «Об оценке моделей прогнозирования дефектов программного обеспечения с помощью ROC-кривых» . Эмпирическая программная инженерия . 25 (5): 3977–4019. дои : 10.1007/s10664-020-09861-4 . ISSN 1382-3256 . S2CID 221167342 .
^ Перейти обратно: ^а ^б Лавацца, Луиджи; Мораска, Сандро (20 декабря 2021 г.). «Соображения о регионе интересов на пространстве Китайской Республики» . Статистические методы в медицинских исследованиях . 31 (3): 419–437. дои : 10.1177/09622802211060515 . ISSN 0962-2802 . ПМИД 34928729 . S2CID 245354164 .
^ Перейти обратно: ^а ^б Коэн, Джейкоб (1988). Статистический анализ мощности для поведенческих наук, 2-е издание . Лоуренс Эрлбаум Ассошиэйтс. ISBN 9780203771587 .
^ Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4» . Biochimica et Biophysical Acta (BBA) — Структура белка . 405 (2): 442–451. дои : 10.1016/0005-2795(75)90109-9 . ISSN 0005-2795 . ПМИД 1180967 .
^ Кэхилл, Джаспар; Хоган, Джеймс М.; Томас, Ричард (2013). «Прогнозирование отказоустойчивых программных модулей с помощью классификации по сумме рангов» . 2013 22-я Австралийская конференция по разработке программного обеспечения . IEEE. стр. 211–219. дои : 10.1109/aswec.2013.33 . ISBN 978-0-7695-4995-8 . S2CID 302819 .
^ ван Рейсберген, CJ (1979). Информационный поиск . Баттерворт.
^ Перкинс, Нью-Джерси; Шистерман, Э.Ф. (2006). «Несоответствие «оптимальных» точек отсечки, полученных с использованием двух критериев, основанных на кривой рабочей характеристики приемника» . Американский журнал эпидемиологии . 163 (7): 670–675. дои : 10.1093/aje/kwj063 . ПМЦ 1444894 . ПМИД 16410346 .
^ Акобенг, АК (2007). «Понимание диагностических тестов: кривые рабочих характеристик приемника». Акта Педиатрика . 95 (5): 644–647. дои : 10.1111/j.1651-2227.2006.00178.x . ПМИД 17376185 . S2CID 25035474 .
^ Юден, WJ (1950). «Индекс рейтинговых диагностических тестов» . Рак . 3 (1): 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . ISSN 0008-543X . ПМИД 15405679 . S2CID 43532502 .
^ Загрузка библиотеки Python , загрузка библиотеки R на веб-сайте Университета Инсубрии . краткое описание библиотек . Также имеется

[1] Ван дер Шоу, ЮТ; Вербек, А.; Руйс, Дж. Х. (1992). «Кривые ROC для первоначальной оценки новых диагностических тестов» . Семейная практика . 9 (4): 506–511. дои : 10.1093/фампра/9.4.506 . ISSN 0263-2136 . ПМИД 1490547 .

[2] Брэдли, Эндрю П. (1997). «Использование площади под кривой ROC при оценке алгоритмов машинного обучения» . Распознавание образов . 30 (7): 1145–1159. Бибкод : 1997PatRe..30.1145B . дои : 10.1016/S0031-3203(96)00142-2 . ISSN 0031-3203 . S2CID 13806304 .

[:3-3] Перейти обратно: ^а ^б МакКлиш, ДК (1989). «Анализ части кривой ROC» . Принятие медицинских решений . 9 (3): 190–195. дои : 10.1177/0272989X8900900307 . ISSN 0272-989X . ПМИД 2668680 . S2CID 24442201 .

[4] Цзян, Ю; Мец, CE; Нисикава, Р.М. (1996). «Индекс частичной площади рабочей характеристики приемника для высокочувствительных диагностических тестов» . Радиология . 201 (3): 745–750. doi : 10.1148/radiology.201.3.8939225 . ISSN 0033-8419 . ПМИД 8939225 .

[5] Ян, Ханьфан; Лу, Кун; Лю, Сян; Ху, Фейфан (14 июля 2017 г.). «Двусторонняя частичная AUC и ее свойства» . Статистические методы в медицинских исследованиях . 28 (1): 184–195. arXiv : 1508.00298 . дои : 10.1177/0962280217718866 . ISSN 0962-2802 . ПМИД 28707503 . S2CID 10666428 .

[:0-6] Перейти обратно: ^а ^б ^с ^д ^и Мораска, Сандро; Лавацца, Луиджи (19 августа 2020 г.). «Об оценке моделей прогнозирования дефектов программного обеспечения с помощью ROC-кривых» . Эмпирическая программная инженерия . 25 (5): 3977–4019. дои : 10.1007/s10664-020-09861-4 . ISSN 1382-3256 . S2CID 221167342 .

[:2-7] Перейти обратно: ^а ^б Лавацца, Луиджи; Мораска, Сандро (20 декабря 2021 г.). «Соображения о регионе интересов на пространстве Китайской Республики» . Статистические методы в медицинских исследованиях . 31 (3): 419–437. дои : 10.1177/09622802211060515 . ISSN 0962-2802 . ПМИД 34928729 . S2CID 245354164 .

[:1-8] Перейти обратно: ^а ^б Коэн, Джейкоб (1988). Статистический анализ мощности для поведенческих наук, 2-е издание . Лоуренс Эрлбаум Ассошиэйтс. ISBN 9780203771587 .

[9] Мэтьюз, BW (1975). «Сравнение предсказанной и наблюдаемой вторичной структуры лизоцима фага Т4» . Biochimica et Biophysical Acta (BBA) — Структура белка . 405 (2): 442–451. дои : 10.1016/0005-2795(75)90109-9 . ISSN 0005-2795 . ПМИД 1180967 .

[10] Кэхилл, Джаспар; Хоган, Джеймс М.; Томас, Ричард (2013). «Прогнозирование отказоустойчивых программных модулей с помощью классификации по сумме рангов» . 2013 22-я Австралийская конференция по разработке программного обеспечения . IEEE. стр. 211–219. дои : 10.1109/aswec.2013.33 . ISBN 978-0-7695-4995-8 . S2CID 302819 .

[11] ван Рейсберген, CJ (1979). Информационный поиск . Баттерворт.

[12] Перкинс, Нью-Джерси; Шистерман, Э.Ф. (2006). «Несоответствие «оптимальных» точек отсечки, полученных с использованием двух критериев, основанных на кривой рабочей характеристики приемника» . Американский журнал эпидемиологии . 163 (7): 670–675. дои : 10.1093/aje/kwj063 . ПМЦ 1444894 . ПМИД 16410346 .

[13] Акобенг, АК (2007). «Понимание диагностических тестов: кривые рабочих характеристик приемника». Акта Педиатрика . 95 (5): 644–647. дои : 10.1111/j.1651-2227.2006.00178.x . ПМИД 17376185 . S2CID 25035474 .

[14] Юден, WJ (1950). «Индекс рейтинговых диагностических тестов» . Рак . 3 (1): 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . ISSN 0008-543X . ПМИД 15405679 . S2CID 43532502 .

[15] Загрузка библиотеки Python , загрузка библиотеки R на веб-сайте Университета Инсубрии . краткое описание библиотек . Также имеется

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]