Jump to content

Общая рабочая характеристика

Общая рабочая характеристика (TOC) — это статистический метод сравнения логической переменной и ранговой переменной . TOC может измерять способность индексной переменной диагностировать наличие или отсутствие характеристики. Диагностика наличия или отсутствия зависит от того, превышает ли значение индекса пороговое значение. TOC учитывает несколько возможных порогов. размером два на два Для каждого порога создается таблица непредвиденных обстоятельств , которая содержит четыре записи: попадания, промахи, ложные тревоги и правильные отклонения. [1]

( Рабочая характеристика приемника ROC) также характеризует диагностическую способность, хотя ROC дает меньше информации, чем TOC. Для каждого порога ROC показывает два соотношения: попадания/(попадания + промахи) и ложные срабатывания/(ложные срабатывания + правильные отклонения), тогда как TOC показывает общую информацию в таблице непредвиденных обстоятельств для каждого порога. [2] Метод TOC раскрывает всю информацию, которую предоставляет метод ROC, а также дополнительную важную информацию, которую ROC не раскрывает, то есть размер каждой записи в таблице сопряженности для каждого порога. TOC также обеспечивает популярную область под кривой (AUC) ROC.

TOC применим для измерения диагностических способностей во многих областях, включая, помимо прочего: науку об изменении земель, медицинскую визуализацию , прогнозирование погоды , дистанционное зондирование и тестирование материалов .

Основная концепция [ править ]

Процедура построения кривой TOC сравнивает логическую переменную с индексной переменной, диагностируя каждое наблюдение как наличие или отсутствие, в зависимости от того, как индекс соотносится с различными пороговыми значениями. Если индекс наблюдения больше или равен порогу, то наблюдение диагностируется как наличие, в противном случае наблюдение диагностируется как отсутствие. Таблица сопряженности, полученная в результате сравнения логической переменной и диагноза для одного порога, имеет четыре центральных записи. Четыре центральные записи — это попадания ( H ), промахи ( M ), ложные тревоги ( F ) и правильные отклонения ( C ). Общее количество наблюдений равно P + Q . Термины «истинно положительные результаты», «ложноотрицательные результаты», «ложноположительные результаты» и «истинно отрицательные результаты» эквивалентны попаданиям, промахам, ложным тревогам и правильным отклонениям соответственно. Записи можно сформулировать в виде таблицы непредвиденных обстоятельств два на два или матрицы путаницы следующим образом:

Диагностика

логическое значение
Присутствие Отсутствие Логическое итого
Присутствие Хиты ( H ) Промахи ( М ) Ч + М = П
Отсутствие Ложные тревоги ( F ) Правильные отклонения ( C ) Ф + С = Q
Всего диагнозов Ч + Ж М + С П + К

Четыре бита информации определяют все записи в таблице непредвиденных обстоятельств, включая ее предельные итоги. Например, если мы знаем H , M , F и C , то мы можем вычислить все предельные итоги для любого порога. Альтернативно, если мы знаем H / P , F / Q , P и Q , мы можем вычислить все записи в таблице. [1] Двух битов информации недостаточно для заполнения таблицы непредвиденных обстоятельств. Например, если мы знаем только H / P и F / Q , что и показывает ROC, то невозможно знать все записи в таблице. [1]

История [ править ]

Роберт Гилмор Понтиус-младший , профессор географии Университета Кларка , и Канпин Си в 2014 году впервые разработали TOC для применения в науке о земельных изменениях.

Оглавление [ править ]

TOC с маркировкой

Кривая TOC с четырьмя прямоугольниками показывает, как точка на кривой TOC показывает совпадения, промахи, ложные тревоги и правильные отклонения. Кривая TOC — это эффективный способ отобразить общую информацию в таблице непредвиденных обстоятельств для всех пороговых значений. Данные, использованные для создания этой кривой TOC, доступны для скачивания здесь . Этот набор данных содержит 30 наблюдений, каждое из которых состоит из значений логической переменной и индексной переменной. Наблюдения ранжированы от наибольшего к наименьшему значению индекса. Существует 31 порог, состоящий из 30 значений индекса и одного дополнительного порога, превышающего все значения индекса, который создает точку в начале координат (0,0). Каждая точка помечена, чтобы указать значение каждого порога. Горизонтальные оси варьируются от 0 до 30, что соответствует количеству наблюдений в наборе данных ( P + Q ). логической переменной Вертикальная ось находится в диапазоне от 0 до 10, что соответствует числу наблюдений присутствия P (т. е. попаданий + промахов). Кривые TOC также показывают порог, при котором диагностируемая степень присутствия соответствует логической величине присутствия, которая представляет собой пороговую точку, лежащую непосредственно под точкой, где линия максимума пересекает линию попаданий и промахов, как показано на кривой TOC слева. . Более подробное объяснение построения кривой TOC можно найти у Понтиуса-младшего, Роберта Гилмора; Си, Канпин (2014). «Общая рабочая характеристика для измерения диагностических возможностей для нескольких порогов». Международный журнал географической информатики 28 (3): 570–583». [1]

Следующие четыре части информации являются центральными записями в таблице непредвиденных обстоятельств для каждого порога:

  1. Количество попаданий на каждый порог — это расстояние между точкой порога и горизонтальной осью.
  2. Количество промахов на каждом пороге — это расстояние между точкой порога и горизонтальной линией попаданий + промахов в верхней части графика.
  3. Количество ложных срабатываний на каждом пороге — это расстояние между точкой порога и синей пунктирной линией Максимум, которая ограничивает левую часть пространства TOC.
  4. Количество правильных отклонений на каждом пороге — это расстояние между точкой порога и фиолетовой пунктирной линией минимума, которая ограничивает правую часть пространства TOC.

Кривые TOC и ROC [ править ]

Кривая ТОС
Кривая ROC

Эти цифры представляют собой кривые TOC и ROC, в которых используются одни и те же данные и пороговые значения. Рассмотрим точку, которая соответствует порогу 74. Кривая TOC показывает количество попаданий, равное 3, и, следовательно, количество промахов, равное 7. Кроме того, кривая TOC показывает, что количество ложных срабатываний равно 4 и количество правильных отклонений равно 16. В любой заданной точке кривой ROC можно получить значения соотношений ложных срабатываний/(ложные срабатывания+правильные отклонения) и попаданий/(попаданий+промахов). Например, при пороге 74 очевидно, что координата x равна 0,2, а координата y равна 0,3. Однако этих двух значений недостаточно для построения всех записей базовой таблицы сопряженности два на два.

Интерпретация кривых TOC [ править ]

Обычно указывается площадь под кривой (AUC) для суммирования кривой TOC или ROC. Однако сведение диагностических возможностей к одному числу не позволяет оценить форму кривой. Следующие три кривые ТОС представляют собой кривые ТОС, имеющие AUC 0,75, но имеющие разные формы. [ нужна ссылка ]

Кривая TOC с более высокой точностью при высоких пороговых значениях.

Эта кривая TOC слева иллюстрирует случай, когда индексная переменная имеет высокую диагностическую способность при высоких порогах вблизи начала координат, но случайную диагностическую способность при низких порогах вблизи верхнего правого угла кривой. Кривая показывает точную диагностику присутствия до тех пор, пока кривая не достигнет порога 86. Затем кривая выравнивается и прогнозирует вокруг случайной линии. [ нужна ссылка ]

Кривая TOC средней точности на всех порогах.

Эта кривая TOC иллюстрирует случай, в котором индексная переменная имеет среднюю диагностическую способность при всех пороговых значениях. Кривая постоянно находится выше случайной линии.

Кривая TOC с более высокой точностью при более низких пороговых значениях.

Эта кривая TOC иллюстрирует случай, когда индексная переменная обладает случайной диагностической способностью при высоких порогах и высокой диагностической способностью при низких порогах. Кривая следует случайной линии на самых высоких пороговых значениях вблизи начала координат, затем индексная переменная правильно диагностирует отсутствие, когда пороговые значения уменьшаются вблизи верхнего правого угла.

Площадь под кривой [ править ]

При измерении диагностических способностей обычно используемым показателем является площадь под кривой (AUC). AUC рассчитывается на основе TOC и ROC. Значение AUC одинаково для одних и тех же данных независимо от того, рассчитываете ли вы площадь под кривой для кривой TOC или кривой ROC. AUC указывает на вероятность того, что диагноз ставит случайно выбранное наблюдение присутствия логического значения выше, чем случайно выбранное наблюдение отсутствия логического значения. [3] AUC привлекает многих исследователей, поскольку AUC суммирует диагностические возможности в одном числе, однако AUC подверглась критике как потенциально вводящая в заблуждение мера, особенно для пространственного анализа. [3] [4] Некоторые особенности AUC, вызывающие критику, включают тот факт, что 1) AUC игнорирует пороговые значения; 2) AUC суммирует результаты тестирования по областям пространства TOC или ROC, в которых редко можно работать; 3) AUC одинаково взвешивает ошибки упущения и комиссии; 4) AUC не дает информации о пространственном распределении ошибок модели; и 5) выбор пространственной протяженности сильно влияет на частоту точно диагностированных пропусков занятий и показатели AUC. [5] Однако большая часть этой критики относится и ко многим другим показателям.

При использовании нормализованных единиц площадь под кривой (часто называемая просто AUC) равна вероятности того, что классификатор поставит случайно выбранный положительный экземпляр выше, чем случайно выбранный отрицательный (при условии, что «положительный» ранг выше, чем ' отрицательный»). [6] Это можно увидеть следующим образом: площадь под кривой равна (границы интеграла меняются местами, так как большое T имеетменьшее значение по оси X)

где это оценка положительного примера и - это оценка отрицательного экземпляра, и и представляют собой плотности вероятности, определенные в предыдущем разделе.

Далее можно показать, что AUC тесно связана с U Манна-Уитни , [7] [8] который проверяет, оцениваются ли положительные результаты выше, чем отрицательные. Это также эквивалентно критерию рангов Уилкоксона . [8] AUC связана с коэффициентом Джини ( ) по формуле , где:

[9]

Таким образом, можно рассчитать AUC, используя среднее значение ряда трапециевидных приближений.

Также распространено вычисление площади под выпуклой оболочкой TOC (ROC AUCH = ROCH AUC), поскольку любая точка на отрезке линии между двумя результатами прогнозирования может быть получена путем случайного использования одной или другой системы с вероятностями, пропорциональными относительной длине противоположный компонент сегмента. [10] Также возможно инвертировать вогнутости – так же, как на рисунке худшее решение может стать лучшим решением; вогнутости могут быть отражены в любом сегменте линии, но эта более крайняя форма слияния с гораздо большей вероятностью приведет к переобучению данных. [11]

Другая проблема с TOC AUC заключается в том, что при уменьшении кривой TOC до одного числа игнорируется тот факт, что речь идет о компромиссах между различными системами или нанесенными точками производительности, а не о производительности отдельной системы, а также игнорируется возможность устранения вогнутости. , так что соответствующие альтернативные меры, такие как информированность [ нужна ссылка ] или DeltaP. [12] [13] Эти меры по существу эквивалентны индексу Джини для одной точки прогнозирования с DeltaP' = информированность = 2AUC-1, в то время как DeltaP = маркированность представляет собой двойную величину (т.е. прогнозирование прогноза на основе реального класса), а их среднее геометрическое представляет собой коэффициент корреляции Мэтьюза. . [ нужна ссылка ]

В то время как TOC AUC варьируется от 0 до 1 (при неинформативном классификаторе, дающем 0,5), альтернативные меры, известные как информированность , [ нужна ссылка ] Уверенность [12] и коэффициент Джини (в случае одной параметризации или одной системы) [ нужна ссылка ] все имеют то преимущество, что 0 представляет собой случайную результативность, тогда как 1 представляет собой идеальную результативность, а -1 представляет собой «извращенный» случай полной информированности, всегда дающей неправильный ответ. [14] Доведение шансов до 0 позволяет интерпретировать эти альтернативные шкалы как статистику Каппа. Было показано, что информированность имеет желательные характеристики для машинного обучения по сравнению с другими распространенными определениями каппы, такими как каппа Коэна и каппа Флейса . [ нужна ссылка ] [15]

Иногда бывает полезнее взглянуть на конкретную область кривой ТОС, а не на всю кривую. Можно вычислить частичную AUC. [16] Например, можно сосредоточиться на области кривой с низким уровнем ложноположительных результатов, которая часто представляет наибольший интерес для скрининговых тестов населения. [17] Другой распространенный подход к задачам классификации, в которых P ≪ N (распространенный в приложениях биоинформатики), заключается в использовании логарифмической шкалы для оси x. [18]

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д Понтиус, Роберт Гилмор; Си, Канпин (2014). «Общая рабочая характеристика для измерения диагностических возможностей для нескольких порогов». Международный журнал географической информатики . 28 (3): 570–583. дои : 10.1080/13658816.2013.862623 . S2CID   29204880 .
  2. ^ Понтиус, Роберт Гилмор; Пармантье, Бенуа (2014). «Рекомендации по использованию относительной эксплуатационной характеристики (ROC)». Ландшафтная экология . 29 (3): 367–382. дои : 10.1007/s10980-013-9984-8 . S2CID   254740981 .
  3. ^ Jump up to: Перейти обратно: а б Халлиган, Стив; Альтман, Дуглас Г.; Маллетт, Сьюзен (2015). «Недостатки использования площади под рабочей характеристикой приемника для оценки тестов визуализации: обсуждение и предложение альтернативного подхода» . Европейская радиология . 25 (4): 932–939. дои : 10.1007/s00330-014-3487-0 . ПМЦ   4356897 . ПМИД   25599932 .
  4. ^ Пауэрс, Дэвид Мартин Уорд (2012). «Проблема площади под кривой». Международная конференция IEEE 2012 по информационным наукам и технологиям . стр. 567–573. дои : 10.1109/ICIST.2012.6221710 . ISBN  978-1-4577-0345-4 . S2CID   11072457 .
  5. ^ Лобо, Хорхе М.; Хименес-Вальверде, Альберто; Реал, Раймундо (2008). «AUC: вводящий в заблуждение показатель эффективности моделей прогнозируемого распределения». Глобальная экология и биогеография . 17 (2): 145–151. дои : 10.1111/j.1466-8238.2007.00358.x .
  6. ^ Фосетт, Том (2006); Введение в ROC-анализ , Письма о распознавании образов, 27, 861–874.
  7. ^ Хэнли, Джеймс А.; Макнил, Барбара Дж. (1982). «Значение и использование площади под кривой рабочей характеристики приемника (ROC)». Радиология . 143 (1): 29–36. дои : 10.1148/radiology.143.1.7063747 . ПМИД   7063747 . S2CID   10511727 .
  8. ^ Jump up to: Перейти обратно: а б Мейсон, Саймон Дж.; Грэм, Николас Э. (2002). «Области под кривыми относительных рабочих характеристик (ROC) и относительных рабочих уровней (ROL): статистическая значимость и интерпретация» (PDF) . Ежеквартальный журнал Королевского метеорологического общества . 128 (584): 2145–2166. Бибкод : 2002QJRMS.128.2145M . CiteSeerX   10.1.1.458.8392 . дои : 10.1256/003590002320603584 . S2CID   121841664 . Архивировано из оригинала (PDF) 20 ноября 2008 г.
  9. ^ Хэнд, Дэвид Дж.; и Тилль, Роберт Дж. (2001); Простое обобщение площади под кривой ROC для задач классификации нескольких классов , Machine Learning, 45, 171–186.
  10. ^ Провост, Ф.; Фосетт, Т. (2001). «Надежная классификация для неточных сред». Машинное обучение . 42 (3): 203–231. arXiv : cs/0009007 . дои : 10.1023/а:1007601015854 . S2CID   5415722 .
  11. ^ Флах, Пенсильвания; Ву, С. (2005). «Устранение вогнутостей в кривых ROC». (PDF) . 19-я Международная совместная конференция по искусственному интеллекту (IJCAI'05) . стр. 702–707.
  12. ^ Jump up to: Перейти обратно: а б Пауэрс, Дэвид М.В. (2012). «ROC-ConCert: измерение согласованности и достоверности на основе ROC» (PDF) . Весенний конгресс по технике и технологиям (SCET) . Том. 2. ИИЭР. стр. 238–241. [ мертвая ссылка ]
  13. ^ Пауэрс, Дэвид М.В. (2012). «Проблема площади под кривой». Международная конференция по информатике и технологиям .
  14. ^ Пауэрс, Дэвид М.В. (2003). «Отзыв и точность против букмекерской конторы» (PDF) . Труды Международной конференции по когнитивной науке (ICSC-2003), Сидней, Австралия, 2003, стр. 529–534 . [ постоянная мертвая ссылка ]
  15. ^ Пауэрс, Дэвид М.В. (2012). «Проблема с Каппой» (PDF) . Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP . Архивировано из оригинала (PDF) 18 мая 2016 г. Проверено 20 июля 2012 г.
  16. ^ МакКлиш, Донна Кацман (1 августа 1989 г.). «Анализ части кривой ROC». Принятие медицинских решений . 9 (3): 190–195. дои : 10.1177/0272989X8900900307 . ПМИД   2668680 . S2CID   24442201 .
  17. ^ Додд, Лори Э.; Пепе, Маргарет С. (2003). «Частичная оценка и регрессия AUC» . Биометрия . 59 (3): 614–623. дои : 10.1111/1541-0420.00071 . ПМИД   14601762 . S2CID   23054670 .
  18. ^ Карплюс, Кевин (2011); Лучше, чем шанс: важность нулевых моделей , Калифорнийский университет, Санта-Крус, в материалах Первого международного семинара по распознаванию образов в протеомике, структурной биологии и биоинформатике (PR PS BB 2011)

Дальнейшее чтение [ править ]

  • Понтиус-младший, Роберт Гилмор; Си, Канпин (2014). «Общая рабочая характеристика для измерения диагностических возможностей для нескольких порогов». Международный журнал географической информатики . 28 (3): 570–583. дои : 10.1080/13658816.2013.862623 . S2CID   29204880 .
  • Понтиус-младший, Роберт Гилмор; Пармантье, Бенуа (2014). «Рекомендации по использованию относительной эксплуатационной характеристики (ROC)». Ландшафтная экология . 29 (3): 367–382. дои : 10.1007/s10980-013-9984-8 . S2CID   254740981 .
  • Мас, Жан-Франсуа; Фильо, Бритальдо Соарес; Понтиус-младший, Роберт Гилмор; Гутьеррес, Мишель Фарфан; Родригес, Герман (2013). «Набор инструментов для ROC-анализа пространственных моделей» . Международный геоинформационный журнал ISPRS . 2 (3): 869–887. Бибкод : 2013IJGI....2..869M . дои : 10.3390/ijgi2030869 .
  • Понтиус-младший, Роберт Гилмор; Пачеко, Пабло (2004). «Калибровка и проверка модели нарушения лесов в Западных Гатах, Индия, 1920–1990». Геожурнал . 61 (4): 325–334. дои : 10.1007/s10708-004-5049-5 . S2CID   155073463 .
  • Понтиус-младший, Роберт Гилмор; Батчу, Киран (2003). «Использование относительных рабочих характеристик для количественной оценки уверенности в прогнозировании места изменения земного покрова в Индии». Транзакции в ГИС . 7 (4): 467–484. дои : 10.1111/1467-9671.00159 . S2CID   14452746 .
  • Понтиус-младший, Роберт Гилмор; Шнайдер, Лаура (2001). «Проверка модели изменения землепользования методом ROC для водораздела Ипсвича, Массачусетс, США». Сельское хозяйство, экосистемы и окружающая среда . 85 (1–3): 239–248. дои : 10.1016/s0167-8809(01)00187-6 .


Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2c6afd24859f0ce4400318cc1c80c711__1703634240
URL1:https://arc.ask3.ru/arc/aa/2c/11/2c6afd24859f0ce4400318cc1c80c711.html
Заголовок, (Title) документа по адресу, URL1:
Total operating characteristic - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)