F-оценка
В статистическом анализе двоичной классификации и поиска информации систем F-показатель или F-мера является мерой эффективности прогнозирования. Он рассчитывается на основе точности и полноты теста, где точность представляет собой количество истинно положительных результатов, деленное на количество всех образцов, которые, по прогнозам, будут положительными, включая те, которые были идентифицированы неправильно, а отзыв - это количество истинно положительных результатов. разделить на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.
Показатель F 1 представляет собой среднее гармоническое значение точности и полноты. Таким образом, он симметрично представляет и точность, и полноту в одной метрике. Чем более общий Оценка применяет дополнительные веса, оценивая одну точность или полноту больше, чем другую.
Наивысшее возможное значение F-показателя равно 1,0, что указывает на идеальную точность и полноту, а наименьшее возможное значение равно 0, если точность и полнота равны нулю.
Этимология
[ редактировать ]Считается, что название F-мера названо в честь другой F-функции из книги Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]
Определение
[ редактировать ]Традиционная F-мера или сбалансированная F-оценка ( F 1 оценка ) представляет собой гармоническое среднее значение точности и полноты: [2]
- .
F β Оценка
[ редактировать ]Более общая оценка F, , который использует положительный реальный коэффициент , где выбирается таким образом, чтобы отзыв считался раз важнее точности, это:
- .
Что касается ошибок типа I и типа II, это выглядит следующим образом:
- .
Два часто используемых значения для равны 2, что означает, что полнота больше, чем точность, и 0,5, что означает, что полнота больше, чем точность.
F-мера была выведена так, что "измеряет эффективность поиска по отношению к пользователю, который прикрепляет запоминать в разы важнее точности». [3] Он основан на Ван Рейсбергена. показателе эффективности
- .
Их отношения где .
Диагностическое тестирование
[ редактировать ]Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».
Прогнозируемое состояние | Источники: [4] [5] [6] [7] [8] [9] [10] [11] | ||||
Общая численность населения = П + Н | Прогнозируемый положительный результат (PP) | Прогнозируемый отрицательный результат (PN) | Информированность , информированность букмекерских контор (БМ) = ТПР + ТНР − 1 | Порог распространенности (PT) = √ ТПР × ФПР - ФПР / ТПР - ФПР | |
Фактическое состояние | Положительный (П) [а] | Истинно положительный (TP), ударять [б] | Ложноотрицательный (ЛН), пропустить, недооценка | Доля истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота попаданий, мощность = ТП / П = 1 − ФНР | Ложноотрицательный показатель (FNR), процент промахов ошибка второго рода [с] = ФН / П = 1 − ТПР |
Отрицательный (Н) [д] | Ложноположительный (FP), ложная тревога, завышение оценок | Истинно отрицательный (TN), правильный отказ [и] | Ложноположительный показатель (FPR), вероятность ложной тревоги, выпадения ошибка типа I [ф] = ФП / Н = 1 − ТНР | Истинно отрицательный коэффициент (TNR), специфичность (SPC), селективность = ТН = / Н 1 − ФПР | |
Распространенность = П / П + Н | Положительная прогностическая ценность (PPV), точность = ТП / ПП = 1 − ФДР | Коэффициент ложного пропуска (FOR) = FN / PN = 1 − NPV | Положительное отношение правдоподобия (LR+) = TPR / FPR | Отрицательное отношение правдоподобия (LR-) = FNR / TNR | |
Точность (АКК) = ТП + ТН / П + Н | Уровень ложного обнаружения (FDR) = ФП / ПП = 1 − ППВ | Отрицательная прогностическая ценность (NPV) = ТН / ПН = 1 − ДЛЯ | Маркировка (МК), дельтаП (Δp) = ППВ + ЧПС − 1 | Диагностическое отношение шансов (DOR) = ЛР+ / ЛР- | |
Сбалансированная точность (BA) = ТПР + ТНР / 2 | F 1 балл = 2 PPV × TPR / PPV + TPR = 2 ТП / 2 ТП + ФП + ФН | Индекс Фаулкса-Мэллоуза (FM) = √ ППВ × TPR | Коэффициент корреляции Мэтьюза (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Оценка угрозы (TS), индекс критического успеха (CSI), индекс Жаккара = ТП / ТП + ФН + ФП |
- ^ количество реальных положительных случаев в данных
- ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
- ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
- ^ количество реальных отрицательных случаев в данных
- ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
- ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.
Зависимость F-оценки от классового дисбаланса
[ редактировать ]Кривая точности отзыва и, следовательно, балл, явно зависит от соотношения положительных и отрицательных тестовых случаев. [12] Это означает, что сравнениеF-оценка для разных задач с разным соотношением классов равнапроблематично. Один из способов решения этой проблемы (см., например, Siblini et al.,2020 год [13] ) заключается в использовании стандартного соотношения классов при проведении таких сравнений.
Приложения
[ редактировать ]F-показатель часто используется в области поиска информации для измерения эффективности поиска , классификации документов и классификации запросов . [14] Это особенно актуально в приложениях, которые в первую очередь касаются положительного класса и где положительный класс встречается редко по сравнению с отрицательным классом.
Более ранние работы были сосредоточены в первую очередь на показателе F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, и теперь больший упор делается либо на точность, либо на отзыв. [15] и так наблюдается широкое применение.
F-оценка также используется в машинном обучении . [16] Однако F-меры не учитывают истинные отрицательные значения, поэтому такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна, могут быть предпочтительными для оценки эффективности бинарного классификатора. [17]
F-оценка широко используется в литературе по обработке естественного языка. [18] например, при оценке распознавания именованного объекта и сегментации слов .
Характеристики
[ редактировать ]Оценка F 1 представляет собой коэффициент Дайса набора извлеченных элементов и набора соответствующих элементов. [19]
- Показатель F 1 классификатора, который всегда предсказывает положительный класс, стремится к 1 по мере увеличения вероятности положительного класса.
- Показатель F 1 классификатора, который всегда предсказывает положительный класс, равен 2 * пропорция_положительного_класса / (1 + пропорция_положительного_класса), поскольку отзыв равен 1, а точность равна доле положительного класса. [20]
- Если модель оценки неинформативна (не может различать положительный и отрицательный класс), то оптимальным порогом является 0, чтобы всегда прогнозировался положительный класс.
- F 1 Оценка имеет вогнутую форму при истинно положительном показателе. [21]
Критика
[ редактировать ]Дэвид Хэнд и другие критикуют широкое использование шкалы F 1 , поскольку она придает одинаковое значение точности и запоминаемости. На практике разные типы ошибочной классификации влекут за собой разные издержки. Другими словами, относительная важность точности и полноты является аспектом проблемы. [22]
По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в классификации бинарной оценки. [23]
Дэвид М.В. Пауэрс отметил, что F 1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированности и Маркированности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. [24]
Еще одним источником критики F 1 является отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных — «положительные» образцы называются «отрицательными» и наоборот.На эту критику отвечает определение метрики P4 , которое иногда называют симметричным расширением F 1 . [25]
Отличие от индекса Фаулкса-Мэллоуза
[ редактировать ]В то время как F-мера представляет собой среднее гармоническое запоминаемость и точность, индекс Фаулкса-Мэллоуза представляет собой их среднее геометрическое . [26]
Расширение многоклассовой классификации
[ редактировать ]F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). Распространенным методом является усреднение показателя F по каждому классу с целью сбалансированного измерения производительности. [27]
Макро Ф1
[ редактировать ]Макро F1 — это усредненный по макросу результат F1. Для расчета макроса F1 использовались две разные формулы усреднения: F-показатель (арифметической) классовой точности и средних значений полноты или среднее арифметическое классовых F-показателей, где последний демонстрирует более желательные свойства. [28]
См. также
[ редактировать ]- СИНИЙ
- Матрица путаницы
- Проверка гипотез на точность
- МЕТЕОР
- НИСТ (метрический)
- Рабочая характеристика приемника
- РУМЯНА (метрическая)
- Коэффициент неопределенности , он же Proficiency
- Частота ошибок в словах
- ЗАЯЦ
Ссылки
[ редактировать ]- ^ Сасаки, Ю. (2007). «Истинность F-меры» (PDF) . Научите репетитора матер . Том. 1, нет. 5. С. 1–5.
- ^ Азиз Таха, Абдель (2015). «Метрики оценки сегментации медицинских 3D-изображений: анализ, выбор и инструмент» . Медицинская визуализация BMC . 15 (29): 1–28. дои : 10.1186/s12880-015-0068-x . ПМЦ 4533825 . ПМИД 26263899 .
- ^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
- ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. дои : 10.1016/j.patrec.2005.10.010 . S2CID 2027090 .
- ^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении» . О'Рейли Медиа, Инк .
- ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
- ^ Тин, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8 . ISBN 978-0-387-30164-8 .
- ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов» . Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
- ^ Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477 .
- ^ Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекерской конторы и маркированность при оценке двухклассовой матрицы путаницы» . Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ 7863449 . ПМИД 33541410 .
- ^ Тарват А. (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
- ^ Брабец, Ян; Комарек, Томас; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
- ^ Сиблини, В.; Фрери, Дж.; Хе-Гелтон, Л.; Обле, Ф.; Ван, YQ (2020). «Совершенствуйте свои показатели с помощью калибровки». У М. Бертольда; А. Филдерс; Г. Кремль (ред.). Достижения в области интеллектуального анализа данных XVIII . Спрингер. стр. 457–469. arXiv : 1909.02827 . дои : 10.1007/978-3-030-44584-3_36 .
- ^ Бейтцель, Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX 10.1.1.127.634 .
- ^ С. Ли; Д.-Ю. Ван; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . п. 339. дои : 10.1145/1390334.1390393 . ISBN 9781605581644 . S2CID 8482989 .
- ^ См., например, оценку [1] .
- ^ Пауэрс, Дэвид М.В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].
- ^ Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Материалы Международной конференции по языковым ресурсам и оценке .
- ^ Мэннинг, Кристофер (1 апреля 2009 г.). Введение в поиск информации (PDF) . Упражнение 8.7: Издательство Кембриджского университета. п. 200 . Проверено 18 июля 2022 г.
{{cite book}}
: CS1 maint: местоположение ( ссылка ) - ^ «Какова базовая оценка F1 для бинарного классификатора?» .
- ^ Липтон, З.К., Элкан, К.П., и Нараянасвами, Б. (2014). F1 — оптимальное пороговое значение в настройке нескольких меток. ArXiv, абс/1402.1892.
- ^ Хэнд, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей — Размеры» . app.dimensions.ai . дои : 10.1007/s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID 38782128 . Проверено 8 декабря 2018 г.
- ^ Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (6): 6. дои : 10.1186/s12864-019-6413-7 . ПМК 6941312 . ПМИД 31898477 .
- ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-оценки к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .
- ^ Ситарц, Николай (2022). «Расширение метрики F1, вероятностный подход». arXiv : 2210.11997 [ cs.LG ].
- ^ Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
- ^ Опиц, Юрий (2024). «Более пристальный взгляд на показатели классификационной оценки и критическое размышление об общей практике оценки» . Труды Ассоциации компьютерной лингвистики . 12 : 820–836. arXiv : 2404.16958 . дои : 10.1162/tacl_a_00675 .
- ^ Дж. Опиц; С. Берст (2019). «Макро Ф1 и Макро Ф1». arXiv : 1911.03347 [ stat.ML ].