Jump to content

F-оценка

(Перенаправлено с F-меры )
Точность и отзыв

В статистическом анализе двоичной классификации и поиска информации систем F-показатель или F-мера является мерой эффективности прогнозирования. Он рассчитывается на основе точности и полноты теста, где точность представляет собой количество истинно положительных результатов, деленное на количество всех образцов, которые, по прогнозам, будут положительными, включая те, которые были идентифицированы неправильно, а отзыв - это количество истинно положительных результатов. разделить на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительная прогностическая ценность , а отзыв также известен как чувствительность в диагностической бинарной классификации.

Показатель F 1 представляет собой среднее гармоническое значение точности и полноты. Таким образом, он симметрично представляет и точность, и полноту в одной метрике. Чем более общий Оценка применяет дополнительные веса, оценивая одну точность или полноту больше, чем другую.

Наивысшее возможное значение F-показателя равно 1,0, что указывает на идеальную точность и полноту, а наименьшее возможное значение равно 0, если точность и полнота равны нулю.

Этимология

[ редактировать ]

Считается, что название F-мера названо в честь другой F-функции из книги Ван Рейсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]

Определение

[ редактировать ]

Традиционная F-мера или сбалансированная F-оценка ( F 1 оценка ) представляет собой гармоническое среднее значение точности и полноты: [2]

.

F β Оценка

[ редактировать ]

Более общая оценка F, , который использует положительный реальный коэффициент , где выбирается таким образом, чтобы отзыв считался раз важнее точности, это:

.

Что касается ошибок типа I и типа II, это выглядит следующим образом:

.

Два часто используемых значения для равны 2, что означает, что полнота больше, чем точность, и 0,5, что означает, что полнота больше, чем точность.

F-мера была выведена так, что "измеряет эффективность поиска по отношению к пользователю, который прикрепляет запоминать в разы важнее точности». [3] Он основан на Ван Рейсбергена. показателе эффективности

.

Их отношения где .

Диагностическое тестирование

[ редактировать ]

Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».

Прогнозируемое состояние Источники: [4] [5] [6] [7] [8] [9] [10] [11]
Общая численность населения
= П + Н
Прогнозируемый положительный результат (PP) Прогнозируемый отрицательный результат (PN) Информированность , информированность букмекерских контор (БМ)
= ТПР + ТНР − 1
Порог распространенности (PT)
= ТПР × ФПР - ФПР / ТПР - ФПР
Фактическое состояние
Положительный (П) [а] Истинно положительный (TP),
ударять [б]
Ложноотрицательный (ЛН),
пропустить, недооценка
Доля истинных положительных результатов (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, частота попаданий, мощность
= ТП / П = 1 − ФНР
Ложноотрицательный показатель (FNR),
процент промахов
ошибка второго рода [с]
= ФН / П = 1 − ТПР
Отрицательный (Н) [д] Ложноположительный (FP),
ложная тревога, завышение оценок
Истинно отрицательный (TN),
правильный отказ [и]
Ложноположительный показатель (FPR),
вероятность ложной тревоги, выпадения
ошибка типа I [ф]
= ФП / Н = 1 − ТНР
Истинно отрицательный коэффициент (TNR),
специфичность (SPC), селективность
= ТН = / Н 1 − ФПР
Распространенность
= П / П + Н
Положительная прогностическая ценность (PPV), точность
= ТП / ПП = 1 − ФДР
Коэффициент ложного пропуска (FOR)
= FN / PN = 1 − NPV
Положительное отношение правдоподобия (LR+)
= TPR / FPR
Отрицательное отношение правдоподобия (LR-)
= FNR / TNR
Точность (АКК)
= ТП + ТН / П + Н
Уровень ложного обнаружения (FDR)
= ФП / ПП = 1 − ППВ
Отрицательная прогностическая ценность (NPV)
= ТН / ПН = 1 − ДЛЯ
Маркировка (МК), дельтаП (Δp)
= ППВ + ЧПС − 1
Диагностическое отношение шансов (DOR)
= ЛР+ / ЛР-
Сбалансированная точность (BA)
= ТПР + ТНР / 2
F 1 балл
= 2 PPV × TPR / PPV + TPR = 2 ТП / 2 ТП + ФП + ФН
Индекс Фаулкса-Мэллоуза (FM)
= ППВ × TPR
Коэффициент корреляции Мэтьюза (MCC)
= TPR × TNR × PPV × NPV - FNR × FPR × FOR × FDR
Оценка угрозы (TS), индекс критического успеха (CSI), индекс Жаккара
= ТП / ТП + ФН + ФП
  1. ^ количество реальных положительных случаев в данных
  2. ^ Результат теста, который правильно указывает на наличие состояния или характеристики.
  3. ^ Ошибка типа II: результат теста, который ошибочно указывает на отсутствие определенного условия или атрибута.
  4. ^ количество реальных отрицательных случаев в данных
  5. ^ Результат теста, который правильно указывает на отсутствие состояния или характеристики.
  6. ^ Ошибка типа I: результат теста, который ошибочно указывает на наличие определенного условия или атрибута.
График нормализованного среднего гармонического значения, где x — точность, y — отзыв, а вертикальная ось — F 1 , в процентных пунктах. балл
Кривая точного отзыва: точки с разными порогами имеют цветовую маркировку, точка с оптимальным F-показателем выделена красным.

Зависимость F-оценки от классового дисбаланса

[ редактировать ]

Кривая точности отзыва и, следовательно, балл, явно зависит от соотношения положительных и отрицательных тестовых случаев. [12] Это означает, что сравнениеF-оценка для разных задач с разным соотношением классов равнапроблематично. Один из способов решения этой проблемы (см., например, Siblini et al.,2020 год [13] ) заключается в использовании стандартного соотношения классов при проведении таких сравнений.

Приложения

[ редактировать ]

F-показатель часто используется в области поиска информации для измерения эффективности поиска , классификации документов и классификации запросов . [14] Это особенно актуально в приложениях, которые в первую очередь касаются положительного класса и где положительный класс встречается редко по сравнению с отрицательным классом.

Более ранние работы были сосредоточены в первую очередь на показателе F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, и теперь больший упор делается либо на точность, либо на отзыв. [15] и так наблюдается широкое применение.

F-оценка также используется в машинном обучении . [16] Однако F-меры не учитывают истинные отрицательные значения, поэтому такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна, могут быть предпочтительными для оценки эффективности бинарного классификатора. [17]

F-оценка широко используется в литературе по обработке естественного языка. [18] например, при оценке распознавания именованного объекта и сегментации слов .

Характеристики

[ редактировать ]

Оценка F 1 представляет собой коэффициент Дайса набора извлеченных элементов и набора соответствующих элементов. [19]

  • Показатель F 1 классификатора, который всегда предсказывает положительный класс, стремится к 1 по мере увеличения вероятности положительного класса.
  • Показатель F 1 классификатора, который всегда предсказывает положительный класс, равен 2 * пропорция_положительного_класса / (1 + пропорция_положительного_класса), поскольку отзыв равен 1, а точность равна доле положительного класса. [20]
  • Если модель оценки неинформативна (не может различать положительный и отрицательный класс), то оптимальным порогом является 0, чтобы всегда прогнозировался положительный класс.
  • F 1 Оценка имеет вогнутую форму при истинно положительном показателе. [21]

Дэвид Хэнд и другие критикуют широкое использование шкалы F 1 , поскольку она придает одинаковое значение точности и запоминаемости. На практике разные типы ошибочной классификации влекут за собой разные издержки. Другими словами, относительная важность точности и полноты является аспектом проблемы. [22]

По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в классификации бинарной оценки. [23]

Дэвид М.В. Пауэрс отметил, что F 1 игнорирует истинные отрицательные значения и, таким образом, вводит в заблуждение несбалансированные классы, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости - классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные мультиклассовые меры Информированности и Маркированности для двух направлений, отмечая, что их среднее геометрическое является корреляцией. [24]

Еще одним источником критики F 1 является отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных — «положительные» образцы называются «отрицательными» и наоборот.На эту критику отвечает определение метрики P4 , которое иногда называют симметричным расширением F 1 . [25]

Отличие от индекса Фаулкса-Мэллоуза

[ редактировать ]

В то время как F-мера представляет собой среднее гармоническое запоминаемость и точность, индекс Фаулкса-Мэллоуза представляет собой их среднее геометрическое . [26]

Расширение многоклассовой классификации

[ редактировать ]

F-оценка также используется для оценки задач классификации с более чем двумя классами ( мультиклассовая классификация ). Распространенным методом является усреднение показателя F по каждому классу с целью сбалансированного измерения производительности. [27]

Макро F1 — это усредненный по макросу результат F1. Для расчета макроса F1 использовались две разные формулы усреднения: F-показатель (арифметической) классовой точности и средних значений полноты или среднее арифметическое классовых F-показателей, где последний демонстрирует более желательные свойства. [28]

См. также

[ редактировать ]
  1. ^ Сасаки, Ю. (2007). «Истинность F-меры» (PDF) . Научите репетитора матер . Том. 1, нет. 5. С. 1–5.
  2. ^ Азиз Таха, Абдель (2015). «Метрики оценки сегментации медицинских 3D-изображений: анализ, выбор и инструмент» . Медицинская визуализация BMC . 15 (29): 1–28. дои : 10.1186/s12880-015-0068-x . ПМЦ   4533825 . ПМИД   26263899 .
  3. ^ Ван Рейсберген, CJ (1979). Информационный поиск (2-е изд.). Баттерворт-Хайнеманн.
  4. ^ Фосетт, Том (2006). «Введение в ROC-анализ» (PDF) . Буквы для распознавания образов . 27 (8): 861–874. дои : 10.1016/j.patrec.2005.10.010 . S2CID   2027090 .
  5. ^ Провост, Фостер; Том Фосетт (01 августа 2013 г.). «Наука о данных для бизнеса: что нужно знать об интеллектуальном анализе данных и аналитическом мышлении» . О'Рейли Медиа, Инк .
  6. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-меры к ROC, информированности, маркированности и корреляции» . Журнал технологий машинного обучения . 2 (1): 37–63.
  7. ^ Тин, Кай Мин (2011). Саммут, Клод; Уэбб, Джеффри И. (ред.). Энциклопедия машинного обучения . Спрингер. дои : 10.1007/978-0-387-30164-8 . ISBN  978-0-387-30164-8 .
  8. ^ Брукс, Гарольд; Браун, Барб; Эберт, Бет; Ферро, Крис; Джоллифф, Ян; Ко, Тие-Ён; Роббер, Пол; Стивенсон, Дэвид (26 января 2015 г.). «Совместная рабочая группа ВПМИ/РГЧЭ по исследованиям по проверке прогнозов» . Сотрудничество в области австралийских исследований погоды и климата . Всемирная метеорологическая организация . Проверено 17 июля 2019 г.
  9. ^ Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (1): 6-1–6-13. дои : 10.1186/s12864-019-6413-7 . ПМК   6941312 . ПМИД   31898477 .
  10. ^ Чикко Д., Тётч Н., Юрман Г. (февраль 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более надежен, чем сбалансированная точность, информированность букмекерской конторы и маркированность при оценке двухклассовой матрицы путаницы» . Добыча биоданных . 14 (13): 13. дои : 10.1186/s13040-021-00244-z . ПМЦ   7863449 . ПМИД   33541410 .
  11. ^ Тарват А. (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  12. ^ Брабец, Ян; Комарек, Томас; Франк, Войтех; Махлица, Лукаш (2020). «Об оценке модели в условиях непостоянного классового дисбаланса». Международная конференция по вычислительной науке . Спрингер. стр. 74–87. arXiv : 2001.05571 . дои : 10.1007/978-3-030-50423-6_6 .
  13. ^ Сиблини, В.; Фрери, Дж.; Хе-Гелтон, Л.; Обле, Ф.; Ван, YQ (2020). «Совершенствуйте свои показатели с помощью калибровки». У М. Бертольда; А. Филдерс; Г. Кремль (ред.). Достижения в области интеллектуального анализа данных XVIII . Спрингер. стр. 457–469. arXiv : 1909.02827 . дои : 10.1007/978-3-030-44584-3_36 .
  14. ^ Бейтцель, Стивен М. (2006). О понимании и классификации веб-запросов (кандидатская диссертация). ИИТ. CiteSeerX   10.1.1.127.634 .
  15. ^ С. Ли; Д.-Ю. Ван; А. Асеро (июль 2008 г.). Изучение намерения запроса на основе регуляризованных графиков кликов . Материалы 31-й конференции СИГИР . п. 339. дои : 10.1145/1390334.1390393 . ISBN  9781605581644 . S2CID   8482989 .
  16. ^ См., например, оценку [1] .
  17. ^ Пауэрс, Дэвид М.В. (2015). «То, что не измеряет F-мера». arXiv : 1503.06410 [ cs.IR ].
  18. ^ Дерчинский, Л. (2016). Комплементарность, F-оценка и оценка НЛП . Материалы Международной конференции по языковым ресурсам и оценке .
  19. ^ Мэннинг, Кристофер (1 апреля 2009 г.). Введение в поиск информации (PDF) . Упражнение 8.7: Издательство Кембриджского университета. п. 200 . Проверено 18 июля 2022 г. {{cite book}}: CS1 maint: местоположение ( ссылка )
  20. ^ «Какова базовая оценка F1 для бинарного классификатора?» .
  21. ^ Липтон, З.К., Элкан, К.П., и Нараянасвами, Б. (2014). F1 — оптимальное пороговое значение в настройке нескольких меток. ArXiv, абс/1402.1892.
  22. ^ Хэнд, Дэвид. «Примечание об использовании F-меры для оценки алгоритмов связывания записей — Размеры» . app.dimensions.ai . дои : 10.1007/s11222-017-9746-6 . hdl : 10044/1/46235 . S2CID   38782128 . Проверено 8 декабря 2018 г.
  23. ^ Чикко Д., Юрман Дж. (январь 2020 г.). «Преимущества коэффициента корреляции Мэтьюза (MCC) перед показателем F1 и точность оценки двоичной классификации» . БМК Геномика . 21 (6): 6. дои : 10.1186/s12864-019-6413-7 . ПМК   6941312 . ПМИД   31898477 .
  24. ^ Пауэрс, Дэвид М.В. (2011). «Оценка: от точности, отзыва и F-оценки к ROC, информированности, маркированности и корреляции». Журнал технологий машинного обучения . 2 (1): 37–63. hdl : 2328/27165 .
  25. ^ Ситарц, Николай (2022). «Расширение метрики F1, вероятностный подход». arXiv : 2210.11997 [ cs.LG ].
  26. ^ Тарват А (август 2018 г.). «Классификация методов оценки» . Прикладная вычислительная техника и информатика . 17 : 168–192. дои : 10.1016/j.aci.2018.08.003 .
  27. ^ Опиц, Юрий (2024). «Более пристальный взгляд на показатели классификационной оценки и критическое размышление об общей практике оценки» . Труды Ассоциации компьютерной лингвистики . 12 : 820–836. arXiv : 2404.16958 . дои : 10.1162/tacl_a_00675 .
  28. ^ Дж. Опиц; С. Берст (2019). «Макро Ф1 и Макро Ф1». arXiv : 1911.03347 [ stat.ML ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a388efc58b45d64e6f4d6444fba52805__1721801460
URL1:https://arc.ask3.ru/arc/aa/a3/05/a388efc58b45d64e6f4d6444fba52805.html
Заголовок, (Title) документа по адресу, URL1:
F-score - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)