Jump to content

Бинарная классификация

(Перенаправлено с двоичного теста )

Бинарная классификация — это задача классификации элементов множества в одну из двух групп (каждая из которых называется классом ). Типичные проблемы двоичной классификации включают в себя:

При измерении точности двоичного классификатора самый простой способ — подсчитать ошибки. количество ошибок обоих разных типов Но в реальном мире часто один из двух классов более важен, поэтому интерес представляет . Например, при медицинском тестировании выявление заболевания при его отсутствии ( ложноположительный результат ) рассматривается иначе, чем отсутствие выявления заболевания при его наличии ( ложноотрицательный результат ).

В этом наборе тестируемых экземпляров экземпляры слева от разделителя имеют проверяемое условие; правая половина этого не делает. Овал ограничивает те случаи, которые алгоритм тестирования классифицирует как имеющие данное условие. Зеленые области выделяют экземпляры, которые алгоритм тестирования правильно классифицировал. Этикетки относятся к:
TP = истинно положительный результат; TN = истинно отрицательный результат; FP = ложное срабатывание (ошибка I рода); FN = ложноотрицательный результат (ошибка II типа); TPR = набор примеров для определения истинно положительного уровня; FPR = набор случаев для определения уровня ложноположительных результатов; PPV = положительная прогностическая ценность; NPV = отрицательная прогностическая ценность.

Четыре результата

[ редактировать ]

Учитывая классификацию конкретного набора данных, существует четыре основных комбинации фактической категории данных и присвоенной категории: истинно положительные TP (правильные положительные присвоения), истинно отрицательные TN (правильные отрицательные присвоения), ложноположительные FP (неправильные положительные присвоения) и ложноотрицательные ФН (неправильные отрицательные отведения).

Назначенный
Действительный
Результат теста положительный Результат теста отрицательный
Состояние положительное Настоящий позитив Ложноотрицательный
Состояние отрицательное Ложное срабатывание Истинно отрицательный

Их можно сгруппировать в таблицу непредвиденных обстоятельств 2×2 , в которой строки соответствуют фактическому значению (положительное или отрицательное состояние) и столбцам, соответствующим классификационному значению (положительный результат теста или отрицательный результат теста).

На основе подсчета четырех основных результатов существует множество подходов, которые можно использовать для измерения точности классификатора или предиктора. Разные поля имеют разные предпочтения.

Восемь основных соотношений

[ редактировать ]

Обычный подход к оценке состоит в том, чтобы начать с вычисления двух коэффициентов стандартного шаблона. Существует восемь основных коэффициентов этой формы, которые можно вычислить по таблице непредвиденных обстоятельств, которые представлены четырьмя взаимодополняющими парами (каждая пара в сумме равна 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, в результате чего получаются восемь чисел, которые в общем можно назвать в форме «истинно положительное соотношение строк» ​​или «ложноотрицательное соотношение столбцов».

Таким образом, существует две пары отношений столбцов и две пары отношений строк, и их можно суммировать с четырьмя числами, выбирая одно соотношение из каждой пары — остальные четыре числа являются дополнениями.

Соотношения строк следующие:

Соотношения столбцов:

При диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов – доля истинно положительных результатов и частота истинно отрицательных результатов – где они известны как чувствительность и специфичность . В информационном поиске основными коэффициентами являются истинно положительные отношения (строка и столбец) – положительная прогностическая ценность и истинно положительный уровень – где они известны как точность и полнота .

Каллерн Баун предложил блок-схему для определения того, какую пару индикаторов следует использовать и когда. [ 1 ] В противном случае не существует общего правила принятия решения. Также нет общего согласия относительно того, как следует использовать эту пару показателей для принятия решений по конкретным вопросам, например, когда отдавать предпочтение одному классификатору перед другим.

Можно взять отношения дополнительной пары отношений, получив четыре отношения правдоподобия (отношение отношений в двух столбцах, соотношение отношений в двух строках). В первую очередь это делается для отношений столбцов (условий), что дает отношения правдоподобия при диагностическом тестировании . Взяв соотношение одной из этих групп отношений, можно получить окончательное соотношение - диагностическое отношение шансов (DOR). Это также можно определить непосредственно как (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); это имеет полезную интерпретацию – как отношение шансов – и не зависит от распространенности.

Другие показатели

[ редактировать ]

Существует ряд других показателей, наиболее простыми из которых являются точность или корректность дроби (FC), которая измеряет долю всех экземпляров, которые правильно классифицированы; дополнением является неправильная дробь (FiC). F -показатель объединяет точность и полноту в одно число посредством выбора взвешивания, наиболее просто равного взвешивания, например, сбалансированного F-показателя ( показатель F1 ). Некоторые показатели основаны на коэффициентах регрессии : маркированности и информированности , а также их среднем геометрическом коэффициенте корреляции Мэтьюза . Другие показатели включают J-статистику Юдена , коэффициент неопределенности , коэффициент фи и каппу Коэна .

Статистическая бинарная классификация

[ редактировать ]

Статистическая классификация — это задача, изучаемая в машинном обучении , в которой классификация выполняется на основе правила классификации . Это тип обучения с учителем , метод машинного обучения, в котором категории заранее определены и который используется для классификации новых вероятностных наблюдений по указанным категориям. Когда существует только две категории, проблема называется статистической бинарной классификацией.

Некоторые из методов, обычно используемых для бинарной классификации:

Каждый классификатор является лучшим только в определенной области, исходя из количества наблюдений, размерности вектора признаков , шума в данных и многих других факторов. Например, случайные леса работают лучше, чем классификаторы SVM , для трехмерных облаков точек. [ 2 ] [ 3 ]

Преобразование непрерывных значений в двоичные

[ редактировать ]

Бинарная классификация может быть формой дихотомизации , при которой непрерывная функция преобразуется в двоичную переменную. Тесты, результаты которых имеют непрерывные значения, такие как большинство показателей крови , можно искусственно сделать двоичными, определив пороговое значение , при этом результаты теста обозначаются как положительные или отрицательные в зависимости от того, является ли результирующее значение выше или ниже порогового значения.

Однако такое преобразование приводит к потере информации, поскольку результирующая двоичная классификация не показывает, насколько значение выше или ниже порогового значения. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в двоичное результирующее положительное или отрицательное прогностическое значение обычно выше, чем прогностическое значение, полученное непосредственно из непрерывного значения. В таких случаях определение положительного или отрицательного результата теста создает видимость неоправданно высокой достоверности, в то время как значение на самом деле находится в интервале неопределенности. Например, если концентрация ХГЧ в моче является непрерывным значением, тест на беременность в моче , в котором измерено содержание ХГЧ 52 мМЕ/мл, может оказаться «положительным» с пороговым значением 50 мМЕ/мл, но фактически находится в интервале неопределенности. что может быть очевидно только при знании исходного непрерывного значения. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующую положительную или отрицательную прогностическую ценность, которая ниже, чем прогностическая ценность, полученная из непрерывного значения. Например, значение ХГЧ в моче 200 000 мМЕ/мл дает очень высокую вероятность беременности, но преобразование в двоичные значения приводит к тому, что оно оказывается таким же «положительным», как и значение 52 мМЕ/мл.

См. также

[ редактировать ]
  1. ^ Уильям Каллерн Баун (2024). «Чувствительность и специфичность в сравнении с точностью и запоминаемостью и связанные с ними дилеммы» . Журнал классификации .
  2. ^ Чжан и Захор, Ричард и Авиде (2014). «Автоматическая идентификация областей окон в облаках точек внутри помещений с использованием LiDAR и камер». Публикации VIP Lab . CiteSeerX   10.1.1.649.303 .
  3. ^ Ю. Лу и К. Расмуссен (2012). «Упрощенные марковские случайные поля для эффективной семантической маркировки трехмерных облаков точек» (PDF) . ИРОС .

Библиография

[ редактировать ]
  • Нелло Кристианини и Джон Шоу-Тейлор . Введение в машины опорных векторов и другие методы обучения на основе ядра . Издательство Кембриджского университета, 2000. ISBN   0-521-78019-5 ( [1] Книга SVM)
  • Джон Шоу-Тейлор и Нелло Кристианини. Ядерные методы анализа закономерностей . Издательство Кембриджского университета, 2004. ISBN   0-521-81397-2 ( сайт книги )
  • Бернхард Шёлкопф и А.Дж. Смола: Обучение с помощью ядер . MIT Press, Кембридж, Массачусетс, 2002. ISBN   0-262-19475-9
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 46450b89a225f3b856b77bd444396e19__1722848400
URL1:https://arc.ask3.ru/arc/aa/46/19/46450b89a225f3b856b77bd444396e19.html
Заголовок, (Title) документа по адресу, URL1:
Binary classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)