Jump to content

Бинарная классификация

(Перенаправлено с двоичного классификатора )

Бинарная классификация — это задача классификации элементов множества в одну из двух групп (каждая из которых называется классом ). Типичные проблемы двоичной классификации включают в себя:

При измерении точности двоичного классификатора самый простой способ — подсчитать ошибки. количество ошибок обоих разных типов Но в реальном мире часто один из двух классов более важен, поэтому интерес представляет . Например, при медицинском тестировании выявление заболевания при его отсутствии ( ложноположительный результат ) рассматривается иначе, чем отсутствие выявления заболевания при его наличии ( ложноотрицательный результат ).

бинарная Статистическая классификация

Статистическая классификация — это задача, изучаемая в машинном обучении , в которой классификация выполняется на основе правила классификации . Это тип обучения с учителем , метод машинного обучения, в котором категории заранее определены и который используется для классификации новых вероятностных наблюдений по указанным категориям. Когда существует только две категории, проблема называется статистической бинарной классификацией.

Некоторые из методов, обычно используемых для бинарной классификации:

Каждый классификатор является лучшим только в определенной области, исходя из количества наблюдений, размерности вектора признаков , шума в данных и многих других факторов. Например, случайные леса работают лучше, чем классификаторы SVM , для трехмерных облаков точек. [1] [2]

Бинарная классификация может быть формой дихотомизации , а может и не быть .

Оценка бинарных классификаторов [ править ]

В этом наборе тестируемых экземпляров экземпляры слева от разделителя имеют проверяемое условие; правая половина этого не делает. Овал ограничивает те экземпляры, которые алгоритм тестирования классифицирует как имеющие данное условие. Зеленые области выделяют экземпляры, которые алгоритм тестирования правильно классифицировал. Этикетки относятся к:
TP = истинно положительный результат; TN = истинно отрицательный результат; FP = ложное срабатывание (ошибка I рода); FN = ложноотрицательный результат (ошибка II типа); TPR = набор примеров для определения истинно положительного уровня; FPR = набор случаев для определения уровня ложноположительных результатов; PPV = положительная прогностическая ценность; NPV = отрицательная прогностическая ценность.

Существует множество показателей, которые можно использовать для измерения производительности классификатора или предиктора; разные поля имеют разные предпочтения для конкретных показателей из-за разных целей. В медицине чувствительность и специфичность часто используются , тогда как при поиске информации предпочтение отдается точности и полноте . Важное различие существует между показателями, которые не зависят от того, как часто каждая категория встречается в популяции (распространенность ) , и показателями, которые зависят от распространенности: оба типа полезны, но имеют совершенно разные свойства.

Учитывая классификацию конкретного набора данных, существует четыре основных комбинации фактической категории данных и присвоенной категории: истинно положительные TP (правильные положительные присвоения), истинно отрицательные TN (правильные отрицательные присвоения), ложноположительные FP (неправильные положительные присвоения) и ложноотрицательные ФН (неправильные отрицательные отведения).

Назначенный
Действительный
Результат теста положительный Результат теста отрицательный
Состояние положительное Настоящий позитив Ложноотрицательный
Состояние отрицательное Ложное срабатывание Истинно отрицательный

Их можно сгруппировать в таблицу непредвиденных обстоятельств 2×2 , в которой строки соответствуют фактическому значению (положительное или отрицательное состояние) и столбцам, соответствующим классификационному значению (положительный результат теста или отрицательный результат теста).

Восемь основных соотношений [ править ]

На основе этой таблицы можно вычислить восемь основных коэффициентов, которые представлены четырьмя взаимодополняющими парами (каждая пара в сумме равна 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, в результате чего получаются восемь чисел, которые в общем можно назвать в форме «истинно положительное соотношение строк» ​​или «ложноотрицательное соотношение столбцов».

Таким образом, существует две пары отношений столбцов и две пары отношений строк, и их можно суммировать с четырьмя числами, выбирая одно соотношение из каждой пары — остальные четыре числа являются дополнениями.

Соотношения строк следующие:

Соотношения столбцов:

При диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов – доля истинно положительных результатов и частота истинно отрицательных результатов – где они известны как чувствительность и специфичность . В информационном поиске основными коэффициентами являются истинно положительные отношения (строка и столбец) – положительная прогностическая ценность и истинно положительный уровень – где они известны как точность и полнота . Не существует общей теории, определяющей, какую пару следует использовать в каких обстоятельствах; у каждой дисциплины есть своя причина сделанного ею выбора.

Можно взять отношения дополнительной пары отношений, получив четыре отношения правдоподобия (отношение отношений в двух столбцах, соотношение отношений в двух строках). В первую очередь это делается для отношений столбцов (условий), что дает отношения правдоподобия при диагностическом тестировании . Взяв соотношение одной из этих групп отношений, можно получить окончательное соотношение - диагностическое отношение шансов (DOR). Это также можно определить непосредственно как (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); это имеет полезную интерпретацию – как отношение шансов – и не зависит от распространенности.

Существует ряд других показателей, наиболее простыми из которых являются точность или корректность дроби (FC), которая измеряет долю всех экземпляров, которые правильно классифицированы; дополнением является неправильная дробь (FiC). F -показатель объединяет точность и полноту в одно число посредством выбора взвешивания, наиболее просто равного взвешивания, например, сбалансированного F-показателя ( показатель F1 ). Некоторые показатели основаны на коэффициентах регрессии : маркированности и информированности , а также на их среднем геометрическом коэффициенте корреляции Мэтьюза . Другие показатели включают J-статистику Юдена , коэффициент неопределенности , коэффициент фи и каппу Коэна .

Преобразование непрерывных значений в двоичные [ править ]

Тесты, результаты которых имеют непрерывные значения, такие как большинство показателей крови , можно искусственно сделать двоичными, определив пороговое значение , при этом результаты теста обозначаются как положительные или отрицательные в зависимости от того, является ли результирующее значение выше или ниже порогового значения.

Однако такое преобразование приводит к потере информации, поскольку результирующая двоичная классификация не показывает, насколько значение выше или ниже порогового значения. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в двоичное результирующее положительное или отрицательное прогностическое значение обычно выше, чем прогностическое значение, полученное непосредственно из непрерывного значения. В таких случаях определение положительного или отрицательного результата теста создает видимость неоправданно высокой достоверности, в то время как значение на самом деле находится в интервале неопределенности. Например, если концентрация ХГЧ в моче является непрерывным значением, тест на беременность в моче , в котором измерено содержание ХГЧ 52 мМЕ/мл, может оказаться «положительным» с пороговым значением 50 мМЕ/мл, но фактически находится в интервале неопределенности. что может быть очевидно только при знании исходного непрерывного значения. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующую положительную или отрицательную прогностическую ценность, которая ниже, чем прогностическая ценность, полученная из непрерывного значения. Например, значение ХГЧ в моче 200 000 мМЕ/мл дает очень высокую вероятность беременности, но преобразование в двоичные значения приводит к тому, что оно оказывается таким же «положительным», как и значение 52 мМЕ/мл.

См. также [ править ]

Ссылки [ править ]

  1. ^ Чжан и Захор, Ричард и Авиде (2014). «Автоматическая идентификация областей окон в облаках точек внутри помещений с использованием LiDAR и камер». Публикации VIP Lab . CiteSeerX   10.1.1.649.303 .
  2. ^ Ю. Лу и К. Расмуссен (2012). «Упрощенные марковские случайные поля для эффективной семантической маркировки трехмерных облаков точек» (PDF) . ИРОС .

Библиография [ править ]

  • Нелло Кристианини и Джон Шоу-Тейлор . Введение в машины опорных векторов и другие методы обучения на основе ядра . Издательство Кембриджского университета, 2000. ISBN   0-521-78019-5 ( [1] Книга SVM)
  • Джон Шоу-Тейлор и Нелло Кристианини. Ядерные методы анализа закономерностей . Издательство Кембриджского университета, 2004. ISBN   0-521-81397-2 ( сайт книги )
  • Бернхард Шёлкопф и А. Дж. Смола: Обучение с помощью ядер . MIT Press, Кембридж, Массачусетс, 2002. ISBN   0-262-19475-9
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 9ea56d7493e06b3b3423758b83990050__1718290920
URL1:https://arc.ask3.ru/arc/aa/9e/50/9ea56d7493e06b3b3423758b83990050.html
Заголовок, (Title) документа по адресу, URL1:
Binary classification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)