Бинарная классификация
Эта статья нуждается в дополнительных цитатах для проверки . ( май 2011 г. ) |
Бинарная классификация — это задача классификации элементов множества в одну из двух групп (каждая из которых называется классом ). Типичные проблемы двоичной классификации включают в себя:
- Медицинское обследование , чтобы определить, есть ли у пациента определенное заболевание или нет;
- Контроль качества в промышленности, принятие решения о соответствии спецификации;
- При поиске информации принятие решения о том, должна ли страница находиться в наборе результатов поиска или нет.
- В администрации решают, следует ли выдавать кому-либо водительские права или нет.
- В познании решение, является ли объект едой или не едой.
При измерении точности двоичного классификатора самый простой способ — подсчитать ошибки. количество ошибок обоих разных типов Но в реальном мире часто один из двух классов более важен, поэтому интерес представляет . Например, при медицинском тестировании выявление заболевания при его отсутствии ( ложноположительный результат ) рассматривается иначе, чем отсутствие выявления заболевания при его наличии ( ложноотрицательный результат ).
бинарная Статистическая классификация
Статистическая классификация — это задача, изучаемая в машинном обучении , в которой классификация выполняется на основе правила классификации . Это тип обучения с учителем , метод машинного обучения, в котором категории заранее определены и который используется для классификации новых вероятностных наблюдений по указанным категориям. Когда существует только две категории, проблема называется статистической бинарной классификацией.
Некоторые из методов, обычно используемых для бинарной классификации:
- Деревья решений
- Случайные леса
- Байесовские сети
- Машины опорных векторов
- Нейронные сети
- Логистическая регрессия
- Probit model
- Генетическое программирование
- Мультивыраженное программирование
- Линейное генетическое программирование
Каждый классификатор является лучшим только в определенной области, исходя из количества наблюдений, размерности вектора признаков , шума в данных и многих других факторов. Например, случайные леса работают лучше, чем классификаторы SVM , для трехмерных облаков точек. [1] [2]
Бинарная классификация может быть формой дихотомизации , а может и не быть .
Оценка бинарных классификаторов [ править ]

TP = истинно положительный результат; TN = истинно отрицательный результат; FP = ложное срабатывание (ошибка I рода); FN = ложноотрицательный результат (ошибка II типа); TPR = набор примеров для определения истинно положительного уровня; FPR = набор случаев для определения уровня ложноположительных результатов; PPV = положительная прогностическая ценность; NPV = отрицательная прогностическая ценность.
Существует множество показателей, которые можно использовать для измерения производительности классификатора или предиктора; разные поля имеют разные предпочтения для конкретных показателей из-за разных целей. В медицине чувствительность и специфичность часто используются , тогда как при поиске информации предпочтение отдается точности и полноте . Важное различие существует между показателями, которые не зависят от того, как часто каждая категория встречается в популяции (распространенность ) , и показателями, которые зависят от распространенности: оба типа полезны, но имеют совершенно разные свойства.
Учитывая классификацию конкретного набора данных, существует четыре основных комбинации фактической категории данных и присвоенной категории: истинно положительные TP (правильные положительные присвоения), истинно отрицательные TN (правильные отрицательные присвоения), ложноположительные FP (неправильные положительные присвоения) и ложноотрицательные ФН (неправильные отрицательные отведения).
Назначенный Действительный | Результат теста положительный | Результат теста отрицательный |
---|---|---|
Состояние положительное | Настоящий позитив | Ложноотрицательный |
Состояние отрицательное | Ложное срабатывание | Истинно отрицательный |
Их можно сгруппировать в таблицу непредвиденных обстоятельств 2×2 , в которой строки соответствуют фактическому значению (положительное или отрицательное состояние) и столбцам, соответствующим классификационному значению (положительный результат теста или отрицательный результат теста).
Восемь основных соотношений [ править ]
На основе этой таблицы можно вычислить восемь основных коэффициентов, которые представлены четырьмя взаимодополняющими парами (каждая пара в сумме равна 1). Они получаются путем деления каждого из четырех чисел на сумму его строки или столбца, в результате чего получаются восемь чисел, которые в общем можно назвать в форме «истинно положительное соотношение строк» или «ложноотрицательное соотношение столбцов».
Таким образом, существует две пары отношений столбцов и две пары отношений строк, и их можно суммировать с четырьмя числами, выбирая одно соотношение из каждой пары — остальные четыре числа являются дополнениями.
Соотношения строк следующие:
- истинный положительный уровень (TPR) = (TP/(TP+FN)), он же чувствительность или отзыв . Это доля населения с состоянием , для которого тест является правильным.
- с дополнением уровень ложноотрицательных результатов (FNR) = (FN/(TP+FN))
- истинный отрицательный уровень (TNR) = (TN/(TN+FP), он же специфичность (SPC),
- комплемента с долей ложноположительных результатов (FPR) = (FP/(TN+FP)), также называемой независимой от распространенности
Соотношения столбцов:
- положительная прогностическая ценность (PPV, она же точность ) (TP/(TP+FP)). Это доля населения с данным результатом теста , для которого тест является правильным.
- с дополнением коэффициентом ложного обнаружения (FDR) (FP/(TP+FP))
- отрицательная прогностическая ценность (NPV) (TN/(TN+FN))
- с дополнением коэффициента ложных пропусков (FOR) (FN/(TN+FN)), также называемого зависимостью от распространенности.
При диагностическом тестировании основными используемыми соотношениями являются истинные соотношения столбцов – доля истинно положительных результатов и частота истинно отрицательных результатов – где они известны как чувствительность и специфичность . В информационном поиске основными коэффициентами являются истинно положительные отношения (строка и столбец) – положительная прогностическая ценность и истинно положительный уровень – где они известны как точность и полнота . Не существует общей теории, определяющей, какую пару следует использовать в каких обстоятельствах; у каждой дисциплины есть своя причина сделанного ею выбора.
Можно взять отношения дополнительной пары отношений, получив четыре отношения правдоподобия (отношение отношений в двух столбцах, соотношение отношений в двух строках). В первую очередь это делается для отношений столбцов (условий), что дает отношения правдоподобия при диагностическом тестировании . Взяв соотношение одной из этих групп отношений, можно получить окончательное соотношение - диагностическое отношение шансов (DOR). Это также можно определить непосредственно как (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN); это имеет полезную интерпретацию – как отношение шансов – и не зависит от распространенности.
Существует ряд других показателей, наиболее простыми из которых являются точность или корректность дроби (FC), которая измеряет долю всех экземпляров, которые правильно классифицированы; дополнением является неправильная дробь (FiC). F -показатель объединяет точность и полноту в одно число посредством выбора взвешивания, наиболее просто равного взвешивания, например, сбалансированного F-показателя ( показатель F1 ). Некоторые показатели основаны на коэффициентах регрессии : маркированности и информированности , а также на их среднем геометрическом коэффициенте корреляции Мэтьюза . Другие показатели включают J-статистику Юдена , коэффициент неопределенности , коэффициент фи и каппу Коэна .
Преобразование непрерывных значений в двоичные [ править ]
Тесты, результаты которых имеют непрерывные значения, такие как большинство показателей крови , можно искусственно сделать двоичными, определив пороговое значение , при этом результаты теста обозначаются как положительные или отрицательные в зависимости от того, является ли результирующее значение выше или ниже порогового значения.
Однако такое преобразование приводит к потере информации, поскольку результирующая двоичная классификация не показывает, насколько значение выше или ниже порогового значения. В результате при преобразовании непрерывного значения, близкого к пороговому значению, в двоичное результирующее положительное или отрицательное прогностическое значение обычно выше, чем прогностическое значение, полученное непосредственно из непрерывного значения. В таких случаях определение положительного или отрицательного результата теста создает видимость неоправданно высокой достоверности, в то время как значение на самом деле находится в интервале неопределенности. Например, если концентрация ХГЧ в моче является непрерывным значением, тест на беременность в моче , в котором измерено содержание ХГЧ 52 мМЕ/мл, может оказаться «положительным» с пороговым значением 50 мМЕ/мл, но фактически находится в интервале неопределенности. что может быть очевидно только при знании исходного непрерывного значения. С другой стороны, результат теста, очень далекий от порогового значения, обычно имеет результирующую положительную или отрицательную прогностическую ценность, которая ниже, чем прогностическая ценность, полученная из непрерывного значения. Например, значение ХГЧ в моче 200 000 мМЕ/мл дает очень высокую вероятность беременности, но преобразование в двоичные значения приводит к тому, что оно оказывается таким же «положительным», как и значение 52 мМЕ/мл.
См. также [ править ]
- Приблизительный фильтр запроса членства
- Примеры байесовского вывода
- Правило классификации
- Матрица путаницы
- Теория обнаружения
- Методы ядра
- Мультиклассовая классификация
- Классификация по нескольким меткам
- Одноклассовая классификация
- Ошибка прокурора
- Рабочая характеристика приемника
- Пороговая обработка (обработка изображений)
- Коэффициент неопределенности , он же компетентность
- Качественная недвижимость
- Точность и полнота (эквивалентная схема классификации)
Ссылки [ править ]
- ^ Чжан и Захор, Ричард и Авиде (2014). «Автоматическая идентификация областей окон в облаках точек внутри помещений с использованием LiDAR и камер». Публикации VIP Lab . CiteSeerX 10.1.1.649.303 .
- ^ Ю. Лу и К. Расмуссен (2012). «Упрощенные марковские случайные поля для эффективной семантической маркировки трехмерных облаков точек» (PDF) . ИРОС .
Библиография [ править ]
- Нелло Кристианини и Джон Шоу-Тейлор . Введение в машины опорных векторов и другие методы обучения на основе ядра . Издательство Кембриджского университета, 2000. ISBN 0-521-78019-5 ( [1] Книга SVM)
- Джон Шоу-Тейлор и Нелло Кристианини. Ядерные методы анализа закономерностей . Издательство Кембриджского университета, 2004. ISBN 0-521-81397-2 ( сайт книги )
- Бернхард Шёлкопф и А. Дж. Смола: Обучение с помощью ядер . MIT Press, Кембридж, Массачусетс, 2002. ISBN 0-262-19475-9