Вероятностная классификация
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В машинном обучении вероятностный классификатор — это классификатор , который способен предсказать на основе наблюдения входных данных распределение вероятностей по набору классов, а не только выводить наиболее вероятный класс, к которому должно принадлежать наблюдение. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себе. [1] или при объединении классификаторов в ансамбли .
Виды классификации
[ редактировать ]Формально «обычный» классификатор — это некоторое правило или функция , которая присваивает образцу x метку класса ŷ :
Выборки берутся из некоторого набора X (например, набора всех документов или набора всех изображений ), тогда как метки классов образуют конечный набор Y, определенный до обучения.
Вероятностные классификаторы обобщают это понятие классификаторов: вместо функций они представляют собой условные распределения. , то есть для данного , они присваивают вероятности всем (и сумма этих вероятностей равна единице). Затем «жесткую» классификацию можно выполнить с использованием оптимального правила принятия решения. [2] : 39–40
или, по-английски, предсказанный класс — это тот, который имеет наибольшую вероятность.
также называются моделями бинарной регрессии Бинарные вероятностные классификаторы в статистике . В эконометрике вероятностная классификация вообще называется дискретным выбором .
Некоторые модели классификации, такие как наивный байесовский подход , логистическая регрессия и многослойные перцептроны (при обучении с использованием соответствующей функции потерь ), естественно, являются вероятностными. Другие модели, такие как машины опорных векторов, не являются таковыми, но существуют методы, позволяющие превратить их в вероятностные классификаторы.
Генеративное и условное обучение
[ редактировать ]Некоторые модели, такие как логистическая регрессия , обучаются условно: они оптимизируют условную вероятность. непосредственно на обучающем наборе (см. минимизацию эмпирического риска ). Другие классификаторы, такие как наивный байесовский , обучаются генеративно : во время обучения условное распределение по классам класс и предыдущий найдены, и условное распределение выводится по правилу Байеса . [2] : 43
Калибровка вероятности
[ редактировать ]Не все модели классификации являются вероятностными по своей природе, а некоторые из них, особенно наивные байесовские классификаторы, деревья решений и методы повышения , создают искаженные распределения вероятностей классов. [3] В случае деревьев решений, где Pr( y | x ) — это доля обучающих выборок с меткой y на листе, где заканчивается x , эти искажения возникают потому, что алгоритмы обучения, такие как C4.5 или CART, явно нацелены на создание однородных оставляет (давая вероятности, близкие к нулю или единице, и, следовательно, высокую погрешность ) при использовании небольшого количества выборок для оценки соответствующей доли (высокая дисперсия ). [4]
Калибровку можно оценить с помощью калибровочного графика (также называемого диаграммой надежности ). [3] [5] Калибровочный график показывает долю элементов в каждом классе для диапазонов прогнозируемой вероятности или оценки (например, искаженное распределение вероятностей или «расстояние со знаком до гиперплоскости» в машине опорных векторов). Отклонения от функции идентичности указывают на плохо откалиброванный классификатор, для которого предсказанные вероятности или оценки не могут использоваться в качестве вероятностей. В этом случае можно использовать метод, превращающий эти оценки в правильно откалиброванные вероятности членства в классе.
Для двоичного случая обычным подходом является применение масштабирования Платта , которое изучает модель логистической регрессии на основе оценок. [6] Альтернативный метод с использованием изотонической регрессии [7] обычно превосходит метод Платта, когда доступно достаточно обучающих данных. [3]
В многоклассовом случае можно использовать сведение к двоичным задачам с последующей одномерной калибровкой с помощью алгоритма, описанного выше, и дальнейшего применения алгоритма парной связи Хасти и Тибширани. [8]
Оценка вероятностной классификации
[ редактировать ]Обычно используемые метрики оценки, которые сравнивают прогнозируемую вероятность с наблюдаемыми результатами, включают логарифмические потери , оценку Брайера и различные ошибки калибровки. Первая также используется как функция потерь при обучении логистических моделей.
Показатели ошибок калибровки направлены на количественную оценку того, насколько хорошо откалиброваны выходные данные вероятностного классификатора . Как выразился Филип Давид , «прогнозист хорошо откалиброван, если, например, из тех событий, которым он приписывает вероятность 30 процентов, долгосрочная доля, которая действительно происходит, оказывается равной 30 процентам». [9] Основополагающей работой в области измерения погрешности калибровки является показатель ожидаемой ошибки калибровки (ECE). [10] В более поздних работах предлагаются варианты ECE, которые устраняют ограничения метрики ECE, которые могут возникнуть, когда оценки классификатора концентрируются на узком подмножестве [0,1], включая ошибку адаптивной калибровки (ACE). [11] и ошибка калибровки на основе теста (TCE). [12]
Метод, используемый для присвоения оценок парам прогнозируемых вероятностей и фактических дискретных результатов, чтобы можно было сравнивать различные методы прогнозирования, называется правилом оценки .
Реализации программного обеспечения
[ редактировать ]- МОРПЭ [13] это обучаемый вероятностный классификатор, который использует изотоническую регрессию для калибровки вероятности. Он решает случай мультикласса путем сведения к бинарным задачам. Это тип машины с ядром, в которой используется неоднородное полиномиальное ядро.
Ссылки
[ редактировать ]- ^ Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2009). Элементы статистического обучения . п. 348. Архивировано из оригинала 26 января 2015 г.
[В] приложениях интеллектуального анализа данных интерес часто больше связан с классами вероятностей. сами, а не при выполнении классного задания.
- ^ Jump up to: а б Бишоп, Кристофер М. (2006). Распознавание образов и машинное обучение . Спрингер.
- ^ Jump up to: а б с Никулеску-Мизил, Александру; Каруана, Рич (2005). Прогнозирование хороших вероятностей с помощью обучения с учителем (PDF) . ИКМЛ. дои : 10.1145/1102351.1102430 . Архивировано из оригинала (PDF) 11 марта 2014 г.
- ^ Задрожный, Бьянка; Элкан, Чарльз (2001). Получение калиброванных оценок вероятности из деревьев решений и наивных байесовских классификаторов (PDF) . ИКМЛ. стр. 609–616.
- ^ «Калибровка вероятности» . jmetzen.github.io . Проверено 18 июня 2019 г.
- ^ Платт, Джон (1999). «Вероятностные результаты для машин опорных векторов и сравнение с методами регуляризованного правдоподобия» . Достижения в области классификаторов с большой маржой . 10 (3): 61–74.
- ^ Задрожный, Бьянка; Элкан, Чарльз (2002). «Преобразование оценок классификатора в точные оценки вероятности нескольких классов» (PDF) . Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '02 . стр. 694–699. CiteSeerX 10.1.1.164.8140 . дои : 10.1145/775047.775151 . ISBN 978-1-58113-567-1 . S2CID 3349576 . CiteSeerX : 10.1.1.13.7457 .
- ^ Хасти, Тревор; Тибширани, Роберт (1998). «Классификация по парной связи». Анналы статистики . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . дои : 10.1214/aos/1028144844 . Збл 0932.62071 . CiteSeerX : 10.1.1.46.6032 .
- ^ Дэвид, AP (1982). «Хорошо калиброванный байесиан». Журнал Американской статистической ассоциации . 77 (379): 605–610. дои : 10.1080/01621459.1982.10477856 .
- ^ Наеини, депутат; Купер, Г.; Хаускрект, М. (2015). «Получение хорошо откалиброванных вероятностей с использованием байесовского биннинга» (PDF) . Материалы конференции AAAI по искусственному интеллекту .
- ^ Никсон, Дж.; Дюзенберри, Миссури; Чжан, Л.; Джерфель, Г.; Тран, Д. (2019). «Калибровка измерения в глубоком обучении» (PDF) . Семинары ЦВПР .
- ^ Мацубара, Т.; Налог, Н.; Мадд, Р.; Гай, И. (2023). «TCE: основанный на тестах подход к измерению ошибки калибровки». Материалы тридцать девятой конференции по неопределенности в искусственном интеллекте (UAI) . arXiv : 2306.14343 .
- ^ «МоРПЭ» . Гитхаб . Проверено 17 февраля 2023 г.