Платтовское масштабирование
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В машинном обучении масштабирование Платта или калибровка Платта — это способ преобразования результатов модели классификации в распределение вероятностей по классам . Метод был изобретен Джоном Платтом в контексте машин опорных векторов . [1] замена более раннего метода на Вапник ,но может быть применен к другим моделям классификации. [2] Шкалирование Платта работает путем подгонки модели логистической регрессии к оценкам классификатора.
Описание [ править ]
Рассмотрим задачу бинарной классификации : для входных данных x мы хотим определить, принадлежат ли они к одному из двух классов, произвольно помеченных +1 и −1 . Мы предполагаем, что проблема классификации будет решена с помощью действительнозначной функции f путем предсказания метки класса y =sign( f ( x )) . [а] Для многих задач удобно получить вероятность , то есть классификация, которая не только дает ответ, но и определенную степень уверенности в ответе. Некоторые модели классификации не обеспечивают такую вероятность или дают неудовлетворительные оценки вероятности.
Масштабирование Платта — это алгоритм решения вышеупомянутой проблемы. Он производит оценки вероятности
- ,
т. е. логистическое преобразование оценок классификатора f ( x ) , где A и B — два скалярных параметра, которые изучаются алгоритмом. Обратите внимание, что теперь прогнозы можно делать в соответствии с если оценки вероятности содержат поправку по сравнению со старой функцией решения y = знак( f ( x )) . [3]
Параметры A и B оцениваются с использованием метода максимального правдоподобия , который оптимизирует тот же обучающий набор, что и исходный классификатор f . Чтобы избежать переобучения этому набору, можно использовать отложенный калибровочный набор или перекрестную проверку , но Платт дополнительно предлагает преобразовать метки y в целевые вероятности.
- для положительных образцов ( y = 1 ) и
- для отрицательных образцов y = -1 .
Здесь N + и N − количество положительных и отрицательных выборок соответственно. Это преобразование следует за применением правила Байеса к модели данных за пределами выборки, которые имеют единый априорный приоритет над метками. [1] Константы 1 и 2 в числителе и знаменателе соответственно получены в результате применения сглаживания Лапласа .
Сам Платт предложил использовать алгоритм Левенберга-Марквардта для оптимизации параметров, но алгоритм Ньютона позже был предложен , который должен быть более численно устойчивым . [4]
Анализ [ править ]
Было показано, что масштабирование Платта эффективно для SVM, а также для других типов моделей классификации, включая усиленные модели и даже наивные классификаторы Байеса , которые создают искаженные распределения вероятностей. Он особенно эффективен для методов максимальной маржи, таких как SVM и усиленные деревья, которые показывают сигмоидальные искажения в прогнозируемых вероятностях, но имеет меньший эффект с хорошо откалиброванными моделями, такими как логистическая регрессия , многослойные перцептроны и случайные леса . [2]
Альтернативный подход к калибровке вероятности состоит в том, чтобы подогнать модель изотонической регрессии к плохо откалиброванной вероятностной модели. Было показано, что это работает лучше, чем масштабирование Платта, особенно когда доступно достаточно обучающих данных. [2]
См. также [ править ]
- Машина векторов релевантности : вероятностная альтернатива машине опорных векторов
Примечания [ править ]
- ^ См . функцию знака . Метка для f ( x ) = 0 произвольно выбирается равной нулю или единице.
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Платт, Джон (1999). «Вероятностные результаты для машин опорных векторов и сравнение с методами регуляризованного правдоподобия» . Достижения в области классификаторов с большой маржой . 10 (3): 61–74.
- ^ Jump up to: Перейти обратно: а б с Никулеску-Мизил, Александру; Каруана, Рич (2005). Прогнозирование хороших вероятностей с помощью обучения с учителем (PDF) . ИКМЛ. дои : 10.1145/1102351.1102430 .
- ^ Оливье Шапель; Владимир Вапник; Оливье Буске; Саян Мукерджи (2002). «Выбор нескольких параметров для машин опорных векторов» (PDF) . Машинное обучение . 46 : 131–159. дои : 10.1023/а:1012450327387 .
- ^ Линь, Сюань-Тянь; Лин, Чи-Джен; Венг, Руби К. (2007). «Заметка о вероятностных результатах Платта для машин опорных векторов» (PDF) . Машинное обучение . 68 (3): 267–276. дои : 10.1007/s10994-007-5018-6 .