Классификатор маржи
В машинном обучении классификатор маржи — это классификатор , который может определить соответствующее расстояние от границы решения для каждого примера. Например, если линейный классификатор (например, персептрон или линейный дискриминантный анализ используется ), расстояние (обычно евклидово расстояние , хотя могут использоваться и другие) примера от разделяющей гиперплоскости является границей этого примера.
Понятие запаса важно в некоторых алгоритмах классификации машинного обучения, поскольку его можно использовать для ограничения ошибки обобщения классификатора. Эти границы часто отображаются с использованием измерения VC . Особое внимание уделяется ошибке обобщения, связанной с алгоритмами повышения и машинами опорных векторов .
Опорное векторное машинное определение поля
[ редактировать ]см. в разделе «Машины опорных векторов» и «Гиперплоскость с максимальным запасом» Подробности .
Запас на буст алгоритмов
[ редактировать ]Запас для алгоритма итеративного повышения с учетом набора примеров с двумя классами можно определить следующим образом. Классификатору дана примерная пара где представляет собой доменное пространство и это метка примера. Затем алгоритм итеративного повышения выбирает классификатор на каждой итерации где — это пространство возможных классификаторов, которые предсказывают реальные значения. Эта гипотеза затем оценивается по как выбрано алгоритмом повышения. На итерации , граница примера таким образом, можно определить как
Согласно этому определению, запас положителен, если пример помечен правильно, и отрицателен, если пример помечен неправильно.
Это определение может быть изменено, и это не единственный способ определить запас для алгоритмов повышения. Однако есть причины, по которым это определение может быть привлекательным. [1]
Примеры алгоритмов на основе маржи
[ редактировать ]Многие классификаторы могут указывать соответствующий запас для каждого примера. Однако только некоторые классификаторы используют информацию о границе при обучении на наборе данных.
Многие алгоритмы повышения полагаются на понятие запаса для придания веса примерам. Если используется выпуклая потеря (как в AdaBoost , LogitBoost и всех членах семейства алгоритмов AnyBoost ), то пример с более высоким запасом получит меньший (или равный) вес, чем пример с меньшим запасом. Это приводит к тому, что алгоритм повышения фокусирует внимание на примерах с низкой маржой. В невыпуклых алгоритмах (например, BrownBoost ) запас по-прежнему определяет вес примера, хотя взвешивание немонотонно по отношению к запасу. Существуют алгоритмы повышения, которые, вероятно, максимизируют минимальную маржу (например, см. [2] ).
Машины опорных векторов, вероятно, максимизируют запас разделяющей гиперплоскости. Машины опорных векторов, которые обучаются с использованием зашумленных данных (не существует идеального разделения данных в заданном пространстве), максимизируют мягкий запас. Более подробное обсуждение этого можно найти в статье о машине опорных векторов .
Алгоритм проголосовавшего перцептрона — это алгоритм максимизации запаса, основанный на итеративном применении классического алгоритма перцептрона .
Границы ошибки обобщения
[ редактировать ]Одной из теоретических причин использования классификаторов маржи является то, что их ошибка обобщения может быть связана с параметрами алгоритма и термином маржи. Примером такой границы является алгоритм AdaBoost. [1] Позволять быть набором примеры выбираются независимо случайным образом из распределения . Предположим, что VC-размерность базового классификатора равна и . Тогда с вероятностью у нас есть граница
для всех .
Ссылки
[ редактировать ]- ^ Jump up to: а б Роберт Э. Шапире, Йоав Фройнд, Питер Бартлетт и Ви Сан Ли. (1998) « Повышение разницы: новое объяснение эффективности методов голосования », The Annals of Статистика , 26 (5): 1651–1686.
- ^ Манфред Вармут, Карен Глосер и Гуннар Рэтч. Повышение алгоритмов для максимизации мягкой маржи. В Proceedings of Advance in Neural Information Processing Systems 20, 2007, стр. 1585–1592.