Перспективы регуляризации машин опорных векторов
В рамках математического анализа перспективы регуляризации машин опорных векторов обеспечивают способ интерпретации машин опорных векторов (SVM) в контексте других алгоритмов машинного обучения на основе регуляризации. Алгоритмы SVM классифицируют двоичные данные с целью подбора данных обучающего набора таким образом, чтобы минимизировать среднее значение функции шарнирных потерь и нормы L2 изученных весов. Эта стратегия позволяет избежать переобучения посредством регуляризации Тихонова и в смысле нормы L2, а также соответствует минимизации смещения и дисперсии нашей оценки весов. Оценщики с более низкой среднеквадратической ошибкой лучше предсказывают или лучше обобщают, когда им предоставляются невидимые данные.
В частности, алгоритмы регуляризации Тихонова создают границу решения, которая минимизирует среднюю ошибку обучающего набора и ограничивает границу решения, чтобы она не была чрезмерно сложной или не соответствовала обучающим данным с помощью нормы L2 весового члена. Ошибки обучения и тестового набора можно измерить без предвзятости и справедливым способом, используя точность, прецизионность, Auc-Roc, точность отзыва и другие показатели.
С точки зрения регуляризации машин опорных векторов SVM интерпретируется как частный случай тихоновской регуляризации, в частности, тихоновской регуляризации с шарнирной потерей для функции потерь. Это обеспечивает теоретическую основу для анализа алгоритмов SVM и сравнения их с другими алгоритмами с теми же целями: обобщить без переобучения . SVM был впервые предложен в 1995 году Коринной Кортес и Владимиром Вапником и геометрически оформлен как метод поиска гиперплоскостей , который может разделить многомерные данные на две категории. [1] Эта традиционная геометрическая интерпретация SVM дает полезную интуицию о том, как работают SVM, но ее трудно связать с другими методами машинного обучения , позволяющими избежать переобучения, такими как регуляризация , ранняя остановка , разреженность и байесовский вывод . Однако как только было обнаружено, что SVM также является частным случаем тихоновской регуляризации, перспективы регуляризации SVM предоставили теорию, необходимую для соответствия SVM более широкому классу алгоритмов. [2] [3] [4] Это позволило провести детальное сравнение SVM с другими формами тихоновской регуляризации и теоретическое обоснование того, почему выгодно использовать функцию потерь SVM, шарнирную потерю. [5]
Теоретическая основа
[ редактировать ]В статистической теории обучения рамках алгоритм — это стратегия выбора функции. предоставлен обучающий набор входов и их этикетки (этикетки обычно ). регуляризации Стратегии позволяют избежать переоснащения , выбирая функцию, которая соответствует данным, но не слишком сложна. Конкретно:
где это пространство гипотез [6] функций, – функция потерь, является нормой в пространстве гипотез функций, а – параметр регуляризации . [7]
Когда является воспроизводящим ядерным гильбертовым пространством , существует ядерная функция которое можно записать как симметричная положительно определенная матрица . По теореме о представителе , [8]
Особые свойства шарнирных потерь
[ редактировать ]Самая простая и интуитивно понятная функция потерь для категоризации — это потеря из-за неправильной классификации, или потеря 0–1, которая равна 0, если и 1, если , т.е. ступенчатая функция Хевисайда на . Однако эта функция потерь не является выпуклой , что делает проблему регуляризации очень трудной для минимизации с помощью вычислений. Поэтому мы ищем выпуклые заменители проигрыша 0–1. Потеря шарнира, , где , обеспечивает такую выпуклую релаксацию . Фактически, шарнирные потери представляют собой самую точную выпуклую верхнюю границу функции потерь из-за ошибочной классификации 0–1: [4] и с бесконечными данными возвращает оптимальное по Байесу решение: [5] [9]
Вывод
[ редактировать ]Можно показать, что проблема регуляризации Тихонова эквивалентна традиционным формулировкам SVM, выразив ее через шарнирную потерю. [10] С потерей шарнира
где , проблема регуляризации становится
Умножение на урожайность
с , что эквивалентно стандартной задаче минимизации SVM.
Примечания и ссылки
[ редактировать ]- ^ Кортес, Коринна; Владимир Вапник (1995). «Сети опорных векторов» . Машинное обучение . 20 (3): 273–297. дои : 10.1007/BF00994018 .
- ^ Росаско, Лоренцо. «Регуляризованные машины наименьших квадратов и опорных векторов» (PDF) .
- ^ Рифкин, Райан (2002). Все старое снова стало новым: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
- ^ Jump up to: а б Ли, Юнкён ; Вахба, Грейс (2012). «Многокатегорийные машины опорных векторов». Журнал Американской статистической ассоциации . 99 (465): 67–81. CiteSeerX 10.1.1.22.1879 . дои : 10.1198/016214504000000098 . S2CID 261035640 .
- ^ Jump up to: а б Росаско Л.; Де Вито Э.; Капоннетто А.; Пиана М.; Верри А. (май 2004 г.). «Все ли функции потерь одинаковы». Нейронные вычисления . 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . дои : 10.1162/089976604773135104 . ПМИД 15070510 . S2CID 11845688 .
- ^ Пространство гипотез — это набор функций, используемых для моделирования данных в задаче машинного обучения. Каждая функция соответствует гипотезе о структуре данных. Обычно функции в пространстве гипотез образуют гильбертово пространство функций с нормой, образованной из функции потерь.
- ^ Подробнее о выборе параметра см., например, Вахба, Грейс; Юнхуа Ван (1990). «Когда оптимальный параметр регуляризации нечувствителен к выбору функции потерь». Коммуникации в статистике – теория и методы . 19 (5): 1685–1700. дои : 10.1080/03610929008830285 .
- ^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Александр Дж. (2001). «Обобщенная теорема о представителе». В Хелмбольде, Дэвид П.; Уильямсон, Роберт С. (ред.). Теория вычислительного обучения, 14-я ежегодная конференция по теории вычислительного обучения, COLT 2001 и 5-я Европейская конференция по теории вычислительного обучения, EuroCOLT 2001, Амстердам, Нидерланды, 16–19 июля 2001 г., Труды . Конспекты лекций по информатике. Том. 2111. Спрингер. стр. 416–426. дои : 10.1007/3-540-44581-1_27 .
- ^ Линь, Йи (июль 2002 г.). «Машины опорных векторов и правило Байеса в классификации» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 6 (3): 259–275. дои : 10.1023/А:1015469627679 . S2CID 24759201 .
- ^ Подробный вывод см. Рифкин, Райан (2002). Все старое снова стало новым: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
- Евгениу, Теодорос; Массимилиано Понтил; Томазо Поджо (2000). «Сети регуляризации и машины опорных векторов» (PDF) . Достижения в области вычислительной математики . 13 (1): 1–50. дои : 10.1023/А:1018946025316 . S2CID 70866 .
- Иоахимс, Торстен. «СВМлайт» . Архивировано из оригинала 19 апреля 2015 г. Проверено 18 мая 2012 г.
- Вапник, Владимир (1999). Природа статистической теории обучения . Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98780-4 .