Jump to content

Перспективы регуляризации машин опорных векторов

В рамках математического анализа перспективы регуляризации машин опорных векторов обеспечивают способ интерпретации машин опорных векторов (SVM) в контексте других алгоритмов машинного обучения на основе регуляризации. Алгоритмы SVM классифицируют двоичные данные с целью подбора данных обучающего набора таким образом, чтобы минимизировать среднее значение функции шарнирных потерь и нормы L2 изученных весов. Эта стратегия позволяет избежать переобучения посредством регуляризации Тихонова и в смысле нормы L2, а также соответствует минимизации смещения и дисперсии нашей оценки весов. Оценщики с более низкой среднеквадратической ошибкой лучше предсказывают или лучше обобщают, когда им предоставляются невидимые данные.

В частности, алгоритмы регуляризации Тихонова создают границу решения, которая минимизирует среднюю ошибку обучающего набора и ограничивает границу решения, чтобы она не была чрезмерно сложной или не соответствовала обучающим данным с помощью нормы L2 весового члена. Ошибки обучения и тестового набора можно измерить без предвзятости и справедливым способом, используя точность, прецизионность, Auc-Roc, точность отзыва и другие показатели.

С точки зрения регуляризации машин опорных векторов SVM интерпретируется как частный случай тихоновской регуляризации, в частности, тихоновской регуляризации с шарнирной потерей для функции потерь. Это обеспечивает теоретическую основу для анализа алгоритмов SVM и сравнения их с другими алгоритмами с теми же целями: обобщить без переобучения . SVM был впервые предложен в 1995 году Коринной Кортес и Владимиром Вапником и геометрически оформлен как метод поиска гиперплоскостей , который может разделить многомерные данные на две категории. [1] Эта традиционная геометрическая интерпретация SVM дает полезную интуицию о том, как работают SVM, но ее трудно связать с другими методами машинного обучения , позволяющими избежать переобучения, такими как регуляризация , ранняя остановка , разреженность и байесовский вывод . Однако как только было обнаружено, что SVM также является частным случаем тихоновской регуляризации, перспективы регуляризации SVM предоставили теорию, необходимую для соответствия SVM более широкому классу алгоритмов. [2] [3] [4] Это позволило провести детальное сравнение SVM с другими формами тихоновской регуляризации и теоретическое обоснование того, почему выгодно использовать функцию потерь SVM, шарнирную потерю. [5]

Теоретическая основа

[ редактировать ]

В статистической теории обучения рамках алгоритм — это стратегия выбора функции. предоставлен обучающий набор входов и их этикетки (этикетки обычно ). регуляризации Стратегии позволяют избежать переоснащения , выбирая функцию, которая соответствует данным, но не слишком сложна. Конкретно:

где это пространство гипотез [6] функций, – функция потерь, является нормой в пространстве гипотез функций, а параметр регуляризации . [7]

Когда является воспроизводящим ядерным гильбертовым пространством , существует ядерная функция которое можно записать как симметричная положительно определенная матрица . По теореме о представителе , [8]

Особые свойства шарнирных потерь

[ редактировать ]

Функции потерь шарнира и ошибочной классификации

Самая простая и интуитивно понятная функция потерь для категоризации — это потеря из-за неправильной классификации, или потеря 0–1, которая равна 0, если и 1, если , т.е. ступенчатая функция Хевисайда на . Однако эта функция потерь не является выпуклой , что делает проблему регуляризации очень трудной для минимизации с помощью вычислений. Поэтому мы ищем выпуклые заменители проигрыша 0–1. Потеря шарнира, , где , обеспечивает такую ​​выпуклую релаксацию . Фактически, шарнирные потери представляют собой самую точную выпуклую верхнюю границу функции потерь из-за ошибочной классификации 0–1: [4] и с бесконечными данными возвращает оптимальное по Байесу решение: [5] [9]

Можно показать, что проблема регуляризации Тихонова эквивалентна традиционным формулировкам SVM, выразив ее через шарнирную потерю. [10] С потерей шарнира

где , проблема регуляризации становится

Умножение на урожайность

с , что эквивалентно стандартной задаче минимизации SVM.

Примечания и ссылки

[ редактировать ]
  1. ^ Кортес, Коринна; Владимир Вапник (1995). «Сети опорных векторов» . Машинное обучение . 20 (3): 273–297. дои : 10.1007/BF00994018 .
  2. ^ Росаско, Лоренцо. «Регуляризованные машины наименьших квадратов и опорных векторов» (PDF) .
  3. ^ Рифкин, Райан (2002). Все старое снова стало новым: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
  4. ^ Jump up to: а б Ли, Юнкён ; Вахба, Грейс (2012). «Многокатегорийные машины опорных векторов». Журнал Американской статистической ассоциации . 99 (465): 67–81. CiteSeerX   10.1.1.22.1879 . дои : 10.1198/016214504000000098 . S2CID   261035640 .
  5. ^ Jump up to: а б Росаско Л.; Де Вито Э.; Капоннетто А.; Пиана М.; Верри А. (май 2004 г.). «Все ли функции потерь одинаковы». Нейронные вычисления . 5. 16 (5): 1063–1076. CiteSeerX   10.1.1.109.6786 . дои : 10.1162/089976604773135104 . ПМИД   15070510 . S2CID   11845688 .
  6. ^ Пространство гипотез — это набор функций, используемых для моделирования данных в задаче машинного обучения. Каждая функция соответствует гипотезе о структуре данных. Обычно функции в пространстве гипотез образуют гильбертово пространство функций с нормой, образованной из функции потерь.
  7. ^ Подробнее о выборе параметра см., например, Вахба, Грейс; Юнхуа Ван (1990). «Когда оптимальный параметр регуляризации нечувствителен к выбору функции потерь». Коммуникации в статистике – теория и методы . 19 (5): 1685–1700. дои : 10.1080/03610929008830285 .
  8. ^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Александр Дж. (2001). «Обобщенная теорема о представителе». В Хелмбольде, Дэвид П.; Уильямсон, Роберт С. (ред.). Теория вычислительного обучения, 14-я ежегодная конференция по теории вычислительного обучения, COLT 2001 и 5-я Европейская конференция по теории вычислительного обучения, EuroCOLT 2001, Амстердам, Нидерланды, 16–19 июля 2001 г., Труды . Конспекты лекций по информатике. Том. 2111. Спрингер. стр. 416–426. дои : 10.1007/3-540-44581-1_27 .
  9. ^ Линь, Йи (июль 2002 г.). «Машины опорных векторов и правило Байеса в классификации» (PDF) . Интеллектуальный анализ данных и обнаружение знаний . 6 (3): 259–275. дои : 10.1023/А:1015469627679 . S2CID   24759201 .
  10. ^ Подробный вывод см. Рифкин, Райан (2002). Все старое снова стало новым: свежий взгляд на исторические подходы в машинном обучении (PDF) . MIT (кандидатская диссертация).
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1ada57977f9768f3f18ff57075c62614__1717646520
URL1:https://arc.ask3.ru/arc/aa/1a/14/1ada57977f9768f3f18ff57075c62614.html
Заголовок, (Title) документа по адресу, URL1:
Regularization perspectives on support vector machines - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)