Структурная минимизация рисков
Структурная минимизация риска (SRM) — индуктивный принцип использования в машинном обучении . Обычно в машинном обучении обобщенную модель необходимо выбирать из конечного набора данных, что приводит к проблеме переоснащения — модель становится слишком сильно адаптированной к особенностям обучающего набора и плохо обобщается на новые данные. Принцип SRM решает эту проблему, балансируя между сложностью модели и ее успешностью при подборе обучающих данных. Этот принцип был впервые изложен в книге 1974 года. [1] Владимиром Вапником и Алексеем Червоненкисом и использует измерение венчурного капитала .
На практике минимизация структурного риска реализуется путем минимизации , где – ошибка поезда, функция называется функцией регуляризации, а является константой. выбирается так, что принимает большие значения параметров которые принадлежат подмножествам пространства параметров высокой емкости. Минимизация по сути, ограничивает емкость доступных подмножеств пространства параметров, тем самым контролируя компромисс между минимизацией ошибки обучения и минимизацией ожидаемого разрыва между ошибкой обучения и ошибкой теста. [2]
Проблему SRM можно сформулировать в терминах данных. Учитывая n точек данных, состоящих из данных x и меток y, цель часто выражается следующим образом:
Первый член представляет собой среднеквадратичную ошибку (MSE) между значением изученной модели, , и данные метки . Этот член является ошибкой обучения, , об этом говорилось ранее. Второй член ставит априор над весами, чтобы способствовать разреженности и наказывать большие веса. Коэффициент компромисса, , — это гиперпараметр, который придает большее или меньшее значение термину регуляризации. Больше поощряет более редкие веса за счет более оптимального MSE и меньшего ослабляет регуляризацию, позволяя модели соответствовать данным. Обратите внимание, что как веса становятся равными нулю, и так как , модель обычно страдает от переобучения.
См. также [ править ]
- Vapnik–Chervonenkis theory
- Машины опорных векторов
- Выбор модели
- Обучение Оккама
- Минимизация эмпирического риска
- Гребневая регрессия
- Регуляризация (математика)
Ссылки [ править ]
- ^ Vapnik, V. N.; Chervonenkis, A. Ya. (1974). Teoriya raspoznavaniya obrazov [ Theory of Pattern Recognition ] (in Russian). Nauka, Moscow.
- ^ ЛеКун, Янн. «Градиентное обучение, применяемое для распознавания документов» (PDF) .
Внешние ссылки [ править ]
- Минимизация структурных рисков на сайте машин опорных векторов.