Регуляризация (математика)

Зеленая и синяя функции несут нулевые потери в заданных точках данных. Изученную модель можно заставить отдать предпочтение зеленой функции, которая может лучше обобщать большее количество точек, взятых из основного неизвестного распределения, путем корректировки $\lambda$ , вес члена регуляризации.

По математике , статистике , финансам , ^[1]и информатике , особенно в машинном обучении и обратных задачах , регуляризация — это процесс, который изменяет результат ответа на «более простой». Его часто используют для получения результатов для некорректных задач или для предотвращения переобучения . ^[2]

Хотя процедуры регуляризации можно разделить по-разному, особенно полезно следующее разграничение:

Явная регуляризация — это регуляризация всякий раз, когда к задаче оптимизации явно добавляется член. Этими условиями могут быть априоры, штрафы или ограничения. Явная регуляризация обычно используется при решении некорректных задач оптимизации. Член регуляризации, или штраф, накладывает затраты на функцию оптимизации, чтобы сделать оптимальное решение уникальным.
Неявная регуляризация — это все остальные формы регуляризации. Это включает, например, раннюю остановку, использование устойчивой функции потерь и отбрасывание выбросов. Неявная регуляризация практически повсеместно распространена в современных подходах к машинному обучению, включая стохастический градиентный спуск для обучения глубоких нейронных сетей и ансамблевые методы (такие как случайные леса и деревья с градиентным усилением).

При явной регуляризации, независимо от проблемы или модели, всегда есть термин данных, соответствующий вероятности измерения, и член регуляризации, соответствующий априорному значению. Объединив оба источника с использованием байесовской статистики, можно вычислить апостериорный результат, который включает оба источника информации и, следовательно, стабилизирует процесс оценки. Находя компромисс между обеими целями, человек выбирает либо больше привязываться к данным, либо применять обобщение (чтобы предотвратить переобучение). Существует целое направление исследований, занимающееся всеми возможными регуляризациями. На практике обычно пробуют конкретную регуляризацию, а затем определяют плотность вероятности, соответствующую этой регуляризации, чтобы оправдать свой выбор. Это также может быть физически мотивировано здравым смыслом или интуицией.

В машинном обучении термин данных соответствует обучающим данным, а регуляризация — это либо выбор модели, либо модификации алгоритма. Всегда направлено на уменьшение ошибки обобщения, т. е. оценки ошибки с обученной моделью в наборе оценок, а не с обучающими данными. ^[3]

Одним из первых применений регуляризации является регуляризация Тихонова (гребневая регрессия), связанная с методом наименьших квадратов.

Регуляризация в машинном обучении [ править ]

В машинном обучении ключевой задачей является предоставление моделям возможности точно предсказывать результаты на основе невидимых данных, а не только на знакомых обучающих данных. Регуляризация имеет решающее значение для решения проблемы переобучения (когда модель запоминает детали обучающих данных, но не может обобщать их на новые данные) и недостаточного подбора , когда модель слишком проста, чтобы отразить сложность обучающих данных. Эта концепция отражает обучение учащихся применять изученные концепции к новым проблемам, а не просто вспоминать заученные ответы. ^[4]Цель регуляризации — побудить модели изучать более широкие закономерности данных, а не запоминать их. Такие методы, как ранняя остановка , регуляризация L1 и L2 и Dropout, предназначены для предотвращения переоснащения и недостаточного подбора, тем самым улучшая способность модели адаптироваться и хорошо работать с новыми данными, тем самым улучшая обобщение модели. ^[4]

Ранняя остановка [ править ]

Останавливает обучение, когда производительность проверки ухудшается, предотвращая переобучение путем остановки до того, как модель запомнит данные обучения. ^[4]

L2 Регуляризация L1 и

Добавляет штрафные санкции к функции стоимости, чтобы препятствовать созданию сложных моделей:

Регуляризация L1 (также называемая LASSO) приводит к разреженным моделям за счет добавления штрафа, основанного на абсолютном значении коэффициентов.
Регуляризация L2 (также называемая гребневой регрессией) способствует уменьшению и более равномерному распределению весов за счет добавления штрафа, основанного на квадрате коэффициентов. ^[4]

Выбывание [ править ]

Случайным образом игнорируется подмножество нейронов во время обучения, имитируя обучение нескольких архитектур нейронных сетей для улучшения обобщения. ^[4]

Классификация [ править ]

Эмпирическое обучение классификаторов (из конечного набора данных) всегда является недоопределенной проблемой, поскольку оно пытается вывести функцию любого $x$ даны только примеры $x_{1},x_{2},\dots ,x_{n}$ .

Термин регуляризации (или регуляризатор) $R(f)$ добавляется к функции потерь :

\min _{f}\sum _{i=1}^{n}V(f(x_{i}),y_{i})+\lambda R(f)

где

V

— это базовая функция потерь, которая описывает стоимость прогнозирования

f(x)

когда этикетка

y

, такие как потеря квадрата или потеря шарнира ; и

\lambda

— параметр, который контролирует важность термина регуляризации.

R(f)

обычно выбирается для наложения штрафа за сложность

f

. Используемые конкретные понятия сложности включают ограничения на гладкость и границы нормы векторного пространства . ^[5]^{[ нужна страница ]}

Теоретическим обоснованием регуляризации является то, что она пытается применить к решению бритву Оккама (как показано на рисунке выше, где может быть предпочтительнее зеленая функция, более простая). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели. ^[6]

Регуляризация может служить нескольким целям, включая изучение более простых моделей, создание разреженных моделей и введение групповой структуры. ^{[ нужны разъяснения ]} в проблему обучения.

Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути, представляет собой компромисс между подгонкой данных и уменьшением нормы решения. методы нелинейной регуляризации, включая регуляризацию полной вариации Совсем недавно стали популярными .

Обобщение [ править ]

Регуляризацию можно рассматривать как метод улучшения обобщаемости изученной модели.

Цель этой задачи обучения — найти функцию, которая соответствует или предсказывает результат (метку), которая минимизирует ожидаемую ошибку по всем возможным входным данным и меткам. Ожидаемая ошибка функции $f_{n}$ является:

I[f_{n}]=\int _{X\times Y}V(f_{n}(x),y)\rho (x,y)\,dx\,dy

где

X

и

Y

являются доменами входных данных

x

и их этикетки

y

соответственно.

Обычно в задачах обучения доступен только подмножество входных данных и меток, измеренных с некоторым шумом. Следовательно, ожидаемая ошибка неизмерима, и лучшим доступным заменителем является эмпирическая ошибка по $N$ доступные образцы:

I_{S}[f_{n}]={\frac {1}{n}}\sum _{i=1}^{N}V(f_{n}({\hat {x}}_{i}),{\hat {y}}_{i})

Без ограничений на сложность доступного функционального пространства (формально, воспроизводящего ядра гильбертова пространства ) будет изучена модель, которая несет нулевую потерю из-за суррогатной эмпирической ошибки. Если измерения (например,

x_{i}

) были сделаны с шумом, эта модель может страдать от переобучения и отображать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемого для построения модели, что может улучшить обобщение.

Тихонова (гребневая ) регрессия Регуляризация

Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.

При изучении линейной функции $f$ , характеризующийся неизвестным вектором $w$ такой, что $f(x)=w\cdot x$ , можно добавить $L_{2}$ -норма вектора $w$ к выражению потерь, чтобы отдать предпочтение решениям с меньшими нормами. Тихоновская регуляризация — одна из наиболее распространенных форм. Это также известно как регрессия гребня. Это выражается как:

\min _{w}\sum _{i=1}^{n}V({\hat {x}}_{i}\cdot w,{\hat {y}}_{i})+\lambda \left\|w\right\|_{2}^{2},

где

({\hat {x}}_{i},{\hat {y}}_{i}),\,1\leq i\leq n,

будут представлять образцы, используемые для обучения.

В случае общей функции норма функции в ее воспроизводящем ядерном гильбертовом пространстве равна:

\min _{f}\sum _{i=1}^{n}V(f({\hat {x}}_{i}),{\hat {y}}_{i})+\lambda \left\|f\right\|_{\mathcal {H}}^{2}

Как $L_{2}$ Норма дифференцируема , обучение можно продвигать по градиентному спуску .

квадратов Тихонову метод наименьших Регуляризованный по

Задачу обучения с функцией потерь наименьших квадратов и тихоновской регуляризацией можно решить аналитически. Записанное в матричной форме, оптимальное $w$ – это тот, для которого градиент функции потерь по отношению к $w$ равен 0.

\min _{w}{\frac {1}{n}}\left({\hat {X}}w-Y\right)^{\mathsf {T}}\left({\hat {X}}w-Y\right)+\lambda \left\|w\right\|_{2}^{2}

\nabla _{w}={\frac {2}{n}}{\hat {X}}^{\mathsf {T}}\left({\hat {X}}w-Y\right)+2\lambda w

0={\hat {X}}^{\mathsf {T}}\left({\hat {X}}w-Y\right)+n\lambda w

w=\left({\hat {X}}^{\mathsf {T}}{\hat {X}}+\lambda nI\right)^{-1}\left({\hat {X}}^{\mathsf {T}}Y\right)

где третье утверждение является условием первого порядка .

По построению задачи оптимизации другие значения $w$ дать большие значения для функции потерь. В этом можно убедиться, исследуя вторую производную $\nabla _{ww}$ .

Во время обучения этот алгоритм принимает $O(d^{3}+nd^{2})$ время . Слагаемые соответствуют обращению матрицы и вычислению $X^{\mathsf {T}}X$ , соответственно. Тестирование занимает $O(nd)$ время.

Ранняя остановка [ править ]

Раннюю остановку можно рассматривать как регуляризацию во времени. Интуитивно понятно, что процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более и более сложные функции с увеличением итераций. Путем регуляризации по времени можно контролировать сложность модели, улучшая обобщение.

Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и другого для тестирования. Модель обучается до тех пор, пока производительность проверочного набора не перестанет улучшаться, а затем применяется к тестовому набору.

Теоретическая мотивация по методу наименьших квадратов [ править ]

Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы $A$ , где $\left\|I-A\right\|<1$ :

\sum _{i=0}^{T-1}\left(I-A\right)^{i}\approx A^{-1}

Это можно использовать для аппроксимации аналитического решения нерегуляризованного метода наименьших квадратов, если $γ$ вводится для обеспечения того, чтобы норма была меньше единицы.

w_{T}={\frac {\gamma }{n}}\sum _{i=0}^{T-1}\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right)^{i}{\hat {X}}^{\mathsf {T}}{\hat {Y}}

Точное решение нерегуляризованной задачи обучения методом наименьших квадратов минимизирует эмпирическую ошибку, но может потерпеть неудачу. Ограничивая $T$ , единственный свободный параметр в приведенном выше алгоритме, проблема регуляризуется по времени, что может улучшить ее обобщение.

Приведенный выше алгоритм эквивалентен ограничению количества итераций градиентного спуска для эмпирического риска.

I_{s}[w]={\frac {1}{2n}}\left\|{\hat {X}}w-{\hat {Y}}\right\|_{\mathbb {R} ^{n}}^{2}

с обновлением градиентного спуска:

{\begin{aligned}w_{0}&=0\\[1ex]w_{t+1}&=\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right)w_{t}+{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {Y}}\end{aligned}}

Базовый случай тривиален. Индуктивный случай доказывается следующим образом:

{\begin{aligned}w_{T}&=\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right){\frac {\gamma }{n}}\sum _{i=0}^{T-2}\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right)^{i}{\hat {X}}^{\mathsf {T}}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {Y}}\\[1ex]&={\frac {\gamma }{n}}\sum _{i=1}^{T-1}\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right)^{i}{\hat {X}}^{\mathsf {T}}{\hat {Y}}+{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {Y}}\\[1ex]&={\frac {\gamma }{n}}\sum _{i=0}^{T-1}\left(I-{\frac {\gamma }{n}}{\hat {X}}^{\mathsf {T}}{\hat {X}}\right)^{i}{\hat {X}}^{\mathsf {T}}{\hat {Y}}\end{aligned}}

Регуляризаторы для разреженности [ править ]

Предположим, что словарь $\phi _{j}$ с размером $p$ задано так, что функция в функциональном пространстве может быть выражена как:

f(x)=\sum _{j=1}^{p}\phi _{j}(x)w_{j}

Сравнение шара L1 и шара L2 в двух измерениях дает представление о том, как регуляризация L1 обеспечивает разреженность.

Обеспечение ограничения разреженности $w$ может привести к созданию более простых и более интерпретируемых моделей. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого прогностического теста на заболевание, чтобы минимизировать затраты на проведение медицинских тестов и одновременно максимизировать прогностическую способность.

Разумным ограничением разреженности является $L_{0}$ норма $\|w\|_{0}$ , определяемый как количество ненулевых элементов в $w$ . Решение $L_{0}$ Однако было продемонстрировано, что проблема регуляризованного обучения является NP-трудной . ^[7]

The $L_{1}$ норма (см. также Нормы ) может использоваться для аппроксимации оптимального $L_{0}$ норма посредством выпуклой релаксации. Можно показать, что $L_{1}$ норма вызывает разреженность. В случае метода наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов.

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\left\|{\hat {X}}w-{\hat {Y}}\right\|^{2}+\lambda \left\|w\right\|_{1}

$L_{1}$ регуляризация может иногда давать неуникальные решения. На рисунке представлен простой пример, когда пространство возможных решений лежит на линии 45 градусов. Это может быть проблематично для некоторых приложений и решается путем объединения $L_{1}$ с $L_{2}$ регуляризация в эластичной сетевой регуляризации , которая принимает следующий вид:

\min _{w\in \mathbb {R} ^{p}}{\frac {1}{n}}\left\|{\hat {X}}w-{\hat {Y}}\right\|^{2}+\lambda \left(\alpha \left\|w\right\|_{1}+(1-\alpha )\left\|w\right\|_{2}^{2}\right),\alpha \in [0,1]

Эластичная чистая регуляризация имеет тенденцию иметь эффект группировки, когда коррелированным входным объектам присваиваются равные веса.

Эластичная регуляризация сети широко используется на практике и реализована во многих библиотеках машинного обучения.

Проксимальные методы [ править ]

В то время $L_{1}$ норма не приводит к NP-трудной задаче, $L_{1}$ норма выпукла, но не является строго дифференцируемой из-за перегиба при x = 0. субградиентные методы , основанные на субпроизводной. Для решения можно использовать $L_{1}$ регулярные проблемы обучения. Однако более быстрая конвергенция может быть достигнута с помощью проксимальных методов.

Для проблемы $\min _{w\in H}F(w)+R(w)$ такой, что $F$ является выпуклым, непрерывным, дифференцируемым, с липшицевым непрерывным градиентом (например, функцией потерь по методу наименьших квадратов) и $R$ является выпуклым, непрерывным и собственным, то ближайший метод решения задачи заключается в следующем. Сначала определите проксимальный оператор

\operatorname {prox} _{R}(v)=\mathop {\operatorname {argmin} } _{w\in \mathbb {R} ^{D}}\left\{R(w)+{\frac {1}{2}}\left\|w-v\right\|^{2}\right\},

а затем повторить

w_{k+1}=\mathop {\operatorname {prox} } _{\gamma ,R}\left(w_{k}-\gamma \nabla F(w_{k})\right)

Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное $R$ .

Когда $R$ является $регуляризатором L 1$ , проксимальный оператор эквивалентен оператору мягкого порога,

S_{\lambda }(v)f(n)={\begin{cases}v_{i}-\lambda ,&{\text{if }}v_{i}>\lambda \\0,&{\text{if }}v_{i}\in [-\lambda ,\lambda ]\\v_{i}+\lambda ,&{\text{if }}v_{i}<-\lambda \end{cases}}

Это позволяет проводить эффективные вычисления.

Разреженность групп без перекрытий [ править ]

Группы признаков можно регуляризовать с помощью ограничения разреженности, что может быть полезно для выражения определенных предварительных знаний в задаче оптимизации.

В случае линейной модели с непересекающимися известными группами можно определить регуляризатор:

R(w)=\sum _{g=1}^{G}\left\|w_{g}\right\|_{2},

где

\|w_{g}\|_{2}={\sqrt {\sum _{j=1}^{|G_{g}|}\left(w_{g}^{j}\right)^{2}}}

Это можно рассматривать как создание регуляризатора над $L_{2}$ норму над членами каждой группы, за которой следует $L_{1}$ норма над группами.

Эту проблему можно решить проксимальным методом, где проксимальный оператор представляет собой блочную функцию мягкого порога:

\operatorname {prox} \limits _{\lambda ,R,g}(w_{g})={\begin{cases}\left(1-{\dfrac {\lambda }{\left\|w_{g}\right\|_{2}}}\right)w_{g},&{\text{if }}\left\|w_{g}\right\|_{2}>\lambda \\[1ex]0,&{\text{if }}\|w_{g}\|_{2}\leq \lambda \end{cases}}

Разреженность групп с перекрытиями [ править ]

Алгоритм, описанный для разреженности групп без перекрытий, в определенных ситуациях можно применить к случаю, когда группы действительно перекрываются. Скорее всего, это приведет к появлению некоторых групп со всеми нулевыми элементами, а других групп с некоторыми ненулевыми и некоторыми нулевыми элементами.

Если желательно сохранить структуру группы, можно определить новый регуляризатор:

R(w)=\inf \left\{\sum _{g=1}^{G}\|w_{g}\|_{2}:w=\sum _{g=1}^{G}{\bar {w}}_{g}\right\}

Для каждого $w_{g}$ , ${\bar {w}}_{g}$ определяется как вектор такой, что ограничение ${\bar {w}}_{g}$ в группу $g$ равно $w_{g}$ и все остальные записи ${\bar {w}}_{g}$ равны нулю. Регуляризатор находит оптимальную дезинтеграцию $w$ на части. Его можно рассматривать как дублирование всех элементов, существующих в нескольких группах. Задачи обучения с помощью этого регуляризатора также можно решить проксимальным методом с некоторым усложнением. Проксимальный оператор не может быть вычислен в закрытой форме, но может быть эффективно решен итеративно, вызывая внутреннюю итерацию внутри итерации проксимального метода.

полуконтролируемого обучения для Регуляризаторы

Когда сбор меток обходится дороже, чем входные примеры, может оказаться полезным полуконтролируемое обучение. Регуляризаторы были разработаны для управления алгоритмами обучения для изучения моделей, которые учитывают структуру неконтролируемых обучающих выборок. Если симметричная весовая матрица $W$ задан, можно определить регуляризатор:

R(f)=\sum _{i,j}w_{ij}\left(f(x_{i})-f(x_{j})\right)^{2}

Если $W_{ij}$ кодирует результат некоторой метрики расстояния для точек $x_{i}$ и $x_{j}$ , желательно, чтобы $f(x_{i})\approx f(x_{j})$ . Этот регуляризатор отражает эту интуицию и эквивалентен:

R(f)={\bar {f}}^{\mathsf {T}}L{\bar {f}}

где

L=D-W

– матрица Лапласа графа, индуцированного

W

.

Проблема оптимизации $\min _{f\in \mathbb {R} ^{m}}R(f),m=u+l$ можно решить аналитически, если ограничение $f(x_{i})=y_{i}$ применяется для всех контролируемых образцов. Меченая часть вектора $f$ поэтому очевидно. Немаркированная часть $f$ решается путем:

\min _{f_{u}\in \mathbb {R} ^{u}}f^{\mathsf {T}}Lf=\min _{f_{u}\in \mathbb {R} ^{u}}\left\{f_{u}^{\mathsf {T}}L_{uu}f_{u}+f_{l}^{\mathsf {T}}L_{lu}f_{u}+f_{u}^{\mathsf {T}}L_{ul}f_{l}\right\}

\nabla _{f_{u}}=2L_{uu}f_{u}+2L_{ul}Y

f_{u}=L_{uu}^{\dagger }\left(L_{ul}Y\right)

Псевдообратный вариант можно использовать, поскольку

L_{ul}

имеет тот же диапазон, что и

L_{uu}

.

для многозадачного Регуляризаторы обучения

В случае многозадачного обучения $T$ проблемы рассматриваются одновременно, каждая из которых так или иначе связана. Цель – научиться $T$ функции, в идеале заимствующие силу из связанности задач, обладающие предсказательной силой. Это эквивалентно изучению матрицы $W:T\times D$ .

Разреженный регуляризатор для столбцов [ править ]

R(w)=\sum _{i=1}^{D}\left\|W\right\|_{2,1}

Этот регуляризатор определяет норму L2 для каждого столбца и норму L1 для всех столбцов. Ее можно решить проксимальными методами.

ядерных норм Регуляризация

R(w)=\left\|\sigma (W)\right\|_{1}

где

\sigma (W)

— собственные значения в сингулярном разложении

W

.

Регуляризация с ограничением по среднему [ править ]

R(f_{1}\cdots f_{T})=\sum _{t=1}^{T}\left\|f_{t}-{\frac {1}{T}}\sum _{s=1}^{T}f_{s}\right\|_{H_{k}}^{2}

Этот регуляризатор ограничивает функции, изученные для каждой задачи, похожими на общее среднее значение функций по всем задачам. Это полезно для выражения предварительной информации, которой каждая задача должна делиться друг с другом. Примером может служить прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет отдельного человека.

Кластерная регуляризация с ограничением по среднему [ править ]

R(f_{1}\cdots f_{T})=\sum _{r=1}^{C}\sum _{t\in I(r)}\left\|f_{t}-{\frac {1}{I(r)}}\sum _{s\in I(r)}f_{s}\right\|_{H_{k}}^{2}

где

I(r)

представляет собой кластер задач.

Этот регуляризатор похож на регуляризатор с ограничением по среднему значению, но вместо этого обеспечивает сходство между задачами в одном кластере. Это может собирать более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер будет соответствовать группе людей со схожими предпочтениями.

Сходство на основе графика [ править ]

В более общем смысле, чем указано выше, сходство между задачами можно определить с помощью функции. Регуляризатор побуждает модель изучать аналогичные функции для аналогичных задач.

R(f_{1}\cdots f_{T})=\sum _{t,s=1,t\neq s}^{\mathsf {T}}\left\|f_{t}-f_{s}\right\|^{2}M_{ts}

для заданной симметричной матрицы подобия

M

.

использования регуляризации в статистике и машинном обучении варианты Другие

Байесовские методы обучения используют априорную вероятность , которая (обычно) снижает вероятность более сложных моделей. Хорошо известные методы выбора модели включают информационный критерий Акаике (AIC), минимальную длину описания (MDL) и байесовский информационный критерий (BIC). Альтернативные методы контроля переобучения, не связанные с регуляризацией, включают перекрестную проверку .

Примеры применения различных методов регуляризации к линейной модели :

Модель	Подходящая мера	Мера энтропии ^[5]^[8]
АИК / БИК	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{0}$
Лассо ^[9]	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{1}$
Гребневая регрессия ^[10]	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{2}$
Шумоподавление базового преследования	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\beta \right\\|_{1}$
Модель Рудина–Ошера–Фатеми (ТВ)	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\nabla \beta \right\\|_{1}$
Модель Поттса	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\nabla \beta \right\\|_{0}$
РЛАД ^[11]	$\left\\|Y-X\beta \right\\|_{1}$	$\left\\|\beta \right\\|_{1}$
Селектор Данцига ^[12]	$\left\\|X^{\mathsf {T}}(Y-X\beta )\right\\|_{\infty }$	$\left\\|\beta \right\\|_{1}$
СКЛОН ^[13]	$\left\\|Y-X\beta \right\\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\left\|\beta \right\|_{(i)}$

См. также [ править ]

Примечания [ править ]

^ Крациос, Анастасис (2020). «Глубокое обучение без арбитража в обобщенной структуре HJM с использованием данных регуляризации арбитража» . Риски. 8 (2): [1] . дои : 10.3390/risks8020040 . hdl : 20.500.11850/456375 . Модели временной структуры можно упорядочить, чтобы исключить возможности арбитража [ sic ? ]. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Бюльманн, Питер; Ван Де Гир, Сара (2011). Статистика для многомерных данных . Серия Спрингера по статистике. п. 9 . дои : 10.1007/978-3-642-20192-9 . ISBN 978-3-642-20191-2 . Если p > n, обычная оценка методом наименьших квадратов не уникальна и будет сильно переопределять данные. Таким образом, будет необходима форма регуляризации сложности.
^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон. Книга глубокого обучения . Проверено 29 января 2021 г.
^ Перейти обратно: ^а ^б ^с ^д ^Это Го, Джингру. «Заметки об искусственном интеллекте: регуляризация нейронных сетей» . глубокое обучение.ай . Проверено 4 февраля 2024 г.
^ Перейти обратно: ^а ^б Бишоп, Кристофер М. (2007). Распознавание образов и машинное обучение (Корр. полиграфия. Под ред.). Нью-Йорк: Спрингер. ISBN 978-0-387-31073-2 .
^ О связи между максимальной апостериорной оценкой и гребневой регрессией см. Вайнбергер, Килиан (11 июля 2018 г.). «Линейная/гребневая регрессия» . CS4780 Машинное обучение Лекция 13 . Корнелл.
^ Натараджан, Б. (1 апреля 1995 г.). «Разреженные приближенные решения линейных систем» . SIAM Journal по вычислительной технике . 24 (2): 227–234. дои : 10.1137/S0097539792240406 . ISSN 0097-5397 . S2CID 2072045 .
^ Дуда, Ричард О. (2004). Классификация узоров + руководство для компьютера: комплект в твердом переплете (2-е изд.). Нью-Йорк [ua]: Уайли. ISBN 978-0-471-70350-1 .
^ Тибширани, Роберт (1996). «Регрессионное сжатие и отбор с помощью лассо» ( PostScript ) . Журнал Королевского статистического общества, серия B. 58 (1): 267–288. МР 1379242 . Проверено 19 марта 2009 г.
^ Артур Э. Хорл; Роберт В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351 . JSTOR 1267351 .
^ Ли Ван; Майкл Д. Гордон; Цзи Чжу (2006). «Регуляризованная регрессия наименьших абсолютных отклонений и эффективный алгоритм настройки параметров». Шестая международная конференция по интеллектуальному анализу данных . стр. 690–700. дои : 10.1109/ICDM.2006.134 . ISBN 978-0-7695-2701-7 .
^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math/0506081 . дои : 10.1214/009053606000001523 . МР 2382644 . S2CID 88524200 .
^ Малгожата Богдан; Эвоут ван ден Берг; Вэйцзе Су; Эммануэль Дж. Кандес (2013). «Статистическая оценка и тестирование по упорядоченной норме L1». arXiv : 1310.1969 [ стат.МЕ ].

Ссылки [ править ]

Ноймайер, А. (1998). «Решение плохо обусловленных и сингулярных линейных систем: учебник по регуляризации» (PDF) . Обзор СИАМ . 40 (3): 636–666. Бибкод : 1998SIAMR..40..636N . дои : 10.1137/S0036144597321909 .

[1] Крациос, Анастасис (2020). «Глубокое обучение без арбитража в обобщенной структуре HJM с использованием данных регуляризации арбитража» . Риски. 8 (2): [1] . дои : 10.3390/risks8020040 . hdl : 20.500.11850/456375 . Модели временной структуры можно упорядочить, чтобы исключить возможности арбитража [ sic ? ]. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[2] Бюльманн, Питер; Ван Де Гир, Сара (2011). Статистика для многомерных данных . Серия Спрингера по статистике. п. 9 . дои : 10.1007/978-3-642-20192-9 . ISBN 978-3-642-20191-2 . Если p > n, обычная оценка методом наименьших квадратов не уникальна и будет сильно переопределять данные. Таким образом, будет необходима форма регуляризации сложности.

[3] Гудфеллоу, Ян; Бенджио, Йошуа; Курвиль, Аарон. Книга глубокого обучения . Проверено 29 января 2021 г.

[:1-4] Перейти обратно: ^а ^б ^с ^д ^Это Го, Джингру. «Заметки об искусственном интеллекте: регуляризация нейронных сетей» . глубокое обучение.ай . Проверено 4 февраля 2024 г.

[:0-5] Перейти обратно: ^а ^б Бишоп, Кристофер М. (2007). Распознавание образов и машинное обучение (Корр. полиграфия. Под ред.). Нью-Йорк: Спрингер. ISBN 978-0-387-31073-2 .

[6] О связи между максимальной апостериорной оценкой и гребневой регрессией см. Вайнбергер, Килиан (11 июля 2018 г.). «Линейная/гребневая регрессия» . CS4780 Машинное обучение Лекция 13 . Корнелл.

[7] Натараджан, Б. (1 апреля 1995 г.). «Разреженные приближенные решения линейных систем» . SIAM Journal по вычислительной технике . 24 (2): 227–234. дои : 10.1137/S0097539792240406 . ISSN 0097-5397 . S2CID 2072045 .

[8] Дуда, Ричард О. (2004). Классификация узоров + руководство для компьютера: комплект в твердом переплете (2-е изд.). Нью-Йорк [ua]: Уайли. ISBN 978-0-471-70350-1 .

[9] Тибширани, Роберт (1996). «Регрессионное сжатие и отбор с помощью лассо» ( PostScript ) . Журнал Королевского статистического общества, серия B. 58 (1): 267–288. МР 1379242 . Проверено 19 марта 2009 г.

[ridge-10] Артур Э. Хорл; Роберт В. Кеннард (1970). «Гребетная регрессия: смещенная оценка неортогональных задач». Технометрика . 12 (1): 55–67. дои : 10.2307/1267351 . JSTOR 1267351 .

[11] Ли Ван; Майкл Д. Гордон; Цзи Чжу (2006). «Регуляризованная регрессия наименьших абсолютных отклонений и эффективный алгоритм настройки параметров». Шестая международная конференция по интеллектуальному анализу данных . стр. 690–700. дои : 10.1109/ICDM.2006.134 . ISBN 978-0-7695-2701-7 .

[12] Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Анналы статистики . 35 (6): 2313–2351. arXiv : math/0506081 . дои : 10.1214/009053606000001523 . МР 2382644 . S2CID 88524200 .

[13] Малгожата Богдан; Эвоут ван ден Берг; Вэйцзе Су; Эммануэль Дж. Кандес (2013). «Статистическая оценка и тестирование по упорядоченной норме L1». arXiv : 1310.1969 [ стат.МЕ ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Модель	Подходящая мера	Мера энтропии ^[5]^[8]
АИК / БИК	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{0}$
Лассо ^[9]	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{1}$
Гребневая регрессия ^[10]	$\left\\|Y-X\beta \right\\|_{2}$	$\left\\|\beta \right\\|_{2}$
Шумоподавление базового преследования	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\beta \right\\|_{1}$
Модель Рудина–Ошера–Фатеми (ТВ)	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\nabla \beta \right\\|_{1}$
Модель Поттса	$\left\\|Y-X\beta \right\\|_{2}$	$\lambda \left\\|\nabla \beta \right\\|_{0}$
РЛАД ^[11]	$\left\\|Y-X\beta \right\\|_{1}$	$\left\\|\beta \right\\|_{1}$
Селектор Данцига ^[12]	$\left\\|X^{\mathsf {T}}(Y-X\beta )\right\\|_{\infty }$	$\left\\|\beta \right\\|_{1}$
СКЛОН ^[13]	$\left\\|Y-X\beta \right\\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\left\|\beta \right\|_{(i)}$

Регуляризация в машинном обучении [ править ]

Ранняя остановка [ править ]

L2 Регуляризация L1 и

Выбывание [ править ]

Классификация [ править ]

Обобщение [ править ]

Тихонова (гребневая ) регрессия Регуляризация

квадратов Тихонову метод наименьших Регуляризованный по

Ранняя остановка [ править ]

Теоретическая мотивация по методу наименьших квадратов [ править ]

Регуляризаторы для разреженности [ править ]

Проксимальные методы [ править ]

Разреженность групп без перекрытий [ править ]

Разреженность групп с перекрытиями [ править ]

полуконтролируемого обучения для Регуляризаторы

для многозадачного Регуляризаторы обучения

Разреженный регуляризатор для столбцов [ править ]

ядерных норм Регуляризация ​

Регуляризация с ограничением по среднему [ править ]

Кластерная регуляризация с ограничением по среднему [ править ]

Сходство на основе графика [ править ]

использования регуляризации в статистике и машинном обучении варианты Другие

См. также [ править ]

Примечания [ править ]

Ссылки [ править ]

ядерных норм Регуляризация