Jump to content

Ранняя остановка

В машинном обучении ранняя остановка — это форма регуляризации, используемая во избежание переобучения при обучении учащегося итеративным методом, например градиентным спуском . Такие методы обновляют обучаемый, чтобы он лучше соответствовал обучающим данным на каждой итерации. В некоторой степени это улучшает производительность учащегося при работе с данными за пределами обучающего набора. Однако после этого момента улучшение соответствия учащегося обучающим данным происходит за счет увеличения ошибки обобщения . Правила ранней остановки дают представление о том, сколько итераций можно выполнить, прежде чем учащийся начнет переобучаться. Правила ранней остановки использовались во многих различных методах машинного обучения с различной теоретической базой.

Предыстория [ править ]

В этом разделе представлены некоторые основные концепции машинного обучения, необходимые для описания методов ранней остановки.

Переоснащение [ править ]

Рисунок 1. Зеленая линия представляет собой переоснащенную модель, а черная линия представляет собой регуляризованную модель. Хотя зеленая линия лучше всего соответствует данным обучения, она слишком зависит от этих данных и, вероятно, будет иметь более высокий уровень ошибок в новых невидимых данных, показанных точками с черным контуром, по сравнению с черной линией.

Алгоритмы машинного обучения обучают модель на основе конечного набора обучающих данных. Во время этого обучения модель оценивается на основе того, насколько хорошо она предсказывает наблюдения, содержащиеся в обучающем наборе. Однако в целом цель схемы машинного обучения — создать модель, которая обобщает, то есть предсказывает ранее невидимые наблюдения. Переоснащение происходит, когда модель хорошо соответствует данным в обучающем наборе, но при этом допускает большую ошибку обобщения .

Регуляризация [ править ]

Регуляризация в контексте машинного обучения относится к процессу изменения алгоритма обучения, чтобы предотвратить переобучение. Обычно это предполагает наложение какого-то ограничения гладкости на изученную модель. [1] Эту гладкость можно обеспечить явно, зафиксировав количество параметров в модели или увеличив функцию стоимости, как в регуляризации Тихонова . Регуляризация Тихонова, наряду с регрессией главных компонент и многими другими схемами регуляризации, подпадает под действие спектральной регуляризации, регуляризации, характеризующейся применением фильтра. Ранняя остановка также относится к этому классу методов.

Методы градиентного спуска [ править ]

Методы градиентного спуска — это итеративные методы оптимизации первого порядка. Каждая итерация обновляет приближенное решение задачи оптимизации, делая шаг в направлении отрицательного градиента целевой функции. Путем правильного выбора размера шага можно добиться сходимости такого метода к локальному минимуму целевой функции. Градиентный спуск используется в машинном обучении путем определения функции потерь , которая отражает ошибку учащегося в обучающем наборе, а затем минимизации этой функции.

остановка на основании аналитических результатов Ранняя

остановка в обучения статистической теории Ранняя

Раннюю остановку можно использовать для регуляризации проблем непараметрической регрессии, возникающих в машинном обучении . Для данного входного пространства, , выходное пространство, и выборки, взятые из неизвестной меры вероятности, , на , цель таких задач — аппроксимировать функцию регрессии , , заданный

где это условное распределение при вызванный . [2] Одним из распространенных вариантов аппроксимации функции регрессии является использование функций из воспроизводящего ядра гильбертова пространства . [2] Эти пространства могут быть бесконечномерными, в которых они могут предоставлять решения, подходящие для обучающих наборов произвольного размера. Поэтому регуляризация особенно важна для этих методов. Одним из способов регуляризации задач непараметрической регрессии является применение правила ранней остановки к итеративной процедуре, такой как градиентный спуск.

Правила ранней остановки, предложенные для этих задач, основаны на анализе верхних границ ошибки обобщения в зависимости от номера итерации. Они дают предписания относительно количества выполняемых итераций, которые можно вычислить до начала процесса решения. [3] [4]

Пример: потеря по методу наименьших квадратов [ править ]

(Адаптировано из Яо, Росаско и Капоннетто, 2007 г.) [3] )

Позволять и Учитывая набор образцов

нарисовано независимо от , минимизируем функционал

где, является членом воспроизводящего ядра гильбертова пространства . То есть минимизировать ожидаемый риск для функции потерь по методу наименьших квадратов. С зависит от неизвестной вероятностной меры , его нельзя использовать для вычислений. Вместо этого рассмотрим следующий эмпирический риск

Позволять и быть t -й итерацией градиентного спуска, примененной к ожидаемому и эмпирическому рискам соответственно, где обе итерации инициализируются в начале координат, и обе используют размер шага . сформировать итерацию совокупности , которая сходится к , но не может быть использован в вычислениях, в то время как сформируйте выборочную итерацию , которая обычно сходится к переоснащенному решению.

Мы хотим контролировать разницу между ожидаемым риском выборочной итерации и минимальным ожидаемым риском, то есть ожидаемым риском функции регрессии:

Эту разницу можно переписать как сумму двух членов: разницы в ожидаемом риске между итерациями выборки и генеральной совокупности и между итерацией генеральной совокупности и функцией регрессии:

Это уравнение представляет собой компромисс между смещением и дисперсией , который затем решается, чтобы получить оптимальное правило остановки, которое может зависеть от неизвестного распределения вероятностей. Это правило связано с вероятностными границами ошибки обобщения. Для анализа, ведущего к правилу и границам ранней остановки, читатель отсылается к оригинальной статье. [3] На практике для получения правила адаптивной остановки можно использовать методы, основанные на данных, например перекрестную проверку.

Ранняя остановка в повышении [ править ]

Повышение относится к семейству алгоритмов, в которых набор слабых учащихся (обучающихся, которые лишь незначительно коррелируют с истинным процессом) объединяются для создания сильного обучающегося . ) было показано Для нескольких алгоритмов повышения (включая AdaBoost , что регуляризация посредством ранней остановки может обеспечить гарантии согласованности , то есть того, что результат алгоритма приближается к истинному решению, когда количество выборок стремится к бесконечности. [5] [6] [7]

L 2 -усиление [ править ]

методами градиентного спуска и Методы повышения имеют тесную связь с описанными выше могут рассматриваться как метод повышения, основанный на потеря: L 2 Boost . [3]

Ранняя остановка на основе проверки [ править ]

Эти правила ранней остановки работают путем разделения исходного обучающего набора на новый обучающий набор и набор проверки . Ошибка в наборе проверки используется как показатель ошибки обобщения при определении момента начала переобучения. Эти методы используются при обучении многих итерационных алгоритмов машинного обучения, включая нейронные сети . Пречелт дает следующее краткое изложение простой реализации ранней остановки на основе удержания : [8]

  1. Разделите обучающие данные на обучающий набор и набор проверки, например, в пропорции 2 к 1.
  2. Тренируйтесь только на обучающем наборе и время от времени оценивайте ошибку для каждого примера в проверочном наборе, например, после каждой пятой эпохи.
  3. Остановите обучение, как только ошибка в наборе проверки станет выше, чем при последней проверке.
  4. Используйте веса, которые сеть имела на предыдущем шаге в результате обучающего прогона.
    Лутц Пречелт, Ранняя остановка – Но когда?

Перекрестная проверка — это альтернатива, применимая к сценариям, не связанным с временными рядами. Перекрестная проверка предполагает разделение нескольких разделов данных на обучающий набор и набор проверки, а не один раздел на обучающий набор и набор проверки. Даже эта простая процедура на практике усложняется тем фактом, что ошибка проверки может колебаться во время обучения, создавая несколько локальных минимумов. Это осложнение привело к созданию множества специальных правил для принятия решения о том, когда действительно началось переобучение. [8]

См. также [ править ]

Ссылки [ править ]

  1. ^ Джирози, Федерико; Майкл Джонс; Томазо Поджо (1 марта 1995 г.). «Теория регуляризации и архитектуры нейронных сетей». Нейронные вычисления . 7 (2): 219–269. CiteSeerX   10.1.1.48.9258 . дои : 10.1162/neco.1995.7.2.219 . ISSN   0899-7667 . S2CID   49743910 .
  2. Перейти обратно: Перейти обратно: а б Смейл, Стив; Дин-Сюань Чжоу (1 августа 2007 г.). «Оценки теории обучения с помощью интегральных операторов и их аппроксимаций». Конструктивная аппроксимация . 26 (2): 153–172. CiteSeerX   10.1.1.210.722 . дои : 10.1007/s00365-006-0659-y . ISSN   0176-4276 . S2CID   5977083 .
  3. Перейти обратно: Перейти обратно: а б с д Яо, Юань; Лоренцо Росаско; Андреа Капоннетто (1 августа 2007 г.). «О ранней остановке в обучении градиентному спуску». Конструктивная аппроксимация . 26 (2): 289–315. CiteSeerX   10.1.1.329.2482 . дои : 10.1007/s00365-006-0663-2 . ISSN   0176-4276 . S2CID   8323954 .
  4. ^ Раскутти, Г.; М. Дж. Уэйнрайт; Бинь Ю (2011). «Ранняя остановка непараметрической регрессии: оптимальное правило остановки, зависящее от данных». 2011 49-я ежегодная конференция Allerton по связи, управлению и вычислениям (Allerton) . 2011 49-я ежегодная конференция Allerton по связи, управлению и вычислениям (Allerton). стр. 1318–1325. дои : 10.1109/Allerton.2011.6120320 .
  5. ^ Вэньсинь Цзян (февраль 2004 г.). «Последовательность процессов для AdaBoost» . Анналы статистики . 32 (1): 13–29. дои : 10.1214/aos/1079120128 . ISSN   0090-5364 .
  6. ^ Бюльманн, Питер; Бинь Ю (01.06.2003). «Усиление с потерей L₂: регрессия и классификация». Журнал Американской статистической ассоциации . 98 (462): 324–339. дои : 10.1198/016214503000125 . ISSN   0162-1459 . JSTOR   30045243 . S2CID   123059267 .
  7. ^ Тонг Чжан; Бинь Ю (01 августа 2005 г.). «Усиление с ранней остановкой: конвергенция и последовательность». Анналы статистики . 33 (4): 1538–1579. arXiv : math/0508276 . Бибкод : 2005math......8276Z . дои : 10.1214/009053605000000255 . ISSN   0090-5364 . JSTOR   3448617 . S2CID   13158356 .
  8. Перейти обратно: Перейти обратно: а б Пречелт, Лутц; Женевьева Б. Орр (1 января 2012 г.). «Ранняя остановка — но когда?». В Грегуаре Монтавоне; Клаус-Роберт Мюллер (ред.). Нейронные сети: хитрости . Конспекты лекций по информатике. Шпрингер Берлин Гейдельберг. стр. 53–67 . дои : 10.1007/978-3-642-35289-8_5 . ISBN  978-3-642-35289-8 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4357efe2dafad9f19ca759d345d34146__1708288980
URL1:https://arc.ask3.ru/arc/aa/43/46/4357efe2dafad9f19ca759d345d34146.html
Заголовок, (Title) документа по адресу, URL1:
Early stopping - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)