Стохастический градиентный спуск

Из Википедии, бесплатной энциклопедии

Стохастический градиентный спуск (часто сокращенно SGD ) — это итерационный метод оптимизации целевой функции с подходящими гладкости свойствами (например, дифференцируемой или субдифференцируемой ). Его можно рассматривать как стохастическую аппроксимацию оптимизации градиентного спуска , поскольку он заменяет фактический градиент (рассчитанный на основе всего набора данных ) его оценкой (рассчитанной на основе случайно выбранного подмножества данных). Особенно в задачах многомерной оптимизации это снижает очень высокую вычислительную нагрузку , обеспечивая более быстрые итерации в обмен на более низкую скорость сходимости . [1]

Основная идея стохастической аппроксимации восходит к алгоритму Роббинса-Монро 1950-х годов. Сегодня стохастический градиентный спуск стал важным методом оптимизации в машинном обучении . [2]

Предыстория [ править ]

И статистическая оценка , и машинное обучение рассматривают задачу минимизации , целевой функции имеющей форму суммы:

где параметр что сводит к минимуму подлежит оценке . Каждая слагаемая функция обычно связано с наблюдение в наборе данных (используется для обучения).

В классической статистике проблемы минимизации суммы возникают в методах наименьших квадратов и при оценке максимального правдоподобия (для независимых наблюдений). Общий класс оценок, возникающих как минимизаторы сумм, называется M-оценками . Однако в статистике давно признано, что требование даже локальной минимизации является слишком ограничительным для некоторых задач оценки максимального правдоподобия. [3] Поэтому современные теоретики статистики часто рассматривают стационарные точки функции правдоподобия (или нули ее производной, функции оценки и других оценочных уравнений ).

Проблема минимизации суммы также возникает при минимизации эмпирического риска . Там, значение функции потерь при -й пример, и эмпирический риск.

При использовании для минимизации вышеуказанной функции стандартный (или «пакетный») метод градиентного спуска будет выполнять следующие итерации:

Размер шага обозначается (иногда называемая скоростью обучения в машинном обучении) и здесь " «обозначает обновление переменной в алгоритме.

Во многих случаях функции-слагаемые имеют простую форму, которая позволяет недорого оценить функцию суммы и градиент суммы. Например, в статистике однопараметрические экспоненциальные семейства позволяют проводить экономичные оценки функций и оценки градиентов.

Однако в других случаях оценка градиента суммы может потребовать дорогостоящих оценок градиентов всех функций слагаемых. Когда обучающий набор огромен и простых формул не существует, оценка сумм градиентов становится очень дорогой, поскольку для оценки градиента требуется оценка градиентов всех слагаемых функций. Чтобы сэкономить вычислительные затраты на каждой итерации, стохастический градиентный спуск производит выборку подмножества слагаемых функций на каждом шаге. Это очень эффективно в случае крупномасштабных задач машинного обучения. [4]

Итерационный метод [ править ]

Флуктуации общей целевой функции принимаются в виде ступенек градиента по отношению к мини-партиям.

При стохастическом (или «онлайновом») градиентном спуске истинный градиент аппроксимируется градиентом на одной выборке:

По мере прохождения алгоритмом обучающего набора он выполняет вышеуказанное обновление для каждой обучающей выборки. По обучающему набору можно сделать несколько проходов, пока алгоритм не сойдётся. Если это будет сделано, данные можно будет перемешивать для каждого прохода, чтобы избежать циклов. Типичные реализации могут использовать адаптивную скорость обучения , чтобы алгоритм сходился. [5]

В псевдокоде стохастический градиентный спуск можно представить как:

  • Выберите исходный вектор параметров и скорость обучения .
  • Повторяйте до тех пор, пока не будет получен приблизительный минимум:
    • Случайным образом перетасуйте образцы в обучающем наборе.
    • Для , делать:

Компромисс между вычислением истинного градиента и градиента на одной выборке заключается в вычислении градиента на основе более чем одной обучающей выборки (называемой «мини-пакетом») на каждом этапе. Это может работать значительно лучше, чем описанный «истинный» стохастический градиентный спуск, поскольку код может использовать библиотеки векторизации , а не вычислять каждый шаг отдельно, как это было впервые показано в [6] где это называлось «алгоритмом обратного распространения ошибки в групповом режиме». Это также может привести к более плавной сходимости, поскольку градиент, вычисляемый на каждом этапе, усредняется по большему количеству обучающих выборок.

Сходимость стохастического градиентного спуска анализировалась с использованием теорий выпуклой минимизации и стохастической аппроксимации . Кратко, когда скорость обучения уменьшаться с соответствующей скоростью, и при относительно мягких предположениях стохастический градиентный спуск почти наверняка сходится к глобальному минимуму. когда целевая функция выпуклая или псевдовыпуклая , а в противном случае почти наверняка сходится к локальному минимуму. [2] [7] Фактически это следствие теоремы Роббинса-Зигмунда . [8]

Пример [ править ]

Предположим, мы хотим разместить прямую линию на обучающую выборку с наблюдениями и соответствующие предполагаемые ответы используя наименьшие квадраты . Целевая функция, которую необходимо минимизировать, равна

Последняя строка приведенного выше псевдокода для этой конкретной проблемы будет выглядеть так:

Обратите внимание, что на каждой итерации или шаге обновления градиент оценивается только на одном этапе. . В этом ключевое различие между стохастическим градиентным спуском и пакетным градиентным спуском.

История [ править ]

В 1951 году Герберт Роббинс и Саттон Монро представили самые ранние методы стохастической аппроксимации, предшествовавшие стохастическому градиентному спуску. [9] Основываясь на этой работе год спустя, Джек Кифер и Джейкоб Вулфовиц опубликовали алгоритм оптимизации, очень близкий к стохастическому градиентному спуску, используя центральные разности в качестве аппроксимации градиента. [10] Позже, в 1950-х годах, Фрэнк Розенблатт использовал SGD для оптимизации своей модели перцептрона , продемонстрировав первую применимость стохастического градиентного спуска к нейронным сетям. [11]

Обратное распространение ошибки было впервые описано в 1986 году, когда стохастический градиентный спуск использовался для эффективной оптимизации параметров нейронных сетей с несколькими скрытыми слоями . Вскоре после этого было разработано еще одно усовершенствование: мини-пакетный градиентный спуск, при котором отдельные выборки заменяются небольшими пакетами данных. В 1997 году были впервые изучены практические преимущества векторизации, достижимые при работе с такими небольшими партиями. [12] прокладывая путь к эффективной оптимизации в машинном обучении. По состоянию на 2023 год этот мини-пакетный подход остается нормой для обучения нейронных сетей, балансируя преимущества стохастического градиентного спуска с градиентным спуском . [13]

К 1980-м годам импульс уже был введен и был добавлен к методам оптимизации SGD в 1986 году. [14] Однако эти методы оптимизации предполагали постоянные гиперпараметры , то есть фиксированную скорость обучения и параметр импульса. В 2010-х годах адаптивные подходы к применению SGD со скоростью обучения по каждому параметру были представлены с помощью AdaGrad (от «Адаптивный градиент») в 2011 году. [15] и RMSprop (для «среднеквадратического распространения») в 2012 году. [16] В 2014 году была опубликована книга «Адам» («Адаптивная оценка момента»), в которой адаптивные подходы RMSprop были применены к импульсу; Затем было разработано множество улучшений и ветвей Адама, таких как Adadelta, Adagrad, AdamW и Adamax. [17] [18]

В рамках машинного обучения в подходах к оптимизации в 2023 году будут доминировать оптимизаторы, основанные на Адаме. TensorFlow и PyTorch, безусловно, самые популярные библиотеки машинного обучения. [19] по состоянию на 2023 год в основном включают только оптимизаторы, производные от Adam, а также предшественников Adam, таких как RMSprop и классический SGD. PyTorch также частично поддерживает BFGS с ограниченной памятью , метод строкового поиска, но только для настроек одного устройства без групп параметров. [18] [20]

Известные приложения [ править ]

Стохастический градиентный спуск — популярный алгоритм для обучения широкого спектра моделей в машинном обучении , включая (линейные) машины опорных векторов , логистическую регрессию (см., например, Vowpal Wabbit ) и графические модели . [21] В сочетании с алгоритмом обратного распространения ошибки это стандартный алгоритм де-факто для обучения искусственных нейронных сетей . [22] О его использовании также сообщалось в сообществе геофизиков , особенно в приложениях полной инверсии формы волны (FWI). [23]

Стохастический градиентный спуск конкурирует с алгоритмом L-BFGS . [ нужна цитата ] который также широко используется. Стохастический градиентный спуск использовался по крайней мере с 1960 года для обучения моделей линейной регрессии , первоначально под названием ADALINE . [24]

Другой алгоритм стохастического градиентного спуска — это наименьших средних квадратов (LMS) адаптивный фильтр .

Расширения и варианты [ править ]

Было предложено и использовано множество улучшений базового алгоритма стохастического градиентного спуска. необходимость установки скорости обучения В частности, в машинном обучении проблематичной признана (размера шага). Установка слишком высокого значения этого параметра может привести к расхождению алгоритма; установка слишком низкого значения замедляет сходимость. [25] Концептуально простое расширение стохастического градиентного спуска делает скорость обучения убывающей функцией η t от номера итерации t , давая график скорости обучения , так что первые итерации вызывают большие изменения параметров, в то время как более поздние производят только точную настройку . Такие графики известны со времен работы МакКуина по k кластеризации -средних . [26] Практическое руководство по выбору размера шага в нескольких вариантах СГД дано Споллом. [27]

График, визуализирующий поведение выбранного набора оптимизаторов с использованием трехмерной перспективной проекции функции потерь f(x, y).
График, визуализирующий поведение выбранного набора оптимизаторов.

Неявные обновления (ISGD) [ править ]

Как упоминалось ранее, классический стохастический градиентный спуск обычно чувствителен к скорости обучения η . Быстрая сходимость требует высокой скорости обучения, но это может вызвать числовую нестабильность. Проблему можно во многом решить [28] путем рассмотрения неявных обновлений , при которых стохастический градиент оценивается на следующей итерации, а не на текущей:

Это уравнение является неявным, поскольку появляется в обеих частях уравнения. Это стохастическая форма метода проксимального градиента с момента обновления также можно записать как:

В качестве примера, рассмотреть метод наименьших квадратов с функциями и наблюдения . Мы хотим решить:

где указывает на внутренний продукт. Обратите внимание, что может иметь «1» в качестве первого элемента, включающего перехват. Классический стохастический градиентный спуск происходит следующим образом:

где выборка осуществляется равномерно между 1 и . Хотя теоретическая сходимость этой процедуры происходит при относительно мягких предположениях, на практике процедура может быть весьма нестабильной. В частности, когда указано неверно, так что имеет большие абсолютные собственные значения с высокой вероятностью, процедура может численно расходиться в течение нескольких итераций. Напротив, неявный стохастический градиентный спуск (сокращенно ISGD) можно решить в замкнутой форме как:

Эта процедура останется численно стабильной практически для всех поскольку скорость обучения теперь нормализована. Такое сравнение классического и неявного стохастического градиентного спуска в задаче наименьших квадратов очень похоже на сравнение между методом наименьших средних квадратов (LMS) и нормализованный фильтр наименьших квадратов (NLMS) .

Несмотря на то, что решение ISGD в замкнутой форме возможно только в методе наименьших квадратов, процедура может быть эффективно реализована в широком диапазоне моделей. В частности, предположим, что зависит от только за счет линейной комбинации с функциями , чтобы мы могли написать , где может зависеть от тоже, но не на кроме как через . Этому правилу подчиняется метод наименьших квадратов, а также логистическая регрессия и большинство обобщенных линейных моделей . Например, по методу наименьших квадратов и в логистической регрессии , где логистическая функция . В Пуассона регрессии , и так далее.

В таких условиях ISGD просто реализуется следующим образом. Позволять , где является скалярным. Тогда ISGD эквивалентен:

Масштабный коэффициент можно найти методом деления пополам , так как в большинстве регулярных моделей, таких как вышеупомянутые обобщенные линейные модели, функция уменьшается, и, таким образом, границы поиска для являются .

Важно [ править ]

Дальнейшие предложения включают метод импульса или метод тяжелого шара , который в контексте машинного обучения появился в статье Румельхарта , Хинтона и Уильямса об обучении обратного распространения ошибки. [29] и позаимствовал эту идею из статьи советского математика Бориса Поляка 1964 года о решении функциональных уравнений. [30] Стохастический градиентный спуск с импульсом запоминает обновление Δ w на каждой итерации и определяет следующее обновление как линейную комбинацию градиента и предыдущего обновления: [31] [32]

это приводит к:

где параметр что сводит к минимуму подлежит оценке , — это размер шага (иногда называемый скоростью обучения в машинном обучении) и — это коэффициент экспоненциального затухания между 0 и 1, который определяет относительный вклад текущего градиента и более ранних градиентов в изменение веса.

Название «импульс» происходит от аналогии с импульсом в физике: весовой вектор. , рассматриваемый как частица, путешествующая через пространство параметров, [29] вызывает ускорение от градиента потерь (« силы »). В отличие от классического стохастического градиентного спуска, он имеет тенденцию продолжать движение в том же направлении, предотвращая колебания. успешно используется учеными-компьютерщиками при обучении искусственных нейронных сетей . Momentum уже несколько десятилетий [33] тесно Метод импульса связан с недостаточно демпфированной динамикой Ланжевена и может сочетаться с моделированием отжига . [34]

модифицировал метод, В середине 1980-х годов Юрий Нестеров чтобы использовать градиент, предсказанный в следующей точке, и полученный в результате так называемый ускоренный градиент Нестерова иногда использовался в машинном обучении в 2010-х годах. [35]

Усреднение [ править ]

Усредненный стохастический градиентный спуск , изобретенный независимо Рупертом и Поляком в конце 1980-х годов, представляет собой обычный стохастический градиентный спуск, который записывает среднее значение своего вектора параметров во времени. То есть обновление такое же, как и для обычного стохастического градиентного спуска, но алгоритм также отслеживает [36]

Когда оптимизация завершена, этот усредненный вектор параметров занимает место w .

АдаГрад [ править ]

AdaGrad (алгоритм адаптивного градиента ) — это модифицированный алгоритм стохастического градиентного спуска со скоростью обучения по каждому параметру , впервые опубликованный в 2011 году. [37] Неформально это увеличивает скорость обучения для более редких параметров. [ нужны разъяснения ] и снижает скорость обучения для тех, которые менее редки. Эта стратегия часто улучшает производительность сходимости по сравнению со стандартным стохастическим градиентным спуском в условиях, когда данные разрежены, а разреженные параметры более информативны. Примеры таких приложений включают обработку естественного языка и распознавание изображений. [37]

У него все еще есть базовая скорость обучения η , но она умножается на элементы вектора { G j , j } , который является диагональю внешней произведения. матрицы

где , градиент, на итерации τ . Диагональ определяется выражением

Этот вектор по сути хранит историческую сумму квадратов градиента по измерениям и обновляется после каждой итерации. Формула обновления теперь [а]
или, записанный как обновления для каждого параметра,
Каждый { G ( i , i ) } приводит к коэффициенту масштабирования для скорости обучения, который применяется к одному параметру w i . Поскольку знаменатель в этом множителе является 2 нормой предыдущих производных, экстремальные обновления параметров подавляются, в то время как параметры, которые получают мало или небольшие обновления, получают более высокую скорость обучения. [33]

Хотя AdaGrad был разработан для выпуклых задач , он успешно применяется для невыпуклой оптимизации. [38]

РМСПроп [ править ]

RMSProp (от Root Mean Square Propagation) — метод, изобретенный в 2012 году Джеймсом Мартенсом и Ильей Суцкевером , в то время аспирантами группы Джеффри Хинтона, в котором скорость обучения , как и в Адаграде, адаптирована для каждого из параметров. Идея состоит в том, чтобы разделить скорость обучения для веса на скользящее среднее величин недавних градиентов для этого веса. [39] Необычно то, что оно не было опубликовано в статье, а просто описано в лекции на Coursera . [ нужна цитата ]

Итак, сначала рассчитывается скользящее среднее в терминах среднего квадрата,

где, является фактором забывания. Концепция хранения исторического градиента как суммы квадратов заимствована из Адаграда, но «забывание» введено для решения проблемы снижения скорости обучения Адаграда в невыпуклых задачах путем постепенного уменьшения влияния старых данных. [40]

И параметры обновляются как,

RMSProp показал хорошую адаптацию скорости обучения в различных приложениях. RMSProp можно рассматривать как обобщение Rprop , он способен работать как с мини-пакетами, так и только с полными пакетами. [39]

Адам [ править ]

Адам [41] (сокращение от Adaptive Moment Estimation) — это обновление 2014 года оптимизатора RMSProp , объединяющее его с основной функцией метода Momentum . [42] В этом алгоритме оптимизации используются текущие средние с экспоненциальным забыванием как градиентов, так и вторых моментов градиентов. Заданные параметры и функция потерь , где индексирует текущую итерацию обучения (индексируется по адресу ), обновление параметра Адама определяется следующим образом:

где небольшой скаляр (например, ) используется для предотвращения деления на 0, и (например, 0,9) и (например, 0,999) являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и извлечение квадратного корня выполняется поэлементно.

Первоначальное доказательство, устанавливающее сходимость Адама, было неполным, и последующий анализ показал, что Адам не сходится для всех выпуклых целей. [43] [44] Несмотря на это, Адам продолжает использоваться на практике из-за его высоких показателей на практике. [45] Более того, глубокое влияние этого алгоритма вдохновило множество новых, менее известных схем оптимизации на основе импульса с использованием градиентов, улучшенных Нестеровым (например: NAdam [46] и ФАСФА [47] ) и различные интерпретации информации второго порядка (например: Распространение мощности [48] и АдаСкрт [49] ). Однако наиболее часто используемые варианты — AdaMax , [41] который обобщает Адама, используя норму бесконечности, и AMSGrad , [50] который решает проблемы сходимости Адама, используя максимум прошлых квадратов градиентов вместо экспоненциального среднего. [51] АдамВ [52] — это более позднее обновление, которое смягчает неоптимальный выбор алгоритма уменьшения веса в Adam .

Знаковый спуск градиентный стохастический

Несмотря на то, что знаковая оптимизация восходит к вышеупомянутому Rprop, в 2018 году исследователи попытались упростить Адама, исключив из учета величину стохастического градиента и рассматривая только его знак. [53] [54]

Поиск строки с возвратом [ править ]

Поиск линии с возвратом — еще один вариант градиентного спуска. Все нижеприведенное взято из упомянутой ссылки. Он основан на условии, известном как условие Армихо – Гольдштейна. Оба метода позволяют изменять скорость обучения на каждой итерации; однако способ изменения различен. Поиск по строке с возвратом использует оценки функций для проверки состояния Армихо, и в принципе цикл в алгоритме определения скорости обучения может быть длинным и заранее неизвестным. Адаптивному SGD не нужен цикл определения скорости обучения. С другой стороны, адаптивный SGD не гарантирует «свойства спуска», которым обладает поиск по строке с возвратом, а именно: для всех н. Если градиент функции стоимости является глобально липшицевым, с константой Липшица L, а скорость обучения выбрана порядка 1/L, то стандартная версия SGD является частным случаем поиска прямой с возвратом.

Методы второго порядка [ править ]

Стохастический аналог стандартного (детерминированного) алгоритма Ньютона – Рафсона (метод «второго порядка») обеспечивает асимптотически оптимальную или почти оптимальную форму итеративной оптимизации в условиях стохастической аппроксимации. [ нужна цитата ] . Метод, использующий прямые измерения матриц Гессиана слагаемых эмпирической функции риска, был разработан Бердом, Хансеном, Носедалем и Сингером. [55] Однако прямое определение необходимых для оптимизации матриц Гессе на практике может оказаться невозможным. Практические и теоретически обоснованные методы для версий SGD второго порядка, которые не требуют прямой информации о гессиане, предложены Споллом и другими. [56] [57] [58] (Менее эффективный метод, основанный на конечных разностях, а не на одновременных возмущениях, предложен Рупертом. [59] ) Другой подход к аппроксимации матрицы Гессе заключается в замене ее информационной матрицей Фишера, которая преобразует обычный градиент в естественный. [60] Эти методы, не требующие прямой информации о гессиане, основаны либо на значениях слагаемых в приведенной выше эмпирической функции риска, либо на значениях градиентов слагаемых (т. е. входных данных SGD). В частности, оптимальность второго порядка асимптотически достижима без прямого вычисления матриц Гессе слагаемых эмпирической функции риска.

Приближения в непрерывном времени [ править ]

Для небольшой скорости обучения стохастический градиентный спуск можно рассматривать как дискретизацию градиентного потока ОДУ

подвержен дополнительному стохастическому шуму. Это приближение справедливо только на конечном временном горизонте в следующем смысле: предположим, что все коэффициенты достаточно гладкие. Позволять и быть достаточно гладкой пробной функцией. Тогда существует константа такой, что для всех

где означает принятие математического ожидания относительно случайного выбора индексов в схеме стохастического градиентного спуска.

Поскольку это приближение не учитывает случайные колебания среднего поведения стохастического градиентного спуска, решения стохастических дифференциальных уравнений (СДУ) были предложены в качестве ограничивающих объектов. [61] Точнее, решение СДУ

для

где обозначает интеграл Ито по броуновскому движению, является более точным приближением в том смысле, что существует постоянная такой, что

Однако это СДУ лишь аппроксимирует одноточечное движение стохастического градиентного спуска. Для аппроксимации стохастического потока приходится рассматривать СДУ с бесконечномерным шумом. [62]

См. также [ править ]

Примечания [ править ]

  1. ^ обозначает поэлементное произведение .

Ссылки [ править ]

  1. ^ Ботту, Леон ; Буске, Оливье (2012). «Компромиссы крупномасштабного обучения» . Ин Сра, Суврит; Новозин, Себастьян; Райт, Стивен Дж. (ред.). Оптимизация для машинного обучения . Кембридж: MIT Press. стр. 351–368. ISBN  978-0-262-01646-9 .
  2. ^ Перейти обратно: а б Ботту, Леон (1998). «Онлайн-алгоритмы и стохастические аппроксимации». Онлайн-обучение и нейронные сети . Издательство Кембриджского университета. ISBN  978-0-521-65263-6 .
  3. ^ Фергюсон, Томас С. (1982). «Непоследовательная оценка максимального правдоподобия». Журнал Американской статистической ассоциации . 77 (380): 831–834. дои : 10.1080/01621459.1982.10477894 . JSTOR   2287314 .
  4. ^ Ботту, Леон ; Буске, Оливье (2008). Компромиссы крупномасштабного обучения . Достижения в области нейронных систем обработки информации . Том. 20. стр. 161–168.
  5. ^ Мерфи, Кевин (2021). Вероятностное машинное обучение: введение . МТИ Пресс . Проверено 10 апреля 2021 г.
  6. ^ Билмс, Джефф; Асанович, Крсте ; Чин, Чи-Уай; Деммель, Джеймс (апрель 1997 г.). «Использование PHIPAC для ускорения обучения обратному распространению ошибок» . 1997 Международная конференция IEEE по акустике, речи и обработке сигналов . ИКАССП. Мюнхен, Германия: IEEE. С. 4153–4156 т.5. дои : 10.1109/ICASSP.1997.604861 .
  7. ^ Кивиэль, Кшиштоф К. (2001). «Сходимость и эффективность субградиентных методов квазивыпуклой минимизации». Математическое программирование, серия А. 90 (1). Берлин, Гейдельберг: Springer: 1–25. дои : 10.1007/PL00011414 . ISSN   0025-5610 . МР   1819784 . S2CID   10043417 .
  8. ^ Роббинс, Герберт ; Зигмунд, Дэвид О. (1971). «Теорема сходимости для неотрицательных почти супермартингалов и некоторые приложения». В Рустаги, Джагдиш С. (ред.). Оптимизирующие методы в статистике . Академическая пресса. ISBN  0-12-604550-Х .
  9. ^ Роббинс, Х .; Монро, С. (1951). «Метод стохастической аппроксимации» . Анналы математической статистики . 22 (3): 400. дои : 10.1214/aoms/1177729586 .
  10. ^ Кифер, Дж.; Вулфовиц, Дж. (1952). «Стохастическая оценка максимума функции регрессии» . Анналы математической статистики . 23 (3): 462–466. дои : 10.1214/aoms/1177729392 .
  11. ^ Розенблатт, Ф. (1958). «Персептрон: вероятностная модель хранения и организации информации в мозге». Психологический обзор . 65 (6): 386–408. дои : 10.1037/h0042519 . S2CID   12781225 .
  12. ^ Билмс, Джефф; Асанович, Крсте ; Чин, Чи-Уай; Деммель, Джеймс (апрель 1997 г.). «Использование PHIPAC для ускорения обучения обратному распространению ошибок» . 1997 Международная конференция IEEE по акустике, речи и обработке сигналов . ИКАССП. Мюнхен, Германия: IEEE. С. 4153–4156 т.5. дои : 10.1109/ICASSP.1997.604861 .
  13. ^ Пэн, Синьюй; Ли, Ли; Ван, Фей-Юэ (2020). «Ускорение стохастического градиентного спуска в мини-пакетах с использованием типичной выборки» . Транзакции IEEE в нейронных сетях и системах обучения . 31 (11): 4649–4659. arXiv : 1903.04192 . дои : 10.1109/TNNLS.2019.2957003 . ПМИД   31899442 . S2CID   73728964 . Проверено 2 октября 2023 г.
  14. ^ Румельхарт, Дэвид Э.; Хинтон, Джеффри Э.; Уильямс, Рональд Дж. (октябрь 1986 г.). «Изучение представлений путем обратного распространения ошибок» . Природа . 323 (6088): 533–536. дои : 10.1038/323533a0 . ISSN   1476-4687 . S2CID   205001834 .
  15. ^ Дучи, Джон; Хазан, Элад; Певец, Йорам (2011). «Адаптивные субградиентные методы для онлайн-обучения и стохастической оптимизации» (PDF) . JMLR . 12 : 2121–2159.
  16. ^ Хинтон, Джеффри . «Лекция 6e rmsprop: разделите градиент на скользящее среднее его недавней величины» (PDF) . п. 26 . Проверено 19 марта 2020 г. .
  17. ^ Кингма, Дидерик; Ба, Джимми (2014). «Адам: метод стохастической оптимизации». arXiv : 1412.6980 [ cs.LG ].
  18. ^ Перейти обратно: а б «torch.optim — документация PyTorch 2.0» . pytorch.org . Проверено 2 октября 2023 г.
  19. ^ Нгуен, Джианг; Длуголинский, Стивен; Бобак, Мартин; Тран, Вьетнам; Гарсия, Альваро; Эредиа, Игнатий; Малик, Питер; Глучий, Ладислав (19 января 2019 г.). «Среды и библиотеки машинного обучения и глубокого обучения для крупномасштабного анализа данных: обзор» (PDF) . Обзор искусственного интеллекта . 52 : 77–124. дои : 10.1007/s10462-018-09679-z . S2CID   254236976 .
  20. ^ «Модуль: tf.keras.optimizers | TensorFlow v2.14.0» . ТензорФлоу . Проверено 2 октября 2023 г.
  21. ^ Дженни Роуз Финкель, Алекс Климан, Кристофер Д. Мэннинг (2008). Эффективный, основанный на признаках синтаксический анализ условных случайных полей . Учеб. Ежегодное собрание ACL.
  22. ^ ЛеКун, Ян А. и др. «Эффективная поддержка». Нейронные сети: хитрости. Springer Berlin Heidelberg, 2012. 9–48.
  23. ^ Джером Р. Кребс, Джон Э. Андерсон, Дэвид Хинкли, Рамеш Ниламани, Сунвонг Ли, Анатолий Баумштейн и Мартин-Дэниел Лакасс, (2009), «Быстрая сейсмическая инверсия полного волнового поля с использованием закодированных источников», GEOPHYSICS 74: WCC177- ВКК188.
  24. ^ Ави Пфеффер. «CS181 Лекция 5 — Персептроны» (PDF) . Гарвардский университет. [ постоянная мертвая ссылка ]
  25. ^ Гудфеллоу, Ян ; Бенджио, Йошуа; Курвиль, Аарон (2016). Глубокое обучение . МТИ Пресс. п. 291. ИСБН  978-0262035613 .
  26. ^ Цитируется Даркен, Кристиан; Муди, Джон (1990). Быстрая адаптивная кластеризация k-средних: некоторые эмпирические результаты . Международная совместная конференция. по нейронным сетям (IJCNN). IEEE. дои : 10.1109/IJCNN.1990.137720 .
  27. ^ Сполл, Дж. К. (2003). Введение в стохастический поиск и оптимизацию: оценка, моделирование и управление . Хобокен, Нью-Джерси: Уайли. стр. Разделы 4.4, 6.6 и 7.5. ISBN  0-471-33052-3 .
  28. ^ Тулис, Панос; Айрольди, Эдоардо (2017). «Асимптотические и конечно-выборочные свойства оценок, основанных на стохастических градиентах». Анналы статистики . 45 (4): 1694–1727. arXiv : 1408.2923 . дои : 10.1214/16-AOS1506 . S2CID   10279395 .
  29. ^ Перейти обратно: а б Румельхарт, Дэвид Э.; Хинтон, Джеффри Э.; Уильямс, Рональд Дж. (8 октября 1986 г.). «Изучение представлений с помощью ошибок обратного распространения». Природа . 323 (6088): 533–536. Бибкод : 1986Natur.323..533R . дои : 10.1038/323533a0 . S2CID   205001834 .
  30. ^ «Градиентный спуск и импульс: метод тяжелого шара» . 13 июля 2020 г.
  31. ^ Суцкевер, Илья; Мартенс, Джеймс; Даль, Джордж; Хинтон, Джеффри Э. (июнь 2013 г.). Санджой Дасгупта и Дэвид Макаллестер (ред.). О важности инициализации и импульса в глубоком обучении (PDF) . В материалах 30-й международной конференции по машинному обучению (ICML-13). Том. 28. Атланта, Джорджия. стр. 1139–1147 . Проверено 14 января 2016 г.
  32. ^ Суцкевер, Илья (2013). Обучение рекуррентных нейронных сетей (PDF) (доктор философии). Университет Торонто. п. 74.
  33. ^ Перейти обратно: а б Зейлер, Мэтью Д. (2012). «ADADELTA: метод адаптивной скорости обучения». arXiv : 1212.5701 [ cs.LG ].
  34. ^ Борисенко Александр; Бышкин, Максим (2021). «CoolMomentum: метод стохастической оптимизации с помощью динамики Ланжевена с имитацией отжига» . Научные отчеты . 11 (1): 10705. arXiv : 2005.14605 . Бибкод : 2021NatSR..1110705B . дои : 10.1038/s41598-021-90144-3 . ПМЦ   8139967 . ПМИД   34021212 .
  35. ^ «Документы с кодом - объяснение Нестерова ускоренного градиента» .
  36. ^ Поляк Борис Т.; Юдицкий, Анатолий Б. (1992). «Ускорение стохастической аппроксимации путем усреднения» (PDF) . СИАМ Дж. Оптимальное управление . 30 (4): 838–855. дои : 10.1137/0330046 . S2CID   3548228 . Архивировано из оригинала (PDF) 12 января 2016 г. Проверено 14 февраля 2018 г.
  37. ^ Перейти обратно: а б Дучи, Джон; Хазан, Элад; Певец, Йорам (2011). «Адаптивные субградиентные методы для онлайн-обучения и стохастической оптимизации» (PDF) . JMLR . 12 : 2121–2159.
  38. ^ Гупта, Майя Р.; Бенджио, Сами; Уэстон, Джейсон (2014). «Обучение многоклассовых классификаторов» (PDF) . JMLR . 15 (1): 1461–1492.
  39. ^ Перейти обратно: а б Хинтон, Джеффри . «Лекция 6e rmsprop: разделите градиент на скользящее среднее его недавней величины» (PDF) . п. 26 . Проверено 19 марта 2020 г. .
  40. ^ «Понимание RMSprop — более быстрое обучение нейронной сети» . 2 сентября 2018 г.
  41. ^ Перейти обратно: а б Кингма, Дидерик; Ба, Джимми (2014). «Адам: метод стохастической оптимизации». arXiv : 1412.6980 [ cs.LG ].
  42. ^ «4. За пределами градиентного спуска — основы глубокого обучения [книга]» .
  43. ^ Редди, Сашанк Дж.; Кале, Сатьен; Кумар, Санджив (2018). О сближении Адама и за его пределами . 6-я Международная конференция по обучению представлениям (ICLR 2018). arXiv : 1904.09237 .
  44. ^ Рубио, Дэвид Мартинес (2017). Анализ сходимости адаптивного метода градиентного спуска (PDF) (магистерская диссертация). Оксфордский университет . Проверено 5 января 2024 г.
  45. ^ Чжан, Юшунь; Чен, Конлян; Ши, Найчен; Солнце, Жоюй; Ло, Чжи-Цюань (2022). «Адам может сходиться без каких-либо изменений в правилах обновления». Достижения в области нейронных систем обработки информации 35 . Достижения в области нейронных систем обработки информации 35 (NeurIPS 2022). arXiv : 2208.09632 .
  46. ^ Дозат, Т. (2016). «Включение импульса Нестерова в Адама». S2CID   70293087 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  47. ^ Навин, Филип (9 августа 2022 г.). «FASFA: новый оптимизатор обратного распространения ошибки нового поколения» . дои : 10.36227/techrxiv.20427852.v1 . Проверено 19 ноября 2022 г. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  48. ^ Уай, Шварц, Джонатан Джаякумар, Сиддхант М. Паскану, Разван Латам, Питер Э. Тех, Йи (01 октября 2021 г.). Распространение мощности: разреженность, вызывающая перепараметризацию веса . OCLC   1333722169 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  49. ^ Ху, Ючжэн; Лин, Лицонг; Тан, Шанге (20 декабря 2019 г.). «Информация второго порядка в методах оптимизации первого порядка». arXiv : 1912.09926 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  50. ^ Редди, Сашанк Дж.; Кале, Сатьен; Кумар, Санджив (2018). «О сближении Адама и за его пределами». arXiv : 1904.09237 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  51. ^ «Обзор алгоритмов оптимизации градиентного спуска» . 19 января 2016 г.
  52. ^ Лощилов Илья; Хаттер, Фрэнк (4 января 2019 г.). «Регуляризация несвязанного распада веса». arXiv : 1711.05101 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  53. ^ Баллес, Лукас; Хенниг, Филипп (15 февраля 2018 г.). «Рассечение Адама: знак, величина и дисперсия стохастических градиентов» .
  54. ^ «SignSGD: сжатая оптимизация для невыпуклых задач» . 3 июля 2018. С. 560–569.
  55. ^ Берд, Р.Х.; Хансен, СЛ; Носедаль, Дж.; Сингер, Ю. (2016). «Стохастический квазиньютоновский метод для крупномасштабной оптимизации». SIAM Journal по оптимизации . 26 (2): 1008–1031. arXiv : 1401.7020 . дои : 10.1137/140954362 . S2CID   12396034 .
  56. ^ Сполл, Дж. К. (2000). «Адаптивная стохастическая аппроксимация методом одновременных возмущений». Транзакции IEEE при автоматическом управлении . 45 (10): 1839–1853. дои : 10.1109/TAC.2000.880982 .
  57. ^ Сполл, Дж. К. (2009). «Механизмы обратной связи и взвешивания для улучшения оценок якобиана в адаптивном алгоритме одновременных возмущений». Транзакции IEEE при автоматическом управлении . 54 (6): 1216–1229. дои : 10.1109/TAC.2009.2019793 . S2CID   3564529 .
  58. ^ Бхатнагар, С.; Прасад, Х.Л.; Прашант, Луизиана (2013). Стохастические рекурсивные алгоритмы оптимизации: методы одновременного возмущения . Лондон: Спрингер. ISBN  978-1-4471-4284-3 .
  59. ^ Руперт, Д. (1985). «Версия Ньютона-Рафсона многомерной процедуры Роббинса-Монро» . Анналы статистики . 13 (1): 236–245. дои : 10.1214/aos/1176346589 .
  60. ^ Амари, С. (1998). «Естественный градиент эффективно работает в обучении». Нейронные вычисления . 10 (2): 251–276. дои : 10.1162/089976698300017746 . S2CID   207585383 .
  61. ^ Ли, Цяньсяо; Тай, Ченг; Э, Вэйнан (2019). «Стохастические модифицированные уравнения и динамика стохастических градиентных алгоритмов I: математические основы» . Журнал исследований машинного обучения . 20 (40): 1–47. ISSN   1533-7928 .
  62. ^ Гесс, Бенджамин; Кассинг, Себастьян; Конаровский, Виталий (14 февраля 2023 г.). «Стохастические модифицированные потоки, пределы среднего поля и динамика стохастического градиентного спуска». arXiv : 2302.07125 [ мат.PR ].

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]