Jump to content

Стохастическое уменьшение дисперсии

(Стохастическое) уменьшение дисперсии — это алгоритмический подход к минимизации функций, которые можно разложить на конечные суммы. Используя структуру конечной суммы, методы уменьшения дисперсии способны достичь скорости сходимости, которую невозможно достичь с помощью методов, которые рассматривают цель как бесконечную сумму, как в классической настройке стохастической аппроксимации .

Подходы к уменьшению дисперсии широко используются для обучения моделей машинного обучения, таких как логистическая регрессия и машины опорных векторов. [1] поскольку эти задачи имеют структуру конечной суммы и единообразную обусловленность , что делает их идеальными кандидатами для уменьшения дисперсии.

Цели конечной суммы

[ редактировать ]

Функция Считается, что структура конечной суммы может быть разложена на суммирование или среднее значение:

где значение функции и производная каждой можно запросить самостоятельно. Хотя методы уменьшения дисперсии могут применяться для любых положительных и любой структуры, их благоприятные теоретические и практические свойства возникают тогда, когда велико по сравнению с числом обусловленности каждого , и когда имеют схожие (но не обязательно идентичные) липшицеву гладкость и выпуклости сильные константы .

Структуру конечной суммы следует противопоставить стохастической аппроксимации, которая имеет дело с функциями вида что является ожидаемым значением функции, зависящей от случайной величины . Любую задачу конечной суммы можно оптимизировать с помощью алгоритма стохастической аппроксимации, используя .

Быстрая конвергенция

[ редактировать ]

Методы уменьшения стохастической дисперсии без ускорения позволяют найти минимумы в пределах точности , то есть в несколько этапов заказа:

Количество шагов зависит только логарифмически от требуемого уровня точности, в отличие от структуры стохастической аппроксимации, где количество шагов требуемая точность растет пропорционально требуемой точности.Методы стохастического уменьшения дисперсии сходятся почти так же быстро, как метод градиентного спуска. скорость, несмотря на использование только стохастического градиента, при более низкая стоимость, чем градиентный спуск.

Ускоренные методы в рамках системы уменьшения стохастической дисперсии достигают еще более высоких скоростей сходимости, требуя всего лишь

шаги, чтобы достичь точность, потенциально быстрее, чем неускоренные методы. Нижние границы сложности. [2] для класса конечных сумм установите, что эта скорость является максимально возможной для гладких сильно выпуклых задач.

Подходы к уменьшению дисперсии делятся на 3 основные категории: методы табличного усреднения, методы полного градиентного снимка и двойные методы. Каждая категория содержит методы, предназначенные для решения выпуклых, негладких и невыпуклых задач, каждый из которых отличается настройками гиперпараметров и другими алгоритмическими деталями.

В методе САГА [3] прототипный подход к усреднению таблицы, таблица размеров поддерживается и содержит последний градиент, зафиксированный для каждого термин, который мы обозначаем . На каждом этапе индекс производится выборка, и новый градиент вычисляется. Итерация обновляется с помощью:

и после этого запись в таблицу обновляется с помощью .

SAGA является одним из самых популярных методов уменьшения дисперсии благодаря своей простоте, легко адаптируемой теории и отличной производительности. Это преемник метода SAG. [4] улучшение его гибкости и производительности.

Метод градиента с уменьшенной стохастической дисперсией (SVRG), [5] прототипный метод моментального снимка использует аналогичное обновление, за исключением того, что вместо использования среднего значения таблицы он использует полный градиент, который переоценивается в точке моментального снимка через регулярные промежутки времени итерации. Обновление становится:

Этот подход требует двух оценок стохастического градиента за шаг, одна для вычисления и один для вычисления тогда как в таблице усреднения подходов нужен только один.

Несмотря на высокие вычислительные затраты, SVRG популярен, поскольку его простая теория сходимости легко адаптируется к новым настройкам оптимизации. Он также имеет меньшие требования к объему памяти, чем подходы к табличному усреднению, что делает его применимым во многих ситуациях, где табличные методы не могут быть использованы.

Использование двойного представления цели приводит к другому подходу уменьшения дисперсии, который особенно подходит для конечных сумм, где каждый член имеет структуру, которая делает вычисление выпуклого сопряжения или его проксимальный оператор послушен. Стандартный метод SDCA [6] рассматривает конечные суммы, которые имеют дополнительную структуру по сравнению с общей настройкой конечной суммы:

где каждый является одномерным, и каждый это точка данных, связанная с .SDCA решает двойную проблему:

с помощью процедуры стохастического подъема координат , где на каждом шаге цель оптимизируется по случайно выбранной координате , оставив все остальные координаты прежними. Примерное простое решение можно восстановить из ценности:

.

Этот метод обеспечивает аналогичные теоретические скорости сходимости с другими методами уменьшения стохастической дисперсии, избегая при этом необходимости указывать параметр размера шага. На практике это происходит быстро, когда является большим, но значительно медленнее, чем другие подходы, когда мал.

Ускоренные подходы

[ редактировать ]

Ускоренные методы уменьшения дисперсии основаны на описанных выше стандартных методах. Самые ранние подходы используют проксимальные операторы для ускорения сходимости, приблизительно или точно. Также были разработаны подходы прямого ускорения. [7]

Катализатор ускорения

[ редактировать ]

Структура катализатора [8] использует любой из стандартных методов, описанных выше, в качестве внутреннего оптимизатора для приблизительного решения проксимального оператора :

после чего он использует шаг экстраполяции для определения следующего :

Гибкость и простота каталитического метода делают его популярным базовым подходом. Он не обеспечивает оптимальную скорость сходимости среди ускоренных методов, но потенциально медленнее до логарифмического коэффициента гиперпараметров.

Точка-САГА

[ редактировать ]

Проксимальные операции также могут применяться непосредственно к условия для получения ускоренного метода. Метод Point-SAGA [9] заменяет операции градиента в SAGA проксимальными операторными вычислениями, что приводит к простому методу прямого ускорения:

с обновлением таблицы выполняется после каждого шага. Здесь определяется как проксимальный оператор для й срок:

В отличие от других известных ускоренных методов, Point-SAGA требует только одной итерационной последовательности. поддерживаться между этапами и имеет то преимущество, что имеет только один настраиваемый параметр . Он обеспечивает оптимальную ускоренную скорость сходимости для сильно выпуклой минимизации конечной суммы без дополнительных логарифмических коэффициентов.

См. также

[ редактировать ]
  1. ^ "sklearn.linear_model.LogisticRegrade" . Scikit Узнайте . Проверено 26 февраля 2022 г.
  2. ^ Лан, Гуанхуэй; Чжоу, И (2018). «Оптимальный метод рандомизированного постепенного градиента». Математическое программирование: серии A и B. 171 (1–2): 167–215. arXiv : 1507.02000 . дои : 10.1007/s10107-017-1173-0 . S2CID   9143586 .
  3. ^ Дефацио, Аарон; Бах, Фрэнсис; Лакост-Жюльен, Симон (2014). «SAGA: метод быстрого постепенного градиента с поддержкой несильно выпуклых составных целей». Нейронные системы обработки информации . arXiv : 1407.0202 .
  4. ^ Шмидт, Марк; Ле Ру, Николя; Бах, Франциск (2017). «Минимизация конечных сумм со стохастическим средним градиентом». Математическое программирование . 162 . arXiv : 1309.2388 .
  5. ^ Джонсон, Ри; Чжан, Тонг (2013). «Ускорение стохастического градиентного спуска с использованием прогнозируемого уменьшения дисперсии» (PDF) . Нейронные системы обработки информации .
  6. ^ Шалев-Шварц, Шай; Чжан, Тонг (2013). «Стохастические методы восхождения с двумя координатами для минимизации регуляризованных потерь» (PDF) . Журнал исследований машинного обучения . 14 .
  7. ^ Лан, Гуанхуэй; Чжоу, И (2018). «Оптимальный метод рандомизированного постепенного градиента». Математическое программирование: серии A и B. 171 (1–2): 167–215. arXiv : 1507.02000 . дои : 10.1007/s10107-017-1173-0 . S2CID   9143586 .
  8. ^ Линь, Хунчжоу; Майрал, Жюльен; Харшауи, Заид (2016). «Катализаторное ускорение для выпуклой оптимизации первого порядка: от теории к практике». Журнал исследований машинного обучения . 18 . arXiv : 1712.05654 .
  9. ^ Дефацио, Аарон (2016). «Простой практический ускоренный метод определения конечных сумм». Нейронные системы обработки информации . arXiv : 1602.02442 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 643f8b8e82b3e71d1822a3f9b18d2838__1678058640
URL1:https://arc.ask3.ru/arc/aa/64/38/643f8b8e82b3e71d1822a3f9b18d2838.html
Заголовок, (Title) документа по адресу, URL1:
Stochastic variance reduction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)