Стохастическая градиентная динамика Ланжевена

Динамика стохастического градиента Ланжевена ( SGLD ) — это метод оптимизации и выборки, состоящий из характеристик стохастического градиентного спуска , алгоритма оптимизации Роббинса-Монро и динамики Ланжевена , математического расширения моделей молекулярной динамики . Как и стохастический градиентный спуск, SGLD представляет собой итеративный алгоритм оптимизации, который использует минибатчинг для создания средства оценки стохастического градиента, который используется в SGD для оптимизации дифференцируемой целевой функции . [ 1 ] В отличие от традиционного SGD, SGLD можно использовать для байесовского обучения в качестве метода выборки. SGLD можно рассматривать как динамику Ланжевена, примененную к апостериорным распределениям, но ключевое отличие состоит в том, что члены градиента правдоподобия подвергаются мини-пакетной обработке, как в SGD. SGLD, как и динамика Ланжевена, создает выборки на основе апостериорного распределения параметров на основе доступных данных. Впервые описанный Веллингом и Техом в 2011 году, этот метод находит применение во многих контекстах, требующих оптимизации, и особенно применяется в задачах машинного обучения.
Формальное определение
[ редактировать ]Учитывая некоторый вектор параметров , его априорное распределение и набор точек данных , выборки динамики Ланжевена из апостериорного распределения обновив цепочку:
Динамика стохастического градиента Ланжевена использует модифицированную процедуру обновления с мини-пакетными условиями правдоподобия:
где является положительным целым числом, это гауссов шум, - вероятность данных с учетом вектора параметров и наши размеры шагов удовлетворять следующим условиям:
Для ранних итераций алгоритма каждое обновление параметров имитирует стохастический градиентный спуск; однако, когда алгоритм приближается к локальному минимуму или максимуму, градиент сжимается до нуля, и цепочка создает выборки, окружающие максимум, в апостериорном режиме, что позволяет сделать апостериорный вывод. Этот процесс генерирует приблизительные выборки из апостериорных данных путем балансировки дисперсии введенного гауссовского шума и вычисления стохастического градиента. [ нужна ссылка ]
Приложение
[ редактировать ]SGLD применим в любом контексте оптимизации, для которого желательно быстро получить апостериорные выборки вместо максимальной апостериорной моды. При этом метод сохраняет вычислительную эффективность стохастического градиентного спуска по сравнению с традиционным градиентным спуском , одновременно предоставляя дополнительную информацию о ландшафте вокруг критической точки целевой функции. На практике SGLD можно применять для обучения байесовских нейронных сетей в глубоком обучении — задаче, в которой метод обеспечивает распределение по параметрам модели. Вводя информацию об дисперсии этих параметров, SGLD характеризует обобщаемость этих моделей на определенных этапах обучения. [ 2 ] Кроме того, получение выборок из апостериорного распределения позволяет количественно оценить неопределенность с помощью доверительных интервалов, что невозможно при использовании традиционного стохастического градиентного спуска. [ нужна ссылка ]
Варианты и связанные алгоритмы
[ редактировать ]Если вычисления градиента точны, SGLD сводится к алгоритму Ланжевена Монте-Карло : [ 3 ] Впервые введен в литературу по решеточной теории поля . Этот алгоритм также представляет собой сокращение гамильтониана Монте-Карло , состоящее из предложения одного шага, а не из серии шагов. [ 4 ] Поскольку SGLD можно сформулировать как модификацию методов стохастического градиентного спуска и MCMC, этот метод лежит на пересечении алгоритмов оптимизации и выборки; метод сохраняет способность SGD быстро сходиться к областям с низкой стоимостью, предоставляя при этом образцы для облегчения апостериорного вывода. [ нужна ссылка ]
Учитывая смягченные ограничения на размеры шагов так что они не приближаются к нулю асимптотически, SGLD не может создать образцы, для которых процент отбраковки Metropolis Hastings равен нулю, и, таким образом, становится необходимым этап отбраковки MH. [ 1 ] Получившийся в результате алгоритм, получивший название «алгоритм Ланжевена с поправкой на Метрополис», [ 5 ] требуется шаг:
где представляет собой нормальное распределение, центрированное на один шаг градиентного спуска от и это наше целевое распределение. [ нужна ссылка ]
Скорости смешивания и алгоритмическая сходимость
[ редактировать ]Недавние исследования доказали верхние границы времени смешивания как для традиционного алгоритма Ланжевена, так и для алгоритма Ланжевена, адаптированного к Метрополису. [ 5 ] Эти границы, опубликованные в Ma et al., 2018, определяют скорость, с которой алгоритмы сходятся к истинному апостериорному распределению, формально определяемому как:
где это произвольная толерантность к ошибкам, это некоторое начальное распределение, - апостериорное распределение, и – общая норма вариаций . При некоторых условиях регулярности L-липшицевой гладкой целевой функции которая является m-сильно выпуклой вне области радиуса с номером состояния , мы имеем границы скорости смешивания:
где и обратитесь к скоростям смешивания нескорректированного алгоритма Ланжевена и алгоритма Ланжевена с поправкой на Метрополис соответственно. Эти границы важны, поскольку они показывают, что сложность вычислений полиномиальна по размерности. при условии существование .
Ссылки
[ редактировать ]- ^ Jump up to: а б Веллинг, Макс; Да, Йи Почему (2011). «Байесовское обучение с помощью стохастической градиентной динамики Ланжевена» (PDF) . Материалы 28-й Международной конференции по машинному обучению : 681–688.
- ^ Чаудхари, Пратик; Чороманская, Анна; Соатто, Стивен ; ЛеКун, Янн ; Бальдасси, Чарльз; Боргс, Кристиан ; Чейс, Дженнифер ; Сагун, Левент; Зекчина, Ричард (2017). «Энтропия-sgd: Смещение градиентного спуска в широкие долины». arXiv : 1611.01838 [ cs.LG ].
- ^ Кеннеди, AD (1990). «Теория гибридных стохастических алгоритмов». Вероятностные методы в квантовой теории поля и квантовой гравитации . Пленум Пресс. стр. 209–223. ISBN 0-306-43602-7 .
- ^ Нил, Р. (2011). «MCMC с использованием гамильтоновой динамики». Справочник цепей Маркова Монте-Карло . ЦРК Пресс. ISBN 978-1-4200-7941-8 .
- ^ Jump up to: а б Ма, Ю.А.; Чен, Ю.; Джин, К.; Фламмарион, Н.; Джордан, Мичиган (2018). «Выборка может быть быстрее, чем оптимизация» . Труды Национальной академии наук . 116 (42): 20881–20885. arXiv : 1811.08413 . дои : 10.1073/pnas.1820003116 . ПМК 6800351 . ПМИД 31570618 .