Метод Барзилаи-Борвейна
Метод Барзилаи -Борвейна. [1] — это итерационный метод градиентного спуска для неограниченной оптимизации с использованием любого из двух размеров шага, полученных на основе линейного тренда последних двух итераций. Этот метод и его модификации глобально сходятся в мягких условиях. [2] [3] и конкурентоспособно работать с методами сопряженных градиентов для решения многих задач. [4] Независимо от самой цели, он также может решать некоторые системы линейных и нелинейных уравнений.
Метод
[ редактировать ]Чтобы минимизировать выпуклую функцию с вектором градиента в точку , пусть есть две предыдущие итерации, и , в котором где — размер шага предыдущей итерации (не обязательно размер шага Барзилаи-Борвейна), и для краткости пусть и .
Итерация Барзилай-Борвейна (BB) где размер шага либо
[длинный шаг ББ] , или
[короткий шаг ББ] .
Барзилай-Борвейн применяется также к системам уравнений для в котором якобиан положительно определен в симметричной части, т. е. обязательно положительный.
Вывод
[ редактировать ]Несмотря на свою простоту и свойства оптимальности, классический метод наискорейшего спуска Коши [5] для неограниченной оптимизации часто работает плохо. [6] Это побудило многих предложить альтернативные направления поиска, такие как метод сопряженных градиентов . Вместо этого Джонатан Барзилай и Джонатан Борвейн предложили новые размеры шага для градиента путем аппроксимации метода квазиньютона , создавая скалярную аппроксимацию гессиана, оцененного на основе конечных разностей между двумя точками оценки градиента, причем это две самые последние итерации.
В квазиньютоновской итерации
где является некоторым приближением матрицы Якобиана (т.е. гессиан целевой функции), который удовлетворяет уравнению секущего . Барзилай и Борвейн упрощают со скаляром , которое обычно не может точно удовлетворить уравнению секущего, но аппроксимирует его как . Аппроксимации по двум критериям наименьших квадратов:
[1] Свернуть относительно , что дает длинный шаг BB, или
[2] Свернуть относительно , что дает короткий шаг BB.
Характеристики
[ редактировать ]В одном измерении оба размера шага BB равны и такие же, как и в классическом методе секущих .
Размер длинного шага BB такой же, как и линеаризованный шаг Коши, т.е. первая оценка с использованием метода секущих для поиска прямой (также для линейных задач ). Размер короткого шага BB такой же, как и линеаризованный шаг с минимальной невязкой. BB применяет размеры шага к вектору прямого направления для следующей итерации вместо предыдущего вектора направления, как если бы для другого шага поиска строки.
Барзилай и Борвейн доказали, что их метод сходится R -сверхлинейно для квадратичной минимизации в двух измерениях. Райдан [2] демонстрирует сходимость в целом для квадратичных задач. Сходимость обычно немонотонна, то есть ни целевая функция, ни величина остатка или градиента не обязательно уменьшаются с каждой итерацией при успешной сходимости к решению.
Если квадратичная функция с гессианом , является Рэлея коэффициентом по вектору , и является коэффициентом Рэлея по вектору (здесь берём как решение , подробнее в разделе «Определенная матрица» ).
Флетчер [4] сравнил его вычислительную производительность с методами сопряженных градиентов (CG) и обнаружил, что CG стремится быстрее для линейных задач, но BB часто быстрее для нелинейных задач по сравнению с применимыми методами на основе CG.
BB имеет низкие требования к объему памяти и подходит для больших систем с миллионами элементов. .
угол между и .
Модификации и связанные с ними методы
[ редактировать ]С тех пор, как его продемонстрировал Райдан, [3] BB часто применяется вместе с немонотонной защитной стратегией Гриппо, Лампариелло и Люсиди. [7] Это допускает некоторое повышение цели, но чрезмерное повышение инициирует поиск линии с возвратом с использованием меньших размеров шага, чтобы обеспечить глобальную конвергенцию. Флетчер [4] обнаруживает, что предоставление более широких пределов немонотонности приводит к более эффективной сходимости.
Другие [8] [9] [10] [11] определили размер шага, представляющий собой среднее геометрическое между размерами длинного и короткого шага BB, который демонстрирует аналогичные свойства.
Ссылки
[ редактировать ]- ^ Барзилай, Джонатан; Борвейн, Джонатан М. (1988). «Методы двухточечного градиента размера шага». Журнал IMA численного анализа . 8 : 141–148. дои : 10.1093/иманум/8.1.141 .
- ^ Jump up to: а б Райдан, Маркос (1993). «О выборе Барзилаи и Борвейна длины шага для градиентного метода». Журнал IMA численного анализа . 13 (3): 321–326. дои : 10.1093/иманум/13.3.321 . hdl : 1911/101676 .
- ^ Jump up to: а б Райдан, М. Градиентный метод Барзилаи и Борвейна для крупномасштабной задачи неограниченной минимизации. SIAM Journal of Optimization 7, стр. 26–33. 1997 год
- ^ Jump up to: а б с Флетчер, Р. (2005). «О методе Барзилаи-Борвейна». Ин Ци, Л.; Тео, К.; Ян, X. (ред.). Оптимизация и управление с помощью приложений. Прикладная оптимизация. Том. 96. Бостон: Спрингер. стр. 235–256. ISBN 0-387-24254-6
- ^ А. Коши. Общий метод решения систем одновременных уравнений. ЧР акад. наук. Париж, 25: 536–538, 1847 г.
- ^ Х. Акаике, О последовательном преобразовании распределения вероятностей и его применении к анализу метода оптимального градиента, Ann. Инст. Статист. Math Tokyo, 11 (1959), стр. 1–17.
- ^ Л. Гриппо, Ф. Лампариелло и С. Люсиди, «Техника немонотонной линии поиска для метода Ньютона», SIAM J. Numer. Анал., вып. 23, стр. 707–716, 1986 г.
- ^ Варадхан Р., Роланд С. (2008). Простые и глобально конвергентные методы ускорения сходимости любого EM-алгоритма. Скандинавский статистический журнал, 35(2), 335-353.
- ^ Ю. Х. Дай, М. Аль-Баали и К. Янг, «Положительный размер шага, подобный Барзилай-Борвейну, и расширение для симметричных линейных систем», в «Численном анализе и оптимизации». Чам, Швейцария: Springer, 2015, стр. 59–75.
- ^ Дай, Ю-Хонг; Хуан, Якуи; Лю, Синь-Вэй (2018). «Семейство методов спектрального градиента для оптимизации». arXiv : 1812.02974 [ math.OC ].
- ^ Шуай Хуан, Чжун Ван, Новый немонотонный метод спектральных невязок для негладких нелинейных уравнений, Журнал вычислительной и прикладной математики 313, стр. 82-101, Elsevier, 2017