Метод Барзилаи-Борвейна

Метод Барзилаи -Борвейна. ^[1] — это итерационный метод градиентного спуска для неограниченной оптимизации с использованием любого из двух размеров шага, полученных на основе линейного тренда последних двух итераций. Этот метод и его модификации глобально сходятся в мягких условиях. ^[2]^[3] и конкурентоспособно работать с методами сопряженных градиентов для решения многих задач. ^[4] Независимо от самой цели, он также может решать некоторые системы линейных и нелинейных уравнений.

Метод

Чтобы минимизировать выпуклую функцию $f:\mathbb {R} ^{n}\rightarrow \mathbb {R}$ с вектором градиента $g$ в точку $x$ , пусть есть две предыдущие итерации, $g_{k-1}(x_{k-1})$ и $g_{k}(x_{k})$ , в котором $x_{k}=x_{k-1}-\alpha _{k-1}g_{k-1}$ где $\alpha _{k-1}$ — размер шага предыдущей итерации (не обязательно размер шага Барзилаи-Борвейна), и для краткости пусть $\Delta x=x_{k}-x_{k-1}$ и $\Delta g=g_{k}-g_{k-1}$ .

Итерация Барзилай-Борвейна (BB) $x_{k+1}=x_{k}-\alpha _{k}g_{k}$ где размер шага $\alpha _{k}$ либо

[длинный шаг ББ] $\alpha _{k}^{LONG}={\frac {\Delta x\cdot \Delta x}{\Delta x\cdot \Delta g}}$ , или

[короткий шаг ББ] $\alpha _{k}^{SHORT}={\frac {\Delta x\cdot \Delta g}{\Delta g\cdot \Delta g}}$ .

Барзилай-Борвейн применяется также к системам уравнений $g(x)=0$ для $g:\mathbb {R} ^{n}\rightarrow \mathbb {R} ^{n}$ в котором якобиан $g$ положительно определен в симметричной части, т. е. $\Delta x\cdot \Delta g$ обязательно положительный.

Вывод

Несмотря на свою простоту и свойства оптимальности, классический метод наискорейшего спуска Коши ^[5] для неограниченной оптимизации часто работает плохо. ^[6] Это побудило многих предложить альтернативные направления поиска, такие как метод сопряженных градиентов . Вместо этого Джонатан Барзилай и Джонатан Борвейн предложили новые размеры шага для градиента путем аппроксимации метода квазиньютона , создавая скалярную аппроксимацию гессиана, оцененного на основе конечных разностей между двумя точками оценки градиента, причем это две самые последние итерации.

В квазиньютоновской итерации

$x_{k+1}=x_{k}-B^{-1}g(x_{k})$

где $B$ является некоторым приближением матрицы Якобиана $g$ (т.е. гессиан целевой функции), который удовлетворяет уравнению секущего $B_{k}\Delta x_{k}=\Delta g_{k}$ . Барзилай и Борвейн упрощают $B$ со скаляром $1/\alpha$ , которое обычно не может точно удовлетворить уравнению секущего, но аппроксимирует его как ${\frac {1}{\alpha }}\Delta x\approx \Delta g$ . Аппроксимации по двум критериям наименьших квадратов:

[1] Свернуть $\|\Delta x/\alpha -\Delta g\|^{2}$ относительно $\alpha$ , что дает длинный шаг BB, или

[2] Свернуть $\|\Delta x-\alpha \Delta g\|^{2}$ относительно $\alpha$ , что дает короткий шаг BB.

Характеристики

В одном измерении оба размера шага BB равны и такие же, как и в классическом методе секущих .

Размер длинного шага BB такой же, как и линеаризованный шаг Коши, т.е. первая оценка с использованием метода секущих для поиска прямой (также для линейных задач ). Размер короткого шага BB такой же, как и линеаризованный шаг с минимальной невязкой. BB применяет размеры шага к вектору прямого направления для следующей итерации вместо предыдущего вектора направления, как если бы для другого шага поиска строки.

Барзилай и Борвейн доказали, что их метод сходится R -сверхлинейно для квадратичной минимизации в двух измерениях. Райдан ^[2] демонстрирует сходимость в целом для квадратичных задач. Сходимость обычно немонотонна, то есть ни целевая функция, ни величина остатка или градиента не обязательно уменьшаются с каждой итерацией при успешной сходимости к решению.

Если $f$ квадратичная функция с гессианом $A$ , $1/\alpha ^{LONG}$ является Рэлея коэффициентом $A$ по вектору $\Delta x$ , и $1/\alpha ^{SHORT}$ является коэффициентом Рэлея $A$ по вектору ${\sqrt {A}}\Delta x$ (здесь берём ${\sqrt {A}}$ как решение $({\sqrt {A}})^{T}{\sqrt {A}}=A$ , подробнее в разделе «Определенная матрица» ).

Флетчер ^[4] сравнил его вычислительную производительность с методами сопряженных градиентов (CG) и обнаружил, что CG стремится быстрее для линейных задач, но BB часто быстрее для нелинейных задач по сравнению с применимыми методами на основе CG.

BB имеет низкие требования к объему памяти и подходит для больших систем с миллионами элементов. $x$ .

${\frac {\alpha ^{SHORT}}{\alpha ^{LONG}}}=cos^{2}($ угол между $\Delta x$ и $\Delta g)$ .

Модификации и связанные с ними методы

С тех пор, как его продемонстрировал Райдан, ^[3] BB часто применяется вместе с немонотонной защитной стратегией Гриппо, Лампариелло и Люсиди. ^[7] Это допускает некоторое повышение цели, но чрезмерное повышение инициирует поиск линии с возвратом с использованием меньших размеров шага, чтобы обеспечить глобальную конвергенцию. Флетчер ^[4] обнаруживает, что предоставление более широких пределов немонотонности приводит к более эффективной сходимости.

Другие ^[8]^[9]^[10]^[11] определили размер шага, представляющий собой среднее геометрическое между размерами длинного и короткого шага BB, который демонстрирует аналогичные свойства.

Ссылки

^ Барзилай, Джонатан; Борвейн, Джонатан М. (1988). «Методы двухточечного градиента размера шага». Журнал IMA численного анализа . 8 : 141–148. дои : 10.1093/иманум/8.1.141 .
^ Jump up to: ^а ^б Райдан, Маркос (1993). «О выборе Барзилаи и Борвейна длины шага для градиентного метода». Журнал IMA численного анализа . 13 (3): 321–326. дои : 10.1093/иманум/13.3.321 . hdl : 1911/101676 .
^ Jump up to: ^а ^б Райдан, М. Градиентный метод Барзилаи и Борвейна для крупномасштабной задачи неограниченной минимизации. SIAM Journal of Optimization 7, стр. 26–33. 1997 год
^ Jump up to: ^а ^б ^с Флетчер, Р. (2005). «О методе Барзилаи-Борвейна». Ин Ци, Л.; Тео, К.; Ян, X. (ред.). Оптимизация и управление с помощью приложений. Прикладная оптимизация. Том. 96. Бостон: Спрингер. стр. 235–256. ISBN 0-387-24254-6
^ А. Коши. Общий метод решения систем одновременных уравнений. ЧР акад. наук. Париж, 25: 536–538, 1847 г.
^ Х. Акаике, О последовательном преобразовании распределения вероятностей и его применении к анализу метода оптимального градиента, Ann. Инст. Статист. Math Tokyo, 11 (1959), стр. 1–17.
^ Л. Гриппо, Ф. Лампариелло и С. Люсиди, «Техника немонотонной линии поиска для метода Ньютона», SIAM J. Numer. Анал., вып. 23, стр. 707–716, 1986 г.
^ Варадхан Р., Роланд С. (2008). Простые и глобально конвергентные методы ускорения сходимости любого EM-алгоритма. Скандинавский статистический журнал, 35(2), 335-353.
^ Ю. Х. Дай, М. Аль-Баали и К. Янг, «Положительный размер шага, подобный Барзилай-Борвейну, и расширение для симметричных линейных систем», в «Численном анализе и оптимизации». Чам, Швейцария: Springer, 2015, стр. 59–75.
^ Дай, Ю-Хонг; Хуан, Якуи; Лю, Синь-Вэй (2018). «Семейство методов спектрального градиента для оптимизации». arXiv : 1812.02974 [ math.OC ].
^ Шуай Хуан, Чжун Ван, Новый немонотонный метод спектральных невязок для негладких нелинейных уравнений, Журнал вычислительной и прикладной математики 313, стр. 82-101, Elsevier, 2017

Внешние ссылки

Джонатан Барзилай

[1] Барзилай, Джонатан; Борвейн, Джонатан М. (1988). «Методы двухточечного градиента размера шага». Журнал IMA численного анализа . 8 : 141–148. дои : 10.1093/иманум/8.1.141 .

[:1-2] Jump up to: ^а ^б Райдан, Маркос (1993). «О выборе Барзилаи и Борвейна длины шага для градиентного метода». Журнал IMA численного анализа . 13 (3): 321–326. дои : 10.1093/иманум/13.3.321 . hdl : 1911/101676 .

[:2-3] Jump up to: ^а ^б Райдан, М. Градиентный метод Барзилаи и Борвейна для крупномасштабной задачи неограниченной минимизации. SIAM Journal of Optimization 7, стр. 26–33. 1997 год

[:0-4] Jump up to: ^а ^б ^с Флетчер, Р. (2005). «О методе Барзилаи-Борвейна». Ин Ци, Л.; Тео, К.; Ян, X. (ред.). Оптимизация и управление с помощью приложений. Прикладная оптимизация. Том. 96. Бостон: Спрингер. стр. 235–256. ISBN 0-387-24254-6

[5] А. Коши. Общий метод решения систем одновременных уравнений. ЧР акад. наук. Париж, 25: 536–538, 1847 г.

[6] Х. Акаике, О последовательном преобразовании распределения вероятностей и его применении к анализу метода оптимального градиента, Ann. Инст. Статист. Math Tokyo, 11 (1959), стр. 1–17.

[7] Л. Гриппо, Ф. Лампариелло и С. Люсиди, «Техника немонотонной линии поиска для метода Ньютона», SIAM J. Numer. Анал., вып. 23, стр. 707–716, 1986 г.

[8] Варадхан Р., Роланд С. (2008). Простые и глобально конвергентные методы ускорения сходимости любого EM-алгоритма. Скандинавский статистический журнал, 35(2), 335-353.

[9] Ю. Х. Дай, М. Аль-Баали и К. Янг, «Положительный размер шага, подобный Барзилай-Борвейну, и расширение для симметричных линейных систем», в «Численном анализе и оптимизации». Чам, Швейцария: Springer, 2015, стр. 59–75.

[10] Дай, Ю-Хонг; Хуан, Якуи; Лю, Синь-Вэй (2018). «Семейство методов спектрального градиента для оптимизации». arXiv : 1812.02974 [ math.OC ].

[11] Шуай Хуан, Чжун Ван, Новый немонотонный метод спектральных невязок для негладких нелинейных уравнений, Журнал вычислительной и прикладной математики 313, стр. 82-101, Elsevier, 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]