Метод Ньютона в оптимизации

В исчислении . метод Ньютона (также называемый Ньютоном-Рафсоном ) представляет собой итерационный метод поиска корней функции дифференцируемой , которые являются решениями уравнения . Таким образом, метод Ньютона можно применить к производной функции дважды дифференцируемой найти корни производной (решения задачи ), также известные как критические точки . Эти решения могут быть минимумами, максимумами или седловыми точками; см. раздел «Несколько переменных» в «Критической точке (математика) , а также раздел «Геометрическая интерпретация» в этой статье. Это актуально при оптимизации , целью которой является поиск (глобальных) минимумов функции .
метод Ньютона
[ редактировать ]Центральной проблемой оптимизации является минимизация функций. Рассмотрим сначала случай одномерных функций, т. е. функций одной действительной переменной. Позже мы рассмотрим более общий и более практически полезный многомерный случай.
Дана дважды дифференцируемая функция , мы стремимся решить задачу оптимизации
Метод Ньютона пытается решить эту проблему путем построения последовательности от первоначального предположения (отправной точки) который сходится к минимизатору из используя последовательность тейлоровских аппроксимаций второго порядка вокруг итераций. второго Разложение Тейлора f вокруг порядка является
Следующая итерация определяется так, чтобы минимизировать это квадратичное приближение в и установка . Если вторая производная положительна, квадратичное приближение является выпуклой функцией , а его минимум можно найти, приравняв производную к нулю. С
минимум достигается за
Собрав все вместе, метод Ньютона выполняет итерацию
Геометрическая интерпретация
[ редактировать ]что на каждой итерации он сводится к подгонке параболы к графику Геометрическая интерпретация метода Ньютона состоит в том , по пробной стоимости , имеющий тот же наклон и кривизну, что и график в этой точке, а затем переходя к максимуму или минимуму этой параболы (в более высоких измерениях это также может быть седловая точка ), см. ниже. Обратите внимание, что если оказывается квадратичной функцией , то точный экстремум находится за один шаг.
Высшие измерения
[ редактировать ]Приведенную выше итерационную схему можно обобщить до размеров, заменив производную на градиент (разные авторы используют разные обозначения градиента, в том числе ), и обратную вторую производную с обратной матрицей Гессе (разные авторы используют разные обозначения для гессиана, в том числе ). Таким образом, получается итерационная схема
Часто метод Ньютона модифицируется, чтобы включить небольшой размер шага. вместо :
Это часто делается для того, чтобы условия Вульфа или гораздо более простое и эффективное условие Армихо на каждом этапе метода выполнялись . Для размеров шага, отличных от 1, этот метод часто называют методом расслабленного или затухающего Ньютона.
Конвергенция
[ редактировать ]Если f — сильно выпуклая функция с липшицевым гессианом, то при условии, что достаточно близко к , последовательность сгенерированный методом Ньютона, будет сходиться к (обязательно уникальному) минимизатору из квадратично быстро. [ 1 ] То есть,
Вычисление направления Ньютона
[ редактировать ]Нахождение обратной гессианы в больших размерностях для вычисления направления Ньютона может оказаться дорогостоящей операцией. В таких случаях вместо прямого обращения гессиана лучше вычислить вектор как решение системы линейных уравнений
которая может быть решена различными факторизациями или приближенно (но с большой точностью) с использованием итерационных методов . Многие из этих методов применимы только к определенным типам уравнений, например, факторизация Холецкого и сопряженный градиент будут работать только в том случае, если является положительно определенной матрицей. Хотя это может показаться ограничением, часто это полезный индикатор того, что что-то пошло не так; например, если решается задача минимизации и не является положительно определенным, то итерации сходятся к седловой точке , а не к минимуму.
С другой стороны, если выполняется оптимизация с ограничениями (например, с использованием множителей Лагранжа ), проблема может стать проблемой поиска седловой точки, и в этом случае гессиан будет симметричным неопределенным, а решение нужно будет сделать с помощью метода, который будет работать для таких, как вариант факторизации Холецкого или метод сопряженных остатков .
Также существуют различные квазиньютоновские методы , в которых аппроксимация гессиана (или непосредственно обратного ему) строится на основе изменений градиента.
Если гессиан близок к необратимой матрице , инвертированный гессиан может быть численно нестабильным, и решение может расходиться. В этом случае в прошлом были опробованы определенные обходные пути, которые имели разный успех при определенных проблемах. Например, можно изменить гессиан, добавив корректирующую матрицу чтобы сделать положительно определенный. Один из подходов состоит в том, чтобы диагонализировать гессиан и выбрать так что имеет те же собственные векторы, что и гессиан, но каждое отрицательное собственное значение заменено на .
Подход, используемый в алгоритме Левенберга – Марквардта (который использует приближенный гессиан), заключается в добавлении масштабированной единичной матрицы к гессиану: , при этом масштаб корректируется на каждой итерации по мере необходимости. Для больших и небольшой гессиан, итерации будут вести себя как градиентный спуск с размером шага . Это приводит к более медленной, но более надежной сходимости, когда гессиан не дает полезной информации.
Некоторые предостережения
[ редактировать ]Метод Ньютона в своей первоначальной версии имеет несколько предостережений:
- Это не работает, если гессиан не обратим. Это ясно из самого определения метода Ньютона, требующего обращения к гессиану.
- Он может вообще не сходиться, но может войти в цикл, имеющий более 1 точки. См. метод Ньютона § Анализ отказов .
- Вместо локального минимума он может сходиться к седловой точке, см. раздел «Геометрическая интерпретация» этой статьи.
Популярные модификации метода Ньютона, такие как квазиньютоновские методы или упомянутый выше алгоритм Левенберга-Марквардта, также имеют оговорки:
Например, обычно требуется, чтобы функция стоимости была (сильно) выпуклой, а гессиан был глобально ограниченным или липшицевым, например, это упоминается в разделе «Сходимость» этой статьи. Если посмотреть на статьи Левенберга и Марквардта в справочнике по алгоритму Левенберга–Марквардта , которые являются первоисточниками упомянутого метода, то можно увидеть, что в статье Левенберга принципиально нет теоретического анализа, в то время как в статье Марквардта анализирует только локальную ситуацию и не доказывает результат глобальной сходимости. Можно сравнить с методом поиска линии с возвратом для градиентного спуска, который имеет хорошую теоретическую гарантию при более общих предположениях, может быть реализован и хорошо работает в практических крупномасштабных задачах, таких как глубокие нейронные сети.
См. также
[ редактировать ]- Квазиньютоновский метод
- Градиентный спуск
- Алгоритм Гаусса – Ньютона
- Алгоритм Левенберга – Марквардта
- Доверительный регион
- Оптимизация
- Метод Нелдера-Мида
- Самосогласованная функция — функция, для которой метод Ньютона имеет очень хорошую глобальную скорость сходимости. [ 2 ] : Раздел 6.2
Примечания
[ редактировать ]- ^ Носедаль, Хорхе; Райт, Стивен Дж. (2006). Численная оптимизация (2-е изд.). Нью-Йорк: Спрингер. п. 44. ИСБН 0387303030 .
- ^ Немировский и Бен-Тал (2023). «Оптимизация III: Выпуклая оптимизация» (PDF) .
Ссылки
[ редактировать ]- Авриэль, Мордехай (2003). Нелинейное программирование: анализ и методы . Дуврское издательство. ISBN 0-486-43227-0 .
- Боннан, Ж. Фредерик; Гилберт, Дж. Чарльз; Лемарешаль, Клод ; Сагастисабал, Клаудия А. (2006). Численная оптимизация: Теоретические и практические аспекты . Universitext (Второе исправленное издание перевода французского издания 1997 г.). Берлин: Springer-Verlag. дои : 10.1007/978-3-540-35447-5 . ISBN 3-540-35445-Х . МР 2265882 .
- Флетчер, Роджер (1987). Практические методы оптимизации (2-е изд.). Нью-Йорк: Джон Уайли и сыновья . ISBN 978-0-471-91547-8 .
- Гивенс, Джефф Х.; Хотинг, Дженнифер А. (2013). Вычислительная статистика . Хобокен, Нью-Джерси: John Wiley & Sons. стр. 24–58. ISBN 978-0-470-53331-4 .
- Носедаль, Хорхе; Райт, Стивен Дж. (1999). Численная оптимизация . Спрингер-Верлаг. ISBN 0-387-98793-2 .
- Ковалев Дмитрий; Мищенко Константин; Рихтарик, Питер (2019). «Стохастические методы Ньютона и кубические методы Ньютона с простыми локальными линейно-квадратичными скоростями». arXiv : 1912.01597 [ cs.LG ].
Внешние ссылки
[ редактировать ]- Коренблюм, Дэниел (29 августа 2015 г.). «Визуализация Ньютона-Рафсона (1D)» . Блоки . ffe9653768cb80dfc0da.