Jump to content

Метод Ньютона в оптимизации

Сравнение градиентного спуска (зеленый) и метода Ньютона (красный) минимизации функции (с небольшим шагом). Метод Ньютона использует информацию о кривизне (т.е. вторую производную), чтобы выбрать более прямой путь.

В исчислении . метод Ньютона (также называемый Ньютоном-Рафсоном ) представляет собой итерационный метод поиска корней функции дифференцируемой , которые являются решениями уравнения . Таким образом, метод Ньютона можно применить к производной функции дважды дифференцируемой найти корни производной (решения задачи ), также известные как критические точки . Эти решения могут быть минимумами, максимумами или седловыми точками; см. раздел «Несколько переменных» в «Критической точке (математика) , а также раздел «Геометрическая интерпретация» в этой статье. Это актуально при оптимизации , целью которой является поиск (глобальных) минимумов функции .

метод Ньютона

[ редактировать ]

Центральной проблемой оптимизации является минимизация функций. Рассмотрим сначала случай одномерных функций, т. е. функций одной действительной переменной. Позже мы рассмотрим более общий и более практически полезный многомерный случай.

Дана дважды дифференцируемая функция , мы стремимся решить задачу оптимизации

Метод Ньютона пытается решить эту проблему путем построения последовательности от первоначального предположения (отправной точки) который сходится к минимизатору из используя последовательность тейлоровских аппроксимаций второго порядка вокруг итераций. второго Разложение Тейлора f вокруг порядка является

Следующая итерация определяется так, чтобы минимизировать это квадратичное приближение в и установка . Если вторая производная положительна, квадратичное приближение является выпуклой функцией , а его минимум можно найти, приравняв производную к нулю. С

минимум достигается за

Собрав все вместе, метод Ньютона выполняет итерацию

Геометрическая интерпретация

[ редактировать ]

что на каждой итерации он сводится к подгонке параболы к графику Геометрическая интерпретация метода Ньютона состоит в том , по пробной стоимости , имеющий тот же наклон и кривизну, что и график в этой точке, а затем переходя к максимуму или минимуму этой параболы (в более высоких измерениях это также может быть седловая точка ), см. ниже. Обратите внимание, что если оказывается квадратичной функцией , то точный экстремум находится за один шаг.

Высшие измерения

[ редактировать ]

Приведенную выше итерационную схему можно обобщить до размеров, заменив производную на градиент (разные авторы используют разные обозначения градиента, в том числе ), и обратную вторую производную с обратной матрицей Гессе (разные авторы используют разные обозначения для гессиана, в том числе ). Таким образом, получается итерационная схема

Часто метод Ньютона модифицируется, чтобы включить небольшой размер шага. вместо :

Это часто делается для того, чтобы условия Вульфа или гораздо более простое и эффективное условие Армихо на каждом этапе метода выполнялись . Для размеров шага, отличных от 1, этот метод часто называют методом расслабленного или затухающего Ньютона.

Конвергенция

[ редактировать ]

Если f — сильно выпуклая функция с липшицевым гессианом, то при условии, что достаточно близко к , последовательность сгенерированный методом Ньютона, будет сходиться к (обязательно уникальному) минимизатору из квадратично быстро. [ 1 ] То есть,

Вычисление направления Ньютона

[ редактировать ]

Нахождение обратной гессианы в больших размерностях для вычисления направления Ньютона может оказаться дорогостоящей операцией. В таких случаях вместо прямого обращения гессиана лучше вычислить вектор как решение системы линейных уравнений

которая может быть решена различными факторизациями или приближенно (но с большой точностью) с использованием итерационных методов . Многие из этих методов применимы только к определенным типам уравнений, например, факторизация Холецкого и сопряженный градиент будут работать только в том случае, если является положительно определенной матрицей. Хотя это может показаться ограничением, часто это полезный индикатор того, что что-то пошло не так; например, если решается задача минимизации и не является положительно определенным, то итерации сходятся к седловой точке , а не к минимуму.

С другой стороны, если выполняется оптимизация с ограничениями (например, с использованием множителей Лагранжа ), проблема может стать проблемой поиска седловой точки, и в этом случае гессиан будет симметричным неопределенным, а решение нужно будет сделать с помощью метода, который будет работать для таких, как вариант факторизации Холецкого или метод сопряженных остатков .

Также существуют различные квазиньютоновские методы , в которых аппроксимация гессиана (или непосредственно обратного ему) строится на основе изменений градиента.

Если гессиан близок к необратимой матрице , инвертированный гессиан может быть численно нестабильным, и решение может расходиться. В этом случае в прошлом были опробованы определенные обходные пути, которые имели разный успех при определенных проблемах. Например, можно изменить гессиан, добавив корректирующую матрицу чтобы сделать положительно определенный. Один из подходов состоит в том, чтобы диагонализировать гессиан и выбрать так что имеет те же собственные векторы, что и гессиан, но каждое отрицательное собственное значение заменено на .

Подход, используемый в алгоритме Левенберга – Марквардта (который использует приближенный гессиан), заключается в добавлении масштабированной единичной матрицы к гессиану: , при этом масштаб корректируется на каждой итерации по мере необходимости. Для больших и небольшой гессиан, итерации будут вести себя как градиентный спуск с размером шага . Это приводит к более медленной, но более надежной сходимости, когда гессиан не дает полезной информации.

Некоторые предостережения

[ редактировать ]

Метод Ньютона в своей первоначальной версии имеет несколько предостережений:

  1. Это не работает, если гессиан не обратим. Это ясно из самого определения метода Ньютона, требующего обращения к гессиану.
  2. Он может вообще не сходиться, но может войти в цикл, имеющий более 1 точки. См. метод Ньютона § Анализ отказов .
  3. Вместо локального минимума он может сходиться к седловой точке, см. раздел «Геометрическая интерпретация» этой статьи.

Популярные модификации метода Ньютона, такие как квазиньютоновские методы или упомянутый выше алгоритм Левенберга-Марквардта, также имеют оговорки:

Например, обычно требуется, чтобы функция стоимости была (сильно) выпуклой, а гессиан был глобально ограниченным или липшицевым, например, это упоминается в разделе «Сходимость» этой статьи. Если посмотреть на статьи Левенберга и Марквардта в справочнике по алгоритму Левенберга–Марквардта , которые являются первоисточниками упомянутого метода, то можно увидеть, что в статье Левенберга принципиально нет теоретического анализа, в то время как в статье Марквардта анализирует только локальную ситуацию и не доказывает результат глобальной сходимости. Можно сравнить с методом поиска линии с возвратом для градиентного спуска, который имеет хорошую теоретическую гарантию при более общих предположениях, может быть реализован и хорошо работает в практических крупномасштабных задачах, таких как глубокие нейронные сети.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Носедаль, Хорхе; Райт, Стивен Дж. (2006). Численная оптимизация (2-е изд.). Нью-Йорк: Спрингер. п. 44. ИСБН  0387303030 .
  2. ^ Немировский и Бен-Тал (2023). «Оптимизация III: Выпуклая оптимизация» (PDF) .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4a70ec386345d90a7a3cfecd43a24f27__1724592000
URL1:https://arc.ask3.ru/arc/aa/4a/27/4a70ec386345d90a7a3cfecd43a24f27.html
Заголовок, (Title) документа по адресу, URL1:
Newton's method in optimization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)