Расширенный метод Лагранжа
Расширенные методы Лагранжа представляют собой определенный класс алгоритмов решения с ограничениями задач оптимизации . Они имеют сходство с методами штрафов в том, что они заменяют задачу оптимизации с ограничениями серией задач без ограничений и добавляют штрафной член к цели , но расширенный метод Лагранжа добавляет еще один член, предназначенный для имитации множителя Лагранжа . Расширенный лагранжиан связан с методом множителей Лагранжа , но не идентичен ему .
С другой стороны, неограниченная цель представляет собой лагранжиан ограниченной задачи с дополнительным штрафным членом ( увеличением ).
Первоначально этот метод был известен как метод множителей и изучался в 1970-х и 1980-х годах как потенциальная альтернатива методам штрафов. Впервые это было обсуждено Магнусом Хестенесом. [1] а затем Майклом Пауэллом в 1969 году. [2] Метод изучался Р. Тирреллом Рокафелларом в связи с двойственностью Фенхеля , особенно в отношении методов проксимальных точек, регуляризации Моро – Йосиды и максимальных монотонных операторов ; эти методы использовались при структурной оптимизации . Этот метод также изучал Дмитрий Берцекас , в частности, в его книге 1982 года: [3] вместе с расширениями, включающими неквадратичные функции регуляризации (например, энтропийную регуляризацию ). Это объединенное исследование привело к появлению «экспоненциального метода множителей», который обрабатывает ограничения-неравенства с помощью дважды дифференцируемой расширенной функции Лагранжа.
С 1970-х годов последовательному квадратичному программированию (SQP) и методам внутренней точки (IPM) уделялось больше внимания, отчасти потому, что в них легче использовать с разреженной матрицей подпрограммы из числового библиотек программного обеспечения , а отчасти потому, что IPM обладают доказанными результатами по сложности с помощью теории. самосогласованных функций . Расширенный метод Лагранжа был обновлен системами оптимизации LANCELOT , ALGENCAN. [4] [5] и AMPL , который позволял использовать методы разреженной матрицы для решения, казалось бы, плотных, но «частично разделимых» задач. Этот метод по-прежнему полезен для решения некоторых проблем. [6]
Примерно в 2007 году произошло возрождение расширенных лагранжевых методов в таких областях, как полное шумоподавление и сжатое измерение . вариант стандартного расширенного метода Лагранжа, который использует частичные обновления (аналогично методу Гаусса – Зейделя для решения линейных уравнений), известный как метод множителей переменного направления или ADMM В частности, некоторое внимание привлек .
Общий метод
[ редактировать ]Рассмотрим решение следующей задачи ограниченной оптимизации:
при условии
где обозначает индексы ограничений равенства. Эту задачу можно решить как серию задач неограниченной минимизации. Для справки, сначала перечислим k- й шаг подхода метода штрафов :
Метод штрафа решает эту проблему, затем на следующей итерации он повторно решает проблему, используя большее значение и использование старого решения в качестве первоначального предположения или «теплого старта».
Расширенный метод Лагранжа использует следующую неограниченную цель:
и после каждой итерации, помимо обновления , переменная также обновляется по правилу
где — решение неограниченной задачи на k -м шаге (т.е. ).
Переменная является оценкой множителя Лагранжа , и точность этой оценки улучшается с каждым шагом. Основное преимущество метода состоит в том, что в отличие от метода штрафов нет необходимости принимать для решения исходной задачи с ограничениями. Из-за наличия члена множителя Лагранжа может оставаться намного меньшим, что позволяет избежать плохой кондиции. [6] Тем не менее, в практических реализациях принято проектировать оценки множителей в большом ограниченном наборе (защитных мерах), что позволяет избежать числовых нестабильностей и приводит к сильной теоретической сходимости. [5]
Метод можно расширить для обработки ограничений-неравенств. Обсуждение практических улучшений см. в ссылках. [6] [5]
Метод переменного направления множителей
[ редактировать ]Метод множителей чередующегося направления (ADMM) представляет собой вариант расширенной схемы Лагранжа, который использует частичные обновления для двойных переменных. Этот метод часто применяется для решения таких задач, как:
Это эквивалентно задаче с ограничениями,
Хотя это изменение может показаться тривиальным, теперь проблему можно решить, используя методы ограниченной оптимизации (в частности, расширенный метод Лагранжа), а целевая функция разделима по x и y . Двойное обновление требует решения функции близости по x и y одновременного ; метод ADMM позволяет решить эту проблему приблизительно, сначала решая для x с фиксированным y , а затем решая для y с фиксированным x . Вместо того, чтобы выполнять итерацию до сходимости (как в методе Якоби ), алгоритм переходит непосредственно к обновлению двойной переменной, а затем повторяет процесс. Это не эквивалентно точной минимизации, но при некоторых предположениях метод все равно сходится к правильному решению. Из-за этого приближения алгоритм отличается от чистого расширенного метода Лагранжа.
ADMM можно рассматривать как применение алгоритма разделения Дугласа-Рэчфорда , а алгоритм Дугласа-Рэчфорда, в свою очередь, является примером алгоритма проксимальной точки ; подробности можно найти в исх. [7] Существует несколько современных пакетов программного обеспечения, в том числе YALL1. [8] (2009), СпаРСА [9] (2009) и САЛЬСА [10] (2009), которые решают задачи поиска и варианты базиса и используют ADMM. Существуют также пакеты, использующие ADMM для решения более общих задач, некоторые из которых могут использовать несколько вычислительных ядер (например, SNAPVX [11] (2015), параАДММ [12] (2016)).
Стохастическая оптимизация
[ редактировать ]Стохастическая оптимизация рассматривает проблему минимизации функции потерь с доступом к зашумленным выборкам функции (градиента). Цель состоит в том, чтобы получить оценку оптимального параметра (минимайзера) для каждой новой выборки. С некоторыми модификациями ADMM можно использовать для стохастической оптимизации. В стохастической ситуации доступны только зашумленные выборки градиента, поэтому используется неточная аппроксимация лагранжиана:
где это изменяющийся во времени размер шага. [13]
ADMM применяется для решения регуляризованных задач, где оптимизация и регуляризация функций могут выполняться локально, а затем координироваться глобально с помощью ограничений. [14] [15] [16] [17]
Проблемы регуляризованной оптимизации особенно актуальны в многомерном режиме, поскольку регуляризация является естественным механизмом преодоления некорректности и поощрения экономичности оптимального решения (например, разреженности и низкого ранга). Эффективность ADMM для решения регуляризованных задач может означать, что он может быть полезен для решения многомерных задач стохастической оптимизации. [18]
Альтернативные подходы
[ редактировать ]- Последовательное квадратичное программирование
- Последовательное линейное программирование
- Последовательное линейно-квадратичное программирование
Программное обеспечение
[ редактировать ]Открытые и платные/коммерческие реализации расширенного метода Лагранжа:
- Accord.NET (реализация расширенного лагранжева оптимизатора на C#)
- ALGLIB (реализации C# и C++ предварительно обусловленного расширенного решателя Лагранжа)
- PENNON (GPL 3, доступна коммерческая лицензия)
- ЛАНСЕЛОТ (бесплатная лицензия для «внутреннего использования», платные коммерческие варианты)
- MINOS (также использует расширенный метод Лагранжа для некоторых типов задач).
- Код для лицензированного Apache 2.0 REASON доступен в Интернете. [19]
- ALGENCAN (реализация расширенного метода Лагранжа на Фортране с гарантиями). Доступно онлайн. [20]
- NLOPT (реализация расширенного лагранжева оптимизатора на C++, доступная из разных языков программирования). [21] [22] ) [23]
- PyProximal (реализация расширенного лагранжевого метода на Python). [24]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Хестенес, MR (1969). «Множители и градиентные методы». Журнал теории оптимизации и приложений . 4 (5): 303–320. дои : 10.1007/BF00927673 . S2CID 121584579 .
- ^ Пауэлл, MJD (1969). «Метод нелинейных ограничений в задачах минимизации». В Флетчере, Р. (ред.). Оптимизация . Нью-Йорк: Академическая пресса. стр. 283–298. ISBN 0-12-260650-7 .
- ^ Берцекас, Дмитрий П. (1996) [1982]. Оптимизация с ограничениями и методы множителей Лагранжа . Афина Сайентифик.
- ^ Андреани, Р.; Биргин, Э.Г.; Мартинес, Х.М.; Шувердт, М.Л. (2007). «О расширенных лагранжевых методах с общими ограничениями нижнего уровня» . SIAM Journal по оптимизации . 18 (4): 1286–1309. дои : 10.1137/060654797 . S2CID 1218538 .
- ^ Jump up to: а б с Биргин и Мартинес (2014)
- ^ Jump up to: а б с Нокедал и Райт (2006) , глава 17
- ^ Экстайн, Дж.; Берцекас, Д.П. (1992). «О методе расщепления Дугласа-Рахфорда и алгоритме проксимальной точки для максимальных монотонных операторов». Математическое программирование . 55 (1–3): 293–318. CiteSeerX 10.1.1.141.6246 . дои : 10.1007/BF01581204 . S2CID 15551627 .
- ^ «YALL1: Ваши АЛГОРИТМЫ для L1» . yall1.blogs.rice.edu .
- ^ «СпаРСА» . www.lx.it.pt.
- ^ «(C)SALSA: решение задач выпуклой оптимизации при восстановлении изображений» . cascais.lx.it.pt .
- ^ «СнапВХ» . Snap.stanford.edu .
- ^ «парADMM/двигатель» . 6 февраля 2021 г. — через GitHub.
- ^ Оуян, Х.; Он, Н.; Тран, Л. и Грей, А.Г. (2013). «Стохастический метод переменных направлений множителей». Материалы 30-й Международной конференции по машинному обучению : 80–88.
- ^ Бойд, С.; Парих, Н.; Чу, Э.; Пелеато Б. и Экстайн Дж. (2011). «Распределенная оптимизация и статистическое обучение с помощью метода множителей переменного направления». Основы и тенденции{\textregistered} в машинном обучении . 3 (1): 1–122. CiteSeerX 10.1.1.360.1664 . дои : 10.1561/2200000016 . S2CID 51789432 .
- ^ Уолберг, Б.; Бойд, С.; Аннергрен, М.; Ван, Ю. (2012). «Алгоритм ADMM для класса задач регуляризованного оценивания полной вариации». arXiv : 1203.1828 [ stat.ML ].
- ^ Эссер, Э.; Чжан, X.; Чан, Т. (2010). «Общая основа класса примитивно-двойственных алгоритмов первого порядка для выпуклой оптимизации в области обработки изображений». SIAM Journal on Imaging Sciences . 3 (4): 1015–1046. дои : 10.1137/09076934X .
- ^ Мота, Дж. ФК; Ксавье, Дж. М.Ф.; Агиар, П. М.К.; Пушель, М. (2012). «Распределенный ADMM для управления моделью с прогнозированием и контроля перегрузки». 2012 IEEE 51-я конференция IEEE по принятию решений и управлению (CDC) . стр. 5110–5115. дои : 10.1109/CDC.2012.6426141 . ISBN 978-1-4673-2066-5 . S2CID 12128421 .
- ^ «Метод множителей чередующегося направления - обзор | Темы ScienceDirect» . www.sciencedirect.com . Проверено 7 августа 2023 г.
- ^ «Битбакет» . bitbucket.org .
- ^ «Проект ТАНГО» . www.ime.usp.br.
- ^ Стамм, Эймерик (15 июля 2022 г.), nloptr , получено 19 июля 2022 г.
- ^ Модуль NLopt для Julia , JuliaOpt, 25 июня 2022 г. , получено 19 июля 2022 г.
- ^ Джонсон, Стивен Г. (14 июля 2022 г.), stevengj/nlopt , получено 19 июля 2022 г.
- ^ «Проект PyProximal» . www.github.com/PyLops/pyproximal .
Библиография
[ редактировать ]- Берцекас, Дмитрий П. (1999), Нелинейное программирование (2-е изд.), Бельмонт, Массачусетс: Athena Scientific , ISBN 978-1-886529-00-7
- Биргин, Э.Г.; Мартинес, Дж. М. (2014), Практические расширенные лагранжевы методы для ограниченной оптимизации , Филадельфия: Общество промышленной и прикладной математики , номер документа : 10.1137/1.9781611973365 , ISBN 978-1-611973-35-8
- Носедаль, Хорхе; Райт, Стивен Дж. (2006), Численная оптимизация (2-е изд.), Берлин, Нью-Йорк: Springer-Verlag , ISBN 978-0-387-30303-1