Jump to content

Проксимальные градиентные методы обучения

Методы проксимального градиента (прямое обратное расщепление) для обучения — это область исследований в области теории оптимизации и статистического обучения , которая изучает алгоритмы для общего класса задач выпуклой регуляризации , где штраф за регуляризацию может быть не дифференцируемым . Одним из таких примеров является регуляризация (также известная как Лассо) формы

Методы проксимального градиента предлагают общую основу для решения задач регуляризации из теории статистического обучения со штрафами, адаптированными к конкретной задаче. [1] [2] Такие индивидуальные штрафы могут помочь создать определенную структуру в решениях проблем, например, разреженность (в случае лассо ) или групповую структуру (в случае группового лассо ).

Соответствующая информация

[ редактировать ]

Методы проксимального градиента применимы в самых разных сценариях решения задач выпуклой оптимизации вида

где является выпуклым и дифференцируемым с липшицевым непрерывным градиентом , выпуклая , полунепрерывная снизу функция, которая, возможно, недифференцируема, и — некоторое множество, обычно гильбертово пространство . Обычный критерий сводит к минимуму тогда и только тогда, когда в выпуклой дифференцируемой ситуации теперь заменяется на

где обозначает субдифференциал вещественной выпуклой функции .

Дана выпуклая функция важным оператором, который следует учитывать, является его проксимальный оператор определяется

которое корректно определено из-за строгой выпуклости норма. Проксимальный оператор можно рассматривать как обобщение проекции . [1] [3] [4] Мы видим, что оператор близости важен, потому что это минимизация проблемы тогда и только тогда, когда

где любое положительное действительное число. [1]

Разложение Моро

[ редактировать ]

Одним из важных методов, связанных с методами проксимального градиента, является разложение Моро, которое разлагает тождественный оператор как сумму двух операторов близости. [1] А именно, пусть быть полунепрерывной снизу выпуклой функцией в векторном пространстве. . Определим его сопряженное по Фенхелю быть функцией

Общая форма разложения Моро гласит, что для любого и любой что

для чего подразумевает, что . [1] [3] Разложение Моро можно рассматривать как обобщение обычного ортогонального разложения векторного пространства, аналогично тому факту, что операторы близости являются обобщениями проекций. [1]

В некоторых ситуациях может оказаться проще вычислить оператор близости для сопряженного числа. вместо функции , поэтому можно применить разложение Моро. Это относится к групповому лассо .

Регуляризация Лассо

[ редактировать ]

Рассмотрим регуляризованную задачу минимизации эмпирического риска с квадратичными потерями и с норма как штраф за регуляризацию:

где Проблему регуляризации иногда называют лассо ( оператор наименьшего абсолютного сжатия и выбора ). [5] Такой Проблемы регуляризации интересны тем, что они влекут за собой разреженные решения, т. е. решения задача минимизации имеет относительно мало ненулевых компонентов. Лассо можно рассматривать как выпуклую релаксацию невыпуклой задачи.

где обозначает «норма», то есть количество ненулевых элементов вектора. . Разреженные решения представляют особый интерес в теории обучения с точки зрения интерпретируемости результатов: разреженное решение может выявить небольшое количество важных факторов. [5]

Решение L 1 оператора близости

[ редактировать ]

Для простоты ограничимся проблемой, где . Чтобы решить проблему

мы рассматриваем нашу целевую функцию в двух частях: выпуклый дифференцируемый член и выпуклая функция . Обратите внимание, что не является строго выпуклым.

Вычислим оператор близости для . Сначала найдем альтернативную характеристику оператора близости следующее:

Для это легко вычислить : ая запись это именно

Используя приведенную выше перехарактеризацию оператора близости, для выбора и у нас есть это определяется по записи

который известен как мягкого порога оператор . [1] [6]

Итерационные схемы с фиксированной запятой

[ редактировать ]

Чтобы окончательно решить проблему лассо, мы рассмотрим уравнение неподвижной точки, показанное ранее:

Учитывая, что мы явно вычислили форму оператора близости, мы можем определить стандартную процедуру итерации с фиксированной точкой. А именно, исправить некоторые первоначальные и для определять

Обратите внимание здесь на эффективный компромисс между эмпирической ошибкой и штраф за регуляризацию . Этот метод с фиксированной точкой разделил эффект двух разных выпуклых функций, которые составляют целевую функцию, на шаг градиентного спуска ( ) и шаг мягкой установки порога (через ).

Сходимость этой схемы с неподвижной точкой хорошо изучена в литературе. [1] [6] и гарантируется при соответствующем выборе размера шага и функция потерь (например, взятая здесь квадратичная потеря). Ускоренные методы были предложены Нестеровым в 1983 году, которые улучшают скорость сходимости при определенных предположениях о регулярности . [7] Подобные методы широко изучались в предыдущие годы. [8] Для более общих задач обучения, когда оператор близости не может быть вычислен явно для некоторого члена регуляризации. , такие схемы с фиксированной точкой все еще могут быть реализованы с использованием аппроксимаций как градиента, так и оператора близости. [4] [9]

Практические соображения

[ редактировать ]

За последнее десятилетие произошли многочисленные разработки в методах выпуклой оптимизации , которые повлияли на применение методов проксимального градиента в теории статистического обучения. Здесь мы рассмотрим несколько важных тем, которые могут значительно улучшить практическую алгоритмическую производительность этих методов. [2] [10]

Адаптивный размер шага

[ редактировать ]

В итерационной схеме с фиксированной точкой

можно разрешить переменный размер шага вместо константы . В литературе было предложено множество схем адаптивного размера шага. [1] [4] [11] [12] Применение этих схем [2] [13] предполагают, что они могут обеспечить существенное увеличение количества итераций, необходимых для сходимости с фиксированной точкой.

Эластичная сеть (регуляризация смешанной нормы)

[ редактировать ]

Эластичная чистая регуляризация предлагает альтернативу чистой регуляризация. Проблема лассо ( ) регуляризация предполагает штрафной срок , который не является строго выпуклым. Следовательно, решения где — некоторая эмпирическая функция потерь, не обязательно должна быть уникальной. Этого часто можно избежать путем включения дополнительного строго выпуклого члена, такого как Штраф за регуляризацию нормы. Например, можно рассмотреть задачу

где Для срок наказания теперь строго выпукла, и, следовательно, задача минимизации теперь допускает единственное решение. Замечено, что при достаточно малых , дополнительный срок наказания действует как предобуславливатель и может существенно улучшить сходимость, не оказывая при этом отрицательного влияния на разреженность решений. [2] [14]

Использование структуры группы

[ редактировать ]

Методы проксимального градиента обеспечивают общую основу, применимую к широкому кругу задач статистической теории обучения . Определенные проблемы в обучении часто могут включать данные, которые имеют дополнительную структуру, известную априори . За последние несколько лет произошли новые разработки, которые включают информацию о групповой структуре для предоставления методов, адаптированных к различным приложениям. Здесь мы рассмотрим несколько таких методов.

Групповое лассо

[ редактировать ]

Групповое лассо — это обобщение метода лассо , когда объекты группируются в непересекающиеся блоки. [15] Предположим, что объекты сгруппированы в блоки . Здесь в качестве штрафа за регуляризацию мы принимаем

что представляет собой сумму норма соответствующих векторов признаков для разных групп. Аналогичный анализ оператора близости, описанный выше, можно использовать для вычисления оператора близости для этого штрафа. Там, где штраф за лассо имеет оператор близости, который устанавливает мягкое пороговое значение для каждого отдельного компонента, оператор близости для группового лассо является мягким пороговым значением для каждой группы. Для группы у нас есть оператор близости дается

где это ая группа.

В отличие от лассо, вывод оператора близости для группового лассо основан на разложении Моро . Здесь оператор близости сопряженного группового аркана становится проекцией на шар двойственной нормы . [2]

Другие структуры группы

[ редактировать ]

В отличие от задачи группового лассо, где объекты группируются в непересекающиеся блоки, может случиться так, что сгруппированные объекты перекрываются или имеют вложенную структуру. Такие обобщения группового лассо рассматривались в самых разных контекстах. [16] [17] [18] [19] Для перекрывающихся групп один общий подход известен как лассо скрытых групп , который вводит скрытые переменные для учета перекрытия. [20] [21] Структуры вложенных групп изучаются при прогнозировании иерархических структур и с помощью ориентированных ациклических графов . [18]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж г час я Комбеттс, Патрик Л.; Вайс, Валери Р. (2005). «Восстановление сигнала путем проксимального разделения вперед-назад». Мультимасштабная модель. Симул . 4 (4): 1168–1200. дои : 10.1137/050626090 . S2CID   15064954 .
  2. ^ Jump up to: а б с д и Моски, С.; Росаско, Л.; Маттео, С.; Верри, А.; Вилла, С. (2010). «Решение структурированной регуляризации разреженности с помощью проксимальных методов». Машинное обучение и обнаружение знаний в базах данных . Конспекты лекций по информатике. Том. 6322. стр. 418–433. дои : 10.1007/978-3-642-15883-4_27 . ISBN  978-3-642-15882-7 .
  3. ^ Jump up to: а б Моро, Ж.-Ж. (1962). «Двойственные выпуклые функции и проксимальные точки в гильбертовом пространстве». Доклады Академии наук, серия А. 255 : 2897–2899. МР   0144188 . Збл   0118.10502 .
  4. ^ Jump up to: а б с Баушке, Х.Х., и Комбеттс, PL (2011). Выпуклый анализ и теория монотонных операторов в гильбертовых пространствах . Спрингер. {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  5. ^ Jump up to: а б Тибширани, Р. (1996). «Регрессионное сжатие и отбор с помощью лассо». JR Стат. Соц. Сер. Б. ​1. 58 (1): 267–288. дои : 10.1111/j.2517-6161.1996.tb02080.x .
  6. ^ Jump up to: а б Добеши, И.; Дефризе, М.; Де Моль, К. (2004). «Итеративный алгоритм определения порога для линейной обратной задачи с ограничением разреженности». Комм. Чистое приложение. Математика . 57 (11): 1413–1457. arXiv : math/0307152 . дои : 10.1002/cpa.20042 . S2CID   1438417 .
  7. ^ Нестеров, Юрий (1983). «Метод решения задачи выпуклого программирования со скоростью сходимости ". Советская математика — Доклады . 27 (2): 372–376.
  8. ^ Нестеров, Юрий (2004). Вводные лекции по выпуклой оптимизации . Академическое издательство Клювер.
  9. ^ Вилла, С.; Сальзо, С.; Бальдасарре, Л.; Верри, А. (2013). «Ускоренные и неточные алгоритмы вперед-назад». СИАМ Дж. Оптим . 23 (3): 1607–1633. CiteSeerX   10.1.1.416.3633 . дои : 10.1137/110844805 . S2CID   11379846 .
  10. ^ Бах, Ф.; Дженаттон, Р.; Майрал, Дж.; Обозинский, гл. (2011). «Оптимизация со штрафами, вызывающими разреженность». Основы и тенденции в машинном обучении . 4 (1): 1–106. arXiv : 1108.0775 . Бибкод : 2011arXiv1108.0775B . дои : 10.1561/2200000015 . S2CID   56356708 .
  11. ^ Лорис, И.; Бертеро, М.; Де Моль, К.; Занелла, Р.; Занни, Л. (2009). «Ускорение методов проецирования градиента для -ограниченное восстановление сигнала по правилам выбора длины шага». Applied & Comp. Harmonic Analysis . 27 (2): 247–254. arXiv : 0902.4424 . doi : 10.1016/j.acha.2009.02.003 . S2CID   18093882 .
  12. ^ Райт, С.Дж.; Новак, РД; Фигейредо, MAT (2009). «Разреженная реконструкция сепарабельной аппроксимацией». IEEE Транс. Процесс изображения . 57 (7): 2479–2493. Бибкод : 2009ITSP...57.2479W . CiteSeerX   10.1.1.115.9334 . дои : 10.1109/TSP.2009.2016892 . S2CID   7399917 .
  13. ^ Лорис, Игнас (2009). «О работоспособности алгоритмов минимизации -штрафные функционалы». Обратные задачи . 25 (3): 035008. arXiv : 0710.4082 . Bibcode : 2009InvPr..25c5008L . doi : 10.1088/0266-5611/25/3/035008 . S2CID   14213443 .
  14. ^ Де Моль, К.; Де Вито, Э.; Росаско, Л. (2009). «Регуляризация эластичных сетей в теории обучения». Дж. Сложность . 25 (2): 201–230. arXiv : 0807.3423 . дои : 10.1016/j.jco.2009.01.002 . S2CID   7167292 .
  15. ^ Юань, М.; Лин, Ю. (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными» . JR Стат. Соц. Б. 68 (1): 49–67. дои : 10.1111/j.1467-9868.2005.00532.x . S2CID   6162124 .
  16. ^ Чен, X.; Лин, К.; Ким, С.; Карбонелл, Дж.Г.; Син, EP (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии». Энн. Прил. Стат . 6 (2): 719–752. arXiv : 1005.4717 . дои : 10.1214/11-AOAS514 . S2CID   870800 .
  17. ^ Моски, С.; Вилла, С.; Верри, А.; Росаско, Л. (2010). «Примарно-двойственный алгоритм групповой разреженной регуляризации с перекрывающимися группами». НИПС . 23 : 2604–2612.
  18. ^ Jump up to: а б Дженаттон, Р.; Одибер, Ж.-Ю.; Бах, Ф. (2011). «Структурированный выбор переменных с нормами, вызывающими разреженность». Дж. Мах. Учиться. Рез . 12 : 2777–2824. arXiv : 0904.3523 . Бибкод : 2009arXiv0904.3523J .
  19. ^ Чжао, П.; Роча, Г.; Ю, Б. (2009). «Семейство составных абсолютных штрафов для сгруппированного и иерархического выбора переменных». Энн. Стат . 37 (6А): 3468–3497. arXiv : 0909.0411 . Бибкод : 2009arXiv0909.0411Z . дои : 10.1214/07-AOS584 . S2CID   9319285 .
  20. ^ Обозинский, Гийом; Джейкоб, Лоран; Верт, Жан-Филипп (2011). «Групповое лассо с перекрытиями: подход скрытого группового лассо». arXiv : 1110.0413 [ stat.ML ].
  21. ^ Вилла, Сильвия; Росаско, Лоренцо; Моски, София; Верри, Алессандро (2012). «Проксимальные методы наказания скрытых групповых лассо». arXiv : 1209.0368 [ math.OC ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 51dfda7827ad7e6b47b2806be139f35e__1715616180
URL1:https://arc.ask3.ru/arc/aa/51/5e/51dfda7827ad7e6b47b2806be139f35e.html
Заголовок, (Title) документа по адресу, URL1:
Proximal gradient methods for learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)