Jump to content

Стохастическая аппроксимация одновременных возмущений

Стохастическая аппроксимация одновременных возмущений (SPSA) — это алгоритмический метод оптимизации систем с несколькими неизвестными параметрами . Это тип алгоритма стохастической аппроксимации . В качестве метода оптимизации он подходит для крупномасштабных моделей населения, адаптивного моделирования, оптимизации моделирования и моделирования атмосферы . Многие примеры представлены на веб-сайте SPSA http://www.jhuapl.edu/SPSA . Подробную книгу по этой теме можно найти в книге Bhatnagar et al. (2013). Ранней статьей на эту тему является Сполл (1987), а основополагающей статьей, дающей ключевую теорию и обоснование, является Сполл (1992).

SPSA — это метод спуска, способный находить глобальные минимумы, разделяющий это свойство с другими методами, такими как имитация отжига . Его главной особенностью является градиентная аппроксимация, требующая всего двух измерений целевой функции независимо от размерности оптимизационной задачи. Напомним, что мы хотим найти оптимальное управление с потерейфункция :

Стохастическая аппроксимация обеих конечных разностей (FDSA)и SPSA используют один и тот же итерационный процесс:

где представляет собой повторять, — оценка градиента целевой функции оценивается в , и – положительная числовая последовательность, сходящаяся к 0. Если является p -мерным вектором, Компонент симметричной оценки градиента конечной разности:

ФД:

1 ≤i ≤p , где - единичный вектор с 1 в место и — небольшое положительное число, которое уменьшается с ростом n . С помощью этого метода 2p оценки J для каждого необходимы. Когда p велико, эта оценка теряет эффективность.

Пусть сейчас — случайный вектор возмущения. Компонент оценки градиента стохастических возмущений:

СП:

Заметим, что FD возмущает одновременно только одно направление, тогда как оценка SP возмущает все направления одновременно (числитель одинаков во всех p- компонентах). Количество измерений функции потерь, необходимое в методе SPSA для каждого всегда равно 2, независимо от размерности p . Таким образом, SPSA использует в p раз меньше оценок функций, чем FDSA, что делает его намного более эффективным.

Простые эксперименты с p=2 показали, что SPSA сходится за то же количество итераций, что и FDSA. Последний следует примерно по направлению самого крутого спуска и ведет себя как градиентный метод. С другой стороны, SPSA со случайным направлением поиска не следует точно градиентному пути. Однако в среднем он почти отслеживает его, потому что градиентная аппроксимация является почти несмещенной. оценку градиента, как показано в следующей лемме.

Лемма о сходимости [ править ]

Обозначим через

смещение в оценке . Предположим, что все взаимно независимы с нулевым средним, ограниченным вторыммоменты и равномерно ограничено. Затем →0 п.п. 1.

доказательства Эскиз

Основная идея состоит в том, чтобы использовать кондиционирование на выражать а затем использовать разложение Тейлора второго порядка и . После алгебраических манипуляций с использованием нулевого среднего и независимости , мы получаем

Результат следует из гипотезы о том, что →0.

Далее мы остановимся на некоторых гипотезах, согласно которым сходится по вероятности к множеству глобальных минимумов . Эффективностьметод зависит от формы , значения параметров и и распределение членов возмущения . Во-первых, параметры алгоритма должны удовлетворятьследующие условия:

  • >0, →0, когда n→∝ и . Хорошим выбором будет а>0;
  • , где с>0, ;
  • должны быть взаимно независимыми случайными величинами с нулевым средним, симметрично распределенными относительно нуля, с . Обратные первый и второй моменты должно быть конечным.

Хороший выбор для распределение Радемахера , т.е. Бернулли +-1 с вероятностью 0,5. Возможны и другие варианты, но учтите, что равномерное и нормальное распределения использовать нельзя, поскольку они не удовлетворяют условиям конечного обратного момента.

Функция потерь J(u) должна быть трижды непрерывно дифференцируемой , а отдельные элементы третьей производной должны быть ограничены: . Также, как .

Кроме того, должно быть липшицевым, ограниченным и ОДУ должно иметь единственное решение для каждого начального условия.В этих и некоторых других условиях сходится по вероятности к множеству глобальных минимумов J(u) (см. Марьяк и Чин, 2008).

Показано, что дифференцируемость не требуется: для сходимости достаточно непрерывности и выпуклости. [1]

методов второго порядка ( Расширение Ньютона )

Известно, что стохастическая версия стандартного (детерминированного) алгоритма Ньютона-Рафсона (метод «второго порядка») обеспечивает асимптотически оптимальную или близкую к оптимальной форму стохастической аппроксимации. SPSA также можно использовать для эффективной оценки матрицы Гессе функции потерь на основе измерений зашумленных потерь или измерений зашумленного градиента (стохастических градиентов). Как и в случае с базовым методом SPSA, на каждой итерации требуется лишь небольшое фиксированное количество измерений потерь или измерений градиента, независимо от размерности задачи p . См. краткое обсуждение в разделе Стохастический градиентный спуск .

Ссылки [ править ]

  • Бхатнагар С., Прасад Х.Л. и Прашант Л.А. (2013), Стохастические рекурсивные алгоритмы для оптимизации: методы одновременного возмущения , Springer [1] .
  • Хироками Т., Маэда Ю., Цукада Х. (2006) «Оценка параметров с использованием стохастической аппроксимации одновременных возмущений», Электротехника в Японии, 154 (2), 30–3 [2]
  • Марьяк, Дж.Л., и Чин, округ Колумбия (2008), «Глобальная случайная оптимизация с помощью стохастической аппроксимации с одновременными возмущениями», Транзакции IEEE по автоматическому управлению , том. 53, стр. 780-783.
  • Сполл, Дж. К. (1987), «Техника стохастической аппроксимации для генерации оценок параметров максимального правдоподобия», Труды Американской конференции по контролю , Миннеаполис, Миннесота, июнь 1987 г., стр. 1161–1167.
  • Сполл, Дж. К. (1992), «Многомерная стохастическая аппроксимация с использованием одновременной аппроксимации градиента возмущений», IEEE Transactions on Auto Control , vol. 37(3), стр. 332–341.
  • Сполл, Дж. К. (1998). «Обзор метода одновременных возмущений для эффективной оптимизации» 2 . Технический дайджест Johns Hopkins APL , 19 (4), 482–492.
  • Сполл, Дж. К. (2003) Введение в стохастический поиск и оптимизацию: оценка, моделирование и контроль , Wiley. ISBN   0-471-33052-3 (глава 7)
  1. ^ Он, Ин; Фу, Майкл С.; Стивен И., Маркус (август 2003 г.). «Сходимость стохастической аппроксимации одновременных возмущений для недифференцируемой оптимизации» . Транзакции IEEE при автоматическом управлении . 48 (8): 1459–1463. дои : 10.1109/TAC.2003.815008 . Проверено 6 марта 2022 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8fbb3248afe0d5840e5c2e253f527279__1702495080
URL1:https://arc.ask3.ru/arc/aa/8f/79/8fbb3248afe0d5840e5c2e253f527279.html
Заголовок, (Title) документа по адресу, URL1:
Simultaneous perturbation stochastic approximation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)