Стохастический контроль

Стохастическое управление или стохастическое оптимальное управление — это подобласть теории управления , которая занимается существованием неопределенности либо в наблюдениях, либо в шуме, который управляет эволюцией системы. Разработчик системы предполагает, руководствуясь байесовской вероятностью , что случайный шум с известным распределением вероятностей влияет на эволюцию и наблюдение переменных состояния. Стохастическое управление направлено на разработку временного пути управляемых переменных, который выполняет желаемую задачу управления с минимальными затратами, каким-то образом определенными, несмотря на наличие этого шума. ^[1] Контекст может быть либо дискретным , либо непрерывным .

Достоверность эквивалентности

Чрезвычайно хорошо изученной формулировкой стохастического управления является линейно-квадратичное гауссово управление . Здесь модель линейна, целевая функция представляет собой математическое ожидание квадратичной формы, а возмущения чисто аддитивны. Основным результатом для централизованных систем с дискретным временем и только аддитивной неопределенностью является свойство эквивалентности достоверности : ^[2] что оптимальное решение по управлению в этом случае такое же, как и при отсутствии аддитивных возмущений. Это свойство применимо ко всем централизованным системам с линейными уравнениями эволюции, квадратичной функцией стоимости и шумом, входящим в модель только аддитивно; квадратичное предположение позволяет законам оптимального управления, которые следуют свойству определенности-эквивалентности, быть линейными функциями наблюдений контроллеров.

Любое отклонение от приведенных выше предположений — нелинейное уравнение состояния, неквадратичная целевая функция, шум в мультипликативных параметрах модели или децентрализация управления — приводит к тому, что свойство эквивалентности уверенности не выполняется. Например, его неспособность обеспечить децентрализованный контроль была продемонстрирована в контрпримере Витсенхаузена .

Дискретное время

В контексте дискретного времени лицо, принимающее решения, наблюдает переменную состояния, возможно, с шумом наблюдений, в каждый период времени. Целью может быть оптимизация суммы ожидаемых значений нелинейной (возможно, квадратичной) целевой функции за все периоды времени от настоящего до последнего рассматриваемого периода или оптимизация значения целевой функции только за последний период. . В каждый период времени проводятся новые наблюдения, и управляющие переменные должны быть оптимально скорректированы. Поиск оптимального решения для настоящего времени может включать повторение матричного уравнения Риккати назад во времени от последнего периода до настоящего периода.

В случае дискретного времени с неопределенностью значений параметров в матрице перехода (определяющей влияние текущих значений переменных состояния на их собственную эволюцию) и/или матрице управляющего воздействия уравнения состояния, но все же с линейным состоянием уравнением и квадратичной целевой функцией, уравнение Риккати все еще может быть получено для итерации назад к решению каждого периода, даже если эквивалентность по достоверности не применяется. ^[2]^гл.13^[3] Случай дискретного времени с неквадратичной функцией потерь, но только с аддитивными возмущениями, также может быть обработан, хотя и с большими сложностями. ^[4]

Пример

Типичная спецификация задачи стохастического линейно-квадратического управления с дискретным временем состоит в минимизации ^[2]^{: гл. 13,}^[3]^[5]

\mathrm {E} _{1}\sum _{t=1}^{S}\left[y_{t}^{\mathsf {T}}Qy_{t}+u_{t}^{\mathsf {T}}Ru_{t}\right]

где E ₁ — оператор ожидаемого значения, зависящий от y ₀ , верхний индекс T указывает на транспонирование матрицы , а S — временной горизонт, подчиняющийся уравнению состояния

y_{t}=A_{t}y_{t-1}+B_{t}u_{t},

где y — n вектор наблюдаемых переменных состояния размером × 1, u — k вектор управляющих переменных размером × 1, A _t — по времени t реализация стохастической n × n матрицы перехода состояний , B _t по времени t — реализация стохастическая n × k матрица множителей управления размером , а Q ( n × n ) и R ( k × k ) — известные симметричные положительно определенные матрицы стоимости. Мы предполагаем, что каждый элемент A и B совместно независимо и одинаково распределен во времени, поэтому операции ожидаемого значения не обязательно должны быть обусловлены временем.

Индукцию назад во времени можно использовать для получения оптимального решения управления в каждый момент времени. ^[2]^{: гл. 13}

u_{t}^{*}=-\left[\mathrm {E} \left(B^{\mathsf {T}}X_{t}B+R\right)\right]^{-1}\mathrm {E} \left(B^{\mathsf {T}}X_{t}A\right)y_{t-1},

с симметричной положительно определенной матрицей себестоимости X, развивающейся назад во времени от $X_{S}=Q$ в соответствии с

X_{t-1}=Q+\mathrm {E} \left[A^{\mathsf {T}}X_{t}A\right]-\mathrm {E} \left[A^{\mathsf {T}}X_{t}B\right]\left[\mathrm {E} (B^{\mathsf {T}}X_{t}B+R)\right]^{-1}\mathrm {E} \left(B^{\mathsf {T}}X_{t}A\right),

которое известно как динамическое уравнение Риккати с дискретным временем этой задачи. Единственная информация, необходимая относительно неизвестных параметров в матрицах A и B, — это ожидаемое значение и дисперсия каждого элемента каждой матрицы, а также ковариации между элементами одной и той же матрицы и между элементами разных матриц.

Оптимальное управляющее решение не пострадает, если в уравнении состояния также появятся аддитивные шоки с нулевым средним, если они не коррелируют с параметрами в A и B. матрицах Но если они так коррелированы, то оптимальное решение управления для каждого периода содержит дополнительный вектор аддитивных констант. Если в уравнении состояния появляется аддитивный постоянный вектор, то оптимальное управляющее решение для каждого периода снова содержит дополнительный аддитивный постоянный вектор.

Стационарную характеристику X (если она существует), соответствующую задаче с бесконечным горизонтом, в которой S стремится к бесконечности, можно найти путем многократного итерирования динамического уравнения для X, пока оно не сходится; тогда X характеризуется удалением индексов времени из его динамического уравнения.

Непрерывное время

Если модель находится в непрерывном времени, контроллер знает состояние системы в каждый момент времени. Цель состоит в том, чтобы максимизировать либо интеграл, например, вогнутой функции переменной состояния на горизонте от нуля времени (настоящее время) до конечного времени T , либо вогнутую функцию переменной состояния в некоторую будущую дату T . С течением времени постоянно проводятся новые наблюдения, а управляющие переменные постоянно корректируются оптимальным образом.

Прогнозирующее управление стохастической моделью

В литературе выделяют два типа ПДК для стохастических систем; Робастное прогнозирующее управление моделью и прогнозирующее управление стохастической моделью (SMPC). Робастное прогнозирующее управление моделью — это более консервативный метод, который учитывает наихудший сценарий в процедуре оптимизации. Однако этот метод, как и другие робастные средства управления, ухудшает общую производительность контроллера, а также применим только для систем с ограниченными неопределенностями. Альтернативный метод SMPC учитывает мягкие ограничения, которые ограничивают риск нарушения вероятностного неравенства. ^[6]

В финансах

При подходе с непрерывным временем в финансовом контексте переменной состояния в стохастическом дифференциальном уравнении обычно является богатство или собственный капитал, а средствами контроля являются доли, размещаемые в каждый момент времени в различных активах. Учитывая распределение активов, выбранное в любой момент, определяющими факторами изменения богатства обычно являются стохастическая доходность активов и процентная ставка по безрисковому активу. Область стохастического контроля значительно развилась с 1970-х годов, особенно в его приложениях к финансам. Роберт Мертон использовал стохастический контроль для изучения оптимальных портфелей безопасных и рискованных активов. ^[7] Его работа и работа Блэка-Шоулза изменили природу финансовой литературы . Влиятельные трактовки математических учебников были сделаны Флемингом и Ришелем . ^[8] и Флемингом и Сонером . ^[9] Эти методы были применены Штейном к финансовому кризису 2007–2008 годов . ^[10]

Максимизация, скажем, ожидаемого логарифма собственного капитала на конечную дату T зависит от стохастических процессов, связанных с компонентами богатства. ^[11] В этом случае в непрерывном времени уравнение Ито является основным инструментом анализа. В случае, когда максимизация представляет собой интеграл от вогнутой функции полезности на горизонте (0, Т ), используется динамическое программирование. Здесь нет эквивалентности достоверности, как в более старой литературе, поскольку коэффициенты контрольных переменных, то есть доходность, получаемая выбранными долями активов, являются стохастическими.

См. также

Ссылки

^ Определение с сайта Answers.com
^ Перейти обратно: ^а ^б ^с ^д Чоу, Грегори П. (1976). Анализ и управление динамическими экономическими системами . Нью-Йорк: Уайли. ISBN 0-471-15616-7 .
^ Перейти обратно: ^а ^б Турновский, Стивен (1976). «Оптимальная политика стабилизации для стохастических линейных систем: случай коррелированных мультипликативных и аддитивных возмущений». Обзор экономических исследований . 43 (1): 191–94. дои : 10.2307/2296614 . JSTOR 2296614 .
^ Митчелл, Дуглас В. (1990). «Управляемый риск-чувствительный контроль, основанный на приблизительной ожидаемой полезности». Экономическое моделирование . 7 (2): 161–164. дои : 10.1016/0264-9993(90)90018-Y .
^ Турновский, Стивен (1974). «Свойства устойчивости оптимальной экономической политики». Американский экономический обзор . 64 (1): 136–148. JSTOR 1814888 .
^ Хашемиан; Армау (2017). «Стохастический расчет MPC для процесса двухкомпонентного гранулирования». Слушания IEEE : 4386–4391. arXiv : 1704.04710 . Бибкод : 2017arXiv170404710H .
^ Мертон, Роберт (1990). Финансы непрерывного времени . Блэквелл.
^ Флеминг, В.; Ришель, Р. (1975). Детерминированное и стохастическое оптимальное управление . ISBN 0-387-90155-8 .
^ Флеминг, В.; Сонер, М. (2006). Управляемые марковские процессы и вязкостные решения . Спрингер.
^ Штейн, Дж. Л. (2012). Стохастический оптимальный контроль и финансовый кризис в США . Спрингер-Сайенс.
^ Баррейро-Гомес, Дж.; Тембине, Х. (2019). «Экономика токенов блокчейна: взгляд на игру среднего поля» . Доступ IEEE . 7 : 64603–64613. дои : 10.1109/ACCESS.2019.2917517 . ISSN 2169-3536 .

Дальнейшее чтение

Диксит, Авинаш (1991). «Упрощенная трактовка теории оптимального регулирования броуновского движения». Журнал экономической динамики и контроля . 15 (4): 657–673. дои : 10.1016/0165-1889(91)90037-2 .
Ён, Джионгмин; Чжоу, Сюнь Юй (1999). Стохастические управления: гамильтоновы системы и уравнения HJB . Нью-Йорк: Спрингер. ISBN 0-387-98723-1 .

[1] Определение с сайта Answers.com

[Chow-2] Перейти обратно: ^а ^б ^с ^д Чоу, Грегори П. (1976). Анализ и управление динамическими экономическими системами . Нью-Йорк: Уайли. ISBN 0-471-15616-7 .

[Turnovsky-3] Перейти обратно: ^а ^б Турновский, Стивен (1976). «Оптимальная политика стабилизации для стохастических линейных систем: случай коррелированных мультипликативных и аддитивных возмущений». Обзор экономических исследований . 43 (1): 191–94. дои : 10.2307/2296614 . JSTOR 2296614 .

[4] Митчелл, Дуглас В. (1990). «Управляемый риск-чувствительный контроль, основанный на приблизительной ожидаемой полезности». Экономическое моделирование . 7 (2): 161–164. дои : 10.1016/0264-9993(90)90018-Y .

[5] Турновский, Стивен (1974). «Свойства устойчивости оптимальной экономической политики». Американский экономический обзор . 64 (1): 136–148. JSTOR 1814888 .

[6] Хашемиан; Армау (2017). «Стохастический расчет MPC для процесса двухкомпонентного гранулирования». Слушания IEEE : 4386–4391. arXiv : 1704.04710 . Бибкод : 2017arXiv170404710H .

[7] Мертон, Роберт (1990). Финансы непрерывного времени . Блэквелл.

[8] Флеминг, В.; Ришель, Р. (1975). Детерминированное и стохастическое оптимальное управление . ISBN 0-387-90155-8 .

[9] Флеминг, В.; Сонер, М. (2006). Управляемые марковские процессы и вязкостные решения . Спрингер.

[stein-10] Штейн, Дж. Л. (2012). Стохастический оптимальный контроль и финансовый кризис в США . Спрингер-Сайенс.

[11] Баррейро-Гомес, Дж.; Тембине, Х. (2019). «Экономика токенов блокчейна: взгляд на игру среднего поля» . Доступ IEEE . 7 : 64603–64613. дои : 10.1109/ACCESS.2019.2917517 . ISSN 2169-3536 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]