Принцип максимума Понтрягина

Принцип максимума Понтрягина используется в теории оптимального управления для поиска наилучшего возможного управления для перевода динамической системы из одного состояния в другое, особенно при наличии ограничений на состояние или входные управления. В нем говорится, что для любого оптимального управления вместе с траекторией оптимального состояния необходимо решить так называемую гамильтонову систему, которая представляет собой двухточечную краевую задачу плюс условие максимума гамильтониана управления . ^{[ а ]} Эти необходимые условия становятся достаточными при выполнении определенных условий выпуклости целевой функции и функции ограничений. ^{[ 1 ]}^{[ 2 ]}

Принцип максимума был сформулирован в 1956 году российским математиком Львом Понтрягиным и его учениками. ^{[ 3 ]}^{[ 4 ]} и его первоначальное применение заключалось в максимизации конечной скорости ракеты. ^{[ 5 ]} Результат был получен с использованием идей классического вариационного исчисления . ^{[ 6 ]} После небольшого возмущения оптимального управления рассматривается член первого порядка разложения Тейлора относительно возмущения; обращение возмущения к нулю приводит к вариационному неравенству, из которого следует принцип максимума. ^{[ 7 ]}

Значение принципа максимума, широко считающегося важной вехой в теории оптимального управления, заключается в том, что максимизировать гамильтониан намного проще, чем исходную бесконечномерную задачу управления; вместо максимизации в функциональном пространстве задача преобразуется в точечную оптимизацию. ^{[ 8 ]} Похожая логика приводит к принципу оптимальности Беллмана — родственному подходу к задачам оптимального управления, который утверждает, что оптимальная траектория остаётся оптимальной в промежуточные моменты времени. ^{[ 9 ]} Полученное уравнение Гамильтона-Якоби-Беллмана обеспечивает необходимое и достаточное условие оптимума и допускает прямое распространение на стохастические задачи оптимального управления, тогда как принцип максимума этого не делает. ^{[ 7 ]} Однако, в отличие от уравнения Гамильтона-Якоби-Беллмана, которое должно выполняться во всем пространстве состояний, чтобы быть действительным, принцип максимума Понтрягина потенциально более эффективен в вычислительном отношении, поскольку условия, которые он определяет, должны выполняться только для определенной траектории.

Обозначения

Для набора ${\mathcal {U}}$ и функции

\Psi :\mathbb {R} ^{n}\to \mathbb {R}

,

H:\mathbb {R} ^{n}\times {\mathcal {U}}\times \mathbb {R} ^{n}\times \mathbb {R} \to \mathbb {R}

,

L:\mathbb {R} ^{n}\times {\mathcal {U}}\to \mathbb {R}

,

f:\mathbb {R} ^{n}\times {\mathcal {U}}\to \mathbb {R} ^{n}

,

мы используем следующие обозначения:

\Psi _{T}(x(T))=\left.{\frac {\partial \Psi (x)}{\partial T}}\right|_{x=x(T)}\,

,

\Psi _{x}(x(T))={\begin{bmatrix}\left.{\frac {\partial \Psi (x)}{\partial x_{1}}}\right|_{x=x(T)}&\cdots &\left.{\frac {\partial \Psi (x)}{\partial x_{n}}}\right|_{x=x(T)}\end{bmatrix}}

,

H_{x}(x^{*},u^{*},\lambda ^{*},t)={\begin{bmatrix}\left.{\frac {\partial H}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*},\lambda =\lambda ^{*}}&\cdots &\left.{\frac {\partial H}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*},\lambda =\lambda ^{*}}\end{bmatrix}}

,

L_{x}(x^{*},u^{*})={\begin{bmatrix}\left.{\frac {\partial L}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\cdots &\left.{\frac {\partial L}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\end{bmatrix}}

,

f_{x}(x^{*},u^{*})={\begin{bmatrix}\left.{\frac {\partial f_{1}}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\cdots &\left.{\frac {\partial f_{1}}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\\\vdots &\ddots &\vdots \\\left.{\frac {\partial f_{n}}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\ldots &\left.{\frac {\partial f_{n}}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\end{bmatrix}}

.

Формальная формулировка необходимых условий для задач минимизации.

Здесь показаны необходимые условия минимизации функционала.

Рассмотрим n-мерную динамическую систему с переменной состояния $x\in \mathbb {R} ^{n}$ , и управляющая переменная $u\in {\mathcal {U}}$ , где ${\mathcal {U}}$ – множество допустимых управлений. Эволюция системы определяется состоянием и управлением согласно дифференциальному уравнению ${\dot {x}}=f(x,u)$ . Пусть начальное состояние системы будет $x_{0}$ и пусть эволюция системы контролируется в течение периода времени со значениями $t\in [0,T]$ . Последнее определяется следующим дифференциальным уравнением:

{\dot {x}}=f(x,u),\quad x(0)=x_{0},\quad u(t)\in {\mathcal {U}},\quad t\in [0,T]

Траектория управления $u:[0,T]\to {\mathcal {U}}$ следует выбирать в зависимости от поставленной цели. Цель – функциональный $J$ определяется

J=\Psi (x(T))+\int _{0}^{T}L{\big (}x(t),u(t){\big )}\,dt

,

где $L(x,u)$ можно интерпретировать как норму затрат на осуществление контроля. $u$ в штате $x$ , и $\Psi (x)$ можно интерпретировать как цену за попадание в состояние $x$ . Конкретный выбор $L,\Psi$ зависит от приложения.

Ограничения на динамику системы можно присоединить к лагранжиану $L$ путем введения изменяющегося во времени множителя Лагранжа вектора $\lambda$ , элементы которого называются стоатами системы. Это мотивирует построение гамильтониана $H$ определено для всех $t\in [0,T]$ к:

H{\big (}x(t),u(t),\lambda (t),t{\big )}=\lambda ^{\rm {T}}(t)\cdot f{\big (}x(t),u(t){\big )}+L{\big (}x(t),u(t){\big )}

где $\lambda ^{\rm {T}}$ это транспонирование $\lambda$ .

Принцип минимума Понтрягина гласит, что оптимальная траектория состояния $x^{*}$ , оптимальное управление $u^{*}$ и соответствующий вектор множителя Лагранжа $\lambda ^{*}$ должен минимизировать гамильтониан $H$ так что

H{\big (}x^{*}(t),u^{*}(t),\lambda ^{*}(t),t{\big )}\leq H{\big (}x(t),u,\lambda (t),t{\big )}

( 1 )

на все времена $t\in [0,T]$ и для всех допустимых управляющих входов $u\in {\mathcal {U}}$ . Здесь траектория вектора множителя Лагранжа $\lambda$ является решением уравнения Костата и его терминальных условий:

-{\dot {\lambda }}^{\rm {T}}(t)=H_{x}{\big (}x^{*}(t),u^{*}(t),\lambda (t),t{\big )}=\lambda ^{\rm {T}}(t)\cdot f_{x}{\big (}x^{*}(t),u^{*}(t){\big )}+L_{x}{\big (}x^{*}(t),u^{*}(t){\big )}

( 2 )

\lambda ^{\rm {T}}(T)=\Psi _{x}(x(T))

( 3 )

Если $x(T)$ фиксировано, то эти три условия в (1)-(3) являются необходимыми условиями оптимального управления.

Если конечное состояние $x(T)$ не фиксировано (т. е. его дифференциальная вариация не равна нулю), существует дополнительное условие

\Psi _{T}(x(T))+H(T)=0

( 4 )

Эти четыре условия в (1)-(4) являются необходимыми условиями оптимального управления.

См. также

Множители Лагранжа в банаховых пространствах , метод Лагранжа в вариационном исчислении

Примечания

^ Является ли экстремальное значение максимальным или минимальным, зависит от соглашения о знаках, используемого для определения гамильтониана. Историческая условность ведет к максимуму, а значит, к принципу максимума. В последние годы его чаще называют просто принципом Понтрягина, без использования прилагательных максимум или минимум.

Ссылки

^ Мангасарян, OL (1966). «Достаточные условия оптимального управления нелинейными системами». SIAM Journal по контролю . 4 (1): 139–152. дои : 10.1137/0304013 .
^ Камен, Мортон И .; Шварц, Нэнси Л. (1971). «Достаточные условия в теории оптимального управления». Журнал экономической теории . 3 (2): 207–214. дои : 10.1016/0022-0531(71)90018-4 .
^ Болтянский, В.; Мартини, Х.; Солтан, В. (1998). «Принцип максимума – как он появился?» . Геометрические методы и задачи оптимизации . Нью-Йорк: Спрингер. стр. 204–227. ISBN 0-7923-5454-0 .
^ Гамкрелидзе, Р.В. (1999). «Открытие принципа максимума». Журнал динамических систем и систем управления . 5 (4): 437–451. дои : 10.1023/A:1021783020548 . S2CID 122690986 . Перепечатано в Болибрух, А.А. ; и др., ред. (2006). Математические события двадцатого века . Берлин: Шпрингер. стр. 85–99. ISBN 3-540-23235-4 .
^ Для первых опубликованных работ см. ссылки в Фуллер, AT (1963). «Библиография принципа максимума Понтрягина». Дж. Электроника и управление . 15 (5): 513–517. дои : 10.1080/00207216308937602 .
^ МакШейн, EJ (1989). «Вариационное исчисление с самого начала через теорию оптимального управления». СИАМ Дж. Оптимальное управление . 27 (5): 916–939. дои : 10.1137/0327049 .
^ Jump up to: ^а ^б Йонг, Дж.; Чжоу, XY (1999). «Принцип максимума и стохастические гамильтоновы системы». Стохастическое управление: гамильтоновы системы и уравнения HJB . Нью-Йорк: Спрингер. стр. 101–156 . ISBN 0-387-98723-1 .
^ Састри, Шанкар (29 марта 2009 г.). «Конспект лекций 8. Оптимальное управление и динамические игры» (PDF) .
^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. дои : 10.1007/BF01102352 . S2CID 122333807 .

Дальнейшее чтение

Геринг, HP (2007). Оптимальное управление с помощью инженерных приложений . Спрингер. ISBN 978-3-540-69437-3 .
Кирк, Делавэр (1970). Теория оптимального управления: Введение . Прентис Холл. ISBN 0-486-43484-2 .
Ли, Э.Б.; Маркус, Л. (1967). Основы теории оптимального управления . Нью-Йорк: Уайли.
Зайерстад, Атле; Сидсетер, Кнут (1987). Теория оптимального управления с экономическими приложениями . Амстердам: Северная Голландия. ISBN 0-444-87923-4 .

Внешние ссылки

«Принцип максимума Понтрягина» , Математическая энциклопедия , EMS Press , 2001 [1994]

[1] Является ли экстремальное значение максимальным или минимальным, зависит от соглашения о знаках, используемого для определения гамильтониана. Историческая условность ведет к максимуму, а значит, к принципу максимума. В последние годы его чаще называют просто принципом Понтрягина, без использования прилагательных максимум или минимум.

[2] Мангасарян, OL (1966). «Достаточные условия оптимального управления нелинейными системами». SIAM Journal по контролю . 4 (1): 139–152. дои : 10.1137/0304013 .

[3] Камен, Мортон И .; Шварц, Нэнси Л. (1971). «Достаточные условия в теории оптимального управления». Журнал экономической теории . 3 (2): 207–214. дои : 10.1016/0022-0531(71)90018-4 .

[4] Болтянский, В.; Мартини, Х.; Солтан, В. (1998). «Принцип максимума – как он появился?» . Геометрические методы и задачи оптимизации . Нью-Йорк: Спрингер. стр. 204–227. ISBN 0-7923-5454-0 .

[5] Гамкрелидзе, Р.В. (1999). «Открытие принципа максимума». Журнал динамических систем и систем управления . 5 (4): 437–451. дои : 10.1023/A:1021783020548 . S2CID 122690986 . Перепечатано в Болибрух, А.А. ; и др., ред. (2006). Математические события двадцатого века . Берлин: Шпрингер. стр. 85–99. ISBN 3-540-23235-4 .

[6] Для первых опубликованных работ см. ссылки в Фуллер, AT (1963). «Библиография принципа максимума Понтрягина». Дж. Электроника и управление . 15 (5): 513–517. дои : 10.1080/00207216308937602 .

[7] МакШейн, EJ (1989). «Вариационное исчисление с самого начала через теорию оптимального управления». СИАМ Дж. Оптимальное управление . 27 (5): 916–939. дои : 10.1137/0327049 .

[YongZhou-8] Jump up to: ^а ^б Йонг, Дж.; Чжоу, XY (1999). «Принцип максимума и стохастические гамильтоновы системы». Стохастическое управление: гамильтоновы системы и уравнения HJB . Нью-Йорк: Спрингер. стр. 101–156 . ISBN 0-387-98723-1 .

[9] Састри, Шанкар (29 марта 2009 г.). «Конспект лекций 8. Оптимальное управление и динамические игры» (PDF) .

[10] Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. дои : 10.1007/BF01102352 . S2CID 122333807 .

[ а ]

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]