Гамильтониан (теория управления)
Гамильтониан , — это функция используемая для решения задачи оптимального управления динамической системой . Его можно понимать как мгновенное приращение лагранжева выражения задачи, которое необходимо оптимизировать за определенный период времени. [1] Вдохновленный гамильтонианом классической механики , но отличающийся от него, гамильтониан теории оптимального управления был разработан Львом Понтрягиным как часть его принципа максимума . [2] Понтрягин доказал, что необходимым условием решения задачи оптимального управления является выбор управления таким образом, чтобы оптимизировать гамильтониан. [3]
Постановка задачи и определение гамильтониана
[ редактировать ]Рассмотрим динамическую систему первого порядка дифференциальные уравнения
где обозначает вектор переменных состояния, а вектор управляющих переменных. Как только начальные условия и контроль заданы, решение дифференциальных уравнений, называемое траекторией , можно найти. Задача оптимального управления состоит в выборе (из какого-то набора ) так что максимизирует или минимизирует определенную целевую функцию между начальным моментом времени и конечное время (где может быть бесконечность ). В частности, цель состоит в том, чтобы оптимизировать индекс производительности. определяется в каждый момент времени,
- , с
подчиняется приведенным выше уравнениям движения переменных состояния. Метод решения включает определение вспомогательной функции, известной как управляющий гамильтониан.
который объединяет целевую функцию и уравнения состояния во многом подобно лагранжиану в задаче статической оптимизации, с той лишь разницей, что множители — называемые переменными стоимости — являются функциями времени, а не константами.
Цель состоит в том, чтобы найти оптимальную функцию политики управления. а вместе с ним и оптимальная траектория переменной состояния , которые согласно принципу максимума Понтрягина являются аргументами, максимизирующими гамильтониан,
- для всех
Необходимые условия максимума первого порядка имеют вид
- что является принципом максимума,
- который генерирует функцию перехода состояний ,
- которое генерирует уравнения стоимости
Вместе уравнения состояния и костата описывают гамильтонову динамическую систему (снова аналогичную, но отличную от гамильтоновой системы в физике), решение которой включает двухточечную краевую задачу , учитывая, что существуют граничные условия, включающие два разных момента времени, начальный момент ( дифференциальные уравнения для переменных состояния) и терминальное время ( дифференциальные уравнения для переменных состояния; если не указана конечная функция, граничные условия будут следующими: , или для бесконечных временных горизонтов). [4]
Достаточным условием максимума является вогнутость гамильтониана, оцениваемого на решении, т.е.
где оптимальное управление, а получается оптимальная траектория для переменной состояния. [5] Альтернативно, согласно результату Олви Л. Мангасаряна , необходимые условия являются достаточными, если функции и оба вогнуты в и . [6]
Вывод из лагранжиана
[ редактировать ]Задача ограниченной оптимизации , подобная изложенной выше, обычно предполагает выражение Лагранжа, а именно
где сравнивается с множителем Лагранжа в задаче статической оптимизации, но теперь, как отмечалось выше, является функцией времени. Чтобы устранить , последний член в правой части можно переписать с помощью интегрирования по частям так, что
которое можно подставить обратно в выражение Лагранжа, чтобы получить
Чтобы вывести условия оптимума первого порядка, предположим, что решение найдено и лагранжиан максимизирован. Тогда любое возмущение или должно привести к снижению значения лагранжиана. В частности, полная производная от подчиняется
Чтобы это выражение было равно нулю, необходимо выполнение следующих условий оптимальности:
Если оба начальных значения и конечная стоимость фиксированы, т.е. , никаких условий и необходимы. Если терминальная стоимость свободна, как это часто бывает, дополнительное условие необходимо для оптимальности. Последнее называется условием трансверсальности для задачи с фиксированным горизонтом. [7]
Видно, что необходимые условия идентичны сформулированным выше для гамильтониана. Таким образом, гамильтониан можно понимать как средство создания необходимых условий первого порядка. [8]
Гамильтониан в дискретное время
[ редактировать ]Когда задача формулируется в дискретном времени, гамильтониан определяется как:
и стоимости уравнения
(Обратите внимание, что гамильтониан дискретного времени в момент времени включает переменную стоимости во времени [9] Эта небольшая деталь важна для того, чтобы при дифференцировании по мы получаем термин, включающий в правой части уравнений стоимости. Использование здесь неправильного соглашения может привести к неправильным результатам, т. е. к уравнению стоимости, которое не является уравнением обратной разности).
Поведение гамильтониана во времени
[ редактировать ]Из принципа максимума Понтрягина можно вывести специальные условия для гамильтониана. [10] Когда в последний раз фиксирован и гамильтониан не зависит явно от времени , затем: [11]
или если время терминала свободно, то:
Кроме того, если конечное время стремится к бесконечности , применяется условие трансверсальности гамильтониана. [12]
Гамильтониан управления в сравнении с гамильтонианом механики
[ редактировать ]Уильям Роуэн Гамильтон определил гамильтониан для описания механики системы. Это функция трех переменных, связанная с лагранжианом следующим образом:
где — лагранжиан , экстремизация которого определяет динамику ( а не лагранжиан, определенный выше), и является переменной состояния. Лагранжиан оценивается с помощью представляющая производную по времени эволюции состояния и , так называемый « сопряженный импульс », относится к нему как
- .
Затем Гамильтон сформулировал свои уравнения для описания динамики системы как
Гамильтониан теории управления описывает не динамику системы, а условия экстремизации некоторой ее скалярной функции (лагранжиана) по управляющей переменной. . Обычно это определяется как функция четырех переменных.
где является переменной состояния и — это управляющая переменная по отношению к тому, что мы экстремизируем.
Соответствующие условия для максимума:
Это определение согласуется с определением, данным в статье Суссмана и Виллемса. [13] (см. стр. 39, уравнение 14). Сассманн и Виллемс показывают, как управляющий гамильтониан можно использовать в динамике, например, для задачи о брахистохроне , но не упоминают предыдущую работу Каратеодори по этому подходу. [14]
Текущая стоимость и приведенная стоимость гамильтониана
[ редактировать ]В экономике целевая функция в задачах динамической оптимизации часто напрямую зависит от времени только за счет экспоненциального дисконтирования , так что она принимает вид
где называется мгновенной функцией полезности или функцией счастья . [15] Это позволяет переопределить гамильтониан как где
который называется гамильтонианом текущей стоимости, в отличие от гамильтониана текущей стоимости определены в первом разделе. В частности, переменные стоимости переопределяются как , что приводит к модифицированным условиям первого порядка.
- ,
что непосредственно следует из правила произведения . Экономически, представляют текущие теневые цены на капитальные товары .
Пример: модель Рэмси – Касса – Купманса.
[ редактировать ]В экономике модель Рэмси -Касс-Купманса используется для определения оптимального поведения сбережений в экономике. Целевая функция это функция общественного благосостояния ,
максимизироваться за счет выбора оптимального пути потребления . Функция указывает на полезность, представитель агента потребления в любой данный момент времени. Фактор представляет собой дисконтирование . Задача максимизации подчиняется следующему дифференциальному уравнению для капиталоемкости , описывающему временную эволюцию капитала на одного эффективного работника:
где – потребление за период t, — капитал периода t на одного работника (с ), – производство за период t, это темпы роста населения, — норма амортизации капитала, агент дисконтирует будущую полезность по ставке , с и .
Здесь, - переменная состояния, которая развивается в соответствии с приведенным выше уравнением, и является управляющей переменной. Гамильтониан становится
Условия оптимальности:
в дополнение к условию трансверсальности . Если мы позволим , затем логарифмически дифференцируем первое условие оптимальности по урожайность
Подставляя это уравнение во второе условие оптимальности, получаем
которое известно как правило Кейнса-Рэмси , которое задает условия потребления в каждый период, соблюдение которых обеспечивает максимальную полезность в течение всего срока службы.
Ссылки
[ редактировать ]- ^ Фергюсон, Брайан С.; Лим, GC (1998). Введение в динамические экономические проблемы . Манчестер: Издательство Манчестерского университета. стр. 166–167. ISBN 0-7190-4996-2 .
- ^ Диксит, Авинаш К. (1990). Оптимизация в экономической теории . Нью-Йорк: Издательство Оксфордского университета. стр. 145–161. ISBN 978-0-19-877210-1 .
- ^ Кирк, Дональд Э. (1970). Теория оптимального управления: Введение . Энглвуд Клиффс: Прентис Холл. п. 232. ИСБН 0-13-638098-0 .
- ^ Гандольфо, Джанкарло (1996). Экономическая динамика (Третье изд.). Берлин: Шпрингер. стр. 375–376. ISBN 3-540-60988-1 .
- ^ Зайерстад, Атле; Сидсетер, Кнут (1987). Теория оптимального управления с экономическими приложениями . Амстердам: Северная Голландия. стр. 107–110. ISBN 0-444-87923-4 .
- ^ Мангасарян, OL (1966). «Достаточные условия оптимального управления нелинейными системами». SIAM Journal по контролю . 4 (1): 139–152. дои : 10.1137/0304013 .
- ^ Леонар, Даниэль; Лонг, Нго Ван (1992). «Ограничения конечных точек и условия трансверсальности» . Теория оптимального управления и статическая оптимизация в экономике . Нью-Йорк: Издательство Кембриджского университета. п. 222 [Теорема 7.1.1]. ISBN 0-521-33158-7 .
- ^ Камен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: дисперсионное исчисление и оптимальное управление в экономике и менеджменте (второе изд.). Амстердам: Северная Голландия. стр. 126–127. ISBN 0-444-01609-0 .
- ^ Йонссон, У. (2005). «ДИСКРЕТНАЯ ВЕРСИЯ PMP» (PDF) . п. 25. Архивировано из оригинала (PDF) 22 января 2023 г.
- ^ Найду, Десинени С. (2003). Оптимальные системы управления . Бока-Ратон: CRC Press. стр. 259–260. ISBN 0-8493-0892-5 .
- ^ Торрес, Дельфим FM (2002). «Замечательное свойство экстремалей динамической оптимизации». Оперативное расследование . 22 (2): 253–263. arXiv : математика/0212102 .
- ^ Мишель, Филипп (1982). «Об условии трансверсальности в оптимальных задачах с бесконечным горизонтом». Эконометрика . 50 (4): 975–985. дои : 10.2307/1912772 . JSTOR 1912772 . S2CID 16503488 .
- ^ Суссманн; Виллемс (июнь 1997 г.). «300 лет оптимального управления» (PDF) . Журнал IEEE Control Systems . дои : 10.1109/37.588098 . Архивировано из оригинала (PDF) 30 июля 2010 г.
- ^ См. Пеш, HJ; Булирш, Р. (1994). «Принцип максимума, уравнение Беллмана и работа Каратеодори». Журнал теории оптимизации и приложений . 80 (2): 199–225. дои : 10.1007/BF02192933 . S2CID 121749702 .
- ^ Бевр, Коре (весна 2005 г.). «Экономика 4350: Рост и инвестиции: конспект лекций 7» (PDF) . Факультет экономики Университета Осло.
Дальнейшее чтение
[ редактировать ]- Леонар, Даниэль; Лонг, Нго Ван (1992). «Принцип максимума» . Теория оптимального управления и статическая оптимизация в экономике . Нью-Йорк: Издательство Кембриджского университета. стр. 127–168. ISBN 0-521-33158-7 .
- Такаяма, Акира (1985). «Развития теории оптимального управления и ее приложения» . Математическая экономика (2-е изд.). Нью-Йорк: Издательство Кембриджского университета. стр. 600–719. ISBN 0-521-31498-4 .
- Вулвик, Нэнси (1995). «Гамильтонов формализм и теория оптимального роста». В Риме, IH (ред.). Измерение, количественная оценка и экономический анализ . Лондон: Рутледж. ISBN 978-0-415-08915-9 .