Jump to content

Гамильтониан (теория управления)

Гамильтониан , — это функция используемая для решения задачи оптимального управления динамической системой . Его можно понимать как мгновенное приращение лагранжева выражения задачи, которое необходимо оптимизировать за определенный период времени. [1] Вдохновленный гамильтонианом классической механики , но отличающийся от него, гамильтониан теории оптимального управления был разработан Львом Понтрягиным как часть его принципа максимума . [2] Понтрягин доказал, что необходимым условием решения задачи оптимального управления является выбор управления таким образом, чтобы оптимизировать гамильтониан. [3]

Постановка задачи и определение гамильтониана

[ редактировать ]

Рассмотрим динамическую систему первого порядка дифференциальные уравнения

где обозначает вектор переменных состояния, а вектор управляющих переменных. Как только начальные условия и контроль заданы, решение дифференциальных уравнений, называемое траекторией , можно найти. Задача оптимального управления состоит в выборе (из какого-то набора ) так что максимизирует или минимизирует определенную целевую функцию между начальным моментом времени и конечное время (где может быть бесконечность ). В частности, цель состоит в том, чтобы оптимизировать индекс производительности. определяется в каждый момент времени,

, с

подчиняется приведенным выше уравнениям движения переменных состояния. Метод решения включает определение вспомогательной функции, известной как управляющий гамильтониан.

который объединяет целевую функцию и уравнения состояния во многом подобно лагранжиану в задаче статической оптимизации, с той лишь разницей, что множители — называемые переменными стоимости — являются функциями времени, а не константами.

Цель состоит в том, чтобы найти оптимальную функцию политики управления. а вместе с ним и оптимальная траектория переменной состояния , которые согласно принципу максимума Понтрягина являются аргументами, максимизирующими гамильтониан,

для всех

Необходимые условия максимума первого порядка имеют вид

что является принципом максимума,
который генерирует функцию перехода состояний ,
которое генерирует уравнения стоимости

Вместе уравнения состояния и костата описывают гамильтонову динамическую систему (снова аналогичную, но отличную от гамильтоновой системы в физике), решение которой включает двухточечную краевую задачу , учитывая, что существуют граничные условия, включающие два разных момента времени, начальный момент ( дифференциальные уравнения для переменных состояния) и терминальное время ( дифференциальные уравнения для переменных состояния; если не указана конечная функция, граничные условия будут следующими: , или для бесконечных временных горизонтов). [4]

Достаточным условием максимума является вогнутость гамильтониана, оцениваемого на решении, т.е.

где оптимальное управление, а получается оптимальная траектория для переменной состояния. [5] Альтернативно, согласно результату Олви Л. Мангасаряна , необходимые условия являются достаточными, если функции и оба вогнуты в и . [6]

Вывод из лагранжиана

[ редактировать ]

Задача ограниченной оптимизации , подобная изложенной выше, обычно предполагает выражение Лагранжа, а именно

где сравнивается с множителем Лагранжа в задаче статической оптимизации, но теперь, как отмечалось выше, является функцией времени. Чтобы устранить , последний член в правой части можно переписать с помощью интегрирования по частям так, что

которое можно подставить обратно в выражение Лагранжа, чтобы получить

Чтобы вывести условия оптимума первого порядка, предположим, что решение найдено и лагранжиан максимизирован. Тогда любое возмущение или должно привести к снижению значения лагранжиана. В частности, полная производная от подчиняется

Чтобы это выражение было равно нулю, необходимо выполнение следующих условий оптимальности:

Если оба начальных значения и конечная стоимость фиксированы, т.е. , никаких условий и необходимы. Если терминальная стоимость свободна, как это часто бывает, дополнительное условие необходимо для оптимальности. Последнее называется условием трансверсальности для задачи с фиксированным горизонтом. [7]

Видно, что необходимые условия идентичны сформулированным выше для гамильтониана. Таким образом, гамильтониан можно понимать как средство создания необходимых условий первого порядка. [8]

Гамильтониан в дискретное время

[ редактировать ]

Когда задача формулируется в дискретном времени, гамильтониан определяется как:

и стоимости уравнения

(Обратите внимание, что гамильтониан дискретного времени в момент времени включает переменную стоимости во времени [9] Эта небольшая деталь важна для того, чтобы при дифференцировании по мы получаем термин, включающий в правой части уравнений стоимости. Использование здесь неправильного соглашения может привести к неправильным результатам, т. е. к уравнению стоимости, которое не является уравнением обратной разности).

Поведение гамильтониана во времени

[ редактировать ]

Из принципа максимума Понтрягина можно вывести специальные условия для гамильтониана. [10] Когда в последний раз фиксирован и гамильтониан не зависит явно от времени , затем: [11]

или если время терминала свободно, то:

Кроме того, если конечное время стремится к бесконечности , применяется условие трансверсальности гамильтониана. [12]

Гамильтониан управления в сравнении с гамильтонианом механики

[ редактировать ]

Уильям Роуэн Гамильтон определил гамильтониан для описания механики системы. Это функция трех переменных, связанная с лагранжианом следующим образом:

где лагранжиан , экстремизация которого определяет динамику ( а не лагранжиан, определенный выше), и является переменной состояния. Лагранжиан оценивается с помощью представляющая производную по времени эволюции состояния и , так называемый « сопряженный импульс », относится к нему как

.

Затем Гамильтон сформулировал свои уравнения для описания динамики системы как

Гамильтониан теории управления описывает не динамику системы, а условия экстремизации некоторой ее скалярной функции (лагранжиана) по управляющей переменной. . Обычно это определяется как функция четырех переменных.

где является переменной состояния и — это управляющая переменная по отношению к тому, что мы экстремизируем.

Соответствующие условия для максимума:

Это определение согласуется с определением, данным в статье Суссмана и Виллемса. [13] (см. стр. 39, уравнение 14). Сассманн и Виллемс показывают, как управляющий гамильтониан можно использовать в динамике, например, для задачи о брахистохроне , но не упоминают предыдущую работу Каратеодори по этому подходу. [14]

Текущая стоимость и приведенная стоимость гамильтониана

[ редактировать ]

В экономике целевая функция в задачах динамической оптимизации часто напрямую зависит от времени только за счет экспоненциального дисконтирования , так что она принимает вид

где называется мгновенной функцией полезности или функцией счастья . [15] Это позволяет переопределить гамильтониан как где

который называется гамильтонианом текущей стоимости, в отличие от гамильтониана текущей стоимости определены в первом разделе. В частности, переменные стоимости переопределяются как , что приводит к модифицированным условиям первого порядка.

,

что непосредственно следует из правила произведения . Экономически, представляют текущие теневые цены на капитальные товары .

Пример: модель Рэмси – Касса – Купманса.

[ редактировать ]

В экономике модель Рэмси -Касс-Купманса используется для определения оптимального поведения сбережений в экономике. Целевая функция это функция общественного благосостояния ,

максимизироваться за счет выбора оптимального пути потребления . Функция указывает на полезность, представитель агента потребления в любой данный момент времени. Фактор представляет собой дисконтирование . Задача максимизации подчиняется следующему дифференциальному уравнению для капиталоемкости , описывающему временную эволюцию капитала на одного эффективного работника:

где – потребление за период t, — капитал периода t на одного работника (с ), – производство за период t, это темпы роста населения, — норма амортизации капитала, агент дисконтирует будущую полезность по ставке , с и .

Здесь, - переменная состояния, которая развивается в соответствии с приведенным выше уравнением, и является управляющей переменной. Гамильтониан становится

Условия оптимальности:

в дополнение к условию трансверсальности . Если мы позволим , затем логарифмически дифференцируем первое условие оптимальности по урожайность

Подставляя это уравнение во второе условие оптимальности, получаем

которое известно как правило Кейнса-Рэмси , которое задает условия потребления в каждый период, соблюдение которых обеспечивает максимальную полезность в течение всего срока службы.

  1. ^ Фергюсон, Брайан С.; Лим, GC (1998). Введение в динамические экономические проблемы . Манчестер: Издательство Манчестерского университета. стр. 166–167. ISBN  0-7190-4996-2 .
  2. ^ Диксит, Авинаш К. (1990). Оптимизация в экономической теории . Нью-Йорк: Издательство Оксфордского университета. стр. 145–161. ISBN  978-0-19-877210-1 .
  3. ^ Кирк, Дональд Э. (1970). Теория оптимального управления: Введение . Энглвуд Клиффс: Прентис Холл. п. 232. ИСБН  0-13-638098-0 .
  4. ^ Гандольфо, Джанкарло (1996). Экономическая динамика (Третье изд.). Берлин: Шпрингер. стр. 375–376. ISBN  3-540-60988-1 .
  5. ^ Зайерстад, Атле; Сидсетер, Кнут (1987). Теория оптимального управления с экономическими приложениями . Амстердам: Северная Голландия. стр. 107–110. ISBN  0-444-87923-4 .
  6. ^ Мангасарян, OL (1966). «Достаточные условия оптимального управления нелинейными системами». SIAM Journal по контролю . 4 (1): 139–152. дои : 10.1137/0304013 .
  7. ^ Леонар, Даниэль; Лонг, Нго Ван (1992). «Ограничения конечных точек и условия трансверсальности» . Теория оптимального управления и статическая оптимизация в экономике . Нью-Йорк: Издательство Кембриджского университета. п. 222 [Теорема 7.1.1]. ISBN  0-521-33158-7 .
  8. ^ Камен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: дисперсионное исчисление и оптимальное управление в экономике и менеджменте (второе изд.). Амстердам: Северная Голландия. стр. 126–127. ISBN  0-444-01609-0 .
  9. ^ Йонссон, У. (2005). «ДИСКРЕТНАЯ ВЕРСИЯ PMP» (PDF) . п. 25. Архивировано из оригинала (PDF) 22 января 2023 г.
  10. ^ Найду, Десинени С. (2003). Оптимальные системы управления . Бока-Ратон: CRC Press. стр. 259–260. ISBN  0-8493-0892-5 .
  11. ^ Торрес, Дельфим FM (2002). «Замечательное свойство экстремалей динамической оптимизации». Оперативное расследование . 22 (2): 253–263. arXiv : математика/0212102 .
  12. ^ Мишель, Филипп (1982). «Об условии трансверсальности в оптимальных задачах с бесконечным горизонтом». Эконометрика . 50 (4): 975–985. дои : 10.2307/1912772 . JSTOR   1912772 . S2CID   16503488 .
  13. ^ Суссманн; Виллемс (июнь 1997 г.). «300 лет оптимального управления» (PDF) . Журнал IEEE Control Systems . дои : 10.1109/37.588098 . Архивировано из оригинала (PDF) 30 июля 2010 г.
  14. ^ См. Пеш, HJ; Булирш, Р. (1994). «Принцип максимума, уравнение Беллмана и работа Каратеодори». Журнал теории оптимизации и приложений . 80 (2): 199–225. дои : 10.1007/BF02192933 . S2CID   121749702 .
  15. ^ Бевр, Коре (весна 2005 г.). «Экономика 4350: Рост и инвестиции: конспект лекций 7» (PDF) . Факультет экономики Университета Осло.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 95aaf55a8ee92748d95258b0e2e9bead__1715757480
URL1:https://arc.ask3.ru/arc/aa/95/ad/95aaf55a8ee92748d95258b0e2e9bead.html
Заголовок, (Title) документа по адресу, URL1:
Hamiltonian (control theory) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)