Функция значения
Функция цены задачи оптимизации дает значение , достигаемое целевой функцией при решении, но зависит только от параметров задачи. [1] [2] В управляемой динамической системе функция ценности представляет собой оптимальный выигрыш системы в интервале [t, t 1 ] при запуске в момент времени t переменной состояния x(t)=x . [3] Если целевая функция представляет собой некоторую стоимость, которую необходимо минимизировать, функцию ценности можно интерпретировать как стоимость завершения оптимальной программы и, таким образом, называть ее «функцией себестоимости». [4] [5] В экономическом контексте, где целевая функция обычно представляет полезность , функция ценности концептуально эквивалентна косвенной функции полезности . [6] [7]
В задаче оптимального управления функция цены определяется как верхняя граница целевой функции, взятой на множестве допустимых управлений. Данный , типичная задача оптимального управления состоит в том, чтобы
при условии
с переменной начального состояния . [8] Целевая функция должна быть максимизирована по всем допустимым управлениям , где — измеримая по Лебегу функция из к некоторому заданному произвольному множеству в . Функция стоимости тогда определяется как
с , где представляет собой «ломовую стоимость». Если оптимальная пара траекторий управления и состояния равна , затем . Функция что обеспечивает оптимальный контроль исходя из текущего состояния называется политикой управления с обратной связью, [4] или просто политическая функция. [9]
Принцип оптимальности Беллмана примерно гласит, что любая оптимальная политика в данный момент , принимая текущее состояние поскольку «новое» начальное условие должно быть оптимальным для оставшейся задачи. Если функция цены оказывается непрерывно дифференцируемой , [10] это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона – Якоби – Беллмана ,
где максимум в правой части также можно переписать как гамильтониан , , как
с играющие роль переменных стоимости . [11] Учитывая это определение, мы далее имеем и после дифференцирования обеих частей уравнения HJB по ,
которое после замены соответствующих членов восстанавливает уравнение стоимости
где — обозначение Ньютона для производной по времени. [12]
Функция цены является уникальным решением вязкости уравнения Гамильтона – Якоби – Беллмана. [13] В онлайн -приближенном оптимальном управлении с обратной связью функция цены также является функцией Ляпунова , которая устанавливает глобальную асимптотическую устойчивость замкнутой системы. [14]
Ссылки [ править ]
- ^ Флеминг, Венделл Х .; Ришел, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. стр. 81–83. ISBN 0-387-90155-8 .
- ^ Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. п. 185. ИСБН 0-521-60368-4 .
- ^ Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике . Кембридж: MIT Press. п. 82. ИСБН 978-0-262-01573-8 .
- ^ Jump up to: Перейти обратно: а б Берцекас, Дмитрий П.; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Бельмонт: Афина Сайентифик. п. 2. ISBN 1-886529-10-8 .
- ^ «EE365: Динамическое программирование» (PDF) .
- ^ Мас-Колелл, Андреу ; Уинстон, Майкл Д .; Грин, Джерри Р. (1995). Микроэкономическая теория . Нью-Йорк: Издательство Оксфордского университета. п. 964. ИСБН 0-19-507340-1 .
- ^ Корбэ, Дин; Стинчкомб, Максвелл Б.; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики . Издательство Принстонского университета. п. 145. ИСБН 978-0-691-11867-3 .
- ^ Камен, Мортон И .; Шварц, Нэнси Л. (1991). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте (2-е изд.). Амстердам: Северная Голландия. п. 259. ИСБН 0-444-01609-0 .
- ^ Юнгквист, Ларс ; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (Четвертое изд.). Кембридж: MIT Press. п. 106. ИСБН 978-0-262-03866-9 .
- ^ Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применить теорему о конверте , см. Бенвенисте, LM; Шейнкман, Дж. А. (1979). «О дифференцируемости функции ценности в динамических моделях экономики». Эконометрика . 47 (3): 727–732. дои : 10.2307/1910417 . JSTOR 1910417 . Также см. Зайерстад, Атле (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и контроля . 4 : 303–310. дои : 10.1016/0165-1889(82)90019-7 .
- ^ Кирк, Дональд Э. (1970). Теория оптимального управления . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ИСБН 0-13-638098-0 .
- ^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. дои : 10.1007/BF01102352 . S2CID 122333807 .
- ^ Теорема 10.1 в Брессан, Альберто (2019). «Вязкостные решения уравнений Гамильтона-Якоби и задач оптимального управления» (PDF) . Конспекты лекций .
- ^ Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову» . Обучение с подкреплением для оптимального управления с обратной связью: подход на основе Ляпунова . Берлин: Шпрингер. стр. 26–27. ISBN 978-3-319-78383-3 .
Дальнейшее чтение [ править ]
- Капуто, Майкл Р. (2005). «Необходимые и достаточные условия для изопериметрических задач» . Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. стр. 174–210. ISBN 0-521-60368-4 .
- Кларк, Фрэнк Х.; Лоуэн, Филип Д. (1986). «Функция ценности в оптимальном управлении: чувствительность, управляемость и оптимальность по времени». SIAM Journal по контролю и оптимизации . 24 (2): 243–263. дои : 10.1137/0324014 .
- ЛаФранс, Джеффри Т.; Барни, Л. Дуэйн (1991). «Теорема о конверте в динамической оптимизации» (PDF) . Журнал экономической динамики и контроля . 15 (2): 355–385. дои : 10.1016/0165-1889(91)90018-В .
- Стенгель, Роберт Ф. (1994). «Условия оптимальности» . Оптимальное управление и оценка . Нью-Йорк: Дувр. стр. 201–222. ISBN 0-486-68200-5 .