Jump to content

Функция значения

Функция цены задачи оптимизации дает значение , достигаемое целевой функцией при решении, но зависит только от параметров задачи. [1] [2] В управляемой динамической системе функция ценности представляет собой оптимальный выигрыш системы в интервале [t, t 1 ] при запуске в момент времени t переменной состояния x(t)=x . [3] Если целевая функция представляет собой некоторую стоимость, которую необходимо минимизировать, функцию ценности можно интерпретировать как стоимость завершения оптимальной программы и, таким образом, называть ее «функцией себестоимости». [4] [5] В экономическом контексте, где целевая функция обычно представляет полезность , функция ценности концептуально эквивалентна косвенной функции полезности . [6] [7]

В задаче оптимального управления функция цены определяется как верхняя граница целевой функции, взятой на множестве допустимых управлений. Данный , типичная задача оптимального управления состоит в том, чтобы

при условии

с переменной начального состояния . [8] Целевая функция должна быть максимизирована по всем допустимым управлениям , где измеримая по Лебегу функция из к некоторому заданному произвольному множеству в . Функция стоимости тогда определяется как

с , где представляет собой «ломовую стоимость». Если оптимальная пара траекторий управления и состояния равна , затем . Функция что обеспечивает оптимальный контроль исходя из текущего состояния называется политикой управления с обратной связью, [4] или просто политическая функция. [9]

Принцип оптимальности Беллмана примерно гласит, что любая оптимальная политика в данный момент , принимая текущее состояние поскольку «новое» начальное условие должно быть оптимальным для оставшейся задачи. Если функция цены оказывается непрерывно дифференцируемой , [10] это приводит к важному уравнению в частных производных, известному как уравнение Гамильтона – Якоби – Беллмана ,

где максимум в правой части также можно переписать как гамильтониан , , как

с играющие роль переменных стоимости . [11] Учитывая это определение, мы далее имеем и после дифференцирования обеих частей уравнения HJB по ,

которое после замены соответствующих членов восстанавливает уравнение стоимости

где обозначение Ньютона для производной по времени. [12]

Функция цены является уникальным решением вязкости уравнения Гамильтона – Якоби – Беллмана. [13] В онлайн -приближенном оптимальном управлении с обратной связью функция цены также является функцией Ляпунова , которая устанавливает глобальную асимптотическую устойчивость замкнутой системы. [14]

Ссылки [ править ]

  1. ^ Флеминг, Венделл Х .; Ришел, Раймонд В. (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. стр. 81–83. ISBN  0-387-90155-8 .
  2. ^ Капуто, Майкл Р. (2005). Основы динамического экономического анализа: теория оптимального управления и приложения . Нью-Йорк: Издательство Кембриджского университета. п. 185. ИСБН  0-521-60368-4 .
  3. ^ Вебер, Томас А. (2011). Теория оптимального управления: с приложениями в экономике . Кембридж: MIT Press. п. 82. ИСБН  978-0-262-01573-8 .
  4. ^ Jump up to: Перейти обратно: а б Берцекас, Дмитрий П.; Цициклис, Джон Н. (1996). Нейродинамическое программирование . Бельмонт: Афина Сайентифик. п. 2. ISBN  1-886529-10-8 .
  5. ^ «EE365: Динамическое программирование» (PDF) .
  6. ^ Мас-Колелл, Андреу ; Уинстон, Майкл Д .; Грин, Джерри Р. (1995). Микроэкономическая теория . Нью-Йорк: Издательство Оксфордского университета. п. 964. ИСБН  0-19-507340-1 .
  7. ^ Корбэ, Дин; Стинчкомб, Максвелл Б.; Земан, Юрай (2009). Введение в математический анализ для экономической теории и эконометрики . Издательство Принстонского университета. п. 145. ИСБН  978-0-691-11867-3 .
  8. ^ Камен, Мортон И .; Шварц, Нэнси Л. (1991). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте (2-е изд.). Амстердам: Северная Голландия. п. 259. ИСБН  0-444-01609-0 .
  9. ^ Юнгквист, Ларс ; Сарджент, Томас Дж. (2018). Рекурсивная макроэкономическая теория (Четвертое изд.). Кембридж: MIT Press. п. 106. ИСБН  978-0-262-03866-9 .
  10. ^ Бенвенист и Шейнкман установили достаточные условия дифференцируемости функции цены, что, в свою очередь, позволяет применить теорему о конверте , см. Бенвенисте, LM; Шейнкман, Дж. А. (1979). «О дифференцируемости функции ценности в динамических моделях экономики». Эконометрика . 47 (3): 727–732. дои : 10.2307/1910417 . JSTOR   1910417 . Также см. Зайерстад, Атле (1982). «Свойства дифференцируемости функции оптимального значения в теории управления». Журнал экономической динамики и контроля . 4 : 303–310. дои : 10.1016/0165-1889(82)90019-7 .
  11. ^ Кирк, Дональд Э. (1970). Теория оптимального управления . Энглвуд Клиффс, Нью-Джерси: Прентис-Холл. п. 88. ИСБН  0-13-638098-0 .
  12. ^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. дои : 10.1007/BF01102352 . S2CID   122333807 .
  13. ^ Теорема 10.1 в Брессан, Альберто (2019). «Вязкостные решения уравнений Гамильтона-Якоби и задач оптимального управления» (PDF) . Конспекты лекций .
  14. ^ Камалапуркар, Рушикеш; Уолтерс, Патрик; Розенфельд, Джоэл; Диксон, Уоррен (2018). «Оптимальное управление и устойчивость по Ляпунову» . Обучение с подкреплением для оптимального управления с обратной связью: подход на основе Ляпунова . Берлин: Шпрингер. стр. 26–27. ISBN  978-3-319-78383-3 .

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 82ec5d72d0140d26e48a5f4c6183a948__1690816440
URL1:https://arc.ask3.ru/arc/aa/82/48/82ec5d72d0140d26e48a5f4c6183a948.html
Заголовок, (Title) документа по адресу, URL1:
Value function - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)