Оптимальное управление
Теория оптимального управления — это раздел теории управления , который занимается поиском управления динамической системой в течение определенного периода времени, при котором целевая функция оптимизируется. [1] Он имеет множество применений в науке, технике и исследованиях операций. Например, динамическая система может представлять собой космический корабль с органами управления, соответствующими ракетным двигателям, и целью может быть достижение Луны с минимальными затратами топлива. [2] Или динамической системой могла бы стать национальная экономика , целью которой является минимизация безработицы ; средствами контроля в этом случае могла бы быть фискальная и монетарная политика . [3] Динамическая система также может быть введена для включения задач исследования операций в рамках теории оптимального управления. [4] [5]
Оптимальное управление является расширением вариационного исчисления и представляет собой метод математической оптимизации для разработки политики управления . [6] Этот метод во многом обязан работе Льва Понтрягина и Ричарда Беллмана в вариационное исчисление в 1950-х годах после вклада Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]
Общий метод [ править ]
Оптимальное управление занимается проблемой поиска закона управления данной системой, при котором определенный критерий оптимальности достигается . Задача управления включает в себя функционал стоимости , который является функцией переменных состояния и управления. Оптимальное управление — это набор дифференциальных уравнений, описывающих пути переменных управления, которые минимизируют функцию стоимости. Оптимальное управление можно получить, используя принцип максимума Понтрягина ( необходимое условие, также известное как принцип минимума Понтрягина или просто принцип Понтрягина). [8] или путем решения уравнения Гамильтона–Якоби–Беллмана ( достаточное условие ).
Начнем с простого примера. Рассмотрим автомобиль, едущий прямолинейно по холмистой дороге. Вопрос в том, как водителю следует нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на акселератор и переключает передачи. Система критерием состоит как из автомобиля, так и из дороги, а оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя проталкивать через пол автомобиля, ограничения скорости и т. д.
Правильная функция стоимости будет представлять собой математическое выражение, показывающее время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.
Другая связанная с этим задача оптимального управления может состоять в том, чтобы найти способ управления автомобилем так, чтобы минимизировать расход топлива, учитывая, что он должен пройти заданный курс за время, не превышающее некоторого времени. Еще одна связанная с этим проблема управления может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.
Более абстрактная схема выглядит следующим образом. [1] Минимизируйте функционал стоимости непрерывного времени
Линейно-квадратичное управление [ править ]
Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Задача LQ формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени
С учетом линейных динамических ограничений первого порядка
Особой формой проблемы LQ, которая возникает во многих задачах системы управления, является линейный квадратичный регулятор (LQR), где все матрицы (т. е. , , , и ) постоянны , начальное время произвольно полагается равным нулю, а конечное время принимается в пределе (это последнее предположение известно как бесконечный горизонт ). Задача ЛКР формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени с бесконечным горизонтом
С учетом линейных, нестационарных динамических ограничений первого порядка.
В случае конечного интервала матрицы ограничены тем, что и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения на и в случае бесконечного горизонта применяются для обеспечения того, чтобы функционал стоимости оставался положительным. Кроме того, чтобы обеспечить ограниченность функции стоимости , накладывается дополнительное ограничение, заключающееся в том, что пара является управляемым . Обратите внимание, что функционал стоимости LQ или LQR можно физически рассматривать как попытку минимизировать энергию управления (измеренную как квадратичную форму).
Проблема бесконечного горизонта (т. е. LQR) может показаться чрезмерно ограничительной и по сути бесполезной, поскольку предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выходной сигнал системы. Это действительно правильно. Однако проблема доведения выходного сигнала до желаемого ненулевого уровня может быть решена после достижения нулевого выходного уровня. Фактически можно доказать, что эту вторичную проблему LQR можно решить очень простым способом. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет форму обратной связи
Для задачи LQ на конечном горизонте уравнение Риккати интегрируется назад во времени с использованием терминального граничного условия
Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), задаваемым как
Понимая, что ARE возникает из-за проблемы бесконечного горизонта, матрицы , , , и все постоянны . Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение используется для расчета коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Э. Кальманом . [9]
Численные методы оптимального управления [ править ]
Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате для решения задач оптимального управления необходимо использовать численные методы. В первые годы оптимального управления ( около 1950-1980-х годов) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе для получения условий оптимальности первого порядка используется вариационное исчисление. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]
Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, — это так называемые прямые методы . В прямом методе состояние или управление или и то, и другое аппроксимируются с использованием соответствующей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). При этом функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функции рассматриваются как переменные оптимизации, и задача «транскрибируется» в задачу нелинейной оптимизации вида:
Свернуть
В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть весьма малым (например, как в методе прямой стрельбы или методе квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление). [11] ) или может быть довольно большим (например, метод прямого коллокирования [12] ). В последнем случае (т. е. метод коллокации) задача нелинейной оптимизации может заключаться буквально в тысячах и десятках тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих в результате прямого метода, может показаться несколько нелогичным, что решение задачи нелинейной оптимизации проще, чем решение краевой задачи. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно метода прямой коллокации, заключается в том, что NLP немногочисленн и существует множество известных программ (например, SNOPT [13] ) для решения больших разреженных задач НЛП. В результате круг задач, которые можно решить прямыми методами (особенно методами прямой коллокации популярными в настоящее время ), значительно шире, чем круг задач, которые можно решить косвенными методами. Фактически, в наши дни прямые методы стали настолько популярны, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL , [14] СОКС, [15] ОТИС, [16] ГЕСОП/ АСТОС , [17] ДИТАН. [18] и ПиГМО/ПиКЕП. [19] В последние годы, в связи с появлением языка программирования MATLAB , программное обеспечение оптимального управления на языке MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] ДИДО , [21] ПРЯМОЙ , [22] СОКОЛ.м, [23] и ГПОПС, [24] в то время как примером разработанного в отрасли инструмента MATLAB является PROPT . [25] Эти программные инструменты значительно расширили возможности людей исследовать сложные проблемы оптимального управления как для академических исследований, так и для промышленных проблем. [26] Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB, значительно упростили кодирование сложных задач оптимального управления, чем это было возможно ранее в таких языках, как C и FORTRAN .
Оптимальное управление с дискретным временем [ править ]
До сих пор примеры демонстрировали системы непрерывного времени и решения по управлению. Фактически, поскольку решения по оптимальному управлению теперь часто реализуются в цифровом виде , современная теория управления теперь в первую очередь занимается системами и решениями с дискретным временем . Теория согласованных приближений [27] [28] обеспечивает условия, при которых решения ряда все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже, казалось бы, очевидным. [29] Например, использование процедуры с переменным размером шага для интегрирования динамических уравнений задачи может привести к созданию градиента, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории последовательной аппроксимации.
Примеры [ править ]
Общей стратегией решения многих задач оптимального управления является определение стоимости (иногда называемой теневой ценой ). . Костата суммирует в одном числе предельное значение расширения или сжатия переменной состояния на следующем ходу. Предельная ценность — это не только выгоды, полученные на следующем ходу, но и связанные с продолжительностью программы. Это приятно, когда может быть решено аналитически, но обычно самое большее, что можно сделать, — это описать его достаточно хорошо, чтобы интуиция могла уловить характер решения, а программа для решения уравнений могла найти значения численно.
Получив , оптимальное значение управления при повороте t обычно можно решить как дифференциальное уравнение, зависящее от знания . Опять же, нечасто, особенно в задачах с непрерывным временем, можно получить явное значение управления или состояния. Обычно стратегия состоит в том, чтобы найти пороговые значения и области, которые характеризуют оптимальное управление, и использовать числовой решатель для изоляции фактических значений выбора во времени.
Конечное время [ править ]
Этот раздел может сбивать с толку или быть неясным для читателей . В частности, закон эволюции, упомянутый в примере, в статье не упоминается и, вероятно, не является тем же самым, что и эволюция . ( Октябрь 2018 г. ) |
Рассмотрим задачу владельца шахты, который должен решить, с какой скоростью добывать руду из своей шахты. Они владеют правами на руду с даты на сегодняшний день . На дату есть руда в земле и количество руды, зависящее от времени оставшееся в земле уменьшается со скоростью что владелец шахты его добывает. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратному значению количества оставшейся руды) и продает руду по постоянной цене. . Любая руда, оставшаяся в земле в определенное время не подлежит продаже и не имеет ценности (нет «цены лома»). Владелец выбирает скорость добычи, меняющуюся со временем. максимизировать прибыль за период владения без дисконтирования по времени.
- Версия с дискретным временем
Менеджер максимизирует прибыль :
подчиняется закону движения переменной состоянияСоставьте гамильтониан и продифференцируйте:
Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,
Используя приведенные выше уравнения, легко найти решение для и ряд
и используя начальные условия и условия поворота T, ряд можно решить явно, дав . - Непрерывная версия
Менеджер максимизирует прибыль :
где переменная состояния развивается следующим образом:Составьте гамильтониан и продифференцируйте:
Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,
Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и
и используя начальные условия и условия поворота T, функции можно решить, чтобы получить
См. также [ править ]
- Активный вывод
- уравнение Беллмана
- Псевдоспектральный метод Беллмана
- Брахистохрона
- ДИДО
- DNS-точка
- Динамическое программирование
- Псевдоспектральный метод Гаусса
- Обобщенная фильтрация
- ГПОПС-II
- КасАди
- JModelica.org (платформа с открытым исходным кодом на базе Modelica для динамической оптимизации)
- Фильтр Калмана
- Линейно-квадратичный регулятор
- Модель прогнозирующего управления
- Критерий обгона
- ПИД-регулятор
- PROPT (программное обеспечение оптимального управления для MATLAB)
- Псевдоспектральное оптимальное управление
- с преследованием и уклонением Игры
- Управление скользящим режимом
- СНОПТ
- Стохастический контроль
- Оптимизация траектории
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с д Росс, Исаак (2015). Введение в принцип Понтрягина в оптимальном управлении . Сан-Франциско: Университетские издательства. ISBN 978-0-9843571-0-9 . OCLC 625106088 .
- ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы . Нью-Йорк: Джон Уайли и сыновья. стр. 393–435 . ISBN 0-471-02594-1 .
- ^ Камен, Мортон И. (2013). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте . Дуврские публикации. ISBN 978-1-306-39299-0 . OCLC 869522905 .
- ^ Росс, IM; Пру, Р.Дж.; Карпенко М. (6 мая 2020 г.). «Теория оптимального управления для задачи коммивояжера и ее вариантов». arXiv : 2005.03186 [ math.OC ].
- ^ Росс, Исаак М.; Карпенко, Марк; Пру, Рональд Дж. (1 января 2016 г.). «Негладкое исчисление для решения некоторых задач теории графов ** Это исследование спонсировалось ВМС США» . IFAC-PapersOnLine . 10-й симпозиум IFAC по нелинейным системам управления NOLCOS 2016. 49 (18): 462–467. дои : 10.1016/j.ifacol.2016.10.208 . ISSN 2405-8963 .
- ^ Сарджент, RWH (2000). «Оптимальное управление» . Журнал вычислительной и прикладной математики . 124 (1–2): 361–371. Бибкод : 2000JCoAM.124..361S . дои : 10.1016/S0377-0427(00)00418-0 .
- ^ Брайсон, А.Е. (1996). «Оптимальное управление - 1950–1985». Журнал IEEE Control Systems . 16 (3): 26–33. дои : 10.1109/37.506395 .
- ^ Росс, IM (2009). Введение в принцип Понтрягина в оптимальном управлении . Коллегиальные издательства. ISBN 978-0-9843571-0-9 .
- ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования . Труды ASME, Журнал фундаментальной инженерии, 82: 34–45, 1960 г.
- ^ Оберле, Х.Дж. и Гримм, В., «Программа BNDSCO-A для численного решения задач оптимального управления», Институт динамики летных систем, DLR, Оберпфаффенхофен, 1989.
- ^ Росс, IM ; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету» . Ежегодные обзоры под контролем . 36 (2): 182–197. doi : 10.1016/j.arcontrol.2012.09.002 .
- ^ Беттс, Джей Ти (2010). Практические методы оптимального управления с использованием нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN 978-0-89871-688-7 .
- ^ Гилл, П.Е., Мюррей, В.М. и Сондерс, Массачусетс, Руководство пользователя для SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования , Калифорнийский университет, отчет Сан-Диего, 24 апреля 2007 г.
- ^ фон Стрик, О., Руководство пользователя для DIRCOL (версия 2.1): метод прямой коллокации для численного решения задач оптимального управления , Департамент моделирования и оптимизации системы (SIM), Технический университет Дармштадта (2000 г., версия от ноября 1999 г.) ).
- ^ Беттс, Дж. Т. и Хаффман, WP, Программное обеспечение для разреженного оптимального управления, SOCS , Служба информации и поддержки Boeing, Сиэтл, Вашингтон, июль 1997 г.
- ^ Харгрейвс, Чехия; Париж, Юго-Запад (1987). «Прямая оптимизация траектории с использованием нелинейного программирования и коллокации». Журнал руководства, контроля и динамики . 10 (4): 338–342. Бибкод : 1987JGCD...10..338H . дои : 10.2514/3.20223 .
- ^ Гат, П.Ф., Ну, К.Х., «Оптимизация траектории с использованием комбинации прямой многократной стрельбы и коллокации», AIAA 2001–4047, Конференция AIAA по руководству, навигации и контролю, Монреаль, Квебек, Канада, 6–9 августа 2001 г.
- ^ Василе М., Бернелли-Заззера Ф., Форнасари Н., Масарати П., «Проектирование межпланетных и лунных миссий, сочетающих малую тягу и гравитационную поддержку», Заключительный отчет исследовательского контракта ЕКА/ESOC № 14126/00/ Д/КС, сентябрь 2002 г.
- ^ Иззо, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (на примере оптимизации межпланетных траекторий)». Продолжить. Пятая Международная конференция. Астродинам. Инструменты и методы, ICATT. 2012.
- ↑ RIOTS. Архивировано 16 июля 2011 года в Wayback Machine , на основе Шварц, Адам (1996). Теория и реализация методов на основе интегрирования Рунге–Кутты для решения задач оптимального управления (доктор философии). Калифорнийский университет в Беркли. ОСЛК 35140322 .
- ^ Росс, И.М., Улучшения в наборе инструментов оптимального управления DIDO, arXiv 2020. https://arxiv.org/abs/2004.13112
- ^ Уильямс, П., Руководство пользователя по DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
- ^ FALCON.m , описано в книге Рик М., Биттнер М., Грютер Б., Дипольдер Дж. и Пипрек П., FALCON.m - Руководство пользователя , Институт динамики летных систем, Мюнхенский технический университет. , октябрь 2019 г.
- ^ GPOPS. Архивировано 24 июля 2011 г. в Wayback Machine , описано в Рао, А.В., Бенсоне, Д.А., Хантингтоне, Г.Т., Франколине, К., Дарби, К.Л. и Паттерсоне, Массачусетс, Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации. Использование псевдоспектрального метода Гаусса , отчет Университета Флориды, август 2008 г.
- ^ Рутквист, П. и Эдвалл, М.М., PROPT – Программное обеспечение для оптимального управления MATLAB», 1260 SE Bishop Blvd Ste E, Пуллман, Вашингтон, 99163, США: Tomlab Optimization, Inc.
- ^ И. М. Росс, Вычислительное оптимальное управление , 3-й семинар по вычислительным проблемам нелинейного управления, 8 октября 2019 г., Монтерей, Калифорния
- ^ Э. Полак, Об использовании непротиворечивых приближений при решении задач полубесконечной оптимизации и оптимального управления . Матем. Прог. 62 стр. 385–415 (1993).
- ^ Росс, И. М. (1 декабря 2005 г.). «Дорожная карта оптимального управления: правильный способ передвижения» . Анналы Нью-Йоркской академии наук . 1065 (1): 210–231. Бибкод : 2005NYASA1065..210R . дои : 10.1196/анналы.1370.015 . ISSN 0077-8923 . ПМИД 16510411 . S2CID 7625851 .
- ^ Фару, Фариба; Росс, И. Майкл (сентябрь 2008 г.). «Сближение затрат не влечет за собой сближение контроля» . Журнал руководства, контроля и динамики . 31 (5): 1492–1497. Бибкод : 2008JGCD...31.1492F . дои : 10.2514/1.37331 . ISSN 0731-5090 . S2CID 756939 .
Дальнейшее чтение [ править ]
- Берцекас, Д.П. (1995). Динамическое программирование и оптимальное управление . Бельмонт: Афина. ISBN 1-886529-11-6 .
- Брайсон, AE ; Хо, Ю.-К. (1975). Прикладное оптимальное управление: оптимизация, оценка и управление (пересмотренная ред.). Нью-Йорк: Джон Уайли и сыновья. ISBN 0-470-11481-9 .
- Флеминг, WH ; Ришель, RW (1975). Детерминированное и стохастическое оптимальное управление . Нью-Йорк: Спрингер. ISBN 0-387-90155-8 .
- Камен, Мичиган ; Шварц, Нидерланды (1991). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте (второе изд.). Нью-Йорк: Эльзевир. ISBN 0-444-01609-0 .
- Кирк, Делавэр (1970). Теория оптимального управления: Введение . Энглвуд Клиффс: Прентис-Холл. ISBN 0-13-638098-0 .
Внешние ссылки [ править ]
- Виктор М. Бесерра, изд. (2008). «Оптимальное управление» . Схоларпедия . Проверено 31 декабря 2022 г.
- Вычислительное оптимальное управление
- Доктор Бенуа ШАШЮА: Лаборатория автоматического управления – нелинейное программирование, вариационное исчисление и оптимальное управление.
- DIDO - инструмент MATLAB для оптимального управления
- GEKKO — пакет Python для оптимального управления
- GESOP – Графическая среда для моделирования и оптимизации
- GPOPS-II - универсальное программное обеспечение MATLAB для оптимального управления
- CasADi – Бесплатная символьная платформа с открытым исходным кодом для оптимального управления.
- PROPT - Программное обеспечение оптимального управления MATLAB
- OpenOCL - Открытая библиотека оптимального управления. Архивировано 20 апреля 2019 г. на Wayback Machine.
- Элмер Г. Винс: Оптимальное управление - Применение теории оптимального управления с использованием принципа максимума Понтрягина с интерактивными моделями.
- On Optimal Control by Yu-Chi Ho
- Псевдоспектральное оптимальное управление. Часть 1.
- Псевдоспектральное оптимальное управление. Часть 2.
- Записи и сценарий лекций профессора Морица Диля, Фрайбургский университет, по численному оптимальному управлению