Jump to content

Оптимальное управление

Эталон задачи оптимального управления (Луус) с интегральной целью, неравенством и дифференциальным ограничением

Теория оптимального управления — это раздел теории управления , который занимается поиском управления динамической системой в течение определенного периода времени, при котором целевая функция оптимизируется. [1] Он имеет множество применений в науке, технике и исследованиях операций. Например, динамическая система может представлять собой космический корабль с органами управления, соответствующими ракетным двигателям, и целью может быть достижение Луны с минимальными затратами топлива. [2] Или динамической системой могла бы стать национальная экономика , целью которой является минимизация безработицы ; средствами контроля в этом случае могла бы быть фискальная и монетарная политика . [3] Динамическая система также может быть введена для включения задач исследования операций в рамках теории оптимального управления. [4] [5]

Оптимальное управление является расширением вариационного исчисления и представляет собой метод математической оптимизации для разработки политики управления . [6] Этот метод во многом обязан работе Льва Понтрягина и Ричарда Беллмана в вариационное исчисление в 1950-х годах после вклада Эдварда Дж. МакШейна . [7] Оптимальное управление можно рассматривать как стратегию управления в теории управления . [1]

Общий метод [ править ]

Оптимальное управление занимается проблемой поиска закона управления данной системой, при котором определенный критерий оптимальности достигается . Задача управления включает в себя функционал стоимости , который является функцией переменных состояния и управления. Оптимальное управление — это набор дифференциальных уравнений, описывающих пути переменных управления, которые минимизируют функцию стоимости. Оптимальное управление можно получить, используя принцип максимума Понтрягина ( необходимое условие, также известное как принцип минимума Понтрягина или просто принцип Понтрягина). [8] или путем решения уравнения Гамильтона–Якоби–Беллмана ( достаточное условие ).

Начнем с простого примера. Рассмотрим автомобиль, едущий прямолинейно по холмистой дороге. Вопрос в том, как водителю следует нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на акселератор и переключает передачи. Система критерием состоит как из автомобиля, так и из дороги, а оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя проталкивать через пол автомобиля, ограничения скорости и т. д.

Правильная функция стоимости будет представлять собой математическое выражение, показывающее время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная с этим задача оптимального управления может состоять в том, чтобы найти способ управления автомобилем так, чтобы минимизировать расход топлива, учитывая, что он должен пройти заданный курс за время, не превышающее некоторого времени. Еще одна связанная с этим проблема управления может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная схема выглядит следующим образом. [1] Минимизируйте функционал стоимости непрерывного времени

с учетом динамических ограничений первого порядка ( уравнение состояния )
алгебраического пути ограничения
и конечные условия
где это государство , это контроль , – независимая переменная (вообще говоря, время), - начальное время, и это конечное время. Условия и называются конечной стоимостью и эксплуатационными расходами соответственно. В вариационном исчислении и называются термином Майера и лагранжианом соответственно. Кроме того, следует отметить, что ограничения пути относятся к общим ограничениям- неравенствам и, таким образом, могут быть неактивными (т. е. равными нулю) при оптимальном решении. Также отмечается, что задача оптимального управления, как указано выше, может иметь несколько решений (т. е. решение может не быть единственным). Таким образом, чаще всего любое решение к задаче оптимального управления является локально минимизирующей .

Линейно-квадратичное управление [ править ]

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Задача LQ формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени

С учетом линейных динамических ограничений первого порядка

и начальное состояние

Особой формой проблемы LQ, которая возникает во многих задачах системы управления, является линейный квадратичный регулятор (LQR), где все матрицы (т. е. , , , и ) постоянны , начальное время произвольно полагается равным нулю, а конечное время принимается в пределе (это последнее предположение известно как бесконечный горизонт ). Задача ЛКР формулируется следующим образом. Минимизируйте квадратичный функционал стоимости непрерывного времени с бесконечным горизонтом

С учетом линейных, нестационарных динамических ограничений первого порядка.

и начальное состояние

В случае конечного интервала матрицы ограничены тем, что и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения на и в случае бесконечного горизонта применяются для обеспечения того, чтобы функционал стоимости оставался положительным. Кроме того, чтобы обеспечить ограниченность функции стоимости , накладывается дополнительное ограничение, заключающееся в том, что пара является управляемым . Обратите внимание, что функционал стоимости LQ или LQR можно физически рассматривать как попытку минимизировать энергию управления (измеренную как квадратичную форму).

Проблема бесконечного горизонта (т. е. LQR) может показаться чрезмерно ограничительной и по сути бесполезной, поскольку предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выходной сигнал системы. Это действительно правильно. Однако проблема доведения выходного сигнала до желаемого ненулевого уровня может быть решена после достижения нулевого выходного уровня. Фактически можно доказать, что эту вторичную проблему LQR можно решить очень простым способом. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет форму обратной связи

где представляет собой матрицу правильного размера, заданную как
и является решением дифференциального уравнения Риккати . Дифференциальное уравнение Риккати имеет вид

Для задачи LQ на конечном горизонте уравнение Риккати интегрируется назад во времени с использованием терминального граничного условия

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), задаваемым как

Понимая, что ARE возникает из-за проблемы бесконечного горизонта, матрицы , , , и все постоянны . Следует отметить, что, как правило, существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение используется для расчета коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Э. Кальманом . [9]

Численные методы оптимального управления [ править ]

Задачи оптимального управления, как правило, нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате для решения задач оптимального управления необходимо использовать численные методы. В первые годы оптимального управления ( около 1950-1980-х годов) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе для получения условий оптимальности первого порядка используется вариационное исчисление. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида [1]

где
расширенный гамильтониан и косвенным методом решается краевая задача (с использованием соответствующих краевых условий или условий трансверсальности ). Прелесть использования косвенного метода в том, что состояние и сопряженное (т. е. ) решаются, и полученное решение, как легко проверить, является экстремальной траекторией. Недостатком косвенных методов является то, что краевую задачу зачастую чрезвычайно сложно решить (особенно для задач, охватывающих большие интервалы времени, или задач с внутренними точечными ограничениями). Известная программа, реализующая косвенные методы, — BNDSCO. [10]

Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, — это так называемые прямые методы . В прямом методе состояние или управление или и то, и другое аппроксимируются с использованием соответствующей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). При этом функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функции рассматриваются как переменные оптимизации, и задача «транскрибируется» в задачу нелинейной оптимизации вида:

Свернуть

с учетом алгебраических ограничений

В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть весьма малым (например, как в методе прямой стрельбы или методе квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление). [11] ) или может быть довольно большим (например, метод прямого коллокирования [12] ). В последнем случае (т. е. метод коллокации) задача нелинейной оптимизации может заключаться буквально в тысячах и десятках тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих в результате прямого метода, может показаться несколько нелогичным, что решение задачи нелинейной оптимизации проще, чем решение краевой задачи. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно метода прямой коллокации, заключается в том, что NLP немногочисленн и существует множество известных программ (например, SNOPT [13] ) для решения больших разреженных задач НЛП. В результате круг задач, которые можно решить прямыми методами (особенно методами прямой коллокации популярными в настоящее время ), значительно шире, чем круг задач, которые можно решить косвенными методами. Фактически, в наши дни прямые методы стали настолько популярны, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL , [14] СОКС, [15] ОТИС, [16] ГЕСОП/ АСТОС , [17] ДИТАН. [18] и ПиГМО/ПиКЕП. [19] В последние годы, в связи с появлением языка программирования MATLAB , программное обеспечение оптимального управления на языке MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , [20] ДИДО , [21] ПРЯМОЙ , [22] СОКОЛ.м, [23] и ГПОПС, [24] в то время как примером разработанного в отрасли инструмента MATLAB является PROPT . [25] Эти программные инструменты значительно расширили возможности людей исследовать сложные проблемы оптимального управления как для академических исследований, так и для промышленных проблем. [26] Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB, значительно упростили кодирование сложных задач оптимального управления, чем это было возможно ранее в таких языках, как C и FORTRAN .

Оптимальное управление с дискретным временем [ править ]

До сих пор примеры демонстрировали системы непрерывного времени и решения по управлению. Фактически, поскольку решения по оптимальному управлению теперь часто реализуются в цифровом виде , современная теория управления теперь в первую очередь занимается системами и решениями с дискретным временем . Теория согласованных приближений [27] [28] обеспечивает условия, при которых решения ряда все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже, казалось бы, очевидным. [29] Например, использование процедуры с переменным размером шага для интегрирования динамических уравнений задачи может привести к созданию градиента, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории последовательной аппроксимации.

Примеры [ править ]

Общей стратегией решения многих задач оптимального управления является определение стоимости (иногда называемой теневой ценой ). . Костата суммирует в одном числе предельное значение расширения или сжатия переменной состояния на следующем ходу. Предельная ценность — это не только выгоды, полученные на следующем ходу, но и связанные с продолжительностью программы. Это приятно, когда может быть решено аналитически, но обычно самое большее, что можно сделать, — это описать его достаточно хорошо, чтобы интуиция могла уловить характер решения, а программа для решения уравнений могла найти значения численно.

Получив , оптимальное значение управления при повороте t обычно можно решить как дифференциальное уравнение, зависящее от знания . Опять же, нечасто, особенно в задачах с непрерывным временем, можно получить явное значение управления или состояния. Обычно стратегия состоит в том, чтобы найти пороговые значения и области, которые характеризуют оптимальное управление, и использовать числовой решатель для изоляции фактических значений выбора во времени.

Конечное время [ править ]

Рассмотрим задачу владельца шахты, который должен решить, с какой скоростью добывать руду из своей шахты. Они владеют правами на руду с даты на сегодняшний день . На дату есть руда в земле и количество руды, зависящее от времени оставшееся в земле уменьшается со скоростью что владелец шахты его добывает. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратному значению количества оставшейся руды) и продает руду по постоянной цене. . Любая руда, оставшаяся в земле в определенное время не подлежит продаже и не имеет ценности (нет «цены лома»). Владелец выбирает скорость добычи, меняющуюся со временем. максимизировать прибыль за период владения без дисконтирования по времени.

  1. Версия с дискретным временем

    Менеджер максимизирует прибыль :

    подчиняется закону движения переменной состояния

    Составьте гамильтониан и продифференцируйте:

    Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,

    Используя приведенные выше уравнения, легко найти решение для и ряд

    и используя начальные условия и условия поворота T, ряд можно решить явно, дав .
  2. Непрерывная версия

    Менеджер максимизирует прибыль :

    где переменная состояния развивается следующим образом:

    Составьте гамильтониан и продифференцируйте:

    Поскольку владелец шахты не оценивает оставшуюся на данный момент руду ,

    Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и

    и используя начальные условия и условия поворота T, функции можно решить, чтобы получить

См. также [ править ]

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д Росс, Исаак (2015). Введение в принцип Понтрягина в оптимальном управлении . Сан-Франциско: Университетские издательства. ISBN  978-0-9843571-0-9 . OCLC   625106088 .
  2. ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы . Нью-Йорк: Джон Уайли и сыновья. стр. 393–435 . ISBN  0-471-02594-1 .
  3. ^ Камен, Мортон И. (2013). Динамическая оптимизация: вариационное исчисление и оптимальное управление в экономике и менеджменте . Дуврские публикации. ISBN  978-1-306-39299-0 . OCLC   869522905 .
  4. ^ Росс, IM; Пру, Р.Дж.; Карпенко М. (6 мая 2020 г.). «Теория оптимального управления для задачи коммивояжера и ее вариантов». arXiv : 2005.03186 [ math.OC ].
  5. ^ Росс, Исаак М.; Карпенко, Марк; Пру, Рональд Дж. (1 января 2016 г.). «Негладкое исчисление для решения некоторых задач теории графов ** Это исследование спонсировалось ВМС США» . IFAC-PapersOnLine . 10-й симпозиум IFAC по нелинейным системам управления NOLCOS 2016. 49 (18): 462–467. дои : 10.1016/j.ifacol.2016.10.208 . ISSN   2405-8963 .
  6. ^ Сарджент, RWH (2000). «Оптимальное управление» . Журнал вычислительной и прикладной математики . 124 (1–2): 361–371. Бибкод : 2000JCoAM.124..361S . дои : 10.1016/S0377-0427(00)00418-0 .
  7. ^ Брайсон, А.Е. (1996). «Оптимальное управление - 1950–1985». Журнал IEEE Control Systems . 16 (3): 26–33. дои : 10.1109/37.506395 .
  8. ^ Росс, IM (2009). Введение в принцип Понтрягина в оптимальном управлении . Коллегиальные издательства. ISBN  978-0-9843571-0-9 .
  9. ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования . Труды ASME, Журнал фундаментальной инженерии, 82: 34–45, 1960 г.
  10. ^ Оберле, Х.Дж. и Гримм, В., «Программа BNDSCO-A для численного решения задач оптимального управления», Институт динамики летных систем, DLR, Оберпфаффенхофен, 1989.
  11. ^ Росс, IM ; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету» . Ежегодные обзоры под контролем . 36 (2): 182–197. doi : 10.1016/j.arcontrol.2012.09.002 .
  12. ^ Беттс, Джей Ти (2010). Практические методы оптимального управления с использованием нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN  978-0-89871-688-7 .
  13. ^ Гилл, П.Е., Мюррей, В.М. и Сондерс, Массачусетс, Руководство пользователя для SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования , Калифорнийский университет, отчет Сан-Диего, 24 апреля 2007 г.
  14. ^ фон Стрик, О., Руководство пользователя для DIRCOL (версия 2.1): метод прямой коллокации для численного решения задач оптимального управления , Департамент моделирования и оптимизации системы (SIM), Технический университет Дармштадта (2000 г., версия от ноября 1999 г.) ).
  15. ^ Беттс, Дж. Т. и Хаффман, WP, Программное обеспечение для разреженного оптимального управления, SOCS , Служба информации и поддержки Boeing, Сиэтл, Вашингтон, июль 1997 г.
  16. ^ Харгрейвс, Чехия; Париж, Юго-Запад (1987). «Прямая оптимизация траектории с использованием нелинейного программирования и коллокации». Журнал руководства, контроля и динамики . 10 (4): 338–342. Бибкод : 1987JGCD...10..338H . дои : 10.2514/3.20223 .
  17. ^ Гат, П.Ф., Ну, К.Х., «Оптимизация траектории с использованием комбинации прямой многократной стрельбы и коллокации», AIAA 2001–4047, Конференция AIAA по руководству, навигации и контролю, Монреаль, Квебек, Канада, 6–9 августа 2001 г.
  18. ^ Василе М., Бернелли-Заззера Ф., Форнасари Н., Масарати П., «Проектирование межпланетных и лунных миссий, сочетающих малую тягу и гравитационную поддержку», Заключительный отчет исследовательского контракта ЕКА/ESOC № 14126/00/ Д/КС, сентябрь 2002 г.
  19. ^ Иззо, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (на примере оптимизации межпланетных траекторий)». Продолжить. Пятая Международная конференция. Астродинам. Инструменты и методы, ICATT. 2012.
  20. RIOTS. Архивировано 16 июля 2011 года в Wayback Machine , на основе Шварц, Адам (1996). Теория и реализация методов на основе интегрирования Рунге–Кутты для решения задач оптимального управления (доктор философии). Калифорнийский университет в Беркли. ОСЛК   35140322 .
  21. ^ Росс, И.М., Улучшения в наборе инструментов оптимального управления DIDO, arXiv 2020. https://arxiv.org/abs/2004.13112
  22. ^ Уильямс, П., Руководство пользователя по DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
  23. ^ FALCON.m , описано в книге Рик М., Биттнер М., Грютер Б., Дипольдер Дж. и Пипрек П., FALCON.m - Руководство пользователя , Институт динамики летных систем, Мюнхенский технический университет. , октябрь 2019 г.
  24. ^ GPOPS. Архивировано 24 июля 2011 г. в Wayback Machine , описано в Рао, А.В., Бенсоне, Д.А., Хантингтоне, Г.Т., Франколине, К., Дарби, К.Л. и Паттерсоне, Массачусетс, Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации. Использование псевдоспектрального метода Гаусса , отчет Университета Флориды, август 2008 г.
  25. ^ Рутквист, П. и Эдвалл, М.М., PROPT – Программное обеспечение для оптимального управления MATLAB», 1260 SE Bishop Blvd Ste E, Пуллман, Вашингтон, 99163, США: Tomlab Optimization, Inc.
  26. ^ И. М. Росс, Вычислительное оптимальное управление , 3-й семинар по вычислительным проблемам нелинейного управления, 8 октября 2019 г., Монтерей, Калифорния
  27. ^ Э. Полак, Об использовании непротиворечивых приближений при решении задач полубесконечной оптимизации и оптимального управления . Матем. Прог. 62 стр. 385–415 (1993).
  28. ^ Росс, И. М. (1 декабря 2005 г.). «Дорожная карта оптимального управления: правильный способ передвижения» . Анналы Нью-Йоркской академии наук . 1065 (1): 210–231. Бибкод : 2005NYASA1065..210R . дои : 10.1196/анналы.1370.015 . ISSN   0077-8923 . ПМИД   16510411 . S2CID   7625851 .
  29. ^ Фару, Фариба; Росс, И. Майкл (сентябрь 2008 г.). «Сближение затрат не влечет за собой сближение контроля» . Журнал руководства, контроля и динамики . 31 (5): 1492–1497. Бибкод : 2008JGCD...31.1492F . дои : 10.2514/1.37331 . ISSN   0731-5090 . S2CID   756939 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 36813bb5799f0974fbeab1236a8581b0__1700435340
URL1:https://arc.ask3.ru/arc/aa/36/b0/36813bb5799f0974fbeab1236a8581b0.html
Заголовок, (Title) документа по адресу, URL1:
Optimal control - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)