Линейно-квадратично-гауссово управление

В теории управления задача линейно-квадратично-гауссова ( LQG ) управления является одной из наиболее фундаментальных задач оптимального управления , и ее также можно многократно использовать для управления моделью с прогнозированием . Речь идет о линейных системах, управляемых аддитивным белым гауссовским шумом . Задача состоит в том, чтобы определить закон обратной связи по выходу, оптимальный в смысле минимизации ожидаемого значения квадратичного критерия стоимости . Предполагается, что выходные измерения искажены гауссовским шумом, а исходное состояние также считается гауссовским случайным вектором.

При этих предположениях оптимальная схема управления в классе линейных законов управления может быть получена с помощью аргумента пополнения квадратов. ^[1] Этот закон управления, известный как контроллер LQG , уникален и представляет собой просто комбинацию фильтра Калмана (линейно-квадратичного средства оценки состояния (LQE)) вместе с линейно-квадратичным регулятором (LQR). Принцип разделения гласит, что средство оценки состояния и обратная связь по состоянию могут разрабатываться независимо. Управление LQG применяется как к линейным, не зависящим от времени системам , так и к линейным изменяющимся во времени системам и представляет собой закон управления с линейной динамической обратной связью, который легко вычисляется и реализуется: контроллер LQG сам по себе является динамической системой, подобной системе, которой он управляет. Обе системы имеют одинаковое государственное измерение.

Более глубокая формулировка принципа разделения заключается в том, что LQG-регулятор по-прежнему оптимален в более широком классе возможных нелинейных регуляторов. То есть использование нелинейной схемы управления не улучшит ожидаемое значение функции стоимости. Эта версия принципа разделения является частным случаем принципа разделения стохастического управления , который гласит, что даже когда источники шума процесса и выходного шума, возможно, являются негауссовскими мартингалами , пока динамика системы линейна, оптимальное управление разделяется на оценщик оптимального состояния (который больше не может быть фильтром Калмана) и регулятор LQR. ^[2]^[3]

В классической настройке LQG реализация контроллера LQG может быть проблематичной, когда размерность состояния системы велика. Проблема LQG уменьшенного порядка (проблема LQG фиксированного порядка) преодолевает это за счет априорного фиксирования количества состояний контроллера LQG. Эту проблему решить труднее, поскольку она уже неразделима. Кроме того, решение больше не является уникальным. Несмотря на эти факты, доступны численные алгоритмы. ^[4]^[5]^[6]^[7] решить соответствующие уравнения оптимальной проекции ^[8]^[9] которые составляют необходимые и достаточные условия для локально оптимального LQG-регулятора пониженного порядка. ^[4]

Оптимальность LQG не обеспечивает автоматически хорошие характеристики надежности. ^[10] Устойчивость системы с замкнутым контуром должна быть проверена отдельно после проектирования контроллера LQG. Для повышения надежности некоторые параметры системы можно считать стохастическими, а не детерминированными. Соответствующая более сложная задача управления приводит к аналогичному оптимальному регулятору, у которого различаются только параметры регулятора. ^[5]

Можно вычислить ожидаемое значение функции стоимости для оптимального выигрыша, а также для любого другого набора стабильных выигрышей. ^[11]

Контроллер LQG также используется для управления возмущенными нелинейными системами. ^[12]

Математическое описание задачи и решение [ править ]

Непрерывное время [ править ]

Рассмотрим с непрерывным временем линейную динамическую систему

{\dot {\mathbf {x} }}(t)=A(t)\mathbf {x} (t)+B(t)\mathbf {u} (t)+\mathbf {v} (t),

\mathbf {y} (t)=C(t)\mathbf {x} (t)+\mathbf {w} (t),

где ${\mathbf {x} }$ представляет собой вектор переменных состояния системы, ${\mathbf {u} }$ вектор управляющих входов и ${\mathbf {y} }$ вектор измеренных выходов, доступных для обратной связи. Оба аддитивных белых гауссовых системных шума $\mathbf {v} (t)$ и аддитивный белый гауссов шум измерений $\mathbf {w} (t)$ повлиять на систему. Цель этой системы — найти историю управляющих входов. ${\mathbf {u} }(t)$ который в каждый момент времени ${\mathbf {} }t$ может зависеть линейно только от прошлых измерений ${\mathbf {y} }(t'),0\leq t'<t$ так, что минимизируется следующая функция стоимости:

J=\mathbb {E} \left[{\mathbf {x} ^{\mathrm {T} }}(T)F{\mathbf {x} }(T)+\int _{0}^{T}{\mathbf {x} ^{\mathrm {T} }}(t)Q(t){\mathbf {x} }(t)+{\mathbf {u} ^{\mathrm {T} }}(t)R(t){\mathbf {u} }(t)\,dt\right],

F\geq 0,\quad Q(t)\geq 0,\quad R(t)>0,

где $\mathbb {E}$ обозначает ожидаемое значение . Последний раз (горизонт) ${\mathbf {} }T$ может быть конечным или бесконечным. Если горизонт стремится к бесконечности, первый член ${\mathbf {x} }^{\mathrm {T} }(T)F{\mathbf {x} }(T)$ Функция стоимости становится пренебрежимо малой и не имеет отношения к проблеме. Кроме того, чтобы затраты были конечными, функцию стоимости необходимо принять равной ${\mathbf {} }J/T$ .

Контроллер LQG, который решает задачу управления LQG, определяется следующими уравнениями:

{\dot {\hat {\mathbf {x} }}}(t)=A(t){\hat {\mathbf {x} }}(t)+B(t){\mathbf {u} }(t)+L(t)\left({\mathbf {y} }(t)-C(t){\hat {\mathbf {x} }}(t)\right),\quad {\hat {\mathbf {x} }}(0)=\mathbb {E} \left[{\mathbf {x} }(0)\right],

{\mathbf {u} }(t)=-K(t){\hat {\mathbf {x} }}(t).

Матрица ${\mathbf {} }L(t)$ называется коэффициентом усиления Калмана соответствующего фильтра Калмана, представленного первым уравнением. В каждый момент времени ${\mathbf {} }t$ этот фильтр генерирует оценки ${\hat {\mathbf {x} }}(t)$ государства ${\mathbf {x} }(t)$ используя прошлые измерения и входные данные. Выигрыш Кальмана ${\mathbf {} }L(t)$ вычисляется из матриц ${\mathbf {} }A(t),C(t)$ , две матрицы интенсивности $\mathbf {} V(t),W(t)$ связанный с белыми гауссовскими шумами $\mathbf {v} (t)$ и $\mathbf {w} (t)$ и наконец $\mathbb {E} \left[{\mathbf {x} }(0){\mathbf {x} }^{\mathrm {T} }(0)\right]$ . Эти пять матриц определяют коэффициент усиления Калмана посредством следующего связанного матричного дифференциального уравнения Риккати:

{\dot {P}}(t)=A(t)P(t)+P(t)A^{\mathrm {T} }(t)-P(t)C^{\mathrm {T} }(t){\mathbf {} }W^{-1}(t)C(t)P(t)+V(t),

P(0)=\mathbb {E} \left[{\mathbf {x} }(0){\mathbf {x} }^{\mathrm {T} }(0)\right].

Учитывая решение $P(t),0\leq t\leq T$ выигрыш Калмана равен

{\mathbf {} }L(t)=P(t)C^{\mathrm {T} }(t)W^{-1}(t).

Матрица ${\mathbf {} }K(t)$ называется матрицей усиления обратной связи . Эта матрица определяется матрицами ${\mathbf {} }A(t),B(t),Q(t),R(t)$ и ${\mathbf {} }F$ через следующее связанное матричное дифференциальное уравнение Риккати:

-{\dot {S}}(t)=A^{\mathrm {T} }(t)S(t)+S(t)A(t)-S(t)B(t)R^{-1}(t)B^{\mathrm {T} }(t)S(t)+Q(t),

{\mathbf {} }S(T)=F.

Учитывая решение ${\mathbf {} }S(t),0\leq t\leq T$ коэффициент обратной связи равен

{\mathbf {} }K(t)=R^{-1}(t)B^{\mathrm {T} }(t)S(t).

Обратите внимание на сходство двух матричных дифференциальных уравнений Риккати: первое движется вперед во времени, второе — назад во времени. Это сходство называется двойственностью . Первое матричное дифференциальное уравнение Риккати решает линейно-квадратическую задачу оценивания (LQE). Второе матричное дифференциальное уравнение Риккати решает задачу линейно-квадратичного регулятора (LQR). Эти задачи двойственны и вместе они решают задачу линейно-квадратично-гауссовского управления (ЛКГ). Таким образом, проблема LQG разделяется на проблемы LQE и LQR, которые можно решить независимо. Поэтому задача ЛКГ называется сепарабельной .

Когда ${\mathbf {} }A(t),B(t),C(t),Q(t),R(t)$ и матрицы интенсивности шума $\mathbf {} V(t)$ , $\mathbf {} W(t)$ не зависеть от ${\mathbf {} }t$ и когда ${\mathbf {} }T$ стремится к бесконечности, LQG-регулятор становится стационарной динамической системой. В этом случае второе матричное дифференциальное уравнение Риккати может быть заменено соответствующим алгебраическим уравнением Риккати .

Дискретное время [ править ]

Поскольку задача управления LQG в дискретном времени аналогична задаче управления в непрерывном времени, описание ниже сосредоточено на математических уравнениях.

Уравнения линейной системы с дискретным временем имеют вид

{\mathbf {x} }_{i+1}=A_{i}\mathbf {x} _{i}+B_{i}\mathbf {u} _{i}+\mathbf {v} _{i},

\mathbf {y} _{i}=C_{i}\mathbf {x} _{i}+\mathbf {w} _{i}.

Здесь $\mathbf {} i$ представляет индекс дискретного времени и $\mathbf {v} _{i},\mathbf {w} _{i}$ представляют процессы гауссовского белого шума с дискретным временем с ковариационными матрицами $\mathbf {} V_{i},W_{i}$ соответственно и независимы друг от друга.

Квадратичная функция стоимости, которую необходимо минимизировать, равна

J=\mathbb {E} \left[{\mathbf {x} }_{N}^{\mathrm {T} }F{\mathbf {x} }_{N}+\sum _{i=0}^{N-1}(\mathbf {x} _{i}^{\mathrm {T} }Q_{i}\mathbf {x} _{i}+\mathbf {u} _{i}^{\mathrm {T} }R_{i}\mathbf {u} _{i})\right],

F\geq 0,Q_{i}\geq 0,R_{i}>0.\,

Контроллер LQG с дискретным временем

{\hat {\mathbf {x} }}_{i+1}=A_{i}{\hat {\mathbf {x} }}_{i}+B_{i}{\mathbf {u} }_{i}+L_{i+1}\left({\mathbf {y} }_{i+1}-C_{i+1}\left\{A_{i}{\hat {\mathbf {x} }}_{i}+B_{i}\mathbf {u} _{i}\right\}\right),\qquad {\hat {\mathbf {x} }}_{0}=\mathbb {E} [{\mathbf {x} }_{0}]

,

\mathbf {u} _{i}=-K_{i}{\hat {\mathbf {x} }}_{i}.\,

и ${\hat {\mathbf {x} }}_{i}$ соответствует прогнозной оценке ${\hat {\mathbf {x} }}_{i}=\mathbb {E} [\mathbf {x} _{i}|\mathbf {y} ^{i},\mathbf {u} ^{i-1}]$ .

Выигрыш Калмана равен

{\mathbf {} }L_{i}=P_{i}C_{i}^{\mathrm {T} }(C_{i}P_{i}C_{i}^{\mathrm {T} }+W_{i})^{-1},

где ${\mathbf {} }P_{i}$ определяется следующим матричным разностным уравнением Риккати, которое работает вперед во времени:

P_{i+1}=A_{i}\left(P_{i}-P_{i}C_{i}^{\mathrm {T} }\left(C_{i}P_{i}C_{i}^{\mathrm {T} }+W_{i}\right)^{-1}C_{i}P_{i}\right)A_{i}^{\mathrm {T} }+V_{i},\qquad P_{0}=\mathbb {E} [\left({\mathbf {x} }_{0}-{\hat {\mathbf {x} }}_{0}\right)\left({\mathbf {x} }_{0}-{\hat {\mathbf {x} }}_{0}\right)^{\mathrm {T} }].

Матрица усиления обратной связи равна

{\mathbf {} }K_{i}=(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i})^{-1}B_{i}^{\mathrm {T} }S_{i+1}A_{i}

где ${\mathbf {} }S_{i}$ определяется следующим матричным разностным уравнением Риккати, которое работает в обратном направлении во времени:

S_{i}=A_{i}^{\mathrm {T} }\left(S_{i+1}-S_{i+1}B_{i}\left(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i}\right)^{-1}B_{i}^{\mathrm {T} }S_{i+1}\right)A_{i}+Q_{i},\quad S_{N}=F.

Если все матрицы в формулировке задачи инвариантны во времени и если горизонт ${\mathbf {} }N$ стремится к бесконечности, контроллер LQG с дискретным временем становится инвариантным во времени. В этом случае матричные разностные уравнения Риккати могут быть заменены соответствующими алгебраическими уравнениями Риккати в дискретном времени . Они определяют неизменяемый во времени линейно-квадратичный оценщик и неизменяемый во времени линейно-квадратичный регулятор в дискретном времени. Чтобы сохранить затраты конечными, а не ${\mathbf {} }J$ нужно учитывать ${\mathbf {} }J/N$ в этом случае.

См. также [ править ]

Ссылки [ править ]

^ Карл Йохан Астром (1970). Введение в стохастическую теорию управления . Том. 58. Академическая пресса. ISBN 0-486-44531-3 .
^ Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal по контролю . 11 (2): 323–343. дои : 10.1137/0311025 . .
^ Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». Транзакции IEEE при автоматическом управлении . 58 (10): 2481–2494. arXiv : 1103.3005 . дои : 10.1109/TAC.2013.2259207 . S2CID 12623187 .
↑ Перейти обратно: Перейти обратно: ^а ^б Ван Виллигенбург Л.Г.; Де Конинг В.Л. (2000). «Численные алгоритмы и вопросы, касающиеся уравнений оптимального проецирования в дискретном времени». Европейский журнал контроля . 6 (1): 93–100. дои : 10.1016/s0947-3580(00)70917-4 . Сопутствующее программное обеспечение можно загрузить с Matlab Central .
↑ Перейти обратно: Перейти обратно: ^а ^б Ван Виллигенбург Л.Г.; Де Конинг В.Л. (1999). «Оптимальные компенсаторы пониженного порядка для нестационарных дискретных систем с детерминированными параметрами и параметрами белого». Автоматика . 35 : 129–138. дои : 10.1016/S0005-1098(98)00138-1 . Сопутствующее программное обеспечение можно загрузить с Matlab Central .
^ Жигич Д.; Уотсон Л.Т.; Коллинз Э.Г.; Хаддад В.М.; Ин С. (1996). «Гомотопические методы решения уравнений оптимального проецирования для задачи модели пониженного порядка H2». Международный журнал контроля . 56 (1): 173–191. дои : 10.1080/00207179208934308 .
^ Коллинз-младший Э.Г.; Хаддад В.М.; Ин С. (1996). «Гомотопический алгоритм для динамической компенсации пониженного порядка с использованием уравнений оптимальной проекции Хайланда-Бернштейна». Журнал руководства, контроля и динамики . 19 (2): 407–417. дои : 10.2514/3.21633 .
^ Хайленд, округ Колумбия; Бернштейн Д.С. (1984). «Оптимальные уравнения проекции для динамической компенсации фиксированного порядка» (PDF) . Транзакции IEEE при автоматическом управлении . AC-29 (11): 1034–1037. дои : 10.1109/TAC.1984.1103418 . hdl : 2027.42/57875 .
^ Бернштейн Д.С.; Дэвис Л.Д.; Хайленд, округ Колумбия (1986). «Оптимальные проекционные уравнения для оценки и управления моделированием в дискретном времени пониженного порядка» (PDF) . Журнал руководства, контроля и динамики . 9 (3): 288–293. Бибкод : 1986JGCD....9..288B . дои : 10.2514/3.20105 . hdl : 2027.42/57880 .
^ Грин, Майкл; Лаймбир, Дэвид Дж. Н. (1995). Линейное робастное управление . Энглвуд Клиффс: Прентис Холл. п. 27. ISBN 0-13-102278-4 .
^ Мацакис, Деметриос (8 марта 2019 г.). «Влияние стратегий пропорционального управления на поведение управляемых часов» . Метрология . 56 (2): 025007. Бибкод : 2019Метро..56b5007M . дои : 10.1088/1681-7575/ab0614 .
^ Атанс М. (1971). «Роль и использование стохастической линейно-квадратично-гауссовой задачи при проектировании систем управления». Транзакции IEEE при автоматическом управлении . AC-16 (6): 529–552. дои : 10.1109/TAC.1971.1099818 .

Дальнейшее чтение [ править ]

Стенгель, Роберт Ф. (1994). Оптимальное управление и оценка . Нью-Йорк: Дувр. ISBN 0-486-68200-5 .

[astrom-1] Карл Йохан Астром (1970). Введение в стохастическую теорию управления . Том. 58. Академическая пресса. ISBN 0-486-44531-3 .

[lindquist-2] Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal по контролю . 11 (2): 323–343. дои : 10.1137/0311025 . .

[GL2013-3] Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». Транзакции IEEE при автоматическом управлении . 58 (10): 2481–2494. arXiv : 1103.3005 . дои : 10.1109/TAC.2013.2259207 . S2CID 12623187 .

[Wil1-4] Перейти обратно: Перейти обратно: ^а ^б Ван Виллигенбург Л.Г.; Де Конинг В.Л. (2000). «Численные алгоритмы и вопросы, касающиеся уравнений оптимального проецирования в дискретном времени». Европейский журнал контроля . 6 (1): 93–100. дои : 10.1016/s0947-3580(00)70917-4 . Сопутствующее программное обеспечение можно загрузить с Matlab Central .

[Wil2-5] Перейти обратно: Перейти обратно: ^а ^б Ван Виллигенбург Л.Г.; Де Конинг В.Л. (1999). «Оптимальные компенсаторы пониженного порядка для нестационарных дискретных систем с детерминированными параметрами и параметрами белого». Автоматика . 35 : 129–138. дои : 10.1016/S0005-1098(98)00138-1 . Сопутствующее программное обеспечение можно загрузить с Matlab Central .

[Bern3-6] Жигич Д.; Уотсон Л.Т.; Коллинз Э.Г.; Хаддад В.М.; Ин С. (1996). «Гомотопические методы решения уравнений оптимального проецирования для задачи модели пониженного порядка H2». Международный журнал контроля . 56 (1): 173–191. дои : 10.1080/00207179208934308 .

[Had1-7] Коллинз-младший Э.Г.; Хаддад В.М.; Ин С. (1996). «Гомотопический алгоритм для динамической компенсации пониженного порядка с использованием уравнений оптимальной проекции Хайланда-Бернштейна». Журнал руководства, контроля и динамики . 19 (2): 407–417. дои : 10.2514/3.21633 .

[Bern1-8] Хайленд, округ Колумбия; Бернштейн Д.С. (1984). «Оптимальные уравнения проекции для динамической компенсации фиксированного порядка» (PDF) . Транзакции IEEE при автоматическом управлении . AC-29 (11): 1034–1037. дои : 10.1109/TAC.1984.1103418 . hdl : 2027.42/57875 .

[Bern2-9] Бернштейн Д.С.; Дэвис Л.Д.; Хайленд, округ Колумбия (1986). «Оптимальные проекционные уравнения для оценки и управления моделированием в дискретном времени пониженного порядка» (PDF) . Журнал руководства, контроля и динамики . 9 (3): 288–293. Бибкод : 1986JGCD....9..288B . дои : 10.2514/3.20105 . hdl : 2027.42/57880 .

[10] Грин, Майкл; Лаймбир, Дэвид Дж. Н. (1995). Линейное робастное управление . Энглвуд Клиффс: Прентис Холл. п. 27. ISBN 0-13-102278-4 .

[11] Мацакис, Деметриос (8 марта 2019 г.). «Влияние стратегий пропорционального управления на поведение управляемых часов» . Метрология . 56 (2): 025007. Бибкод : 2019Метро..56b5007M . дои : 10.1088/1681-7575/ab0614 .

[Athans-12] Атанс М. (1971). «Роль и использование стохастической линейно-квадратично-гауссовой задачи при проектировании систем управления». Транзакции IEEE при автоматическом управлении . AC-16 (6): 529–552. дои : 10.1109/TAC.1971.1099818 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]