Алгебраическое уравнение Риккати

Алгебраическое уравнение Риккати — это тип нелинейного уравнения, которое возникает в контексте задач оптимального управления на бесконечном интервале времени в непрерывном или дискретном времени .

Типичное алгебраическое уравнение Риккати похоже на одно из следующих:

алгебраическое уравнение Риккати с непрерывным временем (CARE):

A^{T}P+PA-PBR^{-1}B^{T}P+Q=0\,

или алгебраическое уравнение Риккати с дискретным временем (DARE):

P=A^{T}PA-(A^{T}PB)(R+B^{T}PB)^{-1}(B^{T}PA)+Q.\,

P — неизвестная размера n на n симметричная матрица , а A , B , Q , R — известные вещественных коэффициентов матрицы , причем Q и R симметричны.

Хотя обычно это уравнение может иметь много решений, обычно указывается, что мы хотим получить единственное стабилизирующее решение, если такое решение существует.

Происхождение имени

Этим уравнениям дано название Риккати из-за их связи с дифференциальным уравнением Риккати . Действительно, CARE проверяется инвариантными во времени решениями соответствующего матричного дифференциального уравнения Риккати. Что касается DARE, то оно проверяется инвариантными во времени решениями матричного разностного уравнения Риккати (которое является аналогом дифференциального уравнения Риккати в контексте LQR с дискретным временем).

Контекст алгебраического уравнения Риккати с дискретным временем

с бесконечным горизонтом В задачах оптимального управления нас интересует значение некоторой интересующей переменной в произвольно далеком будущем, и необходимо оптимально выбрать значение управляемой переменной прямо сейчас, зная, что она также будет вести себя оптимально в любой момент времени. будущее. Оптимальные текущие значения управляющих переменных задачи в любой момент можно найти, используя решение уравнения Риккати и текущие наблюдения за развивающимися переменными состояния. При наличии нескольких переменных состояния и нескольких переменных управления уравнение Риккати будет матричным уравнением.

Алгебраическое уравнение Риккати определяет решение неизменной во времени задачи линейно-квадратичного регулятора (LQR), а также решения инвариантной во времени задачи линейно-квадратично-гауссовского управления с бесконечным горизонтом (LQG). Это две наиболее фундаментальные проблемы теории управления .

Типичная спецификация задачи линейно-квадратического управления с дискретным временем состоит в минимизации

\sum _{t=1}^{T}(x_{t}^{T}Qx_{t}+u_{t}^{T}Ru_{t})

подчиняется уравнению состояния

x_{t}=Ax_{t-1}+Bu_{t-1},

где x — n вектор переменных состояния размером × 1, u — размером k вектор переменных управления × 1, A — n × n матрица перехода состояний , B — размером n × k матрица множителей управления , Q ( n × n ) является симметричной положительной полуопределенной состояния матрицей стоимости , а R ( k × k ) является симметричной положительно определенной матрицей стоимости управления.

Индукцию назад во времени можно использовать для получения оптимального решения управления в каждый момент времени. ^[1]

u_{t}^{*}=-(B^{T}P_{t+1}B+R)^{-1}(B^{T}P_{t+1}A)x_{t},

с симметричной положительно определенной матрицей себестоимости P, развивающейся назад во времени от $P_{T}=Q$ в соответствии с

P_{t-1}=Q+A^{T}P_{t}A-A^{T}P_{t}B(B^{T}P_{t}B+R)^{-1}B^{T}P_{t}A,\,

которое известно как динамическое уравнение Риккати с дискретным временем этой задачи. Стационарную характеристику P , соответствующую задаче с бесконечным горизонтом, в которой T стремится к бесконечности, можно найти путем многократного повторения динамического уравнения до тех пор, пока оно не сходится; тогда P характеризуется удалением индексов времени из динамического уравнения.

Решение

Обычно решатели пытаются найти единственное стабилизирующее решение, если такое решение существует. Решение является стабилизирующим, если его использование для управления соответствующей системой LQR делает замкнутую систему стабильной.

Для CARE контроль

K=R^{-1}B^{T}P

а матрица передачи состояний замкнутого контура равна

A-BK=A-BR^{-1}B^{T}P

которая устойчива тогда и только тогда, когда все ее собственные значения имеют строго отрицательную действительную часть.

Для DARE управление

K=(R+B^{T}PB)^{-1}B^{T}PA

а матрица передачи состояний замкнутого контура равна

A-BK=A-B(R+B^{T}PB)^{-1}B^{T}PA

который устойчив тогда и только тогда, когда все его собственные значения находятся строго внутри единичного круга комплексной плоскости.

Решение алгебраического уравнения Риккати можно получить путем матричной факторизации или путем итерации уравнения Риккати. Один тип итерации можно получить в случае дискретного времени, используя динамическое уравнение Риккати, которое возникает в задаче с конечным горизонтом: в задаче последнего типа каждая итерация значения матрицы важна для оптимального выбора в каждый период, который представляет собой конечное расстояние во времени от конечного периода времени, и если оно повторяется бесконечно далеко назад во времени, оно сходится к конкретной матрице, которая имеет значение для оптимального выбора, за бесконечный отрезок времени до конечного периода, то есть, когда есть бесконечный горизонт.

Также возможно найти решение, найдя собственное разложение более крупной системы. Для CARE мы определяем матрицу Гамильтона

Z={\begin{pmatrix}A&-BR^{-1}B^{T}\\-Q&-A^{T}\end{pmatrix}}

С $Z$ является гамильтоновым, если оно не имеет собственных значений на мнимой оси, то ровно половина его собственных значений имеет отрицательную действительную часть. Если мы обозначим $2n\times n$ матрица, столбцы которой образуют основу соответствующего подпространства, в блочно-матричной записи, как

{\begin{pmatrix}U_{1,1}\\U_{2,1}\end{pmatrix}}

затем

P=U_{2,1}U_{1,1}^{-1}

является решением уравнения Риккати; кроме того, собственные значения $A-BR^{-1}B^{T}P$ являются собственными значениями $Z$ с отрицательной действительной частью.

Для DARE, когда $A$ обратима, определим симплектическую матрицу

Z={\begin{pmatrix}A+BR^{-1}B^{T}(A^{-1})^{T}Q&-BR^{-1}B^{T}(A^{-1})^{T}\\-(A^{-1})^{T}Q&(A^{-1})^{T}\end{pmatrix}}

С $Z$ симплектичен, если он не имеет собственных значений на единичной окружности, то ровно половина его собственных значений находится внутри единичного круга. Если мы обозначим $2n\times n$ матрица, столбцы которой образуют основу соответствующего подпространства, в блочно-матричной записи, как

{\begin{pmatrix}U_{1,1}\\U_{2,1}\end{pmatrix}}

где $U_{1,1}$ и $U_{2,1}$ результат разложения ^[2]

Z={\begin{pmatrix}U_{1,1}&U_{1,2}\\U_{2,1}&U_{2,2}\end{pmatrix}}{\begin{pmatrix}\Lambda _{1,1}&\Lambda _{1,2}\\0&\Lambda _{2,2}\end{pmatrix}}{\begin{pmatrix}U_{1,1}^{T}&U_{2,1}^{T}\\U_{1,2}^{T}&U_{2,2}^{T}\end{pmatrix}}

затем

P=U_{2,1}U_{1,1}^{-1}

является решением уравнения Риккати; кроме того, собственные значения $A-B(R+B^{T}PB)^{-1}B^{T}PA$ являются собственными значениями $Z$ которые находятся внутри единичного круга.

См. также

Ссылки

^ Чоу, Грегори (1975). Анализ и управление динамическими экономическими системами . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-15616-7 .
^ Уильям Арнольд; Алан Лауб (1984). «Алгоритмы обобщенной собственной задачи и программное обеспечение для алгебраических уравнений Риккати» .

Питер Ланкастер; Лейба Родман (1995), Алгебраические уравнения Риккати , Oxford University Press , стр. 504, ISBN 0-19-853795-6
Алан Дж. Лауб, «Метод Шура для решения алгебраических уравнений Риккати» , Лаборатория систем информации и принятия решений, Массачусетский технологический институт (Отчет LIDS-R-859) .

Внешние ссылки

[1] Чоу, Грегори (1975). Анализ и управление динамическими экономическими системами . Нью-Йорк: Джон Уайли и сыновья. ISBN 0-471-15616-7 .

[2] Уильям Арнольд; Алан Лауб (1984). «Алгоритмы обобщенной собственной задачи и программное обеспечение для алгебраических уравнений Риккати» .

[1]

[2]