Принцип разделения в стохастическом управлении
Принцип разделения — один из фундаментальных принципов стохастической теории управления , который утверждает, что задачи оптимального управления и оценки состояния могут быть разделены при определенных условиях. В своей самой простой формулировке он имеет дело с линейной стохастической системой.
с государственным процессом , процесс вывода и контроль , где — векторный винеровский процесс , с нулевым средним, не зависящий от представляет собой гауссовский случайный вектор , , и , , , , — это матричные функции, которые обычно считаются непрерывными и ограниченной вариации. Более того, неособа на некотором интервале . Проблема состоит в том, чтобы разработать закон обратной связи по выходу. который отображает наблюдаемый процесс на управляющий вход непредвиденным образом, чтобы минимизировать функциональную
где обозначает ожидаемое значение, простое число ( ) означает транспонирование. и и являются непрерывными матрицами-функциями ограниченной вариации, является положительно полуопределенным и положительно определен для всех . При подходящих условиях, которые необходимо правильно сформулировать, оптимальная политика можно выбрать в виде
где - линейная оценка вектора состояния методом наименьших квадратов полученный из фильтра Калмана
где – коэффициент усиления оптимального линейно-квадратичного регулятора, полученный путем принятия и детерминированный, и где это выигрыш Калмана . Существует также негауссовская версия этой проблемы (обсуждаемая ниже), в которой винеровский процесс заменяется более общим квадратно-интегрируемым мартингалом с возможными скачками. [1] В этом случае фильтр Калмана необходимо заменить нелинейным фильтром, обеспечивающим оценку (строгого) условного среднего значения.
где
– фильтрация, генерируемая выходным процессом; т. е. семейство возрастающих сигма-полей, представляющих данные по мере их создания.
В ранней литературе по принципу разделения в качестве допустимого контроля было принято считать все процессы, адаптированные к фильтрации . Это эквивалентно разрешению всех неупреждающих функций Бореля в качестве законов обратной связи, что поднимает вопрос о существовании единственного решения уравнений петли обратной связи. Более того, необходимо исключить возможность того, что нелинейный регулятор извлекает из данных больше информации, чем это возможно при линейном законе управления. [2]
Выбор класса допустимых законов управления
[ редактировать ]Задачи линейно-квадратичного управления часто решаются с помощью аргумента пополнения квадратов. В нашем нынешнем контексте мы имеем
в котором первое слагаемое принимает вид [3]
где это ковариационная матрица
Принцип разделения теперь последовал бы немедленно, если бы были независимы от контроля. Однако это необходимо установить.
Уравнение состояния можно проинтегрировать и принять вид
где это состояние процесса, полученное установкой и – матричная функция перехода. По линейности, равно
где . Следовательно,
но нам нужно это установить не зависит от управления. Это было бы так, если бы
где — это выходной процесс, полученный установкой . Этот вопрос подробно обсуждался Линдквистом. [2] Фактически, поскольку процесс управления в общем случае является нелинейной функцией данных и, следовательно, негауссовой, то же самое происходит и с выходным процессом. . Чтобы избежать этих проблем, можно было бы начать с рассоединения контура обратной связи и определения оптимального процесса управления в классе случайных процессов. которые адаптированы к семье сигма-полей. Эта задача, в которой выполняется оптимизация по классу всех процессов управления, адаптированных к фиксированной фильтрации, называется задачей стохастической разомкнутой системы (SOL) . [2] В литературе нередко с самого начала предполагается, что управление адаптировано к ; см., например, раздел 2.3 в Бенсусане, [4] тоже от Генделя [5] и Виллемс. [6]
В Линдквисте, 1973 год. [2] Предложена процедура встраивания класса допустимых управлений в различные классы СОЛ в зависимости от задачи и последующего построения соответствующего закона обратной связи. Самый большой класс допустимых законов обратной связи состоит из неупреждающих функций такое, что уравнение обратной связи имеет единственное решение и соответствующий процесс управления адаптирован к . Далее мы приведем несколько примеров конкретных классов законов обратной связи, принадлежащих к этому общему классу, а также некоторые другие стратегии в литературе, позволяющие преодолеть описанные выше проблемы.
Законы линейного управления
[ редактировать ]Допустимый класс Законы управления могут быть ограничены и включать только некоторые линейные законы, как в случае Дэвиса. [7] В более общем смысле, линейный класс
где является детерминированной функцией и это ядро, гарантирует, что не зависит от контроля. [8] [2] Фактически, свойство Гаусса тогда сохранится, и будет сгенерирован фильтром Калмана. Затем процесс ошибки генерируется
которая явно не зависит от выбора управления, и, следовательно, такова .
Липшицево-непрерывные законы управления
[ редактировать ]Уонэм доказал теорему разделения управлений класса , даже для более общего функционала стоимости, чем J(u). [9] Однако доказательство далеко не простое и существует множество технических предположений. Например, должно быть квадратным и иметь определитель, удаленный от нуля, что является серьезным ограничением. Более позднее доказательство Флеминга и Ришеля. [10] значительно проще. Они также доказывают теорему разделения с квадратичным функционалом стоимости. для одного класса липшицевых законов непрерывной обратной связи, а именно , где является неупреждающей функцией что в этом рассуждении является липшицевым. Кушнер [11] предложил более ограниченный класс , где модифицированный процесс состояния дается
ведущий к идентичности .
Внушительная задержка
[ редактировать ]Если имеется задержка в обработке наблюдаемых данных, так что для каждого , является функцией , затем , см. пример 3 у Георгиу и Линдквиста. [1] Следовательно, не зависит от контроля. Тем не менее, политика контроля должно быть таким, чтобы уравнения обратной связи имели единственное решение.
Следовательно, проблема с сигма-полями, возможно, зависящими от управления, не возникает в обычной формулировке для дискретного времени. Однако процедура, используемая в нескольких учебниках для построения непрерывного времени как предел конечных разностных факторов дискретного времени , не зависящее от управления, является круговым или лучшим неполным; см. замечание 4 у Георгиу и Линдквиста. [1]
Слабые решения
[ редактировать ]Подход, представленный Дунканом и Варайей. [12] и Дэвис и Варайя, [13] см. также раздел 2.4 в Бенсусане. [4] основан на слабых решениях стохастического дифференциального уравнения. Учитывая такие решения
мы можем изменить вероятностную меру (которая зависит от ) посредством преобразования Гирсанова так, что
становится новым винеровским процессом, на который (в соответствии с новой мерой вероятности) можно считать, что управление не влияет. Вопрос о том, как это реализовать в инженерной системе, остается открытым.
Решения для нелинейной фильтрации
[ редактировать ]Хотя нелинейный закон управления приводит к негауссовскому состоянию процесса, это можно показать, используя теорию нелинейной фильтрации (главы 16.1 в книге Липстера и Шираева). [14] ), что процесс состояния является условно гауссовским с учетом фильтрации . Этот факт можно использовать, чтобы показать, что на самом деле генерируется фильтром Калмана (см. главы 11 и 12 в книге Липстера и Шираева). [14] ). Однако это требует весьма сложного анализа и ограничивается случаем, когда шум движения является винеровским процессом.
Дополнительную историческую перспективу можно найти в Миттере. [15]
Вопросы обратной связи в линейных стохастических системах
[ редактировать ]Здесь уместно рассмотреть более общий класс управляемых линейных стохастических систем, который охватывает также системы с запаздыванием, а именно
с стохастический векторный процесс, не зависящий от управления. [2] Тогда стандартная стохастическая система получается как частный случай, когда , и . Мы будем использовать сокращенное обозначение
для системы обратной связи, где
является оператором Вольтерры.
В этой более общей формулировке процедура вложения Линдквиста [2] определяет класс допустимых законов обратной связи как класс неупреждающих функций такое, что уравнение обратной связи имеет уникальное решение и адаптирован к .
В Георгиу и Линдквисте [1] была предложена новая основа принципа разделения. Этот подход рассматривает стохастические системы как четко определенные карты между выборочными путями, а не между случайными процессами, и позволяет нам распространить принцип разделения на системы, управляемые мартингалами с возможными скачками. Этот подход мотивирован инженерным мышлением, в котором системы и петли обратной связи обрабатывают сигналы, а не стохастические процессы сами по себе или преобразования вероятностных мер. Следовательно, цель состоит в том, чтобы создать естественный класс допустимых законов управления, имеющих инженерный смысл, в том числе нелинейных и разрывных.
Уравнение обратной связи имеет единственное сильное решение, если существует неупреждающая функция такой, что удовлетворяет уравнению с вероятностью единица, а все остальные решения совпадают с с вероятностью единица. Однако в случае выборки требуется нечто большее, а именно, чтобы такое уникальное решение существовало и чтобы держится для всех , а не только почти все. Получающаяся в результате петля обратной связи детерминированно корректна в том смысле, что уравнения обратной связи допускают уникальное решение, которое причинно зависит от входных данных для каждого пути входной выборки.
В этом контексте сигнал определяется как образец пути случайного процесса с возможными разрывами. Точнее, сигналы будут принадлежать пространству Скорохода. , т. е. пространство функций, непрерывных справа и имеющих во всех точках левый предел ( функции càdlàg ). В частности, пространство непрерывных функций является собственным подпространством . Следовательно, реакция типичной нелинейной операции, включающей пороговое значение и переключение, может быть смоделирована как сигнал. То же самое касается примеров путей счетных процессов и других мартингалов. Система . определяется как измеримая непредвиденная карта отправка путей образцов к путям образцов, чтобы их выходные данные были в любое время является измеримой функцией прошлых значений входных данных и времени. Например, стохастические дифференциальные уравнения с коэффициентами Липшица, управляемыми винеровским процессом. создавать карты между соответствующими пространствами путей, см. стр. 127 у Роджерса и Уильямса, [16] и страницы 126–128 у Клебанера. [17] Кроме того, при достаточно общих условиях (см., например, главу V в книге Проттера [18] ), стохастические дифференциальные уравнения, управляемые мартингалами с путями выборки в имеют сильные решения, являющиеся семимартингалами.
Для настройки времени , система обратной связи можно написать , где может быть интерпретировано как вход.
Определение. Цикл обратной связи является детерминированно корректным, если оно имеет единственное решение для всех входов и это система.
Это означает, что процессы и определить одинаковые фильтрации. [1] Следовательно, в цикле не создается никакой новой информации. Однако нам нужно, чтобы для . Это обеспечивается следующей леммой (лемма 8 в книге Георгиу и Линдквиста [1] ).
Ключевая лемма. Если петля обратной связи является детерминированно корректным, представляет собой систему, и представляет собой линейную систему, имеющую правую обратную это тоже система, тогда это система и для .
Условие на в этой лемме явно выполняется в стандартной линейной стохастической системе, для которой , и, следовательно, . Остальные условия собраны в следующем определении.
Определение. Закон обратной связи является детерминированно корректным для системы если это система и система обратной связи детерминированно корректно.
Примеры простых систем, которые не являются детерминированно корректными, приведены в замечании 12 у Георгиу и Линдквиста. [1]
Принцип разделения физически реализуемых законов управления.
[ редактировать ]Если рассматривать только те законы обратной связи, которые детерминированно корректны, все допустимые законы управления физически реализуемы в инженерном смысле, поскольку они вызывают сигнал, который проходит через контур обратной связи. Доказательство следующей теоремы можно найти у Георгиу и Линдквиста, 2013. [1]
Теорема о разделении. Учитывая линейную стохастическую систему
где представляет собой векторный винеровский процесс, представляет собой гауссовский случайный вектор с нулевым средним, не зависящий от , рассмотрим задачу минимизации квадратичного функционала J(u) по классу всех детерминированно корректных законов обратной связи . Тогда единственный закон оптимального управления имеет вид где определяется, как указано выше, и задается фильтром Калмана. В более общем смысле, если представляет собой интегрируемый с квадратом мартингал и — произвольный случайный вектор с нулевым средним значением, , где , является оптимальным законом управления при условии, что он детерминированно корректен.
В общем негауссовом случае, который может включать процессы счета, фильтр Калмана необходимо заменить нелинейным фильтром.
Принцип разделения для дифференциально-запаздывающих систем
[ редактировать ]Стохастическое управление системами с запаздыванием впервые изучалось Линдквистом. [19] [20] [8] [2] и Брукс, [21] хотя Брукс опирается на сильное предположение, что наблюдение от функционально не зависит управления , тем самым избегая ключевого вопроса обратной связи.
Рассмотрим дифференциально-запаздывающую систему [8]
где теперь является (интегрируемым с квадратом) гауссовским (векторным) мартингалом, и где и имеют ограниченную вариацию по первому аргументу и непрерывны справа по второму, является детерминированным для , и . Точнее, для , для , и общее изменение ограничено интегрируемой функцией по переменной , и то же самое справедливо для .
Мы хотим определить закон управления, который минимизирует
где является положительной мерой Стилтьеса. Соответствующая детерминированная задача, полученная постановкой дается
с [8] .
Следующий принцип разделения для описанной выше системы задержки можно найти у Георгиу и Линдквиста, 2013 г. [1] и обобщает соответствующий результат Линдквиста 1973 г. [8]
Теорема. Существует уникальный закон обратной связи в классе детерминированно корректных законов управления, минимизирующих , и оно определяется выражением
где - коэффициент детерминированного управления и задается линейным (распределенным) фильтром
где это инновационный процесс
и выигрыш соответствует определению на странице 120 в книге Линдквист. [8]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и ж г час я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». Транзакции IEEE при автоматическом управлении . 58 (10): 2481–2494. arXiv : 1103.3005 . дои : 10.1109/TAC.2013.2259207 . S2CID 12623187 . .
- ^ Перейти обратно: а б с д и ж г час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal по контролю . 11 (2): 323–343. дои : 10.1137/0311025 . .
- ^ Карл Йохан Астром (1970). Введение в стохастическую теорию управления . Том. 58. Академическая пресса. ISBN 978-0-486-44531-1 . .
- ^ Перейти обратно: а б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами . Издательство Кембриджского университета. .
- ^ Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастический контроль (PDF) . неопубликованные заметки.
- ^ Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Статистика Неерландики . 32 (1): 1–39. дои : 10.1111/j.1467-9574.1978.tb01382.x . .
- ^ МХА Дэвис (1978). Линейная оценка и стохастический контроль . Чепмен и Холл. .
- ^ Перейти обратно: а б с д и ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с применением к системам с запаздыванием». Информационные науки . 5 : 81–126. дои : 10.1016/0020-0255(73)90005-4 . .
- ^ Мюррей Вонэм (1968). «О теореме разделения стохастического управления». СИАМ Дж. Контроль . 6 (2): 312–326. дои : 10.1137/0306023 .
- ^ WH Fleming и RW Rishel (1968). Детерминированное и стохастическое оптимальное управление . Спрингер-Верлаг. .
- ^ Х. Кушнер (1971). Введение в стохастическое управление . Холт, Райнхарт и Уинстон. .
- ^ Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF) . СИАМ Дж. Контроль . 9 (3): 354–371. дои : 10.1137/0309026 . hdl : 1808/16692 . .
- ^ МХА Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем» . Дж. Математика. Анальный. Приложения . 37 : 384–402. дои : 10.1016/0022-247X(72)90281-8 . .
- ^ Перейти обратно: а б Р. С. Липцер и А. Н. Шираев (1978). Статистика случайных процессов II, Приложения . Спрингер-Верлаг. .
- ^ С. Миттер (1996). «Фильтрация и стохастический контроль: историческая перспектива». Журнал IEEE Control Systems . 13 (3): 67–76. .
- ^ Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Введение в исчисление . Издательство Кембриджского университета.
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями . Imperial College Press – через World Scientific Publishing Company.
- ^ Проттер, ЧП (2004). Стохастическое интегрирование и дифференциальные уравнения . Спрингер.
- ^ Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки . 1 : 55–85. дои : 10.1016/0020-0255(68)90007-8 . .
- ^ Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки . 1 (3): 279–295. дои : 10.1016/S0020-0255(69)80014-9 . .
- ^ Р. Брукс (1972). «Линейное стохастическое управление: принцип расширенного разделения» . Дж. Математика. Анальный. Приложение . 38 (3): 569–587. дои : 10.1016/0022-247X(72)90069-8 . .