Jump to content

Принцип разделения в стохастическом управлении

Принцип разделения — один из фундаментальных принципов стохастической теории управления , который утверждает, что задачи оптимального управления и оценки состояния могут быть разделены при определенных условиях. В своей самой простой формулировке он имеет дело с линейной стохастической системой.

с государственным процессом , процесс вывода и контроль , где — векторный винеровский процесс , с нулевым средним, не зависящий от представляет собой гауссовский случайный вектор , , и , , , , — это матричные функции, которые обычно считаются непрерывными и ограниченной вариации. Более того, неособа на некотором интервале . Проблема состоит в том, чтобы разработать закон обратной связи по выходу. который отображает наблюдаемый процесс на управляющий вход непредвиденным образом, чтобы минимизировать функциональную

где обозначает ожидаемое значение, простое число ( ) означает транспонирование. и и являются непрерывными матрицами-функциями ограниченной вариации, является положительно полуопределенным и положительно определен для всех . При подходящих условиях, которые необходимо правильно сформулировать, оптимальная политика можно выбрать в виде

где - линейная оценка вектора состояния методом наименьших квадратов полученный из фильтра Калмана

где – коэффициент усиления оптимального линейно-квадратичного регулятора, полученный путем принятия и детерминированный, и где это выигрыш Калмана . Существует также негауссовская версия этой проблемы (обсуждаемая ниже), в которой винеровский процесс заменяется более общим квадратно-интегрируемым мартингалом с возможными скачками. [1] В этом случае фильтр Калмана необходимо заменить нелинейным фильтром, обеспечивающим оценку (строгого) условного среднего значения.

где

фильтрация, генерируемая выходным процессом; т. е. семейство возрастающих сигма-полей, представляющих данные по мере их создания.

В ранней литературе по принципу разделения в качестве допустимого контроля было принято считать все процессы, адаптированные к фильтрации . Это эквивалентно разрешению всех неупреждающих функций Бореля в качестве законов обратной связи, что поднимает вопрос о существовании единственного решения уравнений петли обратной связи. Более того, необходимо исключить возможность того, что нелинейный регулятор извлекает из данных больше информации, чем это возможно при линейном законе управления. [2]

Выбор класса допустимых законов управления

[ редактировать ]

Задачи линейно-квадратичного управления часто решаются с помощью аргумента пополнения квадратов. В нашем нынешнем контексте мы имеем

в котором первое слагаемое принимает вид [3]

где это ковариационная матрица

Принцип разделения теперь последовал бы немедленно, если бы были независимы от контроля. Однако это необходимо установить.

Уравнение состояния можно проинтегрировать и принять вид

где это состояние процесса, полученное установкой и – матричная функция перехода. По линейности, равно

где . Следовательно,

но нам нужно это установить не зависит от управления. Это было бы так, если бы

где — это выходной процесс, полученный установкой . Этот вопрос подробно обсуждался Линдквистом. [2] Фактически, поскольку процесс управления в общем случае является нелинейной функцией данных и, следовательно, негауссовой, то же самое происходит и с выходным процессом. . Чтобы избежать этих проблем, можно было бы начать с рассоединения контура обратной связи и определения оптимального процесса управления в классе случайных процессов. которые адаптированы к семье сигма-полей. Эта задача, в которой выполняется оптимизация по классу всех процессов управления, адаптированных к фиксированной фильтрации, называется задачей стохастической разомкнутой системы (SOL) . [2] В литературе нередко с самого начала предполагается, что управление адаптировано к ; см., например, раздел 2.3 в Бенсусане, [4] тоже от Генделя [5] и Виллемс. [6]

В Линдквисте, 1973 год. [2] Предложена процедура встраивания класса допустимых управлений в различные классы СОЛ в зависимости от задачи и последующего построения соответствующего закона обратной связи. Самый большой класс допустимых законов обратной связи состоит из неупреждающих функций такое, что уравнение обратной связи имеет единственное решение и соответствующий процесс управления адаптирован к . Далее мы приведем несколько примеров конкретных классов законов обратной связи, принадлежащих к этому общему классу, а также некоторые другие стратегии в литературе, позволяющие преодолеть описанные выше проблемы.

Законы линейного управления

[ редактировать ]

Допустимый класс Законы управления могут быть ограничены и включать только некоторые линейные законы, как в случае Дэвиса. [7] В более общем смысле, линейный класс

где является детерминированной функцией и это ядро, гарантирует, что не зависит от контроля. [8] [2] Фактически, свойство Гаусса тогда сохранится, и будет сгенерирован фильтром Калмана. Затем процесс ошибки генерируется

которая явно не зависит от выбора управления, и, следовательно, такова .

Липшицево-непрерывные законы управления

[ редактировать ]

Уонэм доказал теорему разделения управлений класса , даже для более общего функционала стоимости, чем J(u). [9] Однако доказательство далеко не простое и существует множество технических предположений. Например, должно быть квадратным и иметь определитель, удаленный от нуля, что является серьезным ограничением. Более позднее доказательство Флеминга и Ришеля. [10] значительно проще. Они также доказывают теорему разделения с квадратичным функционалом стоимости. для одного класса липшицевых законов непрерывной обратной связи, а именно , где является неупреждающей функцией что в этом рассуждении является липшицевым. Кушнер [11] предложил более ограниченный класс , где модифицированный процесс состояния дается

ведущий к идентичности .

Внушительная задержка

[ редактировать ]

Если имеется задержка в обработке наблюдаемых данных, так что для каждого , является функцией , затем , см. пример 3 у Георгиу и Линдквиста. [1] Следовательно, не зависит от контроля. Тем не менее, политика контроля должно быть таким, чтобы уравнения обратной связи имели единственное решение.

Следовательно, проблема с сигма-полями, возможно, зависящими от управления, не возникает в обычной формулировке для дискретного времени. Однако процедура, используемая в нескольких учебниках для построения непрерывного времени как предел конечных разностных факторов дискретного времени , не зависящее от управления, является круговым или лучшим неполным; см. замечание 4 у Георгиу и Линдквиста. [1]

Слабые решения

[ редактировать ]

Подход, представленный Дунканом и Варайей. [12] и Дэвис и Варайя, [13] см. также раздел 2.4 в Бенсусане. [4] основан на слабых решениях стохастического дифференциального уравнения. Учитывая такие решения

мы можем изменить вероятностную меру (которая зависит от ) посредством преобразования Гирсанова так, что

становится новым винеровским процессом, на который (в соответствии с новой мерой вероятности) можно считать, что управление не влияет. Вопрос о том, как это реализовать в инженерной системе, остается открытым.

Решения для нелинейной фильтрации

[ редактировать ]

Хотя нелинейный закон управления приводит к негауссовскому состоянию процесса, это можно показать, используя теорию нелинейной фильтрации (главы 16.1 в книге Липстера и Шираева). [14] ), что процесс состояния является условно гауссовским с учетом фильтрации . Этот факт можно использовать, чтобы показать, что на самом деле генерируется фильтром Калмана (см. главы 11 и 12 в книге Липстера и Шираева). [14] ). Однако это требует весьма сложного анализа и ограничивается случаем, когда шум движения является винеровским процессом.

Дополнительную историческую перспективу можно найти в Миттере. [15]

Вопросы обратной связи в линейных стохастических системах

[ редактировать ]

Здесь уместно рассмотреть более общий класс управляемых линейных стохастических систем, который охватывает также системы с запаздыванием, а именно

с стохастический векторный процесс, не зависящий от управления. [2] Тогда стандартная стохастическая система получается как частный случай, когда , и . Мы будем использовать сокращенное обозначение

для системы обратной связи, где

является оператором Вольтерры.

В этой более общей формулировке процедура вложения Линдквиста [2] определяет класс допустимых законов обратной связи как класс неупреждающих функций такое, что уравнение обратной связи имеет уникальное решение и адаптирован к .

В Георгиу и Линдквисте [1] была предложена новая основа принципа разделения. Этот подход рассматривает стохастические системы как четко определенные карты между выборочными путями, а не между случайными процессами, и позволяет нам распространить принцип разделения на системы, управляемые мартингалами с возможными скачками. Этот подход мотивирован инженерным мышлением, в котором системы и петли обратной связи обрабатывают сигналы, а не стохастические процессы сами по себе или преобразования вероятностных мер. Следовательно, цель состоит в том, чтобы создать естественный класс допустимых законов управления, имеющих инженерный смысл, в том числе нелинейных и разрывных.

Уравнение обратной связи имеет единственное сильное решение, если существует неупреждающая функция такой, что удовлетворяет уравнению с вероятностью единица, а все остальные решения совпадают с с вероятностью единица. Однако в случае выборки требуется нечто большее, а именно, чтобы такое уникальное решение существовало и чтобы держится для всех , а не только почти все. Получающаяся в результате петля обратной связи детерминированно корректна в том смысле, что уравнения обратной связи допускают уникальное решение, которое причинно зависит от входных данных для каждого пути входной выборки.

В этом контексте сигнал определяется как образец пути случайного процесса с возможными разрывами. Точнее, сигналы будут принадлежать пространству Скорохода. , т. е. пространство функций, непрерывных справа и имеющих во всех точках левый предел ( функции càdlàg ). В частности, пространство непрерывных функций является собственным подпространством . Следовательно, реакция типичной нелинейной операции, включающей пороговое значение и переключение, может быть смоделирована как сигнал. То же самое касается примеров путей счетных процессов и других мартингалов. Система . определяется как измеримая непредвиденная карта отправка путей образцов к путям образцов, чтобы их выходные данные были в любое время является измеримой функцией прошлых значений входных данных и времени. Например, стохастические дифференциальные уравнения с коэффициентами Липшица, управляемыми винеровским процессом. создавать карты между соответствующими пространствами путей, см. стр. 127 у Роджерса и Уильямса, [16] и страницы 126–128 у Клебанера. [17] Кроме того, при достаточно общих условиях (см., например, главу V в книге Проттера [18] ), стохастические дифференциальные уравнения, управляемые мартингалами с путями выборки в имеют сильные решения, являющиеся семимартингалами.

Для настройки времени , система обратной связи можно написать , где может быть интерпретировано как вход.

Определение. Цикл обратной связи является детерминированно корректным, если оно имеет единственное решение для всех входов и это система.

Это означает, что процессы и определить одинаковые фильтрации. [1] Следовательно, в цикле не создается никакой новой информации. Однако нам нужно, чтобы для . Это обеспечивается следующей леммой (лемма 8 в книге Георгиу и Линдквиста [1] ).

Ключевая лемма. Если петля обратной связи является детерминированно корректным, представляет собой систему, и представляет собой линейную систему, имеющую правую обратную это тоже система, тогда это система и для .

Условие на в этой лемме явно выполняется в стандартной линейной стохастической системе, для которой , и, следовательно, . Остальные условия собраны в следующем определении.

Определение. Закон обратной связи является детерминированно корректным для системы если это система и система обратной связи детерминированно корректно.

Примеры простых систем, которые не являются детерминированно корректными, приведены в замечании 12 у Георгиу и Линдквиста. [1]

Принцип разделения физически реализуемых законов управления.

[ редактировать ]

Если рассматривать только те законы обратной связи, которые детерминированно корректны, все допустимые законы управления физически реализуемы в инженерном смысле, поскольку они вызывают сигнал, который проходит через контур обратной связи. Доказательство следующей теоремы можно найти у Георгиу и Линдквиста, 2013. [1]

Теорема о разделении. Учитывая линейную стохастическую систему

где представляет собой векторный винеровский процесс, представляет собой гауссовский случайный вектор с нулевым средним, не зависящий от , рассмотрим задачу минимизации квадратичного функционала J(u) по классу всех детерминированно корректных законов обратной связи . Тогда единственный закон оптимального управления имеет вид где определяется, как указано выше, и задается фильтром Калмана. В более общем смысле, если представляет собой интегрируемый с квадратом мартингал и — произвольный случайный вектор с нулевым средним значением, , где , является оптимальным законом управления при условии, что он детерминированно корректен.

В общем негауссовом случае, который может включать процессы счета, фильтр Калмана необходимо заменить нелинейным фильтром.

Принцип разделения для дифференциально-запаздывающих систем

[ редактировать ]

Стохастическое управление системами с запаздыванием впервые изучалось Линдквистом. [19] [20] [8] [2] и Брукс, [21] хотя Брукс опирается на сильное предположение, что наблюдение от функционально не зависит управления , тем самым избегая ключевого вопроса обратной связи.

Рассмотрим дифференциально-запаздывающую систему [8]

где теперь является (интегрируемым с квадратом) гауссовским (векторным) мартингалом, и где и имеют ограниченную вариацию по первому аргументу и непрерывны справа по второму, является детерминированным для , и . Точнее, для , для , и общее изменение ограничено интегрируемой функцией по переменной , и то же самое справедливо для .

Мы хотим определить закон управления, который минимизирует

где является положительной мерой Стилтьеса. Соответствующая детерминированная задача, полученная постановкой дается

с [8] .

Следующий принцип разделения для описанной выше системы задержки можно найти у Георгиу и Линдквиста, 2013 г. [1] и обобщает соответствующий результат Линдквиста 1973 г. [8]

Теорема. Существует уникальный закон обратной связи в классе детерминированно корректных законов управления, минимизирующих , и оно определяется выражением

где - коэффициент детерминированного управления и задается линейным (распределенным) фильтром

где это инновационный процесс

и выигрыш соответствует определению на странице 120 в книге Линдквист. [8]

  1. ^ Перейти обратно: а б с д и ж г час я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». Транзакции IEEE при автоматическом управлении . 58 (10): 2481–2494. arXiv : 1103.3005 . дои : 10.1109/TAC.2013.2259207 . S2CID   12623187 . .
  2. ^ Перейти обратно: а б с д и ж г час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal по контролю . 11 (2): 323–343. дои : 10.1137/0311025 . .
  3. ^ Карл Йохан Астром (1970). Введение в стохастическую теорию управления . Том. 58. Академическая пресса. ISBN  978-0-486-44531-1 . .
  4. ^ Перейти обратно: а б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами . Издательство Кембриджского университета. .
  5. ^ Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастический контроль (PDF) . неопубликованные заметки.
  6. ^ Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Статистика Неерландики . 32 (1): 1–39. дои : 10.1111/j.1467-9574.1978.tb01382.x . .
  7. ^ МХА Дэвис (1978). Линейная оценка и стохастический контроль . Чепмен и Холл. .
  8. ^ Перейти обратно: а б с д и ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с применением к системам с запаздыванием». Информационные науки . 5 : 81–126. дои : 10.1016/0020-0255(73)90005-4 . .
  9. ^ Мюррей Вонэм (1968). «О теореме разделения стохастического управления». СИАМ Дж. Контроль . 6 (2): 312–326. дои : 10.1137/0306023 .
  10. ^ WH Fleming и RW Rishel (1968). Детерминированное и стохастическое оптимальное управление . Спрингер-Верлаг. .
  11. ^ Х. Кушнер (1971). Введение в стохастическое управление . Холт, Райнхарт и Уинстон. .
  12. ^ Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF) . СИАМ Дж. Контроль . 9 (3): 354–371. дои : 10.1137/0309026 . hdl : 1808/16692 . .
  13. ^ МХА Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем» . Дж. Математика. Анальный. Приложения . 37 : 384–402. дои : 10.1016/0022-247X(72)90281-8 . .
  14. ^ Перейти обратно: а б Р. С. Липцер и А. Н. Шираев (1978). Статистика случайных процессов II, Приложения . Спрингер-Верлаг. .
  15. ^ С. Миттер (1996). «Фильтрация и стохастический контроль: историческая перспектива». Журнал IEEE Control Systems . 13 (3): 67–76. .
  16. ^ Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Введение в исчисление . Издательство Кембриджского университета. {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями . Imperial College Press – через World Scientific Publishing Company.
  18. ^ Проттер, ЧП (2004). Стохастическое интегрирование и дифференциальные уравнения . Спрингер.
  19. ^ Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки . 1 : 55–85. дои : 10.1016/0020-0255(68)90007-8 . .
  20. ^ Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки . 1 (3): 279–295. дои : 10.1016/S0020-0255(69)80014-9 . .
  21. ^ Р. Брукс (1972). «Линейное стохастическое управление: принцип расширенного разделения» . Дж. Математика. Анальный. Приложение . 38 (3): 569–587. дои : 10.1016/0022-247X(72)90069-8 . .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a696494c82d5c35558ce902f1894d566__1679970600
URL1:https://arc.ask3.ru/arc/aa/a6/66/a696494c82d5c35558ce902f1894d566.html
Заголовок, (Title) документа по адресу, URL1:
Separation principle in stochastic control - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)