Принцип разделения в стохастическом управлении - Separation principle in stochastic control

В принцип разделения один из основополагающих принципов стохастическая теория управления, в котором говорится, что задачи оптимального управления и оценки состояния могут быть разделены при определенных условиях. В своей основной формулировке он имеет дело с линейной стохастической системой

с государственным процессом , выходной процесс и контроль , где векторнозначный Винеровский процесс, это нулевое среднее Гауссовский случайный вектор, не зависящий от , , и , , , , являются матричнозначными функциями, которые обычно считаются непрерывными ограниченной вариации. Более того, неособа на некотором интервале . Проблема заключается в разработке закона обратной связи по выходу. который отображает наблюдаемый процесс к управляющему входу непредвиденным образом, чтобы минимизировать функциональные

где обозначает ожидаемое значение, штрих () обозначает транспонирование. и и - непрерывные матричные функции ограниченной вариации, положительно полуопределенный и положительно определен для всех . При подходящих условиях, которые необходимо правильно сформулировать, оптимальная политика можно выбрать в виде

где является линейной оценкой вектора состояния методом наименьших квадратов получен из Фильтр Калмана

где это прирост оптимального линейно-квадратичный регулятор полученный путем взятия и детерминированный, и где это Кальман усиление. Существует также негауссовская версия этой проблемы (будет обсуждаться ниже), в которой винеровский процесс заменяется более общим интегрируемым с квадратом мартингалом с возможными скачками.[1] В этом случае фильтр Калмана необходимо заменить нелинейным фильтром, обеспечивающим оценку условного среднего (в строгом смысле)

где

это фильтрация генерируется процессом вывода; то есть семейство возрастающих сигма-полей, представляющих данные по мере их создания.

В ранней литературе, посвященной принципу разделения, в качестве допустимых элементов управления было принято все процессы, которые адаптированный к фильтрации . Это эквивалентно разрешению всех непредвиденных Борелевские функции как законы обратной связи, что ставит вопрос о существовании единственного решения уравнений обратной связи. Более того, необходимо исключить возможность того, что нелинейный контроллер извлечет из данных больше информации, чем это возможно при линейном законе управления.[2]

Выбор класса допустимых законов управления

Задачи линейно-квадратичного управления часто решаются аргументом пополнения квадратов. В нашем настоящем контексте мы имеем

в котором первый член принимает вид[3]

где ковариационная матрица

Принцип разделения теперь будет следовать немедленно, если были независимы от контроля. Однако это необходимо установить.

Уравнение состояния можно проинтегрировать в виде

где это процесс состояния, полученный путем установки и - матричная функция перехода. По линейности равно

где . Вследствие этого,

но нам нужно установить, что не зависит от контроля. Это было бы так, если бы

где выходной процесс, полученный путем установки . Этот вопрос подробно обсуждал Линдквист.[2] Фактически, поскольку процесс контроля в целом нелинейный функция данных и, следовательно, не гауссова, то выходной процесс . Чтобы избежать этих проблем, можно начать с разъединения контура обратной связи и определения оптимального процесса управления в классе случайных процессов. которые адаптированы к семье сигма-полей. Эта задача, при которой оптимизируется класс всех процессов управления, адаптированных к фиксированной фильтрации, называется проблема стохастического разомкнутого контура (SOL).[2] В литературе нередко с самого начала предполагать, что система управления адаптирована для ; см., например, раздел 2.3 в книге Бенсуссана,[4] также ван Гендель [5] и Виллемс.[6]

В Линдквисте 1973[2] была предложена процедура, как встраивать класс допустимых управлений в различные классы SOL проблемно-зависимым образом, а затем строить соответствующий закон обратной связи. Самый большой класс допустимых законов обратной связи состоит из непредвиденных функций такое, что уравнение обратной связи имеет единственное решение и соответствующий процесс управления адаптирован к . Далее мы приводим несколько примеров конкретных классов законов обратной связи, которые принадлежат к этому общему классу, а также некоторые другие стратегии в литературе для преодоления проблем, описанных выше.

Законы линейного управления

Допустимый класс законов управления можно ограничить, чтобы они содержали только определенные линейные законы, как в случае Дэвиса.[7] В более общем смысле линейный класс

где является детерминированной функцией и является ядро, гарантирует, что не зависит от управления.[8][2] Фактически, гауссовость при этом сохранится, и будет сгенерирован фильтром Калмана. Тогда процесс ошибки генерируется

который явно не зависит от выбора управления, и поэтому .

Липшицевы законы управления

Wonham доказал теорему отделимости управлений из класса , даже для более общего функционала стоимости, чем J (u).[9] Однако доказательство далеко не простое, и есть много технических предположений. Например, должен возводиться в квадрат и иметь определитель, отделенный от нуля, что является серьезным ограничением. Более позднее доказательство Флеминга и Ришеля[10] значительно проще. Они также доказывают теорему разделения с квадратичным функционалом стоимости для класса липшицевых законов с непрерывной обратной связью, а именно , где является непредвиденной функцией которое в этом рассуждении липшицево. Кушнер[11] предложил более ограниченный класс , где модифицированный процесс состояния дан кем-то

ведущий к личности .

Внушительная задержка

Если есть задержка в обработке наблюдаемых данных, так что для каждого , является функцией , тогда , см. Пример 3 в Георгиу и Линдквисте.[1] Вследствие этого, не зависит от контроля. Тем не менее, политика контроля должен быть таким, чтобы уравнения обратной связи имели единственное решение.

Следовательно, проблема с возможно зависящими от управления сигма-полями не возникает в обычной постановке с дискретным временем. Однако процедура, используемая в нескольких учебниках для построения непрерывного времени как предел конечных разностей частных дискретного времени , не зависящий от контроля, является круговым или лучше всего неполным; см. замечание 4 у Георгиу и Линдквиста.[1]

Слабые решения

Подход, предложенный Дунканом и Варайей[12] и Дэвис и Варайя,[13] см. также Раздел 2.4 в Бенсуссане[4]основывается на слабые решения стохастического дифференциального уравнения. Учитывая такие решения

мы можем изменить меру вероятности (которая зависит от ) через Гирсанов преобразование так, чтобы

становится новым винеровским процессом, на который (в соответствии с новой вероятностной мерой) можно предположить, что на него не влияет управление. Вопрос о том, как это можно реализовать в инженерной системе, остается открытым.

Решения для нелинейной фильтрации

Хотя нелинейный закон управления порождает негауссовский процесс состояния, его можно показать с помощью теории нелинейной фильтрации (главы 16.1 в Lipster and Shirayev[14]), что процесс состояния условно гауссовский учитывая фильтрацию . Этот факт можно использовать, чтобы показать, что фактически генерируется фильтром Калмана (см. главы 11 и 12 в Lipster and Shirayev[14]). Однако это требует довольно сложного анализа и ограничивается случаем, когда шум от движения это винеровский процесс.

Дополнительную историческую перспективу можно найти у Миттера.[15]

Вопросы обратной связи в линейных стохастических системах

На этом этапе уместно рассмотреть более общий класс управляемых линейных стохастических систем, который также охватывает системы с запаздыванием по времени, а именно

с участием стохастический векторный процесс, не зависящий от управления.[2] Стандартная стохастическая система затем получается как частный случай, когда , и . Мы будем использовать сокращенные обозначения

для системы обратной связи, где

является оператором Вольтерра.

В этой более общей формулировке процедура вложения Линдквиста[2] определяет класс допустимых законов обратной связи как класс непредвиденных функций такое, что уравнение обратной связи имеет уникальное решение и адаптирован к .

В Георгиу и Линдквисте[1] была предложена новая основа для принципа разделения. Этот подход рассматривает стохастические системы как четко определенные карты между выборочными путями, а не между случайными процессами, и позволяет нам распространить принцип разделения на системы, управляемые мартингалами с возможными скачками. Этот подход основан на инженерном мышлении, когда системы и контуры обратной связи обрабатывают сигналы, а не случайные процессы. как таковой или преобразования вероятностных мер. Следовательно, цель состоит в том, чтобы создать естественный класс допустимых законов управления, имеющих инженерный смысл, в том числе нелинейных и прерывистых.

Уравнение обратной связи имеет единственное сильное решение, если существует не предвосхищающая функция такой, что удовлетворяет уравнению с вероятностью одно, а все остальные решения совпадают с с вероятностью один. Однако в настройке по выборке требуется больше, а именно наличие такого уникального решения и касается всех , а не только почти все. Результирующая петля обратной связи детерминированно хорошо поставленныйв том смысле, что уравнения обратной связи допускают единственное решение, которое причинно зависит от входа для каждый входной путь выборки.

В этом контексте сигнал определяется как примерный путь случайного процесса с возможными разрывами. Точнее, сигналы будут принадлежать Скороход космос , т.е. пространство функций, непрерывных справа и имеющих левый предел во всех точках (càdlàg функции). В частности, пространство непрерывных функций является собственным подпространством . Следовательно, реакцию типичной нелинейной операции, которая включает в себя пороговую обработку и переключение, можно смоделировать как сигнал. То же самое касается примеров путей подсчета и других мартингалов. А система определяется как измеримая непредвиденная карта отправка образцов путей в образцы путей, чтобы их выходы в любое время является измеримой функцией прошлых значений входа и времени. Например, стохастические дифференциальные уравнения с коэффициентами Липшица, управляемые винеровским процессом, вызывают отображения между соответствующими пространствами путей, см. Стр. 127 в Rogers and Williams,[16] и страницы 126-128 в Klebaner.[17] Кроме того, при довольно общих условиях (см., Например, главу V в Protter[18]), стохастические дифференциальные уравнения, управляемые мартингалами с выборочными путями в есть сильные решения, которые являются полумартингалами.

Для установки времени , система обратной связи можно написать , где можно интерпретировать как ввод.

Определение. Петля обратной связи является детерминированно хорошо поставленный если есть уникальное решение для всех входов и это система.

Это означает, что процессы и определить идентичные фильтрации.[1] Следовательно, цикл не создает никакой новой информации. Однако нам нужно, чтобы для . Это обеспечивается следующей леммой (лемма 8 Джорджиу и Линдквиста[1]).

Ключевая лемма. Если петля обратной связи детерминировано корректно, это система, и является линейной системой, имеющей правую обратную это тоже система, то это система и для .

Условие на в этой лемме, очевидно, выполняется в стандартной линейной стохастической системе, для которой , и, следовательно . Условия переоборудования собраны в следующем определении.

Определение. Закон обратной связи является детерминированно хорошо поставленный для системы если это система и система обратной связи детерминированно хорошо поставлен.

Примеры простых систем, которые не являются детерминированно корректными, приведены в замечании 12 Джорджиу и Линдквиста.[1]

Принцип разделения для физически реализуемых законов управления

Если рассматривать только те законы обратной связи, которые детерминированно корректны, все допустимые законы управления физически реализуемы в техническом смысле, поскольку они вызывают сигнал, который проходит через контур обратной связи. Доказательство следующей теоремы можно найти в Джорджиу и Линдквисте, 2013.[1]

Теорема о разделении.Учитывая линейную стохастическую систему

где - векторнозначный винеровский процесс, гауссовский случайный вектор с нулевым средним, не зависящий от рассмотрим задачу минимизации квадратичного функционала J (u) по классу всех детерминированно корректных законов обратной связи . Тогда единственный оптимальный закон управления дается формулой где определяется, как указано выше, и дается фильтром Калмана. В более общем смысле, если интегрируемый с квадратом мартингал и - произвольный случайный вектор с нулевым средним, , где , является оптимальным законом управления при условии его детерминированной корректности.

В общем негауссовском случае, который может включать в себя процессы подсчета, фильтр Калмана необходимо заменить нелинейным фильтром.

Принцип разделения для систем с дифференциальной задержкой

Стохастическое управление для систем с запаздыванием впервые было изучено в Lindquist,[19][20][8][2]и Брукс,[21] хотя Брукс полагается на сильное предположение, что наблюдение является функционально независимый контроля , таким образом избегая ключевого вопроса обратной связи.

Рассмотрим дифференциальную систему с запаздыванием[8]

где теперь является (интегрируемым с квадратом) гауссовским (векторным) мартингалом, и где и имеют ограниченную вариацию по первому аргументу и непрерывны справа по второму, детерминирован для , и .Точнее, для , для , а полное изменение ограничена интегрируемой функцией по переменной , и то же самое верно для .

Мы хотим определить закон управления, который минимизирует

где является положительной мерой Стилтьеса. Соответствующая детерминированная задача, полученная постановкой дан кем-то

с участием[8] .

Следующий принцип разделения для указанной выше системы задержки можно найти в Георгиу и Линдквисте 2013[1] и обобщает соответствующий результат Линдквиста 1973[8]

Теорема. Есть уникальный закон обратной связи в классе детерминированно корректных законов управления, минимизирующих , и это дается

где - коэффициент усиления детерминированного управления и задается линейным (распределенным) фильтром

где это инновационный процесс

и выигрыш определяется на странице 120 в Lindquist.[8]

использованная литература

  1. ^ а б c d е ж г час я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». IEEE Transactions по автоматическому контролю. 58 (10): 2481–2494. arXiv:1103.3005. Дои:10.1109 / TAC.2013.2259207..
  2. ^ а б c d е ж г час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal on Control. 11 (2): 323–343. Дои:10.1137/0311025..
  3. ^ Карл Юхан Астром (1970). Введение в теорию стохастического управления. 58. Академическая пресса. ISBN  978-0-486-44531-1..
  4. ^ а б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами. Издательство Кембриджского университета..
  5. ^ Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастическое управление (PDF). неопубликованные заметки.
  6. ^ Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Statistica Neerlandica. 32 (1): 1–39. Дои:10.1111 / j.1467-9574.1978.tb01382.x..
  7. ^ M.H.A. Дэвис (1978). Линейное оценивание и стохастическое управление. Чепмен и Холл..
  8. ^ а б c d е ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с приложениями к системам с запаздыванием». Информационные науки. 5: 81–126. Дои:10.1016/0020-0255(73)90005-4..
  9. ^ Мюррей Вонэм (1968). «О теореме отделимости стохастического управления». SIAM J. Control. 6 (2): 312–326. Дои:10.1137/0306023.
  10. ^ W.H. Флеминг и Р.В. Ришель (1968). Детерминированное и стохастическое оптимальное управление. Springer-Verlag..
  11. ^ Х. Кушнер (1971). Введение в стохастический контроль. Холт, Райнхарт и Уинстон..
  12. ^ Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF). SIAM J. Control. 9 (3): 354–371. Дои:10.1137/0309026. HDL:1808/16692..
  13. ^ M.H.A. Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем». J. Math. Анальный. Приложения. 37: 384–402. Дои:10.1016 / 0022-247X (72) 90281-8..
  14. ^ а б Р.С. Липцер, А. Шираева (1978). Статистика случайных процессов II, Приложения. Springer-Verlag..
  15. ^ С. Миттер (1996). «Фильтрация и стохастическое управление: историческая перспектива». Журнал IEEE Control Systems. 13 (3): 67–76..
  16. ^ Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Исчисление Ито. Пресса Кембриджского университета.CS1 maint: несколько имен: список авторов (ссылка на сайт).
  17. ^ Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями. Всемирная научная издательская компания..
  18. ^ Проттер, П. Э. (2004). Стохастическое интегрирование и дифференциальные уравнения. Springer..
  19. ^ Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки. 1: 55–85. Дои:10.1016/0020-0255(68)90007-8..
  20. ^ Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки. 1 (3): 279–295. Дои:10.1016 / S0020-0255 (69) 80014-9..
  21. ^ Р. Брукс (1972). «Линейное стохастическое управление: расширенный принцип разделения». J. Math. Анальный. Приложение. 38 (3): 569–587. Дои:10.1016 / 0022-247X (72) 90069-8..