Принцип разделения в стохастическом управлении - Separation principle in stochastic control
В принцип разделения один из основополагающих принципов стохастическая теория управления, в котором говорится, что задачи оптимального управления и оценки состояния могут быть разделены при определенных условиях. В своей основной формулировке он имеет дело с линейной стохастической системой
с государственным процессом , выходной процесс и контроль , где векторнозначный Винеровский процесс, это нулевое среднее Гауссовский случайный вектор, не зависящий от , , и , , , , являются матричнозначными функциями, которые обычно считаются непрерывными ограниченной вариации. Более того, неособа на некотором интервале . Проблема заключается в разработке закона обратной связи по выходу. который отображает наблюдаемый процесс к управляющему входу непредвиденным образом, чтобы минимизировать функциональные
где обозначает ожидаемое значение, штрих () обозначает транспонирование. и и - непрерывные матричные функции ограниченной вариации, положительно полуопределенный и положительно определен для всех . При подходящих условиях, которые необходимо правильно сформулировать, оптимальная политика можно выбрать в виде
где является линейной оценкой вектора состояния методом наименьших квадратов получен из Фильтр Калмана
где это прирост оптимального линейно-квадратичный регулятор полученный путем взятия и детерминированный, и где это Кальман усиление. Существует также негауссовская версия этой проблемы (будет обсуждаться ниже), в которой винеровский процесс заменяется более общим интегрируемым с квадратом мартингалом с возможными скачками.[1] В этом случае фильтр Калмана необходимо заменить нелинейным фильтром, обеспечивающим оценку условного среднего (в строгом смысле)
где
это фильтрация генерируется процессом вывода; то есть семейство возрастающих сигма-полей, представляющих данные по мере их создания.
В ранней литературе, посвященной принципу разделения, в качестве допустимых элементов управления было принято все процессы, которые адаптированный к фильтрации . Это эквивалентно разрешению всех непредвиденных Борелевские функции как законы обратной связи, что ставит вопрос о существовании единственного решения уравнений обратной связи. Более того, необходимо исключить возможность того, что нелинейный контроллер извлечет из данных больше информации, чем это возможно при линейном законе управления.[2]
Выбор класса допустимых законов управления
Задачи линейно-квадратичного управления часто решаются аргументом пополнения квадратов. В нашем настоящем контексте мы имеем
в котором первый член принимает вид[3]
где ковариационная матрица
Принцип разделения теперь будет следовать немедленно, если были независимы от контроля. Однако это необходимо установить.
Уравнение состояния можно проинтегрировать в виде
где это процесс состояния, полученный путем установки и - матричная функция перехода. По линейности равно
где . Вследствие этого,
но нам нужно установить, что не зависит от контроля. Это было бы так, если бы
где выходной процесс, полученный путем установки . Этот вопрос подробно обсуждал Линдквист.[2] Фактически, поскольку процесс контроля в целом нелинейный функция данных и, следовательно, не гауссова, то выходной процесс . Чтобы избежать этих проблем, можно начать с разъединения контура обратной связи и определения оптимального процесса управления в классе случайных процессов. которые адаптированы к семье сигма-полей. Эта задача, при которой оптимизируется класс всех процессов управления, адаптированных к фиксированной фильтрации, называется проблема стохастического разомкнутого контура (SOL).[2] В литературе нередко с самого начала предполагать, что система управления адаптирована для ; см., например, раздел 2.3 в книге Бенсуссана,[4] также ван Гендель [5] и Виллемс.[6]
В Линдквисте 1973[2] была предложена процедура, как встраивать класс допустимых управлений в различные классы SOL проблемно-зависимым образом, а затем строить соответствующий закон обратной связи. Самый большой класс допустимых законов обратной связи состоит из непредвиденных функций такое, что уравнение обратной связи имеет единственное решение и соответствующий процесс управления адаптирован к . Далее мы приводим несколько примеров конкретных классов законов обратной связи, которые принадлежат к этому общему классу, а также некоторые другие стратегии в литературе для преодоления проблем, описанных выше.
Законы линейного управления
Допустимый класс законов управления можно ограничить, чтобы они содержали только определенные линейные законы, как в случае Дэвиса.[7] В более общем смысле линейный класс
где является детерминированной функцией и является ядро, гарантирует, что не зависит от управления.[8][2] Фактически, гауссовость при этом сохранится, и будет сгенерирован фильтром Калмана. Тогда процесс ошибки генерируется
который явно не зависит от выбора управления, и поэтому .
Липшицевы законы управления
Wonham доказал теорему отделимости управлений из класса , даже для более общего функционала стоимости, чем J (u).[9] Однако доказательство далеко не простое, и есть много технических предположений. Например, должен возводиться в квадрат и иметь определитель, отделенный от нуля, что является серьезным ограничением. Более позднее доказательство Флеминга и Ришеля[10] значительно проще. Они также доказывают теорему разделения с квадратичным функционалом стоимости для класса липшицевых законов с непрерывной обратной связью, а именно , где является непредвиденной функцией которое в этом рассуждении липшицево. Кушнер[11] предложил более ограниченный класс , где модифицированный процесс состояния дан кем-то
ведущий к личности .
Внушительная задержка
Если есть задержка в обработке наблюдаемых данных, так что для каждого , является функцией , тогда , см. Пример 3 в Георгиу и Линдквисте.[1] Вследствие этого, не зависит от контроля. Тем не менее, политика контроля должен быть таким, чтобы уравнения обратной связи имели единственное решение.
Следовательно, проблема с возможно зависящими от управления сигма-полями не возникает в обычной постановке с дискретным временем. Однако процедура, используемая в нескольких учебниках для построения непрерывного времени как предел конечных разностей частных дискретного времени , не зависящий от контроля, является круговым или лучше всего неполным; см. замечание 4 у Георгиу и Линдквиста.[1]
Слабые решения
Подход, предложенный Дунканом и Варайей[12] и Дэвис и Варайя,[13] см. также Раздел 2.4 в Бенсуссане[4]основывается на слабые решения стохастического дифференциального уравнения. Учитывая такие решения
мы можем изменить меру вероятности (которая зависит от ) через Гирсанов преобразование так, чтобы
становится новым винеровским процессом, на который (в соответствии с новой вероятностной мерой) можно предположить, что на него не влияет управление. Вопрос о том, как это можно реализовать в инженерной системе, остается открытым.
Решения для нелинейной фильтрации
Хотя нелинейный закон управления порождает негауссовский процесс состояния, его можно показать с помощью теории нелинейной фильтрации (главы 16.1 в Lipster and Shirayev[14]), что процесс состояния условно гауссовский учитывая фильтрацию . Этот факт можно использовать, чтобы показать, что фактически генерируется фильтром Калмана (см. главы 11 и 12 в Lipster and Shirayev[14]). Однако это требует довольно сложного анализа и ограничивается случаем, когда шум от движения это винеровский процесс.
Дополнительную историческую перспективу можно найти у Миттера.[15]
Вопросы обратной связи в линейных стохастических системах
На этом этапе уместно рассмотреть более общий класс управляемых линейных стохастических систем, который также охватывает системы с запаздыванием по времени, а именно
с участием стохастический векторный процесс, не зависящий от управления.[2] Стандартная стохастическая система затем получается как частный случай, когда , и . Мы будем использовать сокращенные обозначения
для системы обратной связи, где
является оператором Вольтерра.
В этой более общей формулировке процедура вложения Линдквиста[2] определяет класс допустимых законов обратной связи как класс непредвиденных функций такое, что уравнение обратной связи имеет уникальное решение и адаптирован к .
В Георгиу и Линдквисте[1] была предложена новая основа для принципа разделения. Этот подход рассматривает стохастические системы как четко определенные карты между выборочными путями, а не между случайными процессами, и позволяет нам распространить принцип разделения на системы, управляемые мартингалами с возможными скачками. Этот подход основан на инженерном мышлении, когда системы и контуры обратной связи обрабатывают сигналы, а не случайные процессы. как таковой или преобразования вероятностных мер. Следовательно, цель состоит в том, чтобы создать естественный класс допустимых законов управления, имеющих инженерный смысл, в том числе нелинейных и прерывистых.
Уравнение обратной связи имеет единственное сильное решение, если существует не предвосхищающая функция такой, что удовлетворяет уравнению с вероятностью одно, а все остальные решения совпадают с с вероятностью один. Однако в настройке по выборке требуется больше, а именно наличие такого уникального решения и касается всех , а не только почти все. Результирующая петля обратной связи детерминированно хорошо поставленныйв том смысле, что уравнения обратной связи допускают единственное решение, которое причинно зависит от входа для каждый входной путь выборки.
В этом контексте сигнал определяется как примерный путь случайного процесса с возможными разрывами. Точнее, сигналы будут принадлежать Скороход космос , т.е. пространство функций, непрерывных справа и имеющих левый предел во всех точках (càdlàg функции). В частности, пространство непрерывных функций является собственным подпространством . Следовательно, реакцию типичной нелинейной операции, которая включает в себя пороговую обработку и переключение, можно смоделировать как сигнал. То же самое касается примеров путей подсчета и других мартингалов. А система определяется как измеримая непредвиденная карта отправка образцов путей в образцы путей, чтобы их выходы в любое время является измеримой функцией прошлых значений входа и времени. Например, стохастические дифференциальные уравнения с коэффициентами Липшица, управляемые винеровским процессом, вызывают отображения между соответствующими пространствами путей, см. Стр. 127 в Rogers and Williams,[16] и страницы 126-128 в Klebaner.[17] Кроме того, при довольно общих условиях (см., Например, главу V в Protter[18]), стохастические дифференциальные уравнения, управляемые мартингалами с выборочными путями в есть сильные решения, которые являются полумартингалами.
Для установки времени , система обратной связи можно написать , где можно интерпретировать как ввод.
Определение. Петля обратной связи является детерминированно хорошо поставленный если есть уникальное решение для всех входов и это система.
Это означает, что процессы и определить идентичные фильтрации.[1] Следовательно, цикл не создает никакой новой информации. Однако нам нужно, чтобы для . Это обеспечивается следующей леммой (лемма 8 Джорджиу и Линдквиста[1]).
Ключевая лемма. Если петля обратной связи детерминировано корректно, это система, и является линейной системой, имеющей правую обратную это тоже система, то это система и для .
Условие на в этой лемме, очевидно, выполняется в стандартной линейной стохастической системе, для которой , и, следовательно . Условия переоборудования собраны в следующем определении.
Определение. Закон обратной связи является детерминированно хорошо поставленный для системы если это система и система обратной связи детерминированно хорошо поставлен.
Примеры простых систем, которые не являются детерминированно корректными, приведены в замечании 12 Джорджиу и Линдквиста.[1]
Принцип разделения для физически реализуемых законов управления
Если рассматривать только те законы обратной связи, которые детерминированно корректны, все допустимые законы управления физически реализуемы в техническом смысле, поскольку они вызывают сигнал, который проходит через контур обратной связи. Доказательство следующей теоремы можно найти в Джорджиу и Линдквисте, 2013.[1]
Теорема о разделении.Учитывая линейную стохастическую систему
где - векторнозначный винеровский процесс, гауссовский случайный вектор с нулевым средним, не зависящий от рассмотрим задачу минимизации квадратичного функционала J (u) по классу всех детерминированно корректных законов обратной связи . Тогда единственный оптимальный закон управления дается формулой где определяется, как указано выше, и дается фильтром Калмана. В более общем смысле, если интегрируемый с квадратом мартингал и - произвольный случайный вектор с нулевым средним, , где , является оптимальным законом управления при условии его детерминированной корректности.
В общем негауссовском случае, который может включать в себя процессы подсчета, фильтр Калмана необходимо заменить нелинейным фильтром.
Принцип разделения для систем с дифференциальной задержкой
Стохастическое управление для систем с запаздыванием впервые было изучено в Lindquist,[19][20][8][2]и Брукс,[21] хотя Брукс полагается на сильное предположение, что наблюдение является функционально независимый контроля , таким образом избегая ключевого вопроса обратной связи.
Рассмотрим дифференциальную систему с запаздыванием[8]
где теперь является (интегрируемым с квадратом) гауссовским (векторным) мартингалом, и где и имеют ограниченную вариацию по первому аргументу и непрерывны справа по второму, детерминирован для , и .Точнее, для , для , а полное изменение ограничена интегрируемой функцией по переменной , и то же самое верно для .
Мы хотим определить закон управления, который минимизирует
где является положительной мерой Стилтьеса. Соответствующая детерминированная задача, полученная постановкой дан кем-то
с участием[8] .
Следующий принцип разделения для указанной выше системы задержки можно найти в Георгиу и Линдквисте 2013[1] и обобщает соответствующий результат Линдквиста 1973[8]
Теорема. Есть уникальный закон обратной связи в классе детерминированно корректных законов управления, минимизирующих , и это дается
где - коэффициент усиления детерминированного управления и задается линейным (распределенным) фильтром
где это инновационный процесс
и выигрыш определяется на странице 120 в Lindquist.[8]
использованная литература
- ^ а б c d е ж г час я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». IEEE Transactions по автоматическому контролю. 58 (10): 2481–2494. arXiv:1103.3005. Дои:10.1109 / TAC.2013.2259207..
- ^ а б c d е ж г час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal on Control. 11 (2): 323–343. Дои:10.1137/0311025..
- ^ Карл Юхан Астром (1970). Введение в теорию стохастического управления. 58. Академическая пресса. ISBN 978-0-486-44531-1..
- ^ а б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами. Издательство Кембриджского университета..
- ^ Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастическое управление (PDF). неопубликованные заметки.
- ^ Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Statistica Neerlandica. 32 (1): 1–39. Дои:10.1111 / j.1467-9574.1978.tb01382.x..
- ^ M.H.A. Дэвис (1978). Линейное оценивание и стохастическое управление. Чепмен и Холл..
- ^ а б c d е ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с приложениями к системам с запаздыванием». Информационные науки. 5: 81–126. Дои:10.1016/0020-0255(73)90005-4..
- ^ Мюррей Вонэм (1968). «О теореме отделимости стохастического управления». SIAM J. Control. 6 (2): 312–326. Дои:10.1137/0306023.
- ^ W.H. Флеминг и Р.В. Ришель (1968). Детерминированное и стохастическое оптимальное управление. Springer-Verlag..
- ^ Х. Кушнер (1971). Введение в стохастический контроль. Холт, Райнхарт и Уинстон..
- ^ Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF). SIAM J. Control. 9 (3): 354–371. Дои:10.1137/0309026. HDL:1808/16692..
- ^ M.H.A. Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем». J. Math. Анальный. Приложения. 37: 384–402. Дои:10.1016 / 0022-247X (72) 90281-8..
- ^ а б Р.С. Липцер, А. Шираева (1978). Статистика случайных процессов II, Приложения. Springer-Verlag..
- ^ С. Миттер (1996). «Фильтрация и стохастическое управление: историческая перспектива». Журнал IEEE Control Systems. 13 (3): 67–76..
- ^ Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Исчисление Ито. Пресса Кембриджского университета.CS1 maint: несколько имен: список авторов (ссылка на сайт).
- ^ Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями. Всемирная научная издательская компания..
- ^ Проттер, П. Э. (2004). Стохастическое интегрирование и дифференциальные уравнения. Springer..
- ^ Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки. 1: 55–85. Дои:10.1016/0020-0255(68)90007-8..
- ^ Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки. 1 (3): 279–295. Дои:10.1016 / S0020-0255 (69) 80014-9..
- ^ Р. Брукс (1972). «Линейное стохастическое управление: расширенный принцип разделения». J. Math. Анальный. Приложение. 38 (3): 569–587. Дои:10.1016 / 0022-247X (72) 90069-8..