Принцип разделения в стохастическом управлении - Separation principle in stochastic control

В принцип разделения один из основополагающих принципов стохастическая теория управления, в котором говорится, что задачи оптимального управления и оценки состояния могут быть разделены при определенных условиях. В своей основной формулировке он имеет дело с линейной стохастической системой

{ Displaystyle { begin {align} dx & = A (t) x (t) , dt + B_ {1} (t) u (t) , dt + B_ {2} (t) , dw dy & = C (t) x (t) , dt + D (t) , dw end {выровнено}}}

с государственным процессом ${ displaystyle x}$ , выходной процесс ${ displaystyle y}$ и контроль ${ displaystyle u}$ , где ${ displaystyle w}$ векторнозначный Винеровский процесс, ${ Displaystyle х (0)}$ это нулевое среднее Гауссовский случайный вектор, не зависящий от ${ displaystyle w}$ , ${ Displaystyle у (0) = 0}$ , и ${ displaystyle A}$ , ${ displaystyle B_ {1}}$ , ${ displaystyle B_ {2}}$ , ${ displaystyle C}$ , ${ displaystyle D}$ являются матричнозначными функциями, которые обычно считаются непрерывными ограниченной вариации. Более того, ${ displaystyle DD '}$ неособа на некотором интервале ${ displaystyle [0, T]}$ . Проблема заключается в разработке закона обратной связи по выходу. ${ displaystyle pi: , y mapsto u}$ который отображает наблюдаемый процесс ${ displaystyle y}$ к управляющему входу ${ displaystyle u}$ непредвиденным образом, чтобы минимизировать функциональные

{ Displaystyle J (u) = mathbb {E} left { int _ {0} ^ {T} x (t) 'Q (t) x (t) , dt + int _ {0} ^ {T} u (t) 'R (t) u (t) , dt + x (T)' Sx (T) right },}

где ${ displaystyle mathbb {E}}$ обозначает ожидаемое значение, штрих ( ${ displaystyle '}$ ) обозначает транспонирование. и ${ displaystyle Q}$ и ${ displaystyle R}$ - непрерывные матричные функции ограниченной вариации, ${ Displaystyle Q (т)}$ положительно полуопределенный и ${ Displaystyle R (т)}$ положительно определен для всех ${ displaystyle t}$ . При подходящих условиях, которые необходимо правильно сформулировать, оптимальная политика ${ displaystyle pi}$ можно выбрать в виде

{ Displaystyle и (т) = К (т) { шляпа {х}} (т),}

где ${ Displaystyle { шляпа {х}} (т)}$ является линейной оценкой вектора состояния методом наименьших квадратов ${ Displaystyle х (т)}$ получен из Фильтр Калмана

{ displaystyle d { hat {x}} = A (t) { hat {x}} (t) , dt + B_ {1} (t) u (t) , dt + L (t) ( dy-C (t) { hat {x}} (t) , dt), quad { hat {x}} (0) = 0,}

где ${ displaystyle K}$ это прирост оптимального линейно-квадратичный регулятор полученный путем взятия ${ displaystyle B_ {2} = D = 0}$ и ${ Displaystyle х (0)}$ детерминированный, и где ${ displaystyle L}$ это Кальман усиление. Существует также негауссовская версия этой проблемы (будет обсуждаться ниже), в которой винеровский процесс ${ displaystyle w}$ заменяется более общим интегрируемым с квадратом мартингалом с возможными скачками.^[1] В этом случае фильтр Калмана необходимо заменить нелинейным фильтром, обеспечивающим оценку условного среднего (в строгом смысле)

{ displaystyle { hat {x}} (t) = operatorname {E} {x (t) mid { cal {Y}} _ {t} },}

где

{ displaystyle { cal {Y}} _ {t}: = sigma {y ( tau), tau in [0, t] }, quad 0 leq t leq T,}

это фильтрация генерируется процессом вывода; то есть семейство возрастающих сигма-полей, представляющих данные по мере их создания.

В ранней литературе, посвященной принципу разделения, в качестве допустимых элементов управления было принято ${ displaystyle u}$ все процессы, которые адаптированный к фильтрации ${ displaystyle {{ cal {Y}} _ {t}, , 0 leq t leq T }}$ . Это эквивалентно разрешению всех непредвиденных Борелевские функции как законы обратной связи, что ставит вопрос о существовании единственного решения уравнений обратной связи. Более того, необходимо исключить возможность того, что нелинейный контроллер извлечет из данных больше информации, чем это возможно при линейном законе управления.^[2]

Выбор класса допустимых законов управления

Задачи линейно-квадратичного управления часто решаются аргументом пополнения квадратов. В нашем настоящем контексте мы имеем

{ Displaystyle J (u) = OperatorName {E} left { int _ {0} ^ {T} (u-Kx) 'R (u-Kx) , dt right } + { text {термины, не зависящие от}} u,}

в котором первый член принимает вид^[3]

{ Displaystyle { begin {align} OperatorName {E} left { int _ {0} ^ {T} (u-Kx) 'R (u-Kx) , dt right } = operatorname {E} left { int _ {0} ^ {T} [(uK { hat {x}}) 'R (uK { hat {x}}) + operatorname {tr} (K'RK Sigma)] , dt right }, end {align}}}

где ${ displaystyle Sigma}$ ковариационная матрица

{ Displaystyle Sigma (т): = OperatorName {E} {[х (т) - { шляпа {х}} (т)] [х (т) - { шляпа {х}} (т) ] '}.}

Принцип разделения теперь будет следовать немедленно, если ${ Displaystyle { begin {выровненный} Sigma end {выровненный}}}$ были независимы от контроля. Однако это необходимо установить.

Уравнение состояния можно проинтегрировать в виде

{ displaystyle x (t) = x_ {0} (t) + int _ {0} ^ {t} Phi (t, s) B_ {1} (s) u (s) , ds,}

где ${ displaystyle x_ {0}}$ это процесс состояния, полученный путем установки ${ displaystyle u = 0}$ и ${ displaystyle Phi}$ - матричная функция перехода. По линейности ${ displaystyle { hat {x}} (t) = operatorname {E} {x (t) mid { cal {Y}} _ {t} }}$ равно

{ displaystyle { hat {x}} (t) = { hat {x}} _ {0} (t) + int _ {0} ^ {t} Phi (t, s) B_ {1} (s) u (s) , ds,}

где ${ displaystyle { hat {x}} _ {0} (t) = operatorname {E} {x_ {0} (t) mid { cal {Y}} _ {t} }}$ . Вследствие этого,

{ Displaystyle Sigma (t): = mathbb {E} {[x_ {0} (t) - { hat {x}} _ {0} (t)] [x_ {0} (t) - { hat {x}} _ {0} (t)] '},}

но нам нужно установить, что ${ displaystyle { begin {align} { hat {x}} _ {0} end {align}}}$ не зависит от контроля. Это было бы так, если бы

{ displaystyle { cal {Y}} _ {t} = { cal {Y}} _ {t} ^ {0}: = sigma {y_ {0} ( tau), tau in [ 0, t] }, quad 0 leq t leq T,}

где ${ displaystyle y_ {0}}$ выходной процесс, полученный путем установки ${ displaystyle u = 0}$ . Этот вопрос подробно обсуждал Линдквист.^[2] Фактически, поскольку процесс контроля ${ displaystyle u}$ в целом нелинейный функция данных и, следовательно, не гауссова, то выходной процесс ${ displaystyle y}$ . Чтобы избежать этих проблем, можно начать с разъединения контура обратной связи и определения оптимального процесса управления в классе случайных процессов. ${ displaystyle u}$ которые адаптированы к семье ${ displaystyle {{ cal {Y}} _ {t} ^ {0} }}$ сигма-полей. Эта задача, при которой оптимизируется класс всех процессов управления, адаптированных к фиксированной фильтрации, называется проблема стохастического разомкнутого контура (SOL).^[2] В литературе нередко с самого начала предполагать, что система управления адаптирована для ${ displaystyle {{ mathcal {Y}} _ {t} ^ {0} }}$ ; см., например, раздел 2.3 в книге Бенсуссана,^[4] также ван Гендель ^[5] и Виллемс.^[6]

В Линдквисте 1973^[2] была предложена процедура, как встраивать класс допустимых управлений в различные классы SOL проблемно-зависимым образом, а затем строить соответствующий закон обратной связи. Самый большой класс ${ displaystyle Pi}$ допустимых законов обратной связи ${ displaystyle pi}$ состоит из непредвиденных функций ${ Displaystyle и: = пи (у)}$ такое, что уравнение обратной связи имеет единственное решение и соответствующий процесс управления ${ displaystyle u _ { pi}}$ адаптирован к ${ displaystyle {{ mathcal {Y}} _ {t} ^ {0} }}$ . Далее мы приводим несколько примеров конкретных классов законов обратной связи, которые принадлежат к этому общему классу, а также некоторые другие стратегии в литературе для преодоления проблем, описанных выше.

Законы линейного управления

Допустимый класс ${ displaystyle Pi}$ законов управления можно ограничить, чтобы они содержали только определенные линейные законы, как в случае Дэвиса.^[7] В более общем смысле линейный класс

{ Displaystyle ({ mathcal {L}}) quad u (t) = { bar {u}} (t) + int _ {0} ^ {t} F (t, tau) , dy ,}

где ${ displaystyle { bar {u}}}$ является детерминированной функцией и ${ displaystyle F}$ является ${ displaystyle L_ {2}}$ ядро, гарантирует, что ${ displaystyle Sigma}$ не зависит от управления.^[8]^[2] Фактически, гауссовость при этом сохранится, и ${ displaystyle { hat {x}}}$ будет сгенерирован фильтром Калмана. Тогда процесс ошибки ${ displaystyle { tilde {x}}: = x - { hat {x}}}$ генерируется

{ displaystyle d { tilde {x}} = (A-LC) { tilde {x}} , dt + (B_ {2} -LD) , dw, quad { tilde {x}} (0 ) = x (0),}

который явно не зависит от выбора управления, и поэтому ${ displaystyle Sigma}$ .

Липшицевы законы управления

Wonham доказал теорему отделимости управлений из класса ${ Displaystyle { begin {align} pi: , u (t) = psi (t, { hat {x}} (t)) end {align}}}$ , даже для более общего функционала стоимости, чем J (u).^[9] Однако доказательство далеко не простое, и есть много технических предположений. Например, ${ Displaystyle { begin {выровненный} C (т) конец {выровненный}}}$ должен возводиться в квадрат и иметь определитель, отделенный от нуля, что является серьезным ограничением. Более позднее доказательство Флеминга и Ришеля^[10] значительно проще. Они также доказывают теорему разделения с квадратичным функционалом стоимости ${ displaystyle J (u)}$ для класса липшицевых законов с непрерывной обратной связью, а именно ${ Displaystyle и (т) = фи (т, у)}$ , где ${ displaystyle phi: , [0, T] times C ^ {n} [0, T] to { mathbb {R}} ^ {m}}$ является непредвиденной функцией ${ displaystyle y}$ которое в этом рассуждении липшицево. Кушнер^[11] предложил более ограниченный класс ${ Displaystyle и (т) = пси (т, { шляпа { xi}} (т))}$ , где модифицированный процесс состояния ${ displaystyle { hat { xi}}}$ дан кем-то

{ displaystyle { hat { xi}} (t) = operatorname {E} {x_ {0} (t) mid { mathcal {Y}} _ {t} ^ {0} } + int _ {0} ^ {t} Phi (t, s) B_ {1} (s) u (s) , ds,}

ведущий к личности ${ Displaystyle { begin {выровнено} { шляпа {х}} = { шляпа { xi}} конец {выровнено}}}$ .

Внушительная задержка

Если есть задержка в обработке наблюдаемых данных, так что для каждого ${ displaystyle t}$ , ${ Displaystyle и (т)}$ является функцией ${ Displaystyle у ( тау); , 0 leq тау leq т- varepsilon}$ , тогда ${ displaystyle { cal {Y}} _ {t} = { cal {Y}} _ {t} ^ {0}}$ , ${ Displaystyle 0 Leq T Leq T}$ см. Пример 3 в Георгиу и Линдквисте.^[1] Вследствие этого, ${ displaystyle Sigma}$ не зависит от контроля. Тем не менее, политика контроля ${ displaystyle pi}$ должен быть таким, чтобы уравнения обратной связи имели единственное решение.

Следовательно, проблема с возможно зависящими от управления сигма-полями не возникает в обычной постановке с дискретным временем. Однако процедура, используемая в нескольких учебниках для построения непрерывного времени ${ displaystyle Sigma}$ как предел конечных разностей частных дискретного времени ${ displaystyle Sigma}$ , не зависящий от контроля, является круговым или лучше всего неполным; см. замечание 4 у Георгиу и Линдквиста.^[1]

Слабые решения

Подход, предложенный Дунканом и Варайей^[12] и Дэвис и Варайя,^[13] см. также Раздел 2.4 в Бенсуссане^[4]основывается на слабые решения стохастического дифференциального уравнения. Учитывая такие решения

{ Displaystyle dx = A (t) x (t) , dt + B_ {1} (t) u (t) , dt + B_ {2} (t) , dw}

мы можем изменить меру вероятности (которая зависит от ${ Displaystyle { begin {выровненный} и конец {выровненный}}}$ ) через Гирсанов преобразование так, чтобы

{ Displaystyle d { тильда {w}}: = B_ {1} (t) u (t) , dt + B_ {2} (t) , dw}

становится новым винеровским процессом, на который (в соответствии с новой вероятностной мерой) можно предположить, что на него не влияет управление. Вопрос о том, как это можно реализовать в инженерной системе, остается открытым.

Решения для нелинейной фильтрации

Хотя нелинейный закон управления порождает негауссовский процесс состояния, его можно показать с помощью теории нелинейной фильтрации (главы 16.1 в Lipster and Shirayev^[14]), что процесс состояния условно гауссовский учитывая фильтрацию ${ Displaystyle { begin {выровнен} {{ mathcal {Y}} _ {т} } конец {выровнен}}}$ . Этот факт можно использовать, чтобы показать, что ${ Displaystyle { begin {выровненный} { hat {x}} конец {выровненный}}}$ фактически генерируется фильтром Калмана (см. главы 11 и 12 в Lipster and Shirayev^[14]). Однако это требует довольно сложного анализа и ограничивается случаем, когда шум от движения ${ Displaystyle { begin {выровненный} ш конец {выровненный}}}$ это винеровский процесс.

Дополнительную историческую перспективу можно найти у Миттера.^[15]

Вопросы обратной связи в линейных стохастических системах

На этом этапе уместно рассмотреть более общий класс управляемых линейных стохастических систем, который также охватывает системы с запаздыванием по времени, а именно

{ Displaystyle { begin {align} z (t) & = z_ {0} (t) + int _ {0} ^ {t} G (t, s) u (s) , ds y ( т) & = Гц (т) конец {выровнено}}}

с участием ${ Displaystyle { begin {выровненный} z_ {0} конец {выровненный}}}$ стохастический векторный процесс, не зависящий от управления.^[2] Стандартная стохастическая система затем получается как частный случай, когда ${ Displaystyle Z = [х ', y'] '}$ , ${ displaystyle z_ {0} = [x_ {0} ', y_ {0}'] '}$ и ${ displaystyle H = [I, 0]}$ . Мы будем использовать сокращенные обозначения

{ displaystyle z = z_ {0} + g pi Hz}

для системы обратной связи, где

{ Displaystyle г ;: ; (т, и) mapsto int _ {0} ^ {т} G (т, тау) и ( тау) , д тау}

является оператором Вольтерра.

В этой более общей формулировке процедура вложения Линдквиста^[2] определяет класс ${ displaystyle Pi}$ допустимых законов обратной связи ${ displaystyle pi}$ как класс непредвиденных функций ${ Displaystyle и: = пи (у)}$ такое, что уравнение обратной связи ${ displaystyle z = z_ {0} + g pi Hz}$ имеет уникальное решение ${ displaystyle z _ { pi}}$ и ${ displaystyle u = pi (Гц _ { pi})}$ адаптирован к ${ displaystyle {{ mathcal {Y}} _ {t} ^ {0} }}$ .

В Георгиу и Линдквисте^[1] была предложена новая основа для принципа разделения. Этот подход рассматривает стохастические системы как четко определенные карты между выборочными путями, а не между случайными процессами, и позволяет нам распространить принцип разделения на системы, управляемые мартингалами с возможными скачками. Этот подход основан на инженерном мышлении, когда системы и контуры обратной связи обрабатывают сигналы, а не случайные процессы. как таковой или преобразования вероятностных мер. Следовательно, цель состоит в том, чтобы создать естественный класс допустимых законов управления, имеющих инженерный смысл, в том числе нелинейных и прерывистых.

Уравнение обратной связи ${ displaystyle z = z_ {0} + g pi Hz}$ имеет единственное сильное решение, если существует не предвосхищающая функция ${ displaystyle F}$ такой, что ${ displaystyle z = F (z_ {0})}$ удовлетворяет уравнению с вероятностью одно, а все остальные решения совпадают с ${ displaystyle z}$ с вероятностью один. Однако в настройке по выборке требуется больше, а именно наличие такого уникального решения и ${ displaystyle z = z_ {0} + g pi Hz}$ касается всех ${ displaystyle z_ {0}}$ , а не только почти все. Результирующая петля обратной связи детерминированно хорошо поставленныйв том смысле, что уравнения обратной связи допускают единственное решение, которое причинно зависит от входа для каждый входной путь выборки.

В этом контексте сигнал определяется как примерный путь случайного процесса с возможными разрывами. Точнее, сигналы будут принадлежать Скороход космос ${ displaystyle D}$ , т.е. пространство функций, непрерывных справа и имеющих левый предел во всех точках (càdlàg функции). В частности, пространство ${ displaystyle C}$ непрерывных функций является собственным подпространством ${ displaystyle D}$ . Следовательно, реакцию типичной нелинейной операции, которая включает в себя пороговую обработку и переключение, можно смоделировать как сигнал. То же самое касается примеров путей подсчета и других мартингалов. А система определяется как измеримая непредвиденная карта ${ displaystyle D to D}$ отправка образцов путей в образцы путей, чтобы их выходы в любое время ${ displaystyle t}$ является измеримой функцией прошлых значений входа и времени. Например, стохастические дифференциальные уравнения с коэффициентами Липшица, управляемые винеровским процессом, вызывают отображения между соответствующими пространствами путей, см. Стр. 127 в Rogers and Williams,^[16] и страницы 126-128 в Klebaner.^[17] Кроме того, при довольно общих условиях (см., Например, главу V в Protter^[18]), стохастические дифференциальные уравнения, управляемые мартингалами с выборочными путями в ${ displaystyle D}$ есть сильные решения, которые являются полумартингалами.

Для установки времени ${ displaystyle f (z): = g pi Гц}$ , система обратной связи ${ displaystyle z = z_ {0} + g pi Hz}$ можно написать ${ Displaystyle Z = Z_ {0} + F (Z)}$ , где ${ displaystyle z_ {0}}$ можно интерпретировать как ввод.

Определение. Петля обратной связи ${ Displaystyle Z = Z_ {0} + F (Z)}$ является детерминированно хорошо поставленный если есть уникальное решение ${ displaystyle z in D}$ для всех входов ${ displaystyle z_ {0} in D}$ и ${ Displaystyle (1-е) ^ {- 1}}$ это система.

Это означает, что процессы ${ displaystyle z}$ и ${ displaystyle z_ {0}}$ определить идентичные фильтрации.^[1] Следовательно, цикл не создает никакой новой информации. Однако нам нужно, чтобы ${ displaystyle { cal {Y}} _ {t} = { cal {Y}} _ {t} ^ {0}}$ для ${ Displaystyle 0 Leq T Leq T}$ . Это обеспечивается следующей леммой (лемма 8 Джорджиу и Линдквиста^[1]).

Ключевая лемма. Если петля обратной связи ${ displaystyle z = z_ {0} + g pi Hz}$ детерминировано корректно, ${ displaystyle g pi}$ это система, и ${ displaystyle H}$ является линейной системой, имеющей правую обратную ${ displaystyle H ^ {- R}}$ это тоже система, то ${ Displaystyle (1-Hg pi) ^ {- 1}}$ это система и ${ displaystyle { cal {Y}} _ {t} = { cal {Y}} _ {t} ^ {0}}$ для ${ Displaystyle 0 Leq T Leq T}$ .

Условие на ${ displaystyle H}$ в этой лемме, очевидно, выполняется в стандартной линейной стохастической системе, для которой ${ displaystyle H = [0, I]}$ , и, следовательно ${ displaystyle H ^ {- R} = H '}$ . Условия переоборудования собраны в следующем определении.

Определение. Закон обратной связи ${ displaystyle pi}$ является детерминированно хорошо поставленный для системы ${ displaystyle z = z_ {0} + g pi Hz}$ если ${ displaystyle g pi}$ это система и система обратной связи ${ displaystyle z = z_ {0} + g pi Hz}$ детерминированно хорошо поставлен.

Примеры простых систем, которые не являются детерминированно корректными, приведены в замечании 12 Джорджиу и Линдквиста.^[1]

Принцип разделения для физически реализуемых законов управления

Если рассматривать только те законы обратной связи, которые детерминированно корректны, все допустимые законы управления физически реализуемы в техническом смысле, поскольку они вызывают сигнал, который проходит через контур обратной связи. Доказательство следующей теоремы можно найти в Джорджиу и Линдквисте, 2013.^[1]

Теорема о разделении.Учитывая линейную стохастическую систему

{ Displaystyle { begin {align} dx & = A (t) x (t) , dt + B_ {1} (t) u (t) , dt + B_ {2} (t) , dw dy & = C (t) x (t) , dt + D (t) , dw end {выровнено}}}

где ${ displaystyle w}$ - векторнозначный винеровский процесс, ${ Displaystyle х (0)}$ гауссовский случайный вектор с нулевым средним, не зависящий от ${ displaystyle w}$ рассмотрим задачу минимизации квадратичного функционала J (u) по классу всех детерминированно корректных законов обратной связи ${ displaystyle pi}$ . Тогда единственный оптимальный закон управления дается формулой ${ Displaystyle и (т) = К (т) { шляпа {х}} (т)}$ где ${ displaystyle K}$ определяется, как указано выше, и ${ displaystyle { hat {x}}}$ дается фильтром Калмана. В более общем смысле, если ${ displaystyle w}$ интегрируемый с квадратом мартингал и ${ Displaystyle х (0)}$ - произвольный случайный вектор с нулевым средним, ${ Displaystyle и (т) = К (т) { шляпа {х}} (т)}$ , где ${ displaystyle { hat {x}} (t) = operatorname {E} {x (t) mid { cal {Y}} _ {t} }}$ , является оптимальным законом управления при условии его детерминированной корректности.

В общем негауссовском случае, который может включать в себя процессы подсчета, фильтр Калмана необходимо заменить нелинейным фильтром.

Принцип разделения для систем с дифференциальной задержкой

Стохастическое управление для систем с запаздыванием впервые было изучено в Lindquist,^[19]^[20]^[8]^[2]и Брукс,^[21] хотя Брукс полагается на сильное предположение, что наблюдение ${ displaystyle y}$ является функционально независимый контроля ${ displaystyle u}$ , таким образом избегая ключевого вопроса обратной связи.

Рассмотрим дифференциальную систему с запаздыванием^[8]

{ Displaystyle { begin {align} dx & = left ( int _ {th} ^ {t} d_ {s} , A (t, s) x (s) right) , dt + B_ {1 } (t) u (t) , dt + B_ {2} (t) , dw dy & = left ( int _ {th} ^ {t} d_ {s} , C (t, s ) x (s) right) , dt + D (t) , dw end {align}}}

где ${ displaystyle w}$ теперь является (интегрируемым с квадратом) гауссовским (векторным) мартингалом, и где ${ Displaystyle { begin {выровненный} A конец {выровненный}}}$ и ${ displaystyle C}$ имеют ограниченную вариацию по первому аргументу и непрерывны справа по второму, ${ Displaystyle х (т) = хи (т)}$ детерминирован для ${ displaystyle -h leq t leq 0}$ , и ${ Displaystyle у (0) = 0}$ .Точнее, ${ displaystyle A (t, s) = 0}$ для ${ displaystyle s geq t}$ , ${ Displaystyle А (т, s) = А (т, т-ч)}$ для ${ Displaystyle т leq т-ч}$ , а полное изменение ${ displaystyle s mapsto A (t, s)}$ ограничена интегрируемой функцией по переменной ${ displaystyle t}$ , и то же самое верно для ${ displaystyle C}$ .

Мы хотим определить закон управления, который минимизирует

{ Displaystyle J (u) = OperatorName {E} left ( int _ {0} ^ {T} x (t) 'Q (t) x (t) , d alpha (t) + int _ {0} ^ {T} u (t) 'R (t) u (t) , dt right),}

где ${ Displaystyle { begin {выровненный} д альфа конец {выровненный}}}$ является положительной мерой Стилтьеса. Соответствующая детерминированная задача, полученная постановкой ${ Displaystyle { begin {выровнено} ш = 0 конец {выровнено}}}$ дан кем-то

{ Displaystyle и (т) = int _ {т-ч} ^ {т} d _ { тау} , К (т, тау) х ( тау),}

с участием^[8] ${ Displaystyle { begin {выровнено} K end {выровнено}}}$ .

Следующий принцип разделения для указанной выше системы задержки можно найти в Георгиу и Линдквисте 2013^[1] и обобщает соответствующий результат Линдквиста 1973^[8]

Теорема. Есть уникальный закон обратной связи ${ Displaystyle { begin {выровнено} pi: , y mapsto и конец {выровнено}}}$ в классе детерминированно корректных законов управления, минимизирующих ${ Displaystyle { begin {выровненный} J (и) конец {выровненный}}}$ , и это дается

{ displaystyle u (t) = int _ {t-h} ^ {t} d_ {s} , K (t, s) { hat {x}} (s mid t),}

где ${ displaystyle K}$ - коэффициент усиления детерминированного управления и ${ displaystyle { hat {x}} (s mid t): = E {x (s) mid { cal {Y}} _ {t} }}$ задается линейным (распределенным) фильтром

{ displaystyle { begin {align} d { hat {x}} (t mid t) & = int _ {th} ^ {t} d_ {s} , A (t, s) { hat {x}} (s mid t) , dt + B_ {1} u , dt + X (t, t) , dv d { hat {x}} (t mid t) & = int _ {th} ^ {t} d_ {s} , A (t, s) { hat {x}} (s mid t) , dt + B_ {1} u , dt + X ( t, t) , дв конец {выровнено}}}

где ${ displaystyle v}$ это инновационный процесс

{ Displaystyle dv = dy- int _ {th} ^ {t} d_ {s} C (t, s) { hat {x}} (s mid t) , dt, quad v (0) = 0,}

и выигрыш ${ displaystyle x}$ определяется на странице 120 в Lindquist.^[8]

использованная литература

^ ^а ^б ^c ^d ^е ^ж ^г ^час ^я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». IEEE Transactions по автоматическому контролю. 58 (10): 2481–2494. arXiv:1103.3005. Дои:10.1109 / TAC.2013.2259207..
^ ^а ^б ^c ^d ^е ^ж ^г ^час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal on Control. 11 (2): 323–343. Дои:10.1137/0311025..
^ Карл Юхан Астром (1970). Введение в теорию стохастического управления. 58. Академическая пресса. ISBN 978-0-486-44531-1..
^ ^а ^б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами. Издательство Кембриджского университета..
^ Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастическое управление (PDF). неопубликованные заметки.
^ Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Statistica Neerlandica. 32 (1): 1–39. Дои:10.1111 / j.1467-9574.1978.tb01382.x..
^ M.H.A. Дэвис (1978). Линейное оценивание и стохастическое управление. Чепмен и Холл..
^ ^а ^б ^c ^d ^е ^ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с приложениями к системам с запаздыванием». Информационные науки. 5: 81–126. Дои:10.1016/0020-0255(73)90005-4..
^ Мюррей Вонэм (1968). «О теореме отделимости стохастического управления». SIAM J. Control. 6 (2): 312–326. Дои:10.1137/0306023.
^ W.H. Флеминг и Р.В. Ришель (1968). Детерминированное и стохастическое оптимальное управление. Springer-Verlag..
^ Х. Кушнер (1971). Введение в стохастический контроль. Холт, Райнхарт и Уинстон..
^ Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF). SIAM J. Control. 9 (3): 354–371. Дои:10.1137/0309026. HDL:1808/16692..
^ M.H.A. Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем». J. Math. Анальный. Приложения. 37: 384–402. Дои:10.1016 / 0022-247X (72) 90281-8..
^ ^а ^б Р.С. Липцер, А. Шираева (1978). Статистика случайных процессов II, Приложения. Springer-Verlag..
^ С. Миттер (1996). «Фильтрация и стохастическое управление: историческая перспектива». Журнал IEEE Control Systems. 13 (3): 67–76..
^ Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Исчисление Ито. Пресса Кембриджского университета.CS1 maint: несколько имен: список авторов (ссылка на сайт).
^ Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями. Всемирная научная издательская компания..
^ Проттер, П. Э. (2004). Стохастическое интегрирование и дифференциальные уравнения. Springer..
^ Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки. 1: 55–85. Дои:10.1016/0020-0255(68)90007-8..
^ Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки. 1 (3): 279–295. Дои:10.1016 / S0020-0255 (69) 80014-9..
^ Р. Брукс (1972). «Линейное стохастическое управление: расширенный принцип разделения». J. Math. Анальный. Приложение. 38 (3): 569–587. Дои:10.1016 / 0022-247X (72) 90069-8..

[GL2013-1] а ^б ^c ^d ^е ^ж ^г ^час ^я Трифон Т. Георгиу и Андерс Линдквист (2013). «Принцип разделения в стохастическом управлении, Redux». IEEE Transactions по автоматическому контролю. 58 (10): 2481–2494. arXiv:1103.3005. Дои:10.1109 / TAC.2013.2259207..

[lindquist-2] а ^б ^c ^d ^е ^ж ^г ^час Андерс Линдквист (1973). «Об управлении линейными стохастическими системами с обратной связью». SIAM Journal on Control. 11 (2): 323–343. Дои:10.1137/0311025..

[astrom-3] Карл Юхан Астром (1970). Введение в теорию стохастического управления. 58. Академическая пресса. ISBN 978-0-486-44531-1..

[Bensoussan-4] а ^б А. Бенсуссан (1992). Стохастическое управление частично наблюдаемыми системами. Издательство Кембриджского университета..

[vanHandel-5] Рамон ван Гендель (2007). Стохастическое исчисление, фильтрация и стохастическое управление (PDF). неопубликованные заметки.

[Willems78-6] Ян К. Виллемс. (1978). «Рекурсивная фильтрация». Statistica Neerlandica. 32 (1): 1–39. Дои:10.1111 / j.1467-9574.1978.tb01382.x..

[Davis-7] M.H.A. Дэвис (1978). Линейное оценивание и стохастическое управление. Чепмен и Холл..

[lindquist1-8] а ^б ^c ^d ^е ^ж Андерс Линдквист (1973). «Оптимальное управление линейными стохастическими системами с приложениями к системам с запаздыванием». Информационные науки. 5: 81–126. Дои:10.1016/0020-0255(73)90005-4..

[Wonham-9] Мюррей Вонэм (1968). «О теореме отделимости стохастического управления». SIAM J. Control. 6 (2): 312–326. Дои:10.1137/0306023.

[FlemingRishel-10] W.H. Флеминг и Р.В. Ришель (1968). Детерминированное и стохастическое оптимальное управление. Springer-Verlag..

[Kushner-11] Х. Кушнер (1971). Введение в стохастический контроль. Холт, Райнхарт и Уинстон..

[duncanvaraiya-12] Тайрон Дункан и Правин Варайя (1971). «О решениях стохастической системы управления» (PDF). SIAM J. Control. 9 (3): 354–371. Дои:10.1137/0309026. HDL:1808/16692..

[davisvaraiya-13] M.H.A. Дэвис и П. Варайя (1972). «Информационные состояния для стохастических систем». J. Math. Анальный. Приложения. 37: 384–402. Дои:10.1016 / 0022-247X (72) 90281-8..

[LipsterShirayev-14] а ^б Р.С. Липцер, А. Шираева (1978). Статистика случайных процессов II, Приложения. Springer-Verlag..

[mitter-15] С. Миттер (1996). «Фильтрация и стохастическое управление: историческая перспектива». Журнал IEEE Control Systems. 13 (3): 67–76..

[RogersWilliams-16] Роджерс, Л. Крис Г. и Дэвид Уильямс (2000). Диффузии, марковские процессы и мартингалы: Том 2, Исчисление Ито. Пресса Кембриджского университета.CS1 maint: несколько имен: список авторов (ссылка на сайт).

[Klebaner-17] Клебанер, Фима К. (2012). Введение в стохастическое исчисление с приложениями. Всемирная научная издательская компания..

[Protter-18] Проттер, П. Э. (2004). Стохастическое интегрирование и дифференциальные уравнения. Springer..

[L68-19] Андерс Линдквист (1968). «Об оптимальном стохастическом управлении со сглаженной информацией». Информационные науки. 1: 55–85. Дои:10.1016/0020-0255(68)90007-8..

[L69-20] Андерс Линдквист (1969). «Инновационный подход к оптимальному управлению линейными стохастическими системами с запаздыванием». Информационные науки. 1 (3): 279–295. Дои:10.1016 / S0020-0255 (69) 80014-9..

[Brooks-21] Р. Брукс (1972). «Линейное стохастическое управление: расширенный принцип разделения». J. Math. Анальный. Приложение. 38 (3): 569–587. Дои:10.1016 / 0022-247X (72) 90069-8..

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]