Оптимальный контроль - Optimal control

Теория оптимального управления это филиал математическая оптимизация это касается поиска контроль для динамическая система в течение такого периода времени, что целевая функция оптимизирован.[1] Он имеет множество применений как в науке, так и в технике. Например, динамическая система может быть космический корабль с элементами управления, соответствующими ракетным двигателям, и целью может быть достижение Луна с минимальным расходом топлива.[2] Или динамическая система могла бы быть национальной экономия, с целью минимизировать безработица; элементы управления в этом случае могут быть фискальный и денежно-кредитная политика.[3]

Оптимальный контроль - это расширение вариационное исчисление, и является математическая оптимизация метод получения политики контроля.[4] Метод во многом обусловлен работой Лев Понтрягин и Ричард Беллман в 1950-х, после вклада в вариационное исчисление Эдвард Дж. МакШейн.[5] Оптимальное управление можно рассматривать как стратегия контроля в теория управления.

Общий метод

Оптимальное управление связано с проблемой нахождения такого закона управления для данной системы, что определенная критерий оптимальности Достигнут. Проблема управления включает функциональная стоимость это функция переменных состояния и управления. An оптимальный контроль это набор дифференциальные уравнения описание путей управляющих переменных, которые минимизируют функцию стоимости. Оптимальное управление можно получить, используя Принцип максимума Понтрягинанеобходимое условие также известный как принцип минимума Понтрягина или просто принцип Понтрягина),[6] или решив Уравнение Гамильтона – Якоби – Беллмана.достаточное условие ).

Начнем с простого примера. Представьте машину, едущую по прямой по холмистой дороге. Вопрос в том, как водителю нажимать педаль акселератора, чтобы свести к минимуму общее время в пути? В этом примере термин закон контроля относится конкретно к тому, как водитель нажимает на педаль акселератора и переключает передачи. В система состоит из машины и дороги, а критерий оптимальности это минимизация общего времени в пути. Проблемы управления обычно включают вспомогательные ограничения. Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя протолкнуть через пол автомобиля, ограничения скорости и т. Д.

Подходящей функцией затрат будет математическое выражение, дающее время в пути как функцию скорости, геометрических соображений и первоначальные условия системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная проблема оптимального управления может заключаться в том, чтобы найти способ управления автомобилем, чтобы минимизировать его расход топлива, при условии, что он должен пройти заданный курс за время, не превышающее некоторого количества. Еще одна связанная с этим проблема контроля может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная структура выглядит следующим образом. Минимизировать функционал непрерывных затрат

подчиняется динамическим ограничениям первого порядка ( уравнение состояния)

алгебраический ограничения пути

и граничные условия

где это штат, это контроль, - независимая переменная (вообще говоря, время), начальное время, а - конечное время. Условия и называются стоимость конечной точки и Лагранжиан соответственно. Кроме того, следует отметить, что ограничения пути в целом неравенство ограничений и, следовательно, может не быть активным (т.е. равным нулю) в оптимальном решении. Также следует отметить, что задача оптимального управления, как указано выше, может иметь несколько решений (т.е. решение может быть не единственным). Таким образом, чаще всего любое решение к задаче оптимального управления локально минимизация.

Линейно-квадратичное управление

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичный (LQ) задача оптимального управления. Проблема LQ формулируется следующим образом. Свести к минимуму квадратичный функционал затрат непрерывного времени

В соответствии с линейный динамические ограничения первого порядка

и начальное условие

Особая форма проблемы LQ, которая возникает во многих задачах систем управления, - это проблема линейно-квадратичный регулятор (LQR), где все матрицы (т.е. , , , и ) находятся постоянный, начальное время произвольно устанавливается равным нулю, а конечное время берется в пределах (это последнее предположение известно как бесконечный горизонт). Проблема LQR формулируется следующим образом. Минимизировать квадратичный функционал затрат в непрерывном времени с бесконечным горизонтом

В соответствии с линейный инвариантный во времени динамические ограничения первого порядка

и начальное условие

В случае конечного горизонта матрицы ограничены тем, что и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но также являются постоянный. Эти дополнительные ограничения на и в случае бесконечного горизонта принудительно применяются, чтобы гарантировать, что функционал стоимости остается положительным. Кроме того, чтобы гарантировать, что функция стоимости ограниченный, дополнительное ограничение накладывается на то, что пара является управляемый. Обратите внимание, что функционал стоимости LQ или LQR физически можно рассматривать как попытку минимизировать контролировать энергию (измеряется квадратичной формой).

Проблема бесконечного горизонта (то есть LQR) может показаться чрезмерно ограничивающей и по существу бесполезной, поскольку она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выход системы. Это действительно так. Однако проблема вывода выходного сигнала на желаемый ненулевой уровень может быть решена. после нулевой выход равен. Фактически, можно доказать, что эта вторичная проблема LQR может быть решена очень просто. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет вид обратной связи

где матрица с правильными размерами, заданная как

и является решением дифференциала Уравнение Риккати. Дифференциальное уравнение Риккати имеет вид

Для задачи LQ с конечным горизонтом уравнение Риккати интегрируется назад во времени с использованием конечного граничного условия

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется уравнением алгебраический Уравнение Риккати (ARE), заданное как

Понимая, что ARE возникает из проблемы бесконечного горизонта, матрицы , , , и все постоянный. Следует отметить, что, как правило, существуют множественные решения алгебраического уравнения Риккати и положительно определенный (или положительное полуопределенное) решение - это то, которое используется для вычисления коэффициента обратной связи. Проблема LQ (LQR) была элегантно решена Рудольф Кальман.[7]

Численные методы оптимального управления

Задачи оптимального управления, как правило, нелинейны и поэтому, как правило, не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате возникает необходимость использования численных методов для решения задач оптимального управления. В первые годы оптимального управления (c. 1950-1980-х годов) излюбленным подходом к решению задач оптимального управления был подход косвенные методы. В косвенном методе вариационное исчисление используется для получения условий оптимальности первого порядка. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевая задача. Эта краевая задача на самом деле имеет особую структуру, поскольку возникает в результате взятия производной от Гамильтониан. Таким образом, полученный динамическая система это Гамильтонова система формы

где

это дополненный гамильтониан а косвенным методом решается краевая задача (с использованием соответствующей границы или трансверсальность условия). Прелесть использования косвенного метода в том, что состояние и сопряженный (т. Е. ) решаются относительно, и полученное решение легко проверяется как экстремальная траектория. Недостатком косвенных методов является то, что краевую задачу часто чрезвычайно сложно решить (особенно для задач, охватывающих большие временные интервалы, или задач с ограничениями внутренней точки). Известная программа, реализующая косвенные методы, - BNDSCO.[8]

Подход, получивший известность в численном оптимальном управлении с 1980-х годов, - это так называемый подход. прямые методы. В прямом методе состояние или управление, или и то и другое, аппроксимируются с использованием подходящей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). При этом функционал стоимости аппроксимируется как функция стоимости. Затем коэффициенты аппроксимации функций рассматриваются как переменные оптимизации, и задача «транскрибируется» в нелинейную задачу оптимизации вида:

Свести к минимуму

с учетом алгебраических ограничений

В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть довольно небольшим (например, как в методе прямой стрельбы или квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление[9]) или может быть довольно большим (например, прямой метод коллокации[10]). В последнем случае (т. Е. Метод коллокации) проблема нелинейной оптимизации может включать буквально тысячи или десятки тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих при использовании прямого метода, может показаться несколько нелогичным, что решить задачу нелинейной оптимизации проще, чем решить краевую задачу. Однако факт в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно прямого метода коллокации, заключается в том, что НЛП редкий и существует множество хорошо известных программ (например, СНОПТ[11]) для решения больших разреженных НЛП. В результате круг задач, которые могут быть решены прямыми методами (особенно прямыми) методы коллокации которые сейчас очень популярны) значительно больше, чем круг задач, которые можно решить косвенными методами. Фактически, прямые методы стали настолько популярными в наши дни, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL,[12] SOCS,[13] ОТИС,[14] ГЕСОП /ASTOS,[15] ДИТАН.[16] и PyGMO / PyKEP.[17] В последние годы в связи с появлением MATLAB язык программирования, ПО оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают: Беспорядки,[18]ДИДО,[19] НЕПОСРЕДСТВЕННЫЙ,[20] FALCON.m,[21] и GPOPS,[22] в то время как пример промышленного инструмента MATLAB PROPT.[23] Эти программные инструменты значительно расширили возможности людей для исследования сложных задач оптимального управления как для академических исследований, так и для промышленных задач. Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как ТОМЛАБ значительно упростили кодирование сложных задач оптимального управления, чем это было возможно ранее в таких языках, как C и FORTRAN.

Оптимальное управление с дискретным временем

Примеры до сих пор показали непрерывное время системы и решения для управления. Фактически, поскольку оптимальные решения управления сейчас часто реализуются в цифровом виде, современная теория управления сейчас в первую очередь занимается дискретное время системы и решения. Теория Последовательные приближения[24] обеспечивает условия, при которых решения серии дискретизированных задач оптимального управления с повышенной точностью сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже кажущимся очевидным. Например, использование подпрограммы переменного размера шага для интегрирования динамических уравнений задачи может генерировать градиент, который не сходится к нулю (или не указывает в правильном направлении) по мере приближения к решению. Прямой метод Беспорядки основан на теории согласованного приближения.

Примеры

Обычной стратегией решения многих задач оптимального управления является решение для стоимости (иногда называемой скрытая цена ) . Стоимость суммирует в одном числе предельное значение расширения или сжатия переменной состояния в следующий ход. Предельная стоимость - это не только прибыль, полученная в следующий ход, но и связанная с продолжительностью программы. Приятно когда могут быть решены аналитически, но обычно самое большее, что можно сделать, - это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог решить численно для значений.

Получив , оптимальное значение Turn-t для управления обычно может быть решено как дифференциальное уравнение при условии знания . Опять же, нечасто, особенно в задачах с непрерывным временем, когда можно явно получить значение элемента управления или состояния. Обычно стратегия заключается в поиске пороговых значений и областей, которые характеризуют оптимальное управление, и использовании числового решателя для выделения фактических значений выбора во времени.

Конечное время

Рассмотрим проблему владельца шахты, который должен решить, с какой скоростью извлекать руду из своей шахты. Им принадлежат права на руду с даты назначить свидание . На дату есть руды в земле, и зависящее от времени количество руды оставленный в земле уменьшается со скоростью что владелец шахты добывает его. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратной величине количества оставшейся руды) и продает руду по постоянной цене. . Любая руда, оставшаяся в земле во время не может быть продан и не имеет ценности (нет «стоимости лома»). Владелец выбирает скорость добычи, меняющуюся со временем. для максимизации прибыли за период владения без дисконтирования по времени.

1. Дискретно-временная версия

Менеджер максимизирует прибыль :

подчиняется закону эволюции переменной состояния

Сформируйте гамильтониан и дифференцируйте:

Поскольку владелец шахты не ценит оставшуюся руду ,

Используя приведенные выше уравнения, легко решить для и серии

и используя начальные условия и условия поворота T, ряд можно решить явно, давая .

2. Непрерывная версия

Менеджер максимизирует прибыль :

где переменная состояния развивается следующим образом:

Сформируйте гамильтониан и дифференцируйте:

Поскольку владелец шахты не ценит оставшуюся руду ,

Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и

и используя начальные условия и условия поворота-T, функции могут быть решены для получения

Смотрите также

использованная литература

  1. ^ Росс, Исаак (2015). Учебник по принципу Понтрягина в оптимальном управлении. Сан-Франциско: коллегиальные издатели. ISBN  978-0-9843571-0-9. OCLC  625106088.
  2. ^ Люенбергер, Дэвид Г. (1979). «Оптимальное управление». Введение в динамические системы. Нью-Йорк: Джон Вили и сыновья. стр.393 –435. ISBN  0-471-02594-1.
  3. ^ Камиен, Мортон И. (2013). Динамическая оптимизация: вариационный расчет и оптимальное управление в экономике и менеджменте. Dover Publications. ISBN  978-1-306-39299-0. OCLC  869522905.
  4. ^ Сарджент, Р. В. Х. (2000). «Оптимальный контроль». Журнал вычислительной и прикладной математики. 124 (1–2): 361–371. Bibcode:2000JCoAM.124..361S. Дои:10.1016 / S0377-0427 (00) 00418-0.
  5. ^ Брайсон, А. (1996). «Оптимальное управление - с 1950 по 1985 год». Журнал IEEE Control Systems. 16 (3): 26–33. Дои:10.1109/37.506395.
  6. ^ Росс, И.М. (2009). Учебник по принципу Понтрягина в оптимальном управлении. Коллегиальные издатели. ISBN  978-0-9843571-0-9.
  7. ^ Кальман, Рудольф. Новый подход к задачам линейной фильтрации и прогнозирования. Транзакции ASME, Journal of Basic Engineering, 82: 34–45, 1960
  8. ^ Оберле, Х. Дж. И Гримм, В., "Программа BNDSCO-A для численного решения задач оптимального управления", Институт динамики систем полета, DLR, Оберпфаффенхофен, 1989 г.
  9. ^ Росс, И.М.; Карпенко, М. (2012). «Обзор псевдоспектрального оптимального управления: от теории к полету». Ежегодные обзоры под контролем. 36 (2): 182–197. Дои:10.1016 / j.arcontrol.2012.09.002.
  10. ^ Беттс, Дж. Т. (2010). Практические методы оптимального управления с помощью нелинейного программирования (2-е изд.). Филадельфия, Пенсильвания: SIAM Press. ISBN  978-0-89871-688-7.
  11. ^ Гилл, П. Э., Мюррей, В. М., и Сондерс, М. А., Руководство пользователя SNOPT версии 7: Программное обеспечение для крупномасштабного нелинейного программирования, Калифорнийский университет, отчет Сан-Диего, 24 апреля 2007 г.
  12. ^ фон Стрик, О., Руководство пользователя DIRCOL (версия 2.1): метод прямого сочетания для численного решения задач оптимального управления, Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, версия от ноября 1999).
  13. ^ Беттс, Дж. и Хаффман, В. П., Программное обеспечение Sparse Optimal Control, SOCS, Boeing Information and Support Services, Сиэтл, Вашингтон, июль 1997 г.
  14. ^ Hargraves, C. R .; Пэрис, S. W. (1987). «Оптимизация прямой траектории с помощью нелинейного программирования и коллокации». Журнал наведения, управления и динамики. 10 (4): 338–342. Bibcode:1987JGCD ... 10..338H. Дои:10.2514/3.20223.
  15. ^ Гат, П.Ф., Уэлл, К.Х., «Оптимизация траектории с использованием комбинации прямой множественной съемки и совмещения», AIAA 2001–4047, Конференция AIAA по руководству, навигации и управлению, Монреаль, Квебек, Канада, 6–9 августа 2001 г.
  16. ^ Василе М., Бернелли-Заззера Ф., Форнасари Н., Масарати П., «Разработка межпланетных и лунных миссий, сочетающих малую тягу и помощь гравитации», Заключительный отчет исследовательского контракта № 14126/00 / D ЕКА / ESOC. / CS, сентябрь 2002 г.
  17. ^ Иззо, Дарио. «PyGMO и PyKEP: инструменты с открытым исходным кодом для массовой параллельной оптимизации в астродинамике (случай оптимизации межпланетных траекторий)». Продолжайте. Пятая международная конф. Астродинам. Инструменты и методы, ICATT. 2012 г.
  18. ^ Беспорядки В архиве 16 июля 2011 г. Wayback Machine, на основе Шварц, Адам (1996). Теория и реализация методов на основе интегрирования Рунге – Кутты для решения задач оптимального управления (Кандидат наук.). Калифорнийский университет в Беркли. OCLC  35140322.
  19. ^ Росс, И. М., Улучшения в DIDO Optimal Control Toolbox, arXiv 2020. https://arxiv.org/abs/2004.13112
  20. ^ Уильямс, П., Руководство пользователя DIRECT, версия 2.00, Мельбурн, Австралия, 2008 г.
  21. ^ FALCON.m, описанные у Rieck, M., Bittner, M., Grüter, B., Diepolder, J., and Piprek, P., FALCON.m - Руководство пользователя, Институт динамики систем полета, Технический университет Мюнхена, октябрь 2019 г.
  22. ^ GPOPS В архиве 24 июля 2011 г. Wayback Machine, описанные в Rao, A.V, Benson, D.A., Huntington, G.T., Francolin, C., Darby, C.L., и Patterson, M.A., Руководство пользователя для GPOPS: пакет MATLAB для динамической оптимизации с использованием Псевдоспектральный метод Гаусса, Отчет Университета Флориды, август 2008 г.
  23. ^ Рутквист П. и Эдвалл М. М., PROPT - MATLAB Optimal Control Software, 1260 S.E. Bishop Blvd Ste E, Pullman, WA 99163, США: Tomlab Optimization, Inc.
  24. ^ Э. Поляк, Об использовании согласованных приближений при решении полубесконечных задач оптимизации и оптимального управления Математика. Прог. 62 с. 385–415 (1993).

дальнейшее чтение

внешние ссылки