Марковский процесс принятия решений - Markov decision process

В математике Марковский процесс принятия решений (MDP) это дискретное время стохастический контроль процесс. Он обеспечивает математическую основу для моделирования принимать решение в ситуациях, когда результаты частично случайный и частично под контролем лица, принимающего решения. MDP полезны для изучения проблемы оптимизации решено через динамическое программирование и обучение с подкреплением. MDP были известны по крайней мере еще в 1950-х годах;[1] основной объем исследований марковских процессов принятия решений стал результатом Рональд Ховард книга 1960 года, Динамическое программирование и марковские процессы.[2] Они используются во многих дисциплинах, в том числе робототехника, автоматический контроль, экономика и производство. Название МДП происходит от русского математика. Андрей Марков поскольку они являются продолжением Цепи Маркова.

На каждом временном шаге процесс находится в каком-то состоянии , и лицо, принимающее решение, может выбрать любое действие что доступно в состоянии . Процесс реагирует на следующем временном шаге случайным переходом в новое состояние. , и дать лицу, принимающему решение, соответствующее вознаграждение .

В вероятность что процесс переходит в новое состояние зависит от выбранного действия. В частности, он задается функцией перехода состояния . Таким образом, следующее состояние зависит от текущего состояния и действия лица, принимающего решение . Но учитывая и , условно не зависит от всех предыдущих состояний и действий; другими словами, переходы состояний MDP удовлетворяют Марковская собственность.

Марковские процессы принятия решений являются продолжением Цепи Маркова; разница заключается в добавлении действий (предоставление возможности выбора) и вознаграждений (мотивация). И наоборот, если для каждого состояния существует только одно действие (например, «ждать») и все вознаграждения одинаковы (например, «ноль»), процесс принятия решений Маркова сводится к цепи Маркова.

Определение

Пример простой MDP с тремя состояниями (зеленые кружки) и двумя действиями (оранжевые кружки) с двумя наградами (оранжевые стрелки).

Марковский процесс принятия решений - это 4-кортеж , куда

  • это набор государств назвали пространство состояний,
  • это набор действий, называемый пространство действия (альтернативно, набор действий, доступных из состояния ),
  • вероятность того, что действие в состоянии вовремя приведет к состоянию вовремя ,
  • это немедленное вознаграждение (или ожидаемое немедленное вознаграждение), полученное после перехода из состояния заявить , в связи с действием

Пространства состояний и действий могут быть конечными или бесконечными, например набор действительных чисел. Некоторые процессы с бесконечными пространствами состояний и действий могут быть сведены к процессам с конечными пространствами состояний и действий.[3]

Цель оптимизации

Цель марковского процесса принятия решений - найти хорошую «политику» для лица, принимающего решения: функцию который определяет действие что лицо, принимающее решения, выберет в состоянии . Как только марковский процесс принятия решения объединен с политикой таким образом, это фиксирует действие для каждого состояния, и результирующая комбинация ведет себя как Цепь Маркова (поскольку действие, выбранное в состоянии полностью определяется и сводится к матрица перехода Маркова).

Задача - выбрать политику это максимизирует некоторую кумулятивную функцию случайных вознаграждений, обычно ожидаемую дисконтированную сумму на потенциально бесконечном горизонте:

(где мы выбираем , т.е. действия, заданные политикой). И ожидание окупается

куда удовлетворяет ли коэффициент дисконтирования , которая обычно близка к 1 (например, для некоторой ставки дисконтирования r). Более низкий коэффициент дисконтирования мотивирует лицо, принимающее решения, отдавать предпочтение своевременным действиям, а не откладывать их на неопределенный срок.

Политика, максимизирующая указанную выше функцию, называется оптимальная политика и обычно обозначается . Конкретный MDP может иметь несколько различных оптимальных политик. Благодаря марковскому свойству можно показать, что оптимальная политика является функцией текущего состояния, как предполагалось выше.

Модели симуляторов

Во многих случаях трудно представить распределения вероятностей перехода, , явно. В таких случаях симулятор может использоваться для неявного моделирования MDP путем предоставления выборок из распределений переходов. Одной из распространенных форм неявной модели MDP является симулятор эпизодической среды, который можно запустить из начального состояния и получить последующее состояние и вознаграждение каждый раз, когда он получает входное действие. Таким образом, траектории состояний, действий и вознаграждений, часто называемые эпизоды могут быть произведены.

Другой вид симулятора - это генеративная модель, одношаговый симулятор, который может генерировать образцы следующего состояния и вознаграждать за любое состояние и действие.[4] (Обратите внимание, что это значение отличается от термина генеративная модель в контексте статистической классификации.) алгоритмы которые выражаются с помощью псевдокод, часто используется для представления генеративной модели. Например, выражение может обозначать действие выборки из генеративной модели, где и текущее состояние и действие, и и новое состояние и награда. По сравнению с эпизодическим симулятором, генеративная модель имеет то преимущество, что она может давать данные из любого состояния, а не только из тех, которые встречаются на траектории.

Эти классы моделей образуют иерархию информационного содержания: явная модель тривиально дает генеративную модель посредством выборки из распределений, а повторное применение генеративной модели дает эпизодический симулятор. В обратном направлении узнать приблизительные модели можно только через регресс. Тип модели, доступной для конкретного MDP, играет важную роль в определении подходящих алгоритмов решения. Например, динамическое программирование алгоритмы, описанные в следующем разделе, требуют явной модели, и Поиск в дереве Монте-Карло требует генеративной модели (или эпизодического симулятора, который можно скопировать в любом состоянии), тогда как большинство обучение с подкреплением алгоритмы требуют только эпизодического симулятора.

Алгоритмы

Решения для MDP с конечными состояниями и пространствами действий можно найти с помощью различных методов, таких как динамическое программирование. Алгоритмы в этом разделе применяются к MDP с конечным пространством состояний и действий и явно заданными вероятностями перехода и функциями вознаграждения, но основные концепции могут быть расширены для обработки других классов проблем, например, с использованием аппроксимация функции.

Стандартное семейство алгоритмов для расчета оптимальных политик для MDP с конечным состоянием и действием требует хранения для двух массивов, индексированных по состоянию: ценить , который содержит реальные значения, и политика , который содержит действия. В конце алгоритма будет содержать решение и будет содержать дисконтированную сумму вознаграждений, которые будут получены (в среднем), следуя этому решению из состояния .

Алгоритм состоит из двух шагов: (1) обновление значения и (2) обновление политики, которые повторяются в некотором порядке для всех состояний до тех пор, пока не перестанут происходить дальнейшие изменения. Оба рекурсивно обновляют новую оценку оптимальной политики и значения состояния, используя более старую оценку этих значений.

Их порядок зависит от варианта алгоритма; их также можно выполнить для всех состояний сразу или для каждого состояния, и чаще для некоторых состояний, чем для других. Пока ни одно состояние не исключено навсегда из любого из шагов, алгоритм в конечном итоге придет к правильному решению.[5]

Известные варианты

Итерация значения

В итерации значения (Беллман 1957 ), который также называют обратная индукция, то функция не используется; вместо этого значение рассчитывается в пределах всякий раз, когда это необходимо. Подставляя расчет в расчет дает комбинированный шаг[требуется дальнейшее объяснение ]:

куда - номер итерации. Итерация значений начинается с и как предположение функция значения. Затем он выполняет итерацию, многократно вычисляя для всех штатов , до того как сходится с левой частью, равной правой части (которая есть "Уравнение беллмана "для этой проблемы[требуется разъяснение ]). Ллойд Шепли статья 1953 года о стохастические игры включил в качестве особого случая метод итерации значений для MDP,[6] но это было признано только позже.[7]

Повторение политики

В итерации политики (Ховард 1960 ), первый шаг выполняется один раз, а затем второй шаг повторяется до схождения. Затем снова выполняется первый шаг и так далее.

Вместо повторения второго шага до сходимости его можно сформулировать и решить как набор линейных уравнений. Эти уравнения просто получаются путем выполнения в шаге два уравнения.[требуется разъяснение ] Таким образом, повторение шага два до сходимости можно интерпретировать как решение линейных уравнений с помощью Расслабление (итерационный метод)

Этот вариант имеет то преимущество, что есть определенное условие остановки: когда массив не меняется при применении шага 1 ко всем состояниям, алгоритм завершен.

Итерация политики обычно медленнее, чем итерация значения для большого количества возможных состояний.

Измененная итерация политики

В итерации измененной политики (ван Нунен 1976; Путерман и Шин 1978 ), шаг 1 выполняется один раз, а затем шаг 2 повторяется несколько раз.[8][9] Затем снова выполняется первый шаг и так далее.

Приоритетное подметание

В этом варианте шаги предпочтительно применяются к состояниям, которые в некотором роде важны - независимо от того, основаны ли они на алгоритме (были большие изменения в или же вокруг этих состояний в последнее время) или на основе использования (эти состояния близки к начальному состоянию или иным образом представляют интерес для человека или программы, использующей алгоритм).

Расширения и обобщения

Марковский процесс принятия решений - это стохастическая игра только с одним игроком.

Частичная наблюдаемость

В приведенном выше решении предполагается, что состояние известно, когда должно быть предпринято действие; иначе невозможно рассчитать. Когда это предположение неверно, проблема называется частично наблюдаемым марковским процессом принятия решений или POMDP.

Большой прогресс в этой области был сделан Бернетасом и Катехакисом в статье «Оптимальные адаптивные политики для марковских процессов принятия решений».[10] В этой работе класс адаптивных политик, которые обладают свойствами равномерно максимальной скорости сходимости для общего ожидаемого вознаграждения за конечный горизонт, был построен в предположениях конечного состояния пространств действия и несводимости закона перехода. Эти правила предписывают, что выбор действий в каждом состоянии и в каждый период времени должен основываться на показателях, которые представляют собой инфляцию правой части уравнений оптимальности расчетного среднего вознаграждения.

Обучение с подкреплением

Если вероятности или вознаграждения неизвестны, проблема заключается в обучении с подкреплением.[11]

Для этого полезно определить дополнительную функцию, которая соответствует выполнению действия. а затем продолжаем оптимально (или в соответствии с текущей политикой):

Хотя эта функция также неизвестна, опыт во время обучения основан на пары (вместе с исходом ; то есть "я был в состоянии и я пробовал делать и произошло "). Таким образом, мы имеем массив и использует опыт, чтобы обновить его напрямую. Это известно как Q-обучение.

Обучение с подкреплением может решать марковские процессы принятия решений без явной спецификации переходных вероятностей; значения вероятностей перехода необходимы в итерациях значения и политики. В обучении с подкреплением вместо явного указания вероятностей переходов доступ к вероятностям перехода осуществляется через симулятор, который обычно перезапускается много раз из однородно случайного начального состояния. Обучение с подкреплением также можно комбинировать с аппроксимацией функций для решения задач с очень большим количеством состояний.

Обучающие автоматы

Еще одно применение процесса MDP в машинное обучение теория называется обучающимися автоматами. Это также один из типов обучения с подкреплением, если среда является стохастической. Первая деталь обучающие автоматы статья рассматривается Нарендра и Thathachar (1974), которые изначально были явно описаны как конечные автоматы.[12] Подобно обучению с подкреплением, алгоритм обучающихся автоматов также имеет преимущество в решении проблемы, когда вероятность или вознаграждение неизвестны. Разница между обучающими автоматами и Q-обучением заключается в том, что в первом методе не сохраняется память о Q-значениях, но обновляется вероятность действия напрямую, чтобы найти результат обучения. Обучающиеся автоматы - это обучающая схема со строгим доказательством сходимости.[13]

В обучении теории автоматов стохастический автомат состоит из:

  • множество Икс возможных входов,
  • множество Φ = {Φ1, ..., Φs } возможных внутренних состояний,
  • множество α = {α1, ..., αр } возможных выходов или действий с р ≤ s,
  • вектор вероятности начального состояния п(0) = ≪ п1(0), ..., пs(0) ≫,
  • а вычислимая функция А который после каждого временного шага т генерирует п(т + 1) от п(т), текущий вход и текущее состояние, и
  • функция грамм: Φ → α, который генерирует выходные данные на каждом временном шаге.

Состояниям такого автомата соответствуют состояния дискретного параметра Марковский процесс ".[14] На каждом временном шаге т = 0,1,2,3, ..., автомат считывает ввод из своего окружения, обновляет P (т) верх(т + 1) по А, случайным образом выбирает последующее состояние в соответствии с вероятностями P (т + 1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет автомату следующий ввод.[13]

Теоретико-категориальная интерпретация

Помимо вознаграждения, марковский процесс принятия решений можно понять с точки зрения Теория категорий. А именно пусть обозначить свободный моноид с генераторной установкой А. Позволять Dist обозначить Категория Клейсли из Жирная монада. Тогда функтор кодирует как набор S состояний и функция вероятности п.

Таким образом, марковские процессы принятия решений можно обобщить от моноидов (категорий с одним объектом) до произвольных категорий. Результат можно назвать а контекстно-зависимый марковский процесс принятия решений, потому что переход от одного объекта к другому в изменяет набор доступных действий и набор возможных состояний.

Нечеткие марковские процессы принятия решений (FMDP)

В MDP оптимальная политика - это политика, которая максимизирует взвешенное по вероятности суммирование будущих вознаграждений. Следовательно, оптимальная политика состоит из нескольких действий, которые принадлежат конечному набору действий. В нечетких марковских процессах принятия решений (FMDP), во-первых, функция ценности вычисляется как обычные MDP (то есть с конечным набором действий); затем политика извлекается системой нечеткого вывода. Другими словами, функция значения используется как входные данные для системы нечеткого вывода, а политика является выходом системы нечеткого вывода.[15]

Марковский процесс принятия решений в непрерывном времени

В процессах принятия решений Маркова с дискретным временем решения принимаются через дискретные интервалы времени. Однако для Марковские процессы принятия решений с непрерывным временемрешения могут приниматься в любое время по выбору лица, принимающего решения. По сравнению с процессами принятия решений Маркова с дискретным временем, процессы Маркова с непрерывным временем могут лучше моделировать процесс принятия решений для системы, которая имеет непрерывная динамика, т.е. динамика системы определяется уравнения в частных производных (PDE).

Определение

Чтобы обсудить марковский процесс принятия решений в непрерывном времени, мы введем два набора обозначений:

Если пространство состояний и пространство действий конечны,

  • : Государственное пространство;
  • : Пространство действий;
  • : , функция скорости перехода;
  • : , функция вознаграждения.

Если пространство состояний и пространство действий непрерывны,

  • : пространство состояний;
  • : пространство возможного контроля;
  • : , функция скорости перехода;
  • : , функция ставки вознаграждения такая, что , куда - это функция вознаграждения, которую мы обсуждали в предыдущем случае.

Проблема

Подобно марковским процессам принятия решений с дискретным временем, в марковских процессах принятия решений с непрерывным временем мы хотим найти оптимальные политика или же контроль что может дать нам оптимальное ожидаемое интегрированное вознаграждение:

куда

Формулировка линейного программирования

Если пространство состояний и пространство действий конечны, мы могли бы использовать линейное программирование, чтобы найти оптимальную политику, что было одним из первых применявшихся подходов. Здесь мы рассматриваем только эргодическую модель, что означает, что наша МДП с непрерывным временем становится эргодический цепь Маркова с непрерывным временем при стационарном политика. В соответствии с этим предположением, хотя лицо, принимающее решение, может принять решение в любое время в текущем состоянии, оно не может получить больше, если предпримет более одного действия. Им лучше действовать только в тот момент, когда система переходит из текущего состояния в другое. При некоторых условиях (подробнее см. Следствие 3.14 из Марковские процессы принятия решений в непрерывном времени ), если наша функция оптимального значения не зависит от государства , мы будем иметь следующее неравенство:

Если существует функция , тогда будет самым маленьким удовлетворяющий вышеуказанному уравнению. Чтобы найти , мы могли бы использовать следующую модель линейного программирования:

  • Первичная линейная программа (P-LP)
  • Двойная линейная программа (D-LP)

является допустимым решением D-LP, если не является исходным и удовлетворяет ограничениям задачи D-LP. Возможное решение к D-LP называется оптимальным решением, если

для всех возможных решений к D-LP. Как только мы нашли оптимальное решение , мы можем использовать его для определения оптимальной политики.

Уравнение Гамильтона – Якоби – Беллмана.

В MDP с непрерывным временем, если пространство состояний и пространство действий непрерывны, оптимальный критерий может быть найден путем решения Уравнение Гамильтона – Якоби – Беллмана (HJB) в частных производных.Чтобы обсудить уравнение HJB, нам нужно переформулировать нашу задачу.

функция вознаграждения терминала, - вектор состояния системы, вектор управления системой, который мы пытаемся найти. показывает, как вектор состояния изменяется во времени. Уравнение Гамильтона – Якоби – Беллмана имеет следующий вид:

Мы могли решить уравнение, чтобы найти оптимальное управление , что могло бы дать нам оптимальный функция значения

Заявление

Марковские процессы принятия решений с непрерывным временем находят применение в системы массового обслуживания, эпидемические процессы и демографические процессы.

Альтернативные обозначения

Терминология и обозначения для MDP полностью не определены. Есть два основных потока: один фокусируется на задачах максимизации из таких контекстов, как экономика, с использованием терминов действие, вознаграждение, ценность и вызов фактора скидки. или же , в то время как другой фокусируется на задачах минимизации инженерных и навигационных[нужна цитата ], используя контроль условий, стоимость, остаточную себестоимость и вызывая коэффициент скидки . Кроме того, различаются обозначения вероятности перехода.

в этой статьеальтернативакомментарий
действие контроль
награда Стоимость это отрицание
ценить себестоимость это отрицание
политика политика
коэффициент дисконтирования коэффициент дисконтирования
вероятность перехода вероятность перехода

Кроме того, вероятность перехода иногда записывают , или, редко,

Ограниченные марковские процессы принятия решений

Марковские процессы принятия решений с ограничениями (CMDP) являются расширением марковских процессов принятия решений (MDP). Между MDP и CMDP есть три фундаментальных различия.[16]

Существует ряд приложений для CMDP. Недавно он использовался в планирование движения сценарии в робототехнике.[17]

Смотрите также

Рекомендации

  1. ^ Беллман, Р. (1957). «Марковский процесс принятия решений». Журнал математики и механики. 6 (5): 679–684. JSTOR  24900506.
  2. ^ Ховард, Рональд А. (1960). Динамическое программирование и марковские процессы (PDF). M.I.T. Нажмите.
  3. ^ Вробель, А. (1984). «О марковских моделях решений с конечным каркасом». Математические методы исследования операций (ЗОР). 28 (Февраль): 17–27. Дои:10.1007 / bf01919083. S2CID  2545336.
  4. ^ Кирнс, Майкл; Мансур, Ишай; Нг, Эндрю (2002). «Алгоритм разреженной выборки для почти оптимального планирования в больших марковских процессах принятия решений». Машинное обучение. 49 (193–208): 193–208. Дои:10.1023 / А: 1017932429737.
  5. ^ Обучение с подкреплением: теория и реализация на Python. Пекин: China Machine Press. 2019. стр. 44. ISBN  9787111631774.
  6. ^ Шепли, Ллойд (1953). «Стохастические игры». Труды Национальной академии наук Соединенных Штатов Америки. 39 (10): 1095–1100. Bibcode:1953ПНАС ... 39.1095С. Дои:10.1073 / пнас.39.10.1095. ЧВК  1063912. PMID  16589380.
  7. ^ Калленберг, Лодевейк (2002). «Конечные состояния и МДП действия». В Файнберге, Eugene A .; Шварц, Адам (ред.). Справочник по марковским процессам принятия решений: методы и приложения. Springer. ISBN  978-0-7923-7459-6.
  8. ^ Puterman, M. L .; Шин, М. К. (1978). "Модифицированные алгоритмы итерации политики для дисконтированных марковских задач решения". Наука управления. 24 (11): 1127–1137. Дои:10.1287 / mnsc.24.11.1127.
  9. ^ ван Нунен, Дж. Э. Э (1976). «Набор методов последовательного приближения для дисконтированных марковских задач решения. Z». Исследование операций. 20 (5): 203–208. Дои:10.1007 / bf01920264. S2CID  5167748.
  10. ^ Burnetas, A.N .; Катехакис, М. Н. (1997). «Оптимальные адаптивные политики для марковских процессов принятия решений». Математика исследования операций. 22 (1): 222. Дои:10.1287 / moor.22.1.222.
  11. ^ Shoham, Y .; Пауэрс, Р .; Гренагер, Т. (2003). «Многоагентное обучение с подкреплением: критический обзор» (PDF). Технический отчет, Стэнфордский университет: 1–13. Получено 2018-12-12.
  12. ^ Нарендра, К.С.; Thathachar, M.A.L. (1974). «Обучающие автоматы - обзор». IEEE Transactions по системам, человеку и кибернетике. SMC-4 (4): 323–334. CiteSeerX  10.1.1.295.2280. Дои:10.1109 / TSMC.1974.5408453. ISSN  0018-9472.
  13. ^ а б Нарендра, Кумпати С.; Татхачар, Мандаям А. Л. (1989). Обучающие автоматы: введение. Прентис Холл. ISBN  9780134855585.
  14. ^ Нарендра и Татачар 1974, слева стр.325.
  15. ^ Факур, Махди; Косари, Амирреза; Джафарзаде, Мохсен (2016). «Планирование пути роботов-гуманоидов с нечеткими марковскими процессами принятия решений». Журнал прикладных исследований и технологий. 14 (5): 300–310. Дои:10.1016 / j.jart.2016.06.006.
  16. ^ Альтман, Эйтан (1999). Ограниченные марковские процессы принятия решений. 7. CRC Press.
  17. ^ Feyzabadi, S .; Карпин, С. (18–22 августа 2014 г.). «Планирование пути с учетом рисков с использованием марковских процессов принятия решений с иерархическими ограничениями». Наука и техника в области автоматизации (CASE). Международная конференция IEEE. С. 297, 303.

дальнейшее чтение

внешняя ссылка