Без модели (обучение с подкреплением) - Model-free (reinforcement learning)

В обучение с подкреплением (RL), безмодельный алгоритм (в отличие от модельный one) - это алгоритм, который не использует распределение вероятностей перехода (и функция вознаграждения) связанные с Марковский процесс принятия решений (MDP) ^[1], который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» методом проб и ошибок алгоритм ^[1]. Примером безмодельного алгоритма является Q-обучение.

Ключевые алгоритмы безмодельного обучения с подкреплением

Алгоритм	Описание	Модель	Политика	Пространство действий	Государственное пространство	Оператор
DQN	Сеть Deep Q	Без модели	Вне политики	Дискретный	Непрерывный	Q-значение
DDPG	Глубокий детерминированный градиент политики	Без модели	Вне политики	Непрерывный	Непрерывный	Q-значение
A3C	Асинхронный алгоритм «субъект-критик»	Без модели	По политике	Непрерывный	Непрерывный	Преимущество
TRPO	Оптимизация политики доверенного региона	Без модели	По политике	Непрерывный	Непрерывный	Преимущество
PPO	Проксимальная оптимизация политики	Без модели	По политике	Непрерывный	Непрерывный	Преимущество
TD3	Двойной отложенный глубокий детерминированный градиент политики	Без модели	Вне политики	Непрерывный	Непрерывный	Q-значение
SAC	Мягкий Актер-Критик	Без модели	Вне политики	Непрерывный	Непрерывный	Преимущество

использованная литература

^ ^а ^б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN 0262039249. Получено 18 февраля 2019.

[sutton2018-1] а ^б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN 0262039249. Получено 18 февраля 2019.

[1]