Без модели (обучение с подкреплением) - Model-free (reinforcement learning)

В обучение с подкреплением (RL), безмодельный алгоритм (в отличие от модельный one) - это алгоритм, который не использует распределение вероятностей переходафункция вознаграждения) связанные с Марковский процесс принятия решений (MDP) [1], который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» методом проб и ошибок алгоритм [1]. Примером безмодельного алгоритма является Q-обучение.

Ключевые алгоритмы безмодельного обучения с подкреплением

АлгоритмОписаниеМодельПолитикаПространство действийГосударственное пространствоОператор
DQNСеть Deep QБез моделиВне политикиДискретныйНепрерывныйQ-значение
DDPGГлубокий детерминированный градиент политикиБез моделиВне политикиНепрерывныйНепрерывныйQ-значение
A3CАсинхронный алгоритм «субъект-критик»Без моделиПо политикеНепрерывныйНепрерывныйПреимущество
TRPOОптимизация политики доверенного регионаБез моделиПо политикеНепрерывныйНепрерывныйПреимущество
PPOПроксимальная оптимизация политикиБез моделиПо политикеНепрерывныйНепрерывныйПреимущество
TD3Двойной отложенный глубокий детерминированный градиент политикиБез моделиВне политикиНепрерывныйНепрерывныйQ-значение
SACМягкий Актер-КритикБез моделиВне политикиНепрерывныйНепрерывныйПреимущество

использованная литература

  1. ^ а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN  0262039249. Получено 18 февраля 2019.