Обучение модели действия - Action model learning

Обучение модели действия (иногда сокращенно обучение действиям) - это площадь машинное обучение занимается созданием и модификацией программный агент знание о эффекты и предварительные условия из действия которые могут быть выполнены в Окружающая среда. Эти знания обычно представлены в виде логических язык описания действий и используется как вход для автоматические планировщики.

При изменении целей важно изучить модели действий. Когда агент какое-то время действовал, он может использовать накопленные знания о действиях в домене для принятия лучших решений. Таким образом, модели обучающего действия отличаются от обучение с подкреплением. Это позволяет рассуждать о действиях вместо дорогостоящих испытаний в мире.[1] Обучение модели действия - это форма индуктивное мышление, где новые знания генерируются на основе агентских наблюдения. Он отличается от стандартного контролируемое обучение в том, что правильные пары ввода / вывода никогда не представлены, а неточные модели действий явно не исправлены.

Обычной мотивацией для изучения моделей действий является тот факт, что ручное определение моделей действий для планировщиков часто является сложной, трудоемкой и подверженной ошибкам задачей (особенно в сложных средах).

Модели действий

Учитывая Обучающий набор состоящий из примеров , где это наблюдения мирового состояния с двух последовательных временных шагов и является экземпляр действия наблюдается во временном шаге , цель обучения модели действия в целом состоит в построении модель действия , где представляет собой описание динамики предметной области в формализме описания действий, например Полоски, ADL или PDDL и - функция вероятности, определенная над элементами .[2]Однако многие современные методы обучения действиям предполагать детерминизм и не вызывать . В дополнение к детерминизму, отдельные методы различаются тем, как они работают с другими атрибутами предметной области (например, частичная наблюдаемость или сенсорный шум).

Методы обучения действиям

Уровень развития

Современные методы обучения действиям используют различные подходы и используют широкий спектр инструментов из разных областей искусственный интеллект и вычислительная логика. В качестве примера метода, основанного на логике высказываний, можно упомянуть алгоритм SLAF (одновременное обучение и фильтрацию),[1] который использует наблюдения агента, чтобы построить длинную пропозициональную формулу с течением времени, а затем интерпретирует ее, используя решатель выполнимости (SAT). Другой метод, при котором обучение превращается в проблему выполнимости (взвешенная МАКС-СБ в данном случае) и решатели SAT, реализованные в ARMS (Action-Relation Modeling System).[3]Два взаимно похожих, полностью декларативных подхода к обучению действиям были основаны на парадигме логического программирования. Программирование набора ответов (ASP)[4] и его расширение Reactive ASP.[5] В другом примере снизу вверх индуктивное логическое программирование подход был использован.[6] Несколько различных решений не основаны непосредственно на логике. Например, обучение модели действия с использованием алгоритм перцептрона [7] или многоуровневый жадный поиск над пространством возможных моделей действия.[8] В более старой статье 1992 г.[9] обучение модели действия изучалось как расширение обучение с подкреплением.

Литература

Большинство исследовательских работ по практическому обучению публикуется в журналах и на конференциях, посвященных искусственный интеллект в целом (например, Журнал исследований искусственного интеллекта (JAIR), искусственного интеллекта, прикладного искусственного интеллекта (AAI) или конференции AAAI). Несмотря на взаимную актуальность тем, изучение модели действия обычно не рассматривается в планирование конференции типа ICAPS.

Смотрите также

использованная литература

  1. ^ а б Амир, Эял; Чанг, Аллен (2008). «Изучение частично наблюдаемых детерминированных моделей действия». Журнал исследований искусственного интеллекта. 33: 349–402. arXiv:1401.3437. Дои:10.1613 / jair.2575.
  2. ^ Чертицкий, Михал (2014). "Обучение модели действий в реальном времени с помощью онлайн-алгоритма 3SG". Прикладной искусственный интеллект. 28 (7): 690–711. Дои:10.1080/08839514.2014.927692.
  3. ^ Ян, Цян; Канхенг, Ву; Юньфэй, Цзян (2007). «Изучение моделей действий на основе примеров планов с использованием взвешенного MAX-SAT». Искусственный интеллект. 171 (2–3): 107–143. Дои:10.1016 / j.artint.2006.11.005.
  4. ^ Бальдучини, Марсело (2007). "Описание действий обучения с помощью A-Prolog: язык действий C". Весенний симпозиум AAAI: логические формализации здравого смысла: 13–18.
  5. ^ Чертицкий, Михал (2012). Практическое обучение с программированием набора реактивных ответов: предварительный отчет. ICAS 2012, Восьмая Международная конференция по автономным и автономным системам. С. 107–111. ISBN  9781612081878.
  6. ^ Бенсон, Скотт (1995). «Индуктивное обучение моделей реактивного действия». Машинное обучение: материалы двенадцатой международной конференции (ICML).
  7. ^ Моурао, Кира; Петрик, Рональд; Стидман, Марк (2010). «Эффекты обучающего действия в частично наблюдаемых областях». Границы в области искусственного интеллекта и приложений. 215 (ECAI 2010): 973–974. Дои:10.3233/978-1-60750-606-5-973.
  8. ^ Зеттлемойер, Люк; Пасула, Ханна; Кельблин, Лесли Пэк (2005). «Изучение правил планирования в шумных стохастических мирах». AAAI: 911–918.
  9. ^ Линь, Лун-Цзи (1992). «Самосовершенствующиеся реактивные агенты, основанные на обучении с подкреплением, планировании и обучении». Машинное обучение. 8 (3–4): 293–321. Дои:10.1023 / А: 1022628806385.