Ученичество - Apprenticeship learning

В искусственный интеллект, ученичество (или же обучение на демонстрации) - это процесс обучения путем наблюдения за экспертом.[1][2] Его можно рассматривать как форму контролируемое обучение, где обучающий набор данных состоит из выполнения задач учителем-демонстратором.[2]

Подход функции отображения

Методы отображения пытаются имитировать эксперта, формируя прямое отображение либо состояний на действия, либо[2] или из состояний в вознаграждение.[1][3] Например, в 2002 году исследователи использовали такой подход для обучения роботов AIBO базовым футбольным навыкам.[2]

Обратный подход к обучению с подкреплением

Обратное обучение с подкреплением (IRL) - это процесс получения функции вознаграждения из наблюдаемого поведения.[3] В то время как обычное «обучение с подкреплением» включает использование поощрений и наказаний для изучения поведения, в IRL направление меняется на противоположное, и робот наблюдает за поведением человека, чтобы выяснить, какую цель это поведение пытается достичь.[4] Проблему IRL можно определить как:[5]

Учитывая 1) измерения поведения агента с течением времени в различных обстоятельствах; 2) измерения сенсорных входов этому агенту; 3) модель физической среды (включая тело агента): определить функцию вознаграждения, которую агент оптимизирует.

Исследователь IRL Стюарт Дж. Рассел предлагает, чтобы IRL можно было использовать для наблюдения за людьми и попытаться систематизировать их сложные «этические ценности» в попытке создать «этических роботов», которые когда-нибудь могут знать, «не готовить кошку», без необходимости явного указания.[6] Сценарий можно смоделировать как «совместную игру с обучением с обратным подкреплением», в которой игрок-человек и игрок-робот взаимодействуют для обеспечения неявных целей человека, несмотря на то, что эти цели не известны явно ни человеку, ни роботу.[7][8]

В 2017 г. OpenAI и DeepMind применяемый глубокое обучение кооперативному обучению с обратным подкреплением в простых областях, таких как игры Atari, и в простых задачах роботов, таких как сальто назад. Роль человека ограничивалась ответом на запросы робота о том, какое из двух различных действий было бы предпочтительнее. Исследователи обнаружили доказательства того, что эти методы могут быть экономически масштабируемы для современных систем.[9][10]

Стажировка через обучение с обратным подкреплением (AIRP) была разработана в 2004 г. Питер Аббель, Профессор в Беркли с EECS отдел, и Эндрю Нг, Доцент кафедры Стэндфордский Университет Департамент компьютерных наук. AIRP занимается "Марковский процесс принятия решений где нам явно не дается функция вознаграждения, но вместо этого мы можем наблюдать за экспертом, демонстрирующим задачу, которую мы хотим научиться выполнять ».[1] AIRP использовался для моделирования функций вознаграждения в высокодинамичных сценариях, в которых нет очевидной функции вознаграждения интуитивно. Возьмем, к примеру, задачу вождения, существует множество различных задач, работающих одновременно - таких как поддержание безопасной дистанции следования, хорошей скорости, не слишком частой смены полосы движения и т. Д. Эта задача на первый взгляд может показаться легкой, но тривиальная функция вознаграждения может не соответствовать желаемой политике.

Одна из областей, в которой AIRP широко используется, - это управление вертолетами. В то время как простые траектории могут быть выведены интуитивно, сложные задачи, такие как высший пилотаж для выставок был успешным. К ним относятся пилотажные маневры как - перевороты на месте, кувырки на месте, петли, ураганы и даже приземления с автоматическим вращением. Эта работа была разработана Питером Аббелем, Адамом Коутсом и Эндрю Нг - «Высший пилотаж на автономном вертолете через обучение на ученичестве»[11]

Системный модельный подход

Системные модели пытаются подражать эксперту, моделируя мировую динамику.[2]

План подход

Система изучает правила, связывающие предусловия и постусловия с каждым действием. В одной демонстрации 1994 года гуманоид усваивает общий план всего на двух демонстрациях повторяющейся задачи по сбору мячей.[2]

Пример

Обучение на демонстрациях часто объясняется с точки зрения того, что рабочие Робот-система управления доступен, и человек-демонстратор его использует. И действительно, если программа работает, Человек-оператор берет манипулятор, совершает с ним движение, и робот воспроизведет это действие позже. Например, он учит робот-руку, как поставить чашку под кофеварку и нажать кнопку пуска. На этапе воспроизведения робот имитирует это поведение 1: 1. Но внутренне система работает не так; это только то, что может наблюдать аудитория. На самом деле обучение на демонстрации намного сложнее.

В 1997 г. эксперт по робототехнике Стефан Шааль работал над Саркос робот-рука. Цель была проста: решить маятниковая задача качания. Сам робот может выполнять движение, и в результате маятник движется. Проблема в том, что неясно, какие действия приведут к какому движению. Это Оптимальный контроль -задача, которую можно описать математическими формулами, но сложно решить. Идея Шаала заключалась в том, чтобы не использовать Решатель грубой силы но запишите движения человека-демонстрации. Угол маятника регистрируется за период времени 3 секунды по оси ординат. Это приводит к диаграмме, которая создает узор.[12]

Траектория во времени
время (секунды)угол (радианы)
0-3.0
0.5-2.8
1.0-4.5
1.5-1.0

В компьютерной анимации принцип называется сплайн анимация.[13] Это означает, что по оси X указано время, например 0,5 секунды, 1,0 секунды, 1,5 секунды, а по оси Y - заданная переменная. В большинстве случаев это положение объекта. В перевернутом маятнике это угол.

Общая задача состоит из двух частей: запись угла во времени и воспроизведение записанного движения. Этап воспроизведения на удивление прост. В качестве входных данных мы знаем, на каком временном шаге и какой угол должен иметь маятник. Приведение системы в состояние называется «Контроль слежения» или ПИД-регулирование. Это означает, что у нас есть траектория во времени, и мы должны найти управляющие действия, чтобы сопоставить систему с этой траекторией. Другие авторы называют принцип «рулевым поведением»,[14] потому что цель - подвести робота к заданной линии.

Смотрите также

Рекомендации

  1. ^ а б c Питер Аббель, Эндрю Нг, «Практическое обучение посредством обучения с обратным подкреплением». На 21-й Международной конференции по машинному обучению (ICML). 2004 г.
  2. ^ а б c d е ж Argall, Brenna D .; Чернова, Соня; Велозу, Мануэла; Браунинг, Бретт (май 2009 г.). «Обзор обучения роботов на демонстрации». Робототехника и автономные системы. 57 (5): 469–483. CiteSeerX  10.1.1.145.345. Дои:10.1016 / j.robot.2008.10.024.
  3. ^ а б Арора, Саураб и Доши, Прашант (2018). «Обзор обучения с обратным подкреплением: проблемы, методы и прогресс». arXiv:1806.06877 [cs.LG ].CS1 maint: несколько имен: список авторов (связь)
  4. ^ Вулховер, Натали. «У пионера искусственного интеллекта несколько опасений». ПРОВОДНОЙ. Получено 22 января 2018.
  5. ^ Рассел, Стюарт (1998). Обучающие агенты для неопределенных сред. С. 101–103. Дои:10.1145/279943.279964.
  6. ^ Хэвенс, Джон К. (23 июня 2015 г.). «Этика искусственного интеллекта: как остановить робота, готовящего вашу кошку». хранитель. Получено 22 января 2018.
  7. ^ «Искусственный интеллект и проблема царя Мидаса». Huffington Post. 12 декабря 2016 г.. Получено 22 января 2018.
  8. ^ Хэдфилд-Менелл, Д., Рассел, С. Дж., Аббил, Питер и Драган, А. (2016). Совместное обучение с обратным подкреплением. В достижениях в системах обработки нейронной информации (стр. 3909-3917).
  9. ^ «Два гиганта искусственного интеллекта объединились, чтобы противостоять апокалипсису роботов». ПРОВОДНОЙ. 7 июля 2017 г.. Получено 29 января 2018.
  10. ^ Кристиано, П. Ф., Лейке, Дж., Браун, Т., Мартич, М., Легг, С., и Амодеи, Д. (2017). Глубокое обучение с подкреплением на основе предпочтений человека. В достижениях в системах обработки нейронной информации (стр. 4302-4310).
  11. ^ Питер Аббил, Адам Коутс, Эндрю Нг, «Высший пилотаж на автономном вертолете через производственное обучение». В т. 29, выпуск 13 Международный журнал исследований робототехники. 2010 г.
  12. ^ Аткесон, Кристофер Г. и Стефан Шаал (1997). Изучение задач из одной демонстрации (PDF). Материалы Международной конференции по робототехнике и автоматизации. 2. IEEE. С. 1706–1712. CiteSeerX  10.1.1.385.3520. Дои:10.1109 / robot.1997.614389. ISBN  978-0-7803-3612-4.CS1 maint: несколько имен: список авторов (связь)
  13. ^ Барис Акгун и Майя Чакмак, Карл Цзян и Андреа Л. Томаз (2012). «Обучение на основе ключевых кадров на демонстрации» (PDF). Международный журнал социальной робототехники. 4 (4): 343–355. Дои:10.1007 / s12369-012-0160-0.
  14. ^ Рейнольдс, Крейг В. (1999). Управляемое поведение автономных персонажей. Конференция разработчиков игр. С. 763–782.