Выбор действия - Action selection

Выбор действия это способ характеристики самой основной проблемы интеллектуальных систем: что делать дальше. В искусственный интеллект и вычислительные наука о мышлении "проблема выбора действия" обычно связана с интеллектуальные агенты и аниматы - искусственные системы, которые проявляют сложное поведение в среда агента. Этот термин также иногда используется в этология или поведение животных.

Одна из проблем для понимания выбора действия - это определение уровня абстракции, используемого для определения «действия». На самом базовом уровне абстракции атомный акт может быть чем угодно, начиная с сокращение мышечной клетки к провоцируя войну. Обычно для любого одного механизма выбора действий набор возможных действий предопределен и фиксирован.

Большинство исследователей, работающих в этой области, предъявляют высокие требования к своим агентам:

  • Действия агент обычно должен выбирать свое действие в динамичный и непредсказуемый среды.
  • Агенты обычно действуют в реальное время; поэтому они должны принимать решения своевременно.
  • Обычно агенты создаются для выполнения нескольких различных задач. Эти задачи могут конфликтовать при распределении ресурсов (например, может ли агент одновременно потушить пожар и подать чашку кофе?)
  • Среда, в которой работают агенты, может включать люди, которые могут усложнить работу агента (намеренно или пытаясь помочь).
  • Сами агенты часто предназначены для модель животные или люди, и животные / человек поведение довольно сложно.

По этим причинам выбор действий нетривиален и привлекает большое количество исследований.

Характеристики задачи выбора действия

Основная проблема при выборе действия: сложность. Поскольку все вычисление занимает как время, так и пространство (в памяти), агенты не могут рассматривать каждый вариант, доступный им в каждый момент времени. Следовательно, они должны быть пристрастный, и каким-то образом ограничивают их поиск. Для ИИ вопрос выбора действия стоит как лучше всего ограничить этот поиск? Для биологии и этологии вопрос заключается в следующем: как различные виды животных сдерживают поиск? Все ли животные используют одни и те же подходы? Почему они используют те, которые используют?

Один из фундаментальных вопросов о выборе действия заключается в том, действительно ли это проблема для агента или это просто описание возникающий свойство поведения интеллектуального агента. Однако, если мы рассмотрим, как мы собираемся создать интеллектуального агента, то станет очевидным, что должно быть немного механизм выбора действия. Этот механизм может быть сильно распределенным (как в случае распределенных организмов, таких как социальное насекомое колонии или слизь ) или это может быть модуль специального назначения.

Механизм выбора действия (ASM) определяет не только действия агента с точки зрения воздействия на мир, но и направляет его восприятие. внимание, и обновляет объем памяти. Эти эгоцентричный действия могут, в свою очередь, привести к изменению основных поведенческих возможностей агента, особенно в том, что обновление памяти подразумевает некоторую форму машинное обучение возможно. В идеале сам выбор действий также должен уметь учиться и адаптироваться, но есть много проблем комбинаторная сложность и вычислительные сговорчивость это может потребовать ограничения пространства поиска для обучения.

В AI ASM также иногда называют архитектура агента или воспринимается как существенная часть одного.

Механизмы ИИ

В целом механизмы выбора искусственного действия можно разделить на несколько категорий: символьные системы иногда известное как классическое планирование, распределенные решения, и реактивный или динамическое планирование. Некоторые подходы точно не попадают ни в одну из этих категорий. Другие действительно больше о предоставлении научные модели чем практическое управление ИИ; последние описаны далее в следующем разделе.

Символические подходы

В начале история искусственного интеллекта, предполагалось, что лучший способ для агента выбрать, что делать дальше, - это вычислить вероятно оптимальный спланировать, а затем выполнить этот план. Это привело к система физических символов гипотеза, что физический агент, который может манипулировать символами, является необходимо и достаточно для интеллекта. Много программные агенты по-прежнему используйте этот подход для выбора действий. Обычно это требует описания всех показаний датчиков, мира, всех своих действий и всех своих целей в той или иной форме. логика предикатов. Критики этого подхода жалуются, что он слишком медленный для планирования в реальном времени и что, несмотря на доказательства, маловероятно, что он приведет к созданию оптимальных планов, поскольку сведение описаний реальности к логике - это процесс, подверженный ошибкам.

Удовлетворительный - это стратегия принятия решений, которая пытается соответствовать критериям адекватности, а не находить оптимальное решение. Удовлетворительная стратегия часто может быть (почти) оптимальной, если затраты на сам процесс принятия решений, такие как затраты на получение полной информации, учитываются при расчете результатов.

Архитектура, ориентированная на достижение целей - В этих символический В архитектуре поведение агента обычно описывается набором целей. Каждая цель может быть достигнута с помощью процесса или деятельности, которые описаны в заранее составленном плане. Агент должен просто решить, какой процесс продолжить для достижения поставленной цели. План может расширяться до подцелей, что делает процесс слегка рекурсивным. Технически, более или менее, планы используют правила условий. Эти архитектуры реактивный или гибрид. Классическими примерами целевых архитектур являются реализуемые усовершенствования вера-желание-намерение архитектура как ВАРЕНЬЕ или же IVE.

Распределенные подходы

В отличие от символического подхода, распределенные системы выбора действий фактически не имеют одного «ящика» в агенте, который решает следующее действие. По крайней мере, в их идеализированном виде распределенные системы имеют много модули параллельная работа и определение наилучшего действия на основе местного опыта. Ожидается, что в этих идеализированных системах каким-то образом возникнет общая согласованность, возможно, благодаря тщательному проектированию взаимодействующих компонентов. Этот подход часто вдохновлен искусственные нейронные сети исследование. На практике почти всегда немного централизованная система, определяющая, какой модуль «наиболее активен» или имеет наибольшее значение. Есть свидетельства того, что настоящий биологический мозг также имеет такие системы исполнительных решений которые оценивают, какая из конкурирующих систем заслуживает наибольшего внимание, или, точнее, имеет желаемые действия расторможенный.

  • ASMO это архитектура, основанная на внимании, разработанная Рони Новианто.[1] Он управляет множеством модульных распределенных процессов, которые могут использовать свои собственные представления и методы для восприятия окружающей среды, обработки информации, планирования действий и предложения действий для выполнения.
  • Различные виды победитель получает все архитектуры, в которых одно выбранное действие полностью контролирует двигательную систему
  • Активация распространения включая Маэс Нетс (ANA)
  • Расширенный Розенблатт и Пэйтон представляет собой распространяющуюся архитектуру активации, разработанную Тоби Тирреллом в 1993 году. Поведение агента хранится в виде иерархической коннекционизм сеть, которую Тиррелл назвал иерархией свободного потока. Недавно эксплуатируется, например, де Севин и Тальманн (2005) или Кадлечек (2001).
  • ИИ на основе поведения, был ответом на низкую скорость роботов, использующих методы выбора символических действий. В этой форме отдельные модули реагируют на разные стимулы и генерируют свои собственные ответы. В исходном виде архитектура подчинения, они состояли из разных слоев, которые могли контролировать и подавлять входы и выходы друг друга.
  • Существа виртуальные питомцы из компьютерной игры, управляемые трехслойной нейронная сеть, который является адаптивным. Их механизм является реактивным, поскольку сеть на каждом временном шаге определяет задачу, которую должно выполнить домашнее животное. Сеть хорошо описана в статье Grand et al. (1997) и в Ресурсы для разработчиков Creatures. См. Также Вики Сообщества.

Подходы к динамическому планированию

Поскольку чисто распределенные системы сложно построить, многие исследователи обратились к использованию явных жестко запрограммированных планов для определения приоритетов своей системы.

Динамический или реактивное планирование методы вычисляют только одно следующее действие в каждый момент на основе текущего контекста и заранее подготовленных планов. В отличие от классических методов планирования, реактивный или динамический подходы не страдают. комбинаторный взрыв. С другой стороны, их иногда считают слишком жесткими, чтобы их можно было рассматривать сильный ИИ, поскольку планы закодированы заранее. В то же время естественный интеллект может быть жестким в одних контекстах, хотя он подвижен и способен адаптироваться в других.

Примеры механизмов динамического планирования включают:

  • Конечные машины Это реактивный архитектуры, используемые в основном для агентов компьютерных игр, в частности, для шутеров от первого лица боты, или для виртуальных киноактеров. Как правило, конечные автоматы иерархические. Для конкретных примеров игр см. Бумага для ботов Halo 2 Дамиан Исла (2005) или Магистерская работа о ботах Quake III Ян Пол ван Ваверен (2001). Для примера фильма см. Softimage.
  • Другой структурированные планы реагирования имеют тенденцию немного больше походить на обычные планы, часто со способами представления иерархический и последовательный структура. Некоторые, например «действия» PRS, поддерживают частичные планы.[2] Многие архитектуры агентов середины 1990-х годов включали такие планы, как «средний уровень», который обеспечивал организацию для низкоуровневых модули поведения под руководством планировщика более высокого уровня в режиме реального времени. Несмотря на это предполагаемое совместимость с помощью автоматизированных планировщиков большинство структурированных планов реагирования кодируются вручную (Bryson 2001, ch. 3). Примеры структурированных планов реагирования включают: Джеймс Фирби с РЭП Система и Нильс Нильссон с Телеореактивные планы. PRS, RAP и TRP больше не разрабатываются и не поддерживаются. Одним из все еще действующих (по состоянию на 2006 г.) потомков этого подхода является иерархический упорядоченный скользящий стек с параллельным корнем (или ПОШ ) система выбора действий, которая является частью Behavior Oriented Design Джоанны Брайсон.

Иногда, чтобы попытаться устранить кажущуюся негибкость динамического планирования, используются гибридные методы. В них более обычная система планирования AI ищет новые планы, когда у агента есть свободное время, и обновляет библиотеку динамических планов, когда находит хорошие решения. Важным аспектом любой такой системы является то, что, когда агенту нужно выбрать действие, существует какое-то решение, которое можно использовать немедленно (см. алгоритм в любое время ).

Другие

  • CogniTAO это механизм принятия решений, основанный на BDI (убеждение-желание-намерение), оно включает в себя встроенные возможности совместной работы.
  • Парить это символический когнитивная архитектура. Он основан на правилах "условие-действие", известных как постановки. Программисты могут использовать набор инструментов разработки Soar для создания как реактивных агентов, так и агентов планирования или любого компромисса между этими двумя крайностями.
  • Экскалибур был исследовательским проектом под руководством Александра Нареека, в котором участвовали агенты по планированию компьютерных игр в любое время. Архитектура основана на структурных удовлетворение ограничений, который является продвинутым искусственный интеллект техника.
  • ACT-R похож на Soar. Он включает Байесовский система обучения, помогающая расставить приоритеты в производстве.
  • ABL / Hap
  • Нечеткие архитектуры В Нечеткий подход выбор действия обеспечивает более плавное поведение, чем может быть получено архитектурами, использующими логические правила действия-условия (например, Soar или POSH). Эти архитектуры в основном реактивный и символический.

Теории отбора действий в природе

Многие динамические модели выбора искусственного действия были первоначально вдохновлены исследованиями в этология. Особенно, Конрад Лоренц и Николаас Тинберген представил идею врожденный механизм выпуска чтобы объяснить инстинктивное поведение (фиксированные шаблоны действий ). Под влиянием идей Уильям Макдугалл, Лоренц развил это в "психогидравлический "модель мотивация поведения. В этологии эти идеи пользовались влиянием в 1960-х годах, но сейчас они считаются устаревшими из-за использования поток энергии метафора; то нервная система а контроль поведения теперь обычно рассматривается как связанный с передачей информации, а не с потоком энергии. Динамические планы и нейронные сети больше похожи на передачу информации, в то время как распространение активации больше похоже на диффузный контроль эмоциональных / гормональных систем.

Стэн Франклин предложил, чтобы выбор действия правильная перспектива для понимания роли и эволюции разум. См. Его страницу на парадигма выбора действия.

ИИ-модели выбора нейронного действия

Некоторые исследователи создают сложные модели выбора нейронных действий. См. Например:

Смотрите также

Рекомендации

  1. ^ Самсонович, А.В. "Внимание в когнитивной архитектуре ASMO. »Биологически вдохновленные когнитивные архитектуры (2010): 98.
  2. ^ Карен Л. Майерс. "PRS-CL: Процедурная система рассуждений". Центр Искусственного Интеллекта. SRI International. Получено 2013-06-13.

дальнейшее чтение

внешняя ссылка