Выбор победителя по принципу "все получает" - Winner-take-all in action selection

Победитель получает все это Информатика концепция, которая широко применялась в поведенческая робототехника как метод выбор действия за интеллектуальные агенты. Системы «Победитель получает все» работают, соединяя модули (области, отведенные под задачи) таким образом, что при выполнении одного действия прекращается выполнение всех остальных действий, поэтому одновременно выполняется только одно действие. Название происходит от идеи, что действие «победителя» забирает всю мощность моторной системы.[1][2][3]

История

В 1980-х и 1990-х годах многие робототехники и когнитивные ученые пытались найти более быстрые и эффективные альтернативы традиционному методу выбора действий при моделировании мира.[4] В 1982, Джером А. Фельдман и Д. Х. Баллард опубликовал "Коннекционист Модели и их свойства », ссылаясь и объясняя принцип« победитель получает все »как метод выбора действий. Архитектура Фельдмана функционировала по простому правилу, согласно которому в сети взаимосвязанных модулей действий каждый модуль будет устанавливать свой собственный вывод на ноль, если он читает входная мощность выше, чем у любого другого модуля.[5] В 1986, Родни Брукс введены основанные на поведении искусственный интеллект.[требуется разъяснение ] Архитектура выбора действий, основанная на принципе «победитель получает все», вскоре стала общей чертой роботов, основанных на поведении, поскольку выбор происходил на уровне модулей действий (снизу вверх), а не на отдельном когнитивном уровне (сверху вниз), создавая тесная связь стимула и реакции.[6]

Типы архитектур, в которых победитель получает все

Иерархия

В иерархической архитектуре действия или поведения запрограммированы в списке с высоким или низким приоритетом с запрещающими связями между всеми модулями действий. Агент выполняет низкоприоритетное поведение до тех пор, пока не будет стимулировано более высокоприоритетное поведение, после чего более высокоприоритетное поведение подавляет все остальные поведения и полностью берет на себя двигательную систему. Приоритетное поведение обычно является ключом к немедленному выживанию агента, тогда как поведение с более низким приоритетом менее чувствительно ко времени. Например, «убежать от хищника» будет выше «сна».[4]Хотя эта архитектура позволяет четко программировать цели, многие робототехники отошли от иерархии из-за ее негибкости.[7]

Гетерархия и полноценное распространение

В гетерархической и полностью распределенной архитектуре каждое поведение имеет набор предварительных условий, которые должны быть выполнены, прежде чем оно может быть выполнено, и набор постусловий, которые будут истинными после того, как действие будет выполнено. Эти предварительные и последующие условия определяют порядок, в котором должны выполняться действия, и используются для причинного соединения модулей действий. Это позволяет каждому модулю получать входные данные от других модулей, а также от датчиков, поэтому модули могут рекрутировать друг друга. Например, если целью агента было уменьшить жажду, поведение «пить» потребовало бы предварительного условия наличия воды, поэтому модуль активировал бы модуль, отвечающий за «поиск воды». Активации организуют поведение в последовательность, даже если одновременно выполняется только одно действие. Распределение более крупных поведений по модулям делает эту систему гибкой и устойчивой к шуму.[8] Некоторые критики этой модели считают, что любой существующий набор правил деления для предшественников и конфликтующих соединений между модулями производит выбор действий ниже номинала. В дополнение Обратная связь Использование в модели может в некоторых случаях привести к неправильному выбору действия.[9]

Арбитр и централизованно координируемый

В архитектуре арбитра и централизованной координации модули действий связаны не друг с другом, а с центральным арбитром. Когда поведение запускается, они начинают «голосование», посылая сигналы арбитру, и выбирается поведение с наибольшим количеством голосов. В этих системах смещение создается из-за «веса голоса» или того, как часто модулю разрешается голосовать. Некоторые системы арбитров используют другой подход к этому типу принципа «победитель получает все», используя функцию «компромисса» в арбитре. Каждый модуль может голосовать за или против каждого меньшего действия в наборе действий, и арбитр выбирает действие с наибольшим количеством голосов, что означает, что оно приносит пользу большинству модулей поведения.

Это можно рассматривать как нарушение общего правила против создания представлений о мире в основанном на поведении ИИ, установленном Бруксом. Выполняя объединение команд, система создает более обширный составной пул знаний, чем получается от одних только датчиков, формируя составное внутреннее представление окружающей среды. Защитники этих систем утверждают, что запрет на моделирование мира накладывает ненужные ограничения на робототехнику, основанную на поведении, и что агенты получают выгоду от формирования репрезентаций и могут оставаться реактивными.[7]

Смотрите также

Рекомендации

  1. ^ Шиллинг, М., Паскарбайт, Дж., Хойнвилл, Т., Хюффмайер, А., Шнайдер, А., Шмитц, Дж., Круз, Х. (17 сентября 2013 г.). Ходок гексапода, использующий гетерархическую структуру для выбора действий. Границы вычислительной нейробиологии, 7. Дои:10.3389 / fncom.2013.00126
  2. ^ Озтюрк, П. (2009). Уровни и типы выбора действия: Суп выбора действия. Адаптивное поведение, 17. Дои:10.1177/1059712309339854
  3. ^ Кох, С., Ульман, С. (1985). Сдвиг избирательного визуального внимания: в сторону основных нейронных цепей. Извлекаются из [1].
  4. ^ а б Джонс, Дж. Л. (2004). Программирование роботов: практическое руководство по робототехнике, основанной на поведении. Компании McGraw Hill, Inc.
  5. ^ Баллард, Д.Х., Фельдман, Дж. А. (1982). Коннекционистские модели и их свойства. Когнитивная наука, 6, 205-54.
  6. ^ Брукс, Р.А. (1986). Надежная многоуровневая система управления мобильным роботом. Журнал IEEE по робототехнике и автоматизации, 2, 14-23. Извлекаются из [2].
  7. ^ а б Розенблатт, Дж. (1995). DAMN: распределенная архитектура для мобильной навигации. Извлекаются из [3].
  8. ^ Блумберг, Б. (1996). Старые трюки, новые собаки: этология и интерактивные существа. Извлекаются из ProQuest Диссертация и база данных диссертаций.
  9. ^ Тиррелл, Т. (1 марта 1994 г.). Оценка восходящего механизма Maes для выбора поведения. Адаптивное поведение, 2, 307-348. Дои:10.1177/105971239400200401