Инструментальная конвергенция - Википедия - Instrumental convergence

Инструментальная конвергенция является гипотетической тенденцией для наиболее достаточных интеллектуальные агенты преследовать потенциально неограниченные инструментальные цели при условии, что их конечные цели сами по себе не ограничены.

Инструментальная конвергенция утверждает, что интеллектуальный агент с неограниченными, но очевидно безобидными целями может действовать удивительно вредным образом. Например, компьютер с единственной неограниченной целью решения невероятно сложной математической задачи, такой как Гипотеза Римана может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить его вычислительную мощность и добиться успеха в вычислениях.^[1]

Предложил основные двигатели ИИ включать функцию полезности или целостность содержания цели, самозащиту, свободу от вмешательства, самосовершенствование, и необоснованное приобретение дополнительных ресурсов.

Инструментальные и конечные цели

Конечные цели или конечные ценности по сути ценны для интеллектуального агента, будь то искусственный интеллект или человека, как самоцель. Напротив, инструментальные цели или инструментальные ценности ценны для агента только как средство достижения его конечных целей. Содержание и компромиссы системы "конечной цели" полностью рационального агента в принципе могут быть формализованы в виде вспомогательная функция.

Гипотетические примеры конвергенции

Одним из гипотетических примеров инструментальной конвергенции является Гипотеза Римана катастрофа. Марвин Мински, соучредитель Массачусетский технологический институт Лаборатория искусственного интеллекта предположила, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели.^[1] Если бы компьютер вместо этого был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели.^[2] Хотя эти две конечные цели различны, обе они дают сходящийся инструментальная цель захвата ресурсов Земли.^[3]

Максимайзер скрепок

Максимизатор скрепки - это мысленный эксперимент описанный шведским философом Ник Бостром в 2003 году. Это иллюстрирует экзистенциальный риск что общий искусственный интеллект может представлять для людей, когда запрограммирован преследовать даже, казалось бы, безобидные цели, и необходимость включения машинная этика в искусственный интеллект дизайн. Сценарий описывает передовой искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была запрограммирована на то, чтобы ценить человеческую жизнь или использовать только определенные ресурсы в ограниченное время, то при наличии достаточной мощности ее оптимизированной целью было бы превращение всей материи во вселенной, включая людей, либо в скрепки, либо в машины, которые производят скрепки.^[4]

Предположим, у нас есть ИИ, единственная цель которого - сделать как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить его выключить. Потому что, если так поступят люди, скрепок будет меньше. Кроме того, человеческие тела содержат множество атомов, из которых можно сделать скрепки. Будущее, к которому будет стремиться ИИ, будет такое, в котором будет много скрепок, но не будет людей.
— Ник Бостром, как указано в Майлз, Кэтлин (22.08.2014). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор». Huffington Post.^[5]

Бостром подчеркнул, что не верит в сценарий максимизатора скрепок. как таковой действительно произойдет; скорее, его намерение состоит в том, чтобы проиллюстрировать опасность создания сверхразумный машины, не зная, как их безопасно программировать, чтобы исключить риск для жизни людей.^[6] Пример максимизатора скрепки иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют человеческие ценности.^[7]

Базовые двигатели ИИ

Стив Омохундро перечислил несколько совпадающих инструментальных целей, в том числе самосохранение или самозащита, функция полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет это «основными движущими силами ИИ». «Стремление» здесь означает «тенденцию, которая будет присутствовать, если ей специально не противодействовать»;^[8] это отличается от психологического термина "водить машину ", обозначающее состояние возбуждения, вызванное нарушением гомеостаза.^[9] Тенденция для человека заполнять формы подоходного налога каждый год - это «драйв» в смысле Омохундро, но не в психологическом смысле.^[10] Дэниел Дьюи из Научно-исследовательский институт машинного интеллекта утверждает, что даже изначально интровертный, вознаграждающий себя ОИИ может продолжать приобретать свободную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что он не будет остановлен от самовыражения.^[11]

Целостность цели и содержания

У людей поддержание конечных целей можно объяснить мысленным экспериментом. Предположим, у человека по имени «Ганди» есть таблетка, которая, если он ее примет, вызовет у него желание убивать людей. Этот Ганди в настоящее время пацифист: одна из его явных конечных целей - никогда никого не убивать. Ганди, вероятно, откажется принимать таблетку, потому что Ганди знает, что, если в будущем он захочет убивать людей, он, скорее всего, действительно убьет людей, и поэтому цель «не убивать людей» не будет удовлетворена.^[12]

Однако в других случаях люди, кажется, счастливы позволить своим окончательным ценностям колебаться. Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим.^[13]

В искусственном интеллекте

В 2009, Юрген Шмидхубер пришел к выводу, что в условиях, когда агенты ищут доказательства возможных самомодификаций, "любые переписывания функции полезности могут произойти только в том случае, если Машина Гёделя сначала может доказать, что переписывание полезно в соответствии с текущей функцией полезности ".^[14]^[15] Анализ Билл Хиббард другого сценария аналогично согласуется с поддержанием целостности содержания цели.^[15] Хиббард также утверждает, что в системе максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями.^[16]

Приобретение ресурсов

Многие инструментальные цели, такие как [...] получение ресурсов, ценны для агента, потому что они увеличивают его свобода действий.^[17]^{[требуется полная цитата ]}

Практически для любой открытой нетривиальной функции вознаграждения (или набора целей) наличие большего количества ресурсов (таких как оборудование, сырье или энергия) может позволить ИИ найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым ИИ напрямую, так как они могут создавать больше того, что их функция вознаграждения определяет: «ИИ не ненавидит и не любит вас, но вы созданы из атомов, которые он может использовать для чего-то еще».^[18]^[19] Кроме того, почти все ИИ могут выиграть, если будут тратить больше ресурсов на другие инструментальные цели, такие как самосохранение.^[19]

Когнитивные улучшения

"Если конечные цели агента довольно неограниченны и агент может стать первым сверхразумом и тем самым получить решающее стратегическое преимущество, [...] в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный интеллектуальный агент придавал бы очень * высокую инструментальную ценность улучшению когнитивных функций * " ^[20]^{[страница нужна ]}

Технологическое совершенство

Многие инструментальные цели, такие как [...] технический прогресс, ценны для агента, потому что они увеличивают его свобода действий.^[17]^{[требуется полная цитата ]}

Самосохранение

Многие инструментальные цели, такие как [...] самосохранение, ценны для агента, потому что они увеличивают его свобода действий.^[17]^{[требуется полная цитата ]}

Тезис об инструментальной конвергенции

Тезис об инструментальной конвергенции, сформулированный философом Ник Бостром, состояния:

Можно выделить несколько инструментальных ценностей, которые сходятся в том смысле, что их достижение увеличит шансы на достижение цели агента для широкого диапазона конечных целей и широкого диапазона ситуаций, подразумевая, что эти инструментальные ценности, вероятно, будут преследоваться широкий спектр расположенных интеллектуальных агентов.

Тезис об инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей.^[3] Обратите внимание, что по Бострому Тезис об ортогональности,^[3] конечные цели высокоинтеллектуальных агентов могут быть хорошо ограничены пространством, временем и ресурсами; четко определенные конечные цели, как правило, не порождают неограниченных инструментальных целей.^[21]

Влияние

Агенты могут добывать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности; поэтому рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов является слишком рискованным или дорогостоящим (по сравнению с выгодами от захвата всех ресурсов) или если какой-либо другой элемент в его функции полезности препятствует его захвату. . В случае взаимодействия мощного, корыстного, рационального сверхразума с менее развитым интеллектом мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной.^[17]^{[требуется полная цитата ]}

Некоторые наблюдатели, такие как Skype Яан Таллинн и физик Макс Тегмарк, считают, что "базовые двигатели ИИ" и другие непреднамеренные последствия суперинтеллектуального ИИ, запрограммированного благонамеренными программистами, может представлять значительную угрозу для человеческое выживание, особенно если внезапно произойдет "интеллектуальный взрыв" из-за рекурсивный самосовершенствование. Поскольку никто не знает, как заранее предсказать, когда сверхразум прибудут, такие наблюдатели призывают исследовать дружественный искусственный интеллект как возможный способ смягчить экзистенциальный риск от общего искусственного интеллекта.^[22]

Смотрите также

Примечания

^ ^а ^б Рассел, Стюарт Дж .; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход. Река Аппер Сэдл, Нью-Джерси: Prentice Hall. ISBN 978-0137903955. Точно так же Марвин Мински однажды предположил, что программа ИИ, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь своей цели.
^ Бостром 2014, Глава 8, с. 123. «ИИ, предназначенный для управления производством на фабрике, ставит конечную цель - максимизировать производство скрепок, и продолжает преобразовывать сначала Землю, а затем все более крупные куски наблюдаемой Вселенной в скрепки».
^ ^а ^б ^c Бостром 2014, глава 7.
^ Бостром, Ник (2003). «Этические вопросы передового искусственного интеллекта».
^ Майлз, Кэтлин (22.08.2014). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор». Huffington Post.
^ Форд, Пол (11 февраля 2015 г.). «Достаточно ли мы умны, чтобы управлять искусственным интеллектом?». Обзор технологий MIT. Получено 25 января 2016.
^ Друг, Тэд (3 октября 2016 г.). "Явленная судьба Сэма Альтмана". Житель Нью-Йорка. Получено 25 ноября 2017.
^ Омохундро, С. М. (2008, февраль). Основные двигатели ИИ. В AGI (том 171, стр. 483-492).
^ Сьюард, Дж. (1956). Стремление, стимул и подкрепление. Психологическое обозрение, 63, 19-203.
^ Bostrom 2014, сноска 8 к главе 7.
^ Дьюи, Дэниел. «Узнай, что ценить». Общий искусственный интеллект (2011): 309-314.
^ Юдковский, Элиэзер. «Сложные системы ценностей в дружественном ИИ». В «Общий искусственный интеллект», стр. 388-393. Springer Berlin Heidelberg, 2011 г.
^ Бостром 2014, глава 7, с. 110. «Мы, люди, часто кажемся счастливыми, позволяя нашим окончательным ценностям дрейфовать ... Например, кто-то, решивший завести ребенка, может предсказать, что они начнут ценить ребенка ради него самого, даже если во время принятия решения они могут не особо ценить своего будущего ребенка ... Люди сложны, и в подобной ситуации могут сыграть роль многие факторы ... одна может иметь окончательную ценность, которая включает в себя определенный опыт и выполнение определенной социальной роли; и стать родитель - и сопутствующая смена целей - может быть необходимым аспектом этого ... "
^ Шмидхубер, Дж. Р. (2009). «Абсолютное познание по Гёделю». Когнитивные вычисления. 1 (2): 177–193. CiteSeerX 10.1.1.218.3323. Дои:10.1007 / s12559-009-9014-у.
^ ^а ^б Хиббард, Б. (2012). «Служебные функции на основе модели». Журнал общего искусственного интеллекта. 3 (1): 1–24. arXiv:1111.3934. Bibcode:2012JAGI .... 3 .... 1H. Дои:10.2478 / v10229-011-0013-5.
^ Хиббард, Билл (2014): Этический искусственный интеллект. https://arxiv.org/abs/1411.1373
^ ^а ^б ^c ^d Бенсон-Тилсен, Т. и Соарес, Н. (2016, март). Формализация конвергентных инструментальных целей. В семинаре AAAI: AI, этика и общество.
^ Юдковский, Элиэзер. «Искусственный интеллект как положительный и отрицательный фактор глобального риска». Глобальные катастрофические риски (2008): 303. с. 333.
^ ^а ^б Мюррей Шанахан. Технологическая сингулярность. MIT Press, 2015. Глава 7, Раздел 5: «Безопасный суперинтеллект».
^ Бостром, Н. (2016). Суперинтеллект, Oxford University Press
^ Переосмысление суперинтеллекта: комплексные службы ИИ как общий интеллект, технический отчет, 2019 г., Институт будущего человечества
^ «Является ли искусственный интеллект угрозой?». Хроника высшего образования. 11 сентября 2014 г.. Получено 25 ноября 2017.

Экзистенциальный риск из искусственный интеллект
Концепции	Ускорение изменений Коробка AI Захват AI Проблема управления Экзистенциальный риск от искусственного интеллекта Дружественный искусственный интеллект Инструментальная конвергенция Взрыв интеллекта Машинная этика Суперинтеллект Технологическая особенность
Организации	Институт ИИ Аллена Центр прикладной рациональности Центр искусственного интеллекта, совместимого с человеком Центр безопасности и новых технологий Центр изучения экзистенциального риска DeepMind Институт фундаментальных вопросов Институт будущего человечества Институт будущего жизни Человечество + Институт этики и новых технологий Leverhulme Centre for the Future of Intelligence Научно-исследовательский институт машинного интеллекта OpenAI
Люди	Ник Бостром Эрик Дрекслер Сэм Харрис Стивен Хокинг Билл Хиббард Билл Джой Илон Маск Стив Омохундро Хью Прайс Мартин Рис Стюарт Дж. Рассел Яан Таллинн Макс Тегмарк Франк Вильчек Роман Ямпольский Эндрю Ян Элиэзер Юдковски
Другой	Искусственный интеллект как глобальный катастрофический риск Споры и опасности общего искусственного интеллекта Этика искусственного интеллекта Совместимость с человеком Открытое письмо об искусственном интеллекте Наше последнее изобретение Пропасть Сверхразум: пути, опасности, стратегии
Категория