AlphaGo Zero - AlphaGo Zero

AlphaGo Zero это версия DeepMind с Программное обеспечение Go AlphaGo. Команда AlphaGo опубликовала статью в журнале Природа 19 октября 2017 года представляет AlphaGo Zero, версию, созданную без использования данных из игр, созданных людьми, и более сильную, чем любая предыдущая версия.^[1] Играя в игры против самого себя, AlphaGo Zero превзошла по силе AlphaGo Lee за три дня, выиграв 100 игр до 0, достигли уровня Мастер AlphaGo за 21 день и превзошел все старые версии за 40 дней.^[2]

Подготовка искусственный интеллект (ИИ) без наборов данных, полученных от экспертов-людей, имеет серьезные последствия для развития ИИ со сверхчеловеческими навыками, поскольку данные экспертов «часто дороги, ненадежны или просто недоступны».^[3] Демис Хассабис, соучредитель и генеральный директор DeepMind, сказал, что AlphaGo Zero была настолько мощной, потому что «больше не ограничивалась рамками человеческого знания».^[4] Дэвид Сильвер, один из первых авторов статей DeepMind, опубликованных в Природа на AlphaGo сказал, что можно получить обобщенные алгоритмы ИИ, устранив необходимость учиться у людей.^[5]

Позже Google разработал AlphaZero, обобщенная версия AlphaGo Zero, которая может воспроизводить шахматы и Сёги в дополнение к Go. В декабре 2017 года AlphaZero превзошла 3-дневную версию AlphaGo Zero, выиграв 60 игр против 40, а после 8 часов тренировок превзошла ее. AlphaGo Lee на Шкала Эло. AlphaZero также победила лучшую шахматную программу (Stockfish ) и лучшая программа Сёги (Элмо ).^[6]^[7]

Подготовка

Нейронная сеть AlphaGo Zero была обучена с использованием TensorFlow, с 64 рабочими процессорами GPU и 19 серверами параметров ЦП. Всего четыре ТПУ были использованы для вывода. В нейронная сеть изначально ничего не знал о Идти за пределами правила. В отличие от более ранних версий AlphaGo, Zero воспринимал только камни на доске, а не использовал некоторые редкие запрограммированные человеком крайние случаи, помогающие распознать необычные положения доски в го. ИИ занимался обучение с подкреплением, играя против самого себя, пока он не сможет предвидеть свои собственные ходы и то, как эти ходы повлияют на исход игры.^[8] В первые три дня AlphaGo Zero сыграла против самой себя 4,9 миллиона игр подряд.^[9] Казалось, что он развил навыки, необходимые для победы над лучшими людьми, всего за несколько дней, тогда как более раннему AlphaGo требовались месяцы обучения, чтобы достичь того же уровня.^[10]

Для сравнения, исследователи также обучили версию AlphaGo Zero, используя игры для людей, AlphaGo Master, и обнаружили, что она обучалась быстрее, но на самом деле работала хуже в долгосрочной перспективе.^[11] DeepMind представила свои первоначальные результаты в документе Природа в апреле 2017 года, который затем был опубликован в октябре 2017 года.^[1]

Стоимость оборудования

Стоимость оборудования для одной системы AlphaGo Zero в 2017 году, включая четыре TPU, оценивается примерно в 25 миллионов долларов.^[12]

Приложения

По словам Хассабиса, алгоритмы AlphaGo, вероятно, принесут наибольшую пользу доменам, которые требуют интеллектуального поиска через огромное пространство возможностей, таких как сворачивание белка или точно моделируя химические реакции.^[13] Методы AlphaGo, вероятно, менее полезны в областях, которые сложно моделировать, таких как обучение вождению автомобиля.^[14] DeepMind заявила в октябре 2017 года, что она уже начала активную работу по попытке использовать технологию AlphaGo Zero для сворачивания белков, и заявила, что вскоре опубликует новые результаты.^[15]^[16]

Прием

AlphaGo Zero была широко признана значительным достижением, даже по сравнению со своим революционным предшественником AlphaGo. Орен Эциони из Институт искусственного интеллекта Аллена назвали AlphaGo Zero «очень впечатляющим техническим результатом», «как в их способности сделать это - так и в их способности обучить систему за 40 дней на четырех TPU».^[8] Хранитель назвал это «крупным прорывом в области искусственного интеллекта», цитируя Элени Василаки из Шеффилдский университет и Том Митчелл из Университет Карнеги Меллон, который назвал это впечатляющим достижением и «выдающимся инженерным достижением» соответственно.^[14] Марк Пеше из Сиднейского университета назвал AlphaGo Zero «большим технологическим достижением», ведущим нас на «неизведанную территорию».^[17]

Гэри Маркус, психолог в Нью-Йоркский университет, предупредил, что, насколько нам известно, AlphaGo может содержать «неявные знания, которые есть у программистов о том, как создавать машины для решения таких задач, как Go», и его необходимо будет протестировать в других областях, прежде чем они будут уверены, что его базовая архитектура эффективна в большинстве случаев. больше, чем играть в го. Напротив, DeepMind «уверен, что этот подход можно распространить на большое количество областей».^[9]

В ответ на сообщения, South Korean Go Professional Ли Седол сказал: «Предыдущая версия AlphaGo не была идеальной, и я считаю, что именно поэтому была создана AlphaGo Zero». Что касается потенциала развития AlphaGo, Ли сказал, что ему придется подождать и посмотреть, но также сказал, что это повлияет на молодых игроков в го.Мок Джин Сок, который возглавляет южнокорейскую национальную команду по го, сказал, что мир го уже имитирует стили игры предыдущих версий AlphaGo и создает из них новые идеи, и он надеется, что новые идеи появятся у AlphaGo Zero. Мок также добавил, что на общие тенденции в мире го теперь влияет стиль игры AlphaGo. «Поначалу это было трудно понять, и мне казалось, что я играю против инопланетянина. Однако, имея большой опыт, я привык к этому», - сказал Мок. «Сейчас мы прошли тот момент, когда мы обсуждаем разрыв между возможностями AlphaGo и людей. Теперь это между компьютерами». Сообщается, что Мок уже начал анализировать стиль игры AlphaGo Zero вместе с игроками из национальной сборной ». Всего несколько матчей, и у нас сложилось впечатление, что AlphaGo Zero играет больше как человек, чем его предшественники », - сказал Мок.^[18]Китайский Go профессиональный, Ке Цзе прокомментировал замечательные достижения новой программы: «Чистый самообучающийся AlphaGo - самый сильный. Люди кажутся излишними перед его самосовершенствованием».^[19]

Сравнение с предшественниками

Конфигурация и сила^[20]
Версии	Игровое оборудование^[21]	Рейтинг Эло	совпадения
AlphaGo Fan	176 GPU,^[2] распределен	3,144^[1]	5: 0 против Фань Хуэй
AlphaGo Lee	48 ТПУ,^[2] распределен	3,739^[1]	4: 1 против Ли Седол
Мастер AlphaGo	4 ТПУ,^[2] одиночная машина	4,858^[1]	60: 0 против профессиональных игроков; Будущее Go Summit
AlphaGo Zero (40 дней)	4 ТПУ,^[2] одиночная машина	5,185^[1]	100: 0 против AlphaGo Lee 89:11 против AlphaGo Master
AlphaZero (34 часа)	4 TPU, одна машина^[6]	4430 (оценка)^[6]	60:40 против 3-дневного AlphaGo Zero

AlphaZero

5 декабря 2017 года команда DeepMind выпустила препринт на arXiv, представляя AlphaZero, программу, использующую обобщенный подход AlphaGo Zero, которая за 24 часа достигла сверхчеловеческого уровня игры в шахматы, сёги, и Идти, обыгрывая программы чемпионов мира, Stockfish, Элмо, и 3-дневная версия AlphaGo Zero в каждом случае.^[6]

AlphaZero (AZ) - это более обобщенный вариант AlphaGo Zero (AGZ). алгоритм, и может играть в сёги и шахматы, а также в го. Различия между AZ и AGZ включают:^[6]

В AZ жестко запрограммированы правила настройки поиска гиперпараметры.
Нейронная сеть теперь постоянно обновляется.
Шахматы (в отличие от го) могут закончиться ничьей; поэтому АЗ может принять во внимание возможность ничьей.

An Открытый исходный код программа Лила Зеро, основанный на идеях из документов AlphaGo. Он использует GPU вместо ТПУ последние версии AlphaGo полагаются.

использованная литература

^ ^а ^б ^c ^d ^е ^ж Сильвер, Дэвид; Шриттвизер, Джулиан; Симонян, Карен; Антоноглоу, Иоаннис; Хуанг, Аджа; Гез, Артур; Хуберт, Томас; Бейкер, Лукас; Лай, Мэтью; Болтон, Адриан; Чен, Юйтянь; Лилликрап, Тимоти; Фан, Хуэй; Сифре, Лоран; Дрише, Джордж ван ден; Грэпель, Тор; Хассабис, Демис (19 октября 2017 г.). «Освоение игры в го без человеческого знания» (PDF). Природа. 550 (7676): 354–359. Bibcode:2017Натура.550..354С. Дои:10.1038 / природа24270. ISSN 0028-0836. PMID 29052630.
^ ^а ^б ^c ^d ^е Хассабис, Демис; Сивер, Дэвид (18 октября 2017 г.). «AlphaGo Zero: обучение с нуля». DeepMind Официальный веб-сайт. Получено 19 октября 2017.
^ "Новый прорыв Google AlphaGo может привести к появлению алгоритмов, куда не ушли люди". Yahoo! Финансы. 19 октября 2017 г.. Получено 19 октября 2017.
^ Knapton, Сара (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучает 3000 лет человеческих знаний за 40 дней». Телеграф. Получено 19 октября 2017.
^ «DeepMind AlphaGo Zero учится самостоятельно, без вмешательства мешка». ZDNet. 19 октября 2017 г.. Получено 20 октября 2017.
^ ^а ^б ^c ^d ^е Сильвер, Дэвид; Хуберт, Томас; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грэпель, Тор; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с использованием общего алгоритма обучения с подкреплением». arXiv:1712.01815 [cs.AI ].
^ Knapton, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие шахматные знания были изучены и превзойдены DeepMind AlphaZero за четыре часа». Телеграф.
^ ^а ^б Гринемайер, Ларри. «ИИ против ИИ: самоучка AlphaGo Zero побеждает своего предшественника». Scientific American. Получено 20 октября 2017.
^ ^а ^б "Компьютер учится играть на сверхчеловеческих уровнях без человеческого знания"'". энергетический ядерный реактор. 18 октября 2017 г.. Получено 20 октября 2017.
^ «Новый прорыв Google AlphaGo может привести к появлению алгоритмов, куда не ушли люди». Удача. 19 октября 2017 г.. Получено 20 октября 2017.
^ «Эта компьютерная программа может победить людей в Го - без человеческих инструкций». Наука | AAAS. 18 октября 2017 г.. Получено 20 октября 2017.
^ Гибни, Элизабет (18 октября 2017 г.). «ИИ-самоучка пока что лучше всех подходит для стратегической игры Go». Новости природы. Дои:10.1038 / природа.2017.22858. Получено 10 мая 2020.
^ «Новейший ИИ может решать проблемы без обучения». Экономист. Получено 20 октября 2017.
^ ^а ^б Образец, Ян (18 октября 2017 г.). "'Он сам способен создавать знания »: Google представляет искусственный интеллект, который учится сам по себе». Хранитель. Получено 20 октября 2017.
^ "'Он сам способен создавать знания »: Google представляет искусственный интеллект, который учится сам по себе». Хранитель. 18 октября 2017 г.. Получено 26 декабря 2017.
^ Knapton, Сара (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучает 3000 лет человеческих знаний за 40 дней». Телеграф. Получено 26 декабря 2017.
^ «Как новый искусственный интеллект Google может научиться побеждать вас в самых сложных играх». Австралийская радиовещательная корпорация. 19 октября 2017 г.. Получено 20 октября 2017.
^ "Игроки в го в восторге от" более человечной "AlphaGo Zero". Корея Bizwire. 19 октября 2017 г.. Получено 21 октября 2017.
^ «Новая версия AlphaGo может освоить Weiqi без помощи человека». Служба новостей Китая. 19 октября 2017 г.. Получено 21 октября 2017.
^ «柯洁战败解密】 AlphaGo Master 最新架构和算法，谷歌云 TPU 拆解» (на китайском языке). Соху. 24 мая 2017. Получено 1 июня 2017.
^ Оборудование, используемое во время обучения, может быть значительно более мощным

Внешние ссылки и дальнейшее чтение

Блог AlphaGo
Singh, S .; Окунь, А .; Джексон, А. (2017). «АОП». Природа. 550 (7676): 336–337. Bibcode:2017Натура.550..336С. Дои:10.1038 / 550336a. PMID 29052631.
Сильвер, Дэвид; Шриттвизер, Джулиан; Симонян, Карен; Антоноглоу, Иоаннис; Хуанг, Аджа; Гез, Артур; Хуберт, Томас; Бейкер, Лукас; Лай, Мэтью; Болтон, Адриан; Чен, Юйтянь; Лилликрап, Тимоти; Хуэй, Фань; Сифре, Лоран; Ван ден Дрише, Джордж; Грэпель, Тор; Хассабис, Демис (2017). «Освоение игры в го без человеческого знания» (PDF). Природа. 550 (7676): 354–359. Bibcode:2017Натура.550..354С. Дои:10.1038 / природа24270. PMID 29052630.
AlphaGo Zero Игры
AMA на Reddit

[Nature2017-1] а ^б ^c ^d ^е ^ж Сильвер, Дэвид; Шриттвизер, Джулиан; Симонян, Карен; Антоноглоу, Иоаннис; Хуанг, Аджа; Гез, Артур; Хуберт, Томас; Бейкер, Лукас; Лай, Мэтью; Болтон, Адриан; Чен, Юйтянь; Лилликрап, Тимоти; Фан, Хуэй; Сифре, Лоран; Дрише, Джордж ван ден; Грэпель, Тор; Хассабис, Демис (19 октября 2017 г.). «Освоение игры в го без человеческого знания» (PDF). Природа. 550 (7676): 354–359. Bibcode:2017Натура.550..354С. Дои:10.1038 / природа24270. ISSN 0028-0836. PMID 29052630.

[Deepmind20171018-2] а ^б ^c ^d ^е Хассабис, Демис; Сивер, Дэвид (18 октября 2017 г.). «AlphaGo Zero: обучение с нуля». DeepMind Официальный веб-сайт. Получено 19 октября 2017.

[3] "Новый прорыв Google AlphaGo может привести к появлению алгоритмов, куда не ушли люди". Yahoo! Финансы. 19 октября 2017 г.. Получено 19 октября 2017.

[4] Knapton, Сара (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучает 3000 лет человеческих знаний за 40 дней». Телеграф. Получено 19 октября 2017.

[5] «DeepMind AlphaGo Zero учится самостоятельно, без вмешательства мешка». ZDNet. 19 октября 2017 г.. Получено 20 октября 2017.

[preprint-6] а ^б ^c ^d ^е Сильвер, Дэвид; Хуберт, Томас; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грэпель, Тор; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с использованием общего алгоритма обучения с подкреплением». arXiv:1712.01815 [cs.AI ].

[7] Knapton, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие шахматные знания были изучены и превзойдены DeepMind AlphaZero за четыре часа». Телеграф.

[Scientific_American-8] а ^б Гринемайер, Ларри. «ИИ против ИИ: самоучка AlphaGo Zero побеждает своего предшественника». Scientific American. Получено 20 октября 2017.

[npr-9] а ^б "Компьютер учится играть на сверхчеловеческих уровнях без человеческого знания"'". энергетический ядерный реактор. 18 октября 2017 г.. Получено 20 октября 2017.

[10] «Новый прорыв Google AlphaGo может привести к появлению алгоритмов, куда не ушли люди». Удача. 19 октября 2017 г.. Получено 20 октября 2017.

[11] «Эта компьютерная программа может победить людей в Го - без человеческих инструкций». Наука | AAAS. 18 октября 2017 г.. Получено 20 октября 2017.

[12] Гибни, Элизабет (18 октября 2017 г.). «ИИ-самоучка пока что лучше всех подходит для стратегической игры Go». Новости природы. Дои:10.1038 / природа.2017.22858. Получено 10 мая 2020.

[13] «Новейший ИИ может решать проблемы без обучения». Экономист. Получено 20 октября 2017.

[guardian-14] а ^б Образец, Ян (18 октября 2017 г.). "'Он сам способен создавать знания »: Google представляет искусственный интеллект, который учится сам по себе». Хранитель. Получено 20 октября 2017.

[15] "'Он сам способен создавать знания »: Google представляет искусственный интеллект, который учится сам по себе». Хранитель. 18 октября 2017 г.. Получено 26 декабря 2017.

[16] Knapton, Сара (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучает 3000 лет человеческих знаний за 40 дней». Телеграф. Получено 26 декабря 2017.

[17] «Как новый искусственный интеллект Google может научиться побеждать вас в самых сложных играх». Австралийская радиовещательная корпорация. 19 октября 2017 г.. Получено 20 октября 2017.

[18] "Игроки в го в восторге от" более человечной "AlphaGo Zero". Корея Bizwire. 19 октября 2017 г.. Получено 21 октября 2017.

[19] «Новая версия AlphaGo может освоить Weiqi без помощи человека». Служба новостей Китая. 19 октября 2017 г.. Получено 21 октября 2017.

[sohu0524-20] «柯洁战败解密】 AlphaGo Master 最新架构和算法，谷歌云 TPU 拆解» (на китайском языке). Соху. 24 мая 2017. Получено 1 июня 2017.

[21] Оборудование, используемое во время обучения, может быть значительно более мощным

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]