МюЗеро

MuZero — это компьютерная программа , разработанная области искусственного интеллекта исследовательской компанией в DeepMind, позволяющая осваивать игры, не зная их правил. ^[1]^[2]^[3] Его выпуск в 2019 году включал тесты производительности в го , шахматах , сёги и стандартном наборе Atari игр . Алгоритм использует подход , аналогичный AlphaZero . Он соответствовал показателям AlphaZero в шахматах и сёги, улучшил свои показатели в го (установив новый мировой рекорд) и улучшил современное состояние в освоении набора из 57 игр Atari (Arcade Learning Environment), визуально сложной домен.

MuZero обучался посредством самостоятельной игры , без доступа к правилам, дебютным книгам или таблицам эндшпиля. Обученный алгоритм использовал ту же сверточную и остаточную архитектуру, что и AlphaZero, но с меньшим количеством шагов вычислений на узел дерева поиска. ^[4]

История [ править ]

MuZero действительно открывает для себя, как построить модель и понять ее, исходя из первых принципов.
— Дэвид Сильвер, DeepMind, Wired ^[5]

19 ноября 2019 года команда DeepMind выпустила препринт, представляющий MuZero.

Происхождение от AlphaZero [ править ]

MuZero (MZ) — это сочетание высокопроизводительного планирования алгоритма AlphaZero (AZ) с подходами к безмодельному обучению с подкреплением. Такая комбинация позволяет более эффективно обучаться классическим режимам планирования, таким как Го, а также обрабатывать области с гораздо более сложными входными данными на каждом этапе, такие как визуальные видеоигры.

MuZero был получен непосредственно из кода AZ, разделяя его правила установки гиперпараметров . Различия между подходами включают в себя: ^[6]

В процессе планирования AZ используется симулятор . Симулятор знает правила игры. Это должно быть явно запрограммировано. прогнозирует Затем нейронная сеть политику и стоимость будущей позиции. Отличное знание правил игры используется при моделировании переходов состояний в дереве поиска, действий, доступных в каждом узле, и завершения ветви дерева. MZ не имеет доступа к правилам и вместо этого изучает их с помощью нейронных сетей.
AZ имеет единую модель игры (от состояния доски до прогнозов); MZ имеет отдельные модели для представления текущего состояния (от состояния правления до его внутреннего внедрения), динамики состояний (как действия меняют представления состояний правления) и прогнозирования политики и ценности будущего положения (с учетом представления состояния).
Скрытая модель MZ может быть сложной и может оказаться, что в ней можно выполнять вычисления; изучение деталей скрытой модели в обученном экземпляре MZ — это тема для будущего исследования.
MZ не ожидает игры для двух игроков, в которой победители получат все. Он работает со стандартными сценариями обучения с подкреплением, включая одноагентные среды с непрерывными промежуточными вознаграждениями, возможно, произвольной величины и с дисконтированием времени. AZ был разработан для игр с двумя игроками, в которых можно было выиграть, сыграть вничью или проиграть.

Сравнение с R2D2 [ править ]

Предыдущей современной методикой обучения игре в набор игр Atari была R2D2, Recurrent Replay Distributed DQN. ^[7]

MuZero превзошел как среднюю, так и медианную производительность R2D2 во всем наборе игр, хотя не в каждой игре он был лучше.

и результаты Обучение

(TPU) третьего поколения MuZero использовала 16 тензорных процессоров для обучения и 1000 TPU для самостоятельной игры в настольных играх с 800 симуляциями на шаг, 8 TPU для обучения и 32 TPU для самостоятельной игры в играх Atari с 50 симуляциями на шаг.

AlphaZero использовала 64 TPU второго поколения для обучения и 5000 TPU первого поколения для самостоятельной игры. Поскольку конструкция TPU улучшилась (чипы третьего поколения по отдельности в 2 раза мощнее, чем чипы второго поколения, с дальнейшим улучшением пропускной способности и сетевых возможностей между чипами в блоке), это сопоставимые тренировочные установки.

R2D2 обучался в течение 5 дней с помощью 2M этапов обучения.

Первоначальные результаты [ править ]

MuZero сравнялся с AlphaZero в шахматах и сёги после примерно 1 миллиона тренировочных шагов. Он сравнялся с показателями AZ в го после 500 000 тренировочных шагов и превзошел его на 1 миллион шагов. После 500 тысяч обучающих шагов он совпал со средней и медианной производительностью R2D2 в игровом наборе Atari и превзошел его на 1 миллион шагов, хотя ни разу не показал хороших результатов в 6 играх набора.

Реакции и связанная с ними работа [ править ]

MuZero считался значительным шагом вперед по сравнению с AlphaZero. ^[8] и обобщаемый шаг вперед в методах обучения без учителя. ^[9]^[10] Эта работа рассматривалась как улучшение понимания того, как составлять системы из более мелких компонентов, как разработка на системном уровне, а не просто разработка на основе машинного обучения. ^[11]

Хотя команда разработчиков выпустила только псевдокод, Вернер Дюво создал на его основе реализацию с открытым исходным кодом. ^[12]

MuZero использовался в качестве эталонной реализации в других работах, например, как способ генерации поведения на основе модели. ^[13]

В конце 2021 года был предложен более эффективный вариант MuZero под названием EfficientZero. Он «достигает средней производительности человека 194,3 процента и средней производительности 109,0 процента в тесте Atari 100k всего за два часа игры в реальном времени». ^[14]

В начале 2022 года был предложен вариант MuZero для игры в стохастические игры (например, 2048 , нарды ) под названием Stochastic MuZero, который использует динамику послесостояния и случайные коды для учета стохастической природы окружающей среды при обучении сети динамики. ^[15]

См. также [ править ]

Ссылки [ править ]

^ Виггерс, Кайл (20 ноября 2019 г.). «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . Проверено 22 июля 2020 г.
^ Фридель, Фредерик. «MuZero разбирается в шахматах, правилах и всем остальном» . ЧессБейс ГмбХ . Проверено 22 июля 2020 г.
^ Родригес, Хесус. «DeepMind представляет MuZero, нового агента, который освоил шахматы, сёги, Atari и го, не зная правил» . КДнаггетс . Проверено 22 июля 2020 г.
^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, го, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .
^ «Чему AlphaGo может научить нас о том, как люди учатся» . Проводной . ISSN 1059-1028 . Проверено 25 декабря 2020 г.
^ Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
^ Каптуровский, Стивен; Островский, Георг; Куан, Джон; Мунос, Реми; Дэбни, Уилл. ПЕРИОДИЧЕСКОЕ ПОВТОРЕНИЕ ОПЫТА В РАСПРЕДЕЛЕННОМ ОБУЧЕНИИ С ПОДкреплением . ICLR 2019 – посредством открытого обзора.
^ Шортен, Коннор (18 января 2020 г.). «Эволюция AlphaGo к MuZero» . Середина . Проверено 7 июня 2020 г.
^ Шах, Рохин. «[AN #75]: Решение Atari и Go с использованием изученных игровых моделей и мыслей сотрудника MIRI — LessWrong 2.0» . www.lesswrong.com . Проверено 7 июня 2020 г.
^ Ву, Джун. «Обучение с подкреплением, партнер глубокого обучения» . Форбс . Проверено 15 июля 2020 г.
^ «Машинное обучение и робототехника: мое (предвзятое) состояние отрасли в 2019 году» . cachestocaches.com . Проверено 15 июля 2020 г.
^ Дюво, Вернер (15 июля 2020 г.), werner-duvaud/muzero-general , получено 15 июля 2020 г.
^ ван Сейен, Харм; Некой, Хади; Рака, Эван; Чандар, Сарат (06 июля 2020 г.). «Сожаление LoCA: последовательный показатель для оценки поведения на основе моделей в обучении с подкреплением». arXiv : 2007.03158 [ cs.stat ].
^ Да, Вейруи; Лю, Шаохуай; Курутач, Танард; Аббель, Питер; Гао, Ян (11 декабря 2021 г.). «Освоение игр Atari с ограниченными данными». arXiv : 2111.00210 [ cs.LG ].
^ Антоноглу, Иоаннис; Шритвизер, Джулиан; Озаир, Серджил; Юбер, Томас; Сильвер, Дэвид (28 января 2022 г.). «Планирование в стохастических средах с использованием изученной модели» . Проверено 12 декабря 2023 г.

Внешние ссылки [ править ]

Первоначальный препринт MuZero
Реализации с открытым исходным кодом

[1] Виггерс, Кайл (20 ноября 2019 г.). «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . Проверено 22 июля 2020 г.

[2] Фридель, Фредерик. «MuZero разбирается в шахматах, правилах и всем остальном» . ЧессБейс ГмбХ . Проверено 22 июля 2020 г.

[3] Родригес, Хесус. «DeepMind представляет MuZero, нового агента, который освоил шахматы, сёги, Atari и го, не зная правил» . КДнаггетс . Проверено 22 июля 2020 г.

[4] Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, го, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .

[5] «Чему AlphaGo может научить нас о том, как люди учатся» . Проводной . ISSN 1059-1028 . Проверено 25 декабря 2020 г.

[preprint-6] Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].

[7] Каптуровский, Стивен; Островский, Георг; Куан, Джон; Мунос, Реми; Дэбни, Уилл. ПЕРИОДИЧЕСКОЕ ПОВТОРЕНИЕ ОПЫТА В РАСПРЕДЕЛЕННОМ ОБУЧЕНИИ С ПОДкреплением . ICLR 2019 – посредством открытого обзора.

[8] Шортен, Коннор (18 января 2020 г.). «Эволюция AlphaGo к MuZero» . Середина . Проверено 7 июня 2020 г.

[9] Шах, Рохин. «[AN #75]: Решение Atari и Go с использованием изученных игровых моделей и мыслей сотрудника MIRI — LessWrong 2.0» . www.lesswrong.com . Проверено 7 июня 2020 г.

[10] Ву, Джун. «Обучение с подкреплением, партнер глубокого обучения» . Форбс . Проверено 15 июля 2020 г.

[11] «Машинное обучение и робототехника: мое (предвзятое) состояние отрасли в 2019 году» . cachestocaches.com . Проверено 15 июля 2020 г.

[12] Дюво, Вернер (15 июля 2020 г.), werner-duvaud/muzero-general , получено 15 июля 2020 г.

[13] ван Сейен, Харм; Некой, Хади; Рака, Эван; Чандар, Сарат (06 июля 2020 г.). «Сожаление LoCA: последовательный показатель для оценки поведения на основе моделей в обучении с подкреплением». arXiv : 2007.03158 [ cs.stat ].

[14] Да, Вейруи; Лю, Шаохуай; Курутач, Танард; Аббель, Питер; Гао, Ян (11 декабря 2021 г.). «Освоение игр Atari с ограниченными данными». arXiv : 2111.00210 [ cs.LG ].

[15] Антоноглу, Иоаннис; Шритвизер, Джулиан; Озаир, Серджил; Юбер, Томас; Сильвер, Дэвид (28 января 2022 г.). «Планирование в стохастических средах с использованием изученной модели» . Проверено 12 декабря 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]