АльфаЗеро
Эта статья является частью серии, посвящённой |
Шахматное программирование |
---|
![]() |
Часть серии о |
Искусственный интеллект |
---|
![]() |
AlphaZero — это компьютерная программа , разработанная в области искусственного интеллекта исследовательской компанией DeepMind для освоения игр в шахматы , сёги и го . Этот алгоритм использует подход, аналогичный AlphaGo Zero .
5 декабря 2017 года команда DeepMind выпустила препринт , представляющий AlphaZero, который за 24 часа обучения достиг сверхчеловеческого уровня игры в этих трёх играх, победив чемпионов мира по программам Stockfish , Elmo и трёхдневную версию AlphaGo. Нуль. В каждом случае использовались специальные тензорные процессоры (TPU), для использования которых были оптимизированы программы Google. [1] AlphaZero обучался исключительно посредством самостоятельной игры с использованием 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей , и все это параллельно , без доступа к начальным книгам или таблицам эндшпиля . После четырех часов обучения DeepMind подсчитал, что AlphaZero играл в шахматы с более высоким рейтингом Эло , чем Stockfish 8; после девяти часов обучения алгоритм победил Stockfish 8 в контролируемом по времени турнире из 100 игр (28 побед, 0 поражений и 72 ничьи). [1] [2] [3] Обученный алгоритм воспроизводился на одной машине с четырьмя TPU.
Статья DeepMind об AlphaZero была опубликована в журнале Science 7 декабря 2018 года; [4] однако сама программа AlphaZero не была доступна публике. [5] В 2019 году DeepMind опубликовал новую статью, в которой подробно описывается MuZero , новый алгоритм, способный обобщить работу AlphaZero, позволяющую играть как в Atari, так и в настольные игры без знания правил или представлений игры. [6]
Связь Zero с AlphaGo
AlphaZero (AZ) — это более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , способный играть в сёги и шахматы , а также в го . К различиям между АЗ и АГЗ относятся: [1]
- В AZ есть жестко запрограммированные правила установки гиперпараметров поиска .
- Нейронная сеть теперь постоянно обновляется.
- AZ не использует симметрии, в отличие от AGZ.
- шахматы или сёги могут закончиться вничью ; В отличие от го, поэтому AlphaZero учитывает возможность ничьей.
и Элмо Стокфиш
Сравнивая поиск по дереву Монте-Карло , AlphaZero ищет всего 80 000 позиций в секунду в шахматах и 40 000 в сёги, по сравнению с 70 миллионами для Stockfish и 35 миллионами для Elmo. AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, чтобы гораздо более избирательно сосредоточиться на наиболее многообещающем варианте. [1]
Обучение [ править ]
AlphaZero обучался исключительно посредством самостоятельной игры , используя 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей . Параллельно обучаемый AlphaZero периодически сравнивался с его эталоном (Stockfish, Elmo или AlphaGo Zero) в коротких играх по одной секунде на ход, чтобы определить, насколько хорошо продвигается обучение. DeepMind пришел к выводу, что производительность AlphaZero превысила эталонный показатель примерно после четырех часов обучения Stockfish, двух часов — Elmo и восьми часов — AlphaGo Zero. [1]
Предварительные результаты [ править ]
Результат [ править ]
шахматы [ править ]
В шахматном матче AlphaZero против Stockfish 8 ( чемпиона мира TCEC 2016 года ) каждой программе было дано по одной минуте на ход. AlphaZero плавал под английским флагом, а Stockfish — под норвежским. [7] Stockfish было выделено 64 потока и размер хеша 1 ГБ. [1] настройку, которую Торд Ромстад из Stockfish позже раскритиковал как неоптимальную. [8] [примечание 1] AlphaZero тренировался по шахматам в общей сложности девять часов перед матчем. Во время матча AlphaZero работала на одной машине с четырьмя специализированными TPU . В 100 играх из обычной стартовой позиции AlphaZero выиграла 25 игр белыми, выиграла 3 черными и сыграла вничью в оставшихся 72 партиях. [9] В серии из двенадцати матчей по 100 игр (с неуказанными ограничениями по времени или ресурсам) против Stockfish, начиная с 12 самых популярных человеческих дебютов, AlphaZero выиграла 290, сыграла вничью 886 и проиграла 24. [1]
Сёги [ править ]
AlphaZero тренировался сёги в общей сложности за два часа до турнира. В 100 играх сёги против Элмо (версия турнира World Computer Shogi Championship 27 лета 2017 года с поиском YaneuraOu 4.73) AlphaZero выиграла 90 раз, проиграла 8 раз и дважды сыграла вничью. [9] Как и в шахматных играх, каждая программа получала одну минуту на ход, а Элмо было выделено 64 потока и размер хеша 1 ГБ. [1]
Иди [ править ]
После 34 часов самообучения го и игры против AlphaGo Zero AlphaZero выиграла 60 игр и проиграла 40. [1] [9]
Анализ [ править ]
DeepMind заявила в своем препринте: «Игра в шахматы представляла собой вершину исследований искусственного интеллекта на протяжении нескольких десятилетий. Современные программы основаны на мощных механизмах, которые ищут многие миллионы позиций, используя ручной опыт в предметной области и сложные адаптации предметной области. AlphaZero — это универсальный алгоритм обучения с подкреплением , первоначально разработанный для игры в го, который достиг превосходных результатов за несколько часов, просматривая в тысячу раз меньше позиций, не имея никаких знаний предметной области, кроме правил». [1] из DeepMind Демис Хассабис , сам шахматист, назвал стиль игры AlphaZero «инопланетным»: иногда он побеждает, предлагая нелогичные жертвы, например, предлагая ферзя и слона, чтобы использовать позиционное преимущество. «Это как шахматы из другого измерения». [10]
Учитывая сложность шахматной победы над сильным противником , результат +28 –0 =72 является значительным преимуществом для победы. Однако некоторые гроссмейстеры, такие как Хикару Накамура и Komodo разработчик Ларри Кауфман , преуменьшили значение победы AlphaZero, утверждая, что матч был бы ближе, если бы программы имели доступ к дебютной базе данных (поскольку Stockfish был оптимизирован для этого сценария). [11] Ромстад также отметил, что Stockfish не оптимизирован для движений с жестко фиксированным временем, а используемой версии уже год. [8] [12]
Точно так же некоторые наблюдатели сёги утверждали, что размер хеша Elmo был слишком мал, что настройки отставки и настройки «EnteringKingRule» (ср. сёги § Entering King ) могли быть неподходящими и что Elmo уже устарел по сравнению с более новыми программами. [13] [14]
и критика Реакция
Газеты писали, что тренировка по шахматам заняла всего четыре часа: «Это заняло немногим больше времени, чем между завтраком и обедом». [2] [15] Wired описал AlphaZero как «первого чемпиона по настольным играм с искусственным интеллектом». [16] Эксперт по искусственному интеллекту Джоанна Брайсон отметила, что «умение Google хорошо рекламировать» поставило ее в сильную позицию перед конкурентами. «Речь идет не только о найме лучших программистов. Это также очень политически, поскольку помогает сделать Google максимально сильной при переговорах с правительствами и регулирующими органами, рассматривающими сектор искусственного интеллекта». [9]
Человеческие гроссмейстеры по шахматам обычно выражали восторг по поводу AlphaZero. Датский гроссмейстер Питер Хейне Нильсен сравнил игру AlphaZero с игрой превосходящего инопланетного вида. [9] Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал игру AlphaZero как «безумные атакующие шахматы» с глубоким позиционным пониманием. [2] Бывший чемпион Гарри Каспаров сказал: «Это выдающееся достижение, даже если мы должны были ожидать его после AlphaGo». [11] [17]
Гроссмейстер Хикару Накамура был менее впечатлен, заявив: «Я не обязательно доверяю результатам просто потому, что я понимаю, что AlphaZero в основном использует суперкомпьютер Google, а Stockfish не работает на этом оборудовании; Stockfish в основном работал на том, что будет моим ноутбуком. Если вы хотите получить сопоставимый результат, вам также необходимо, чтобы Stockfish работал на суперкомпьютере». [8]
Ведущий шахматист США по переписке Вольф Морроу также не был впечатлен, заявив, что AlphaZero, вероятно, не выйдет в полуфинал честного соревнования, такого как TCEC , где все движки играют на одинаковом оборудовании. Морроу далее заявил, что, хотя он, возможно, не сможет победить AlphaZero, если AlphaZero разыграет ничейные дебюты, такие как защита Петрова , AlphaZero также не сможет победить его в заочной шахматной игре. [18]
Мотохиро Исодзаки, автор YaneuraOu, отметил, что, хотя AlphaZero действительно полностью обыграл Элмо, рейтинг AlphaZero в сёги перестал расти на отметке, которая максимум на 100–200 выше, чем у Элмо. Этот разрыв не так уж велик, и Elmo и другие программы сёги смогут его наверстать через 1–2 года. [19]
Окончательные результаты [ править ]
DeepMind учел многие критические замечания в своей окончательной версии статьи, опубликованной в декабре 2018 года в журнале Science . [4] Далее они пояснили, что AlphaZero не работает на суперкомпьютере; он был обучен с использованием 5000 тензорных процессоров (TPU), но в своих матчах работал только на четырех TPU и 44-ядерном процессоре. [20]
шахматы [ править ]
В окончательных результатах Stockfish версии 8 работала в тех же условиях, что и в суперфинале TCEC : 44 ядра ЦП, эндшпильные таблицы Syzygy и размер хеша 32 ГБ. Вместо фиксированного контроля времени в один ход в минуту обоим движкам давалось 3 часа плюс 15 секунд на ход на завершение игры. В матче из 1000 игр AlphaZero одержала победу со счетом 155 побед, 6 поражений и 839 ничьих. DeepMind также сыграла серию игр, используя начальные позиции TCEC; AlphaZero также убедительно выиграла. Stockfish требовалось время 10 к 1, чтобы соответствовать AlphaZero. [21]
Сёги [ править ]
Как и Stockfish, Элмо участвовал в тех же условиях, что и на чемпионате CSA 2017 года. Используемая версия Elmo — WCSC27 в сочетании с YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo работал на том же оборудовании, что и Stockfish: 44 ядра ЦП и размер хэш-памяти 32 ГБ. AlphaZero выиграла 98,2% игр, играя сэнте (т.е. делая первый ход) и 91,2% в целом.
Реакции и критика [ править ]
Человеческие гроссмейстеры в целом были впечатлены играми AlphaZero против Stockfish. [21] Бывший чемпион мира Гарри Каспаров сказал, что наблюдать за игрой AlphaZero было одно удовольствие, тем более что ее стиль был таким же открытым и динамичным, как и его собственный. [22] [23]
В компьютерном шахматном сообществе разработчик Komodo Марк Лефлер назвал это «довольно удивительным достижением», но также отметил, что данные устарели, поскольку Stockfish сильно набрал силу с января 2018 года (когда был выпущен Stockfish 8). Коллега-разработчик Ларри Кауфман сказал, что AlphaZero, вероятно, проиграет матч последней версии Stockfish, Stockfish 10, в условиях Top Chess Engine Championship (TCEC). Кауфман утверждал, что единственным преимуществом движков на основе нейронных сетей было то, что они использовали графический процессор, поэтому, если не учитывалось энергопотребление (например, в соревновании по равному оборудованию, когда оба движка имели доступ к одному и тому же процессору и графическому процессору), тогда все что угодно достигнутый графический процессор был «бесплатным». На основании этого он заявил, что самым сильным движком, скорее всего, будет гибрид нейронных сетей и стандартного альфа-бета-поиска . [24]
AlphaZero вдохновила сообщество компьютерных шахмат на разработку Leela Chess Zero , используя те же методы, что и AlphaZero. Лила участвовала в нескольких чемпионатах против Stockfish, где показала примерно такую же силу, что и Stockfish, хотя с тех пор Stockfish отошла. [25]
В 2019 году DeepMind опубликовала MuZero — единую систему, позволяющую превосходно играть в шахматы, сёги и го, а также в игры в среде обучения Atari , без предварительного программирования их правил. [26] [27]
См. также [ править ]
Примечания [ править ]
- ^ Разработчик Stockfish Торд Ромстад ответил
Сами по себе результаты матчей не имеют особого значения из-за довольно странного выбора контроля времени и настроек параметров Stockfish: партии проводились в фиксированное время 1 минута на ход, а это означает, что Stockfish не использует свою эвристику управления временем ( много усилий было приложено к тому, чтобы Stockfish выявлял критические точки в игре и решал, когда потратить дополнительное время на ход в фиксированное время за ход, сила значительно пострадает); Использованной версии Stockfish исполнился один год, она использовала гораздо больше потоков поиска, чем когда-либо проходило сколько-нибудь значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков. Я считаю, что в матче при более нормальных условиях процент ничьих был бы намного выше. [8]
Ссылки [ править ]
- ^ Перейти обратно: а б с д Это ж г час я дж Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
- ^ Перейти обратно: а б с Кнаптон, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие знания о шахматах были усвоены и превзойдены системой AlphaZero от DeepMind за четыре часа» . Телеграф.co.uk . Проверено 6 декабря 2017 г.
- ^ Винсент, Джеймс (6 декабря 2017 г.). «ИИ DeepMind за несколько часов стал сверхчеловеческим шахматистом, просто для развлечения» . Грань . Проверено 6 декабря 2017 г.
- ^ Перейти обратно: а б Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (7 декабря 2018 г.). «Общий алгоритм обучения с подкреплением, позволяющий освоить шахматы, сёги и самостоятельную игру» . Наука . 362 (6419): 1140–1144. Бибкод : 2018Sci...362.1140S . doi : 10.1126/science.aar6404 . ПМИД 30523106 .
- ^ «Шахматные термины: AlphaZero» . Chess.com . Проверено 30 июля 2022 г.
- ^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, Go, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .
- ^ «AlphaZero против Stockfish 2017» .
- ^ Перейти обратно: а б с д «AlphaZero: Реакция ведущих гроссмейстеров, автор Stockfish» . шахматы.com . 8 декабря 2017 года . Проверено 9 декабря 2017 г.
- ^ Перейти обратно: а б с д Это « Сверхчеловеческий» искусственный интеллект Google претендует на шахматную корону» . Новости BBC . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
- ^ Найт, Уилл (8 декабря 2017 г.). «Чужие» шахматы Alpha Zero демонстрируют силу и особенность искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 11 декабря 2017 г.
- ^ Перейти обратно: а б «AlphaZero от Google уничтожила Stockfish в матче из 100 игр» . Chess.com . Проверено 7 декабря 2017 г.
- ^ Катянна Куах. «ИИ AlphaZero от DeepMind разгромил конкурирующее шахматное приложение на неровной игровой... доске» . Регистр (14 декабря 2017 г.).
- ^ «Некоторые опасения по поводу условий соответствия между AlphaZero и движком сёги» . Компьютерные рейтинги сёги «uuunuuun» (блогер, который оценивает бесплатные движки сёги) Получено 9 декабря 2017 г. . . "К черту @elmo (@mktakizawa) | Твиттер " mktakizawa (разработчик Elmo ) 9 декабря , Получено 11 декабря . )
- ^ «Похоже, DeepMind начал обращать внимание на YaneuraOu» . Разработчик YaneuraOu, поискового компонента, используемого elmo. Проверено 9 декабря 2017 г.
- ^ Бадшах, Надим (7 декабря 2017 г.). «Робот DeepMind от Google за четыре часа стал лучшим гроссмейстером мира по шахматам» . Лондонская «Таймс» . Проверено 7 декабря 2017 г.
- ^ «Последнее шоу искусственного интеллекта Alphabet Pony имеет больше, чем один трюк» . ПРОВОДНОЙ . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
- ^ Гиббс, Сэмюэл (7 декабря 2017 г.). «ИИ AlphaZero обыграл чемпионскую программу по шахматам, обучившись за четыре часа» . Хранитель . Проверено 8 декабря 2017 г.
- ^ «Говорим о современных заочных шахматах» . Шахматная база. 26 июня 2018 г. Проверено 11 июля 2018 г.
- ^ Кажется, DeepMind начал обращать внимание на короля Яневру | Официальный сайт короля Яневры , 7 декабря 2017 г.
- ^ Как указано в статье Science , TPU «примерно аналогичен по скорости вывода графическому процессору Titan V, хотя архитектуры напрямую не сопоставимы» (ссылка 24).
- ^ Перейти обратно: а б «AlphaZero разгромил Stockfish в новом матче из 1000 игр» . 6 декабря 2018 г.
- ^ Шон Ингл (11 декабря 2018 г.). « Креативный AlphaZero прокладывает путь шахматным компьютерам и, возможно, науке» . Хранитель .
- ^ Альберт Сильвер (7 декабря 2018 г.). «Внутри (глубокого) разума AlphaZero» . Шахматная база.
- ^ «Komodo MCTS (поиск по дереву Монте-Карло) — новая звезда TCEC» . Шахматный мир. 18 декабря 2018 г.
- ^ См. TCEC и Leela Chess Zero .
- ^ «Может ли искусственный интеллект спасти нас от самого себя?» . Удача . 2019 . Проверено 29 февраля 2020 г.
- ^ «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . 20 ноября 2019 г. Проверено 29 февраля 2020 г.