АльфаЗеро

AlphaZero — компьютерная программа , разработанная в области искусственного интеллекта исследовательской компанией DeepMind для освоения игр в шахматы , сёги и го . Этот алгоритм использует подход, аналогичный AlphaGo Zero .

5 декабря 2017 года команда DeepMind выпустила препринт , представляющий AlphaZero, который за 24 часа обучения достиг сверхчеловеческого уровня игры в этих трёх играх, победив чемпионов мира по программам Stockfish , Elmo и трёхдневную версию AlphaGo. Ноль. В каждом случае использовались специальные тензорные процессоры (TPU), для использования которых были оптимизированы программы Google. ^[1] AlphaZero обучался исключительно посредством самостоятельной игры с использованием 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей , и все это параллельно , без доступа к начальным книгам или таблицам эндшпиля . После четырех часов обучения DeepMind подсчитал, что AlphaZero играл в шахматы с более высоким рейтингом Эло , чем Stockfish 8; после девяти часов обучения алгоритм победил Stockfish 8 в контролируемом по времени турнире из 100 игр (28 побед, 0 поражений и 72 ничьи). ^[1]^[2]^[3] Обученный алгоритм воспроизводился на одной машине с четырьмя TPU.

Статья DeepMind об AlphaZero была опубликована в журнале Science 7 декабря 2018 года; ^[4] однако сама программа AlphaZero не была доступна публике. ^[5] В 2019 году DeepMind опубликовал новую статью, в которой подробно описывается MuZero , новый алгоритм, способный обобщить работу AlphaZero, позволяющую играть как в Atari, так и в настольные игры без знания правил или представлений игры. ^[6]

с Zero Связь AlphaGo

AlphaZero (AZ) — это более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , способный играть в сёги и шахматы , а также в го . К различиям между АЗ и АГЗ относятся: ^[1]

В AZ есть жестко запрограммированные правила установки гиперпараметров поиска .
Нейронная сеть теперь постоянно обновляется.
AZ не использует симметрии, в отличие от AGZ.
В отличие от го, шахматы или сёги могут закончиться вничью ; поэтому AlphaZero учитывает возможность ничьей.

и Элмо Стокфиш

Сравнивая поиск по дереву Монте-Карло , AlphaZero ищет всего 80 000 позиций в секунду в шахматах и 40 000 в сёги, по сравнению с 70 миллионами для Stockfish и 35 миллионами для Elmo. AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, чтобы гораздо более избирательно сосредоточиться на наиболее многообещающем варианте. ^[1]

Обучение [ править ]

AlphaZero обучался исключительно посредством самостоятельной игры , используя 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей . Параллельно обучаемый AlphaZero периодически сравнивался с его эталоном (Stockfish, Elmo или AlphaGo Zero) в коротких играх по одной секунде на ход, чтобы определить, насколько хорошо продвигается обучение. DeepMind пришел к выводу, что производительность AlphaZero превысила эталонный показатель примерно после четырех часов обучения Stockfish, двух часов — Elmo и восьми часов — AlphaGo Zero. ^[1]

Предварительные результаты [ править ]

Результат [ править ]

шахматы [ править ]

В шахматном матче AlphaZero против Stockfish 8 ( чемпиона мира TCEC 2016 года ) каждой программе было дано по одной минуте на ход. AlphaZero плавал под английским флагом, а Stockfish — под норвежским. ^[7] Stockfish было выделено 64 потока и размер хеша 1 ГБ. ^[1] настройку, которую Торд Ромстад из Stockfish позже раскритиковал как неоптимальную. ^[8]^{[примечание 1]} AlphaZero тренировался по шахматам в общей сложности девять часов перед матчем. Во время матча AlphaZero работала на одной машине с четырьмя специализированными TPU . В 100 играх из обычной стартовой позиции AlphaZero выиграла 25 игр белыми, выиграла 3 черными и сыграла вничью в оставшихся 72 партиях. ^[9] В серии из двенадцати матчей по 100 игр (с неуказанными ограничениями по времени или ресурсам) против Stockfish, начиная с 12 самых популярных человеческих дебютов, AlphaZero выиграла 290, сыграла вничью 886 и проиграла 24. ^[1]

Сёги [ править ]

AlphaZero тренировался сёги в общей сложности за два часа до турнира. В 100 играх сёги против Элмо (версия турнира World Computer Shogi Championship 27 лета 2017 года с поиском YaneuraOu 4.73) AlphaZero выиграла 90 раз, проиграла 8 раз и дважды сыграла вничью. ^[9] Как и в шахматных играх, каждая программа получала одну минуту на ход, а Элмо было выделено 64 потока и размер хеша 1 ГБ. ^[1]

Иди [ править ]

После 34 часов самообучения го и игры против AlphaGo Zero AlphaZero выиграла 60 игр и проиграла 40. ^[1]^[9]

Анализ [ править ]

DeepMind заявила в своем препринте: «Игра в шахматы представляла собой вершину исследований искусственного интеллекта на протяжении нескольких десятилетий. Современные программы основаны на мощных механизмах, которые ищут многие миллионы позиций, используя ручной опыт в предметной области и сложные адаптации предметной области. AlphaZero — это универсальный алгоритм обучения с подкреплением , первоначально разработанный для игры в го, который достиг превосходных результатов за несколько часов, просматривая в тысячу раз меньше позиций, не имея никаких знаний предметной области, кроме правил». ^[1] из DeepMind Демис Хассабис , сам шахматист, назвал стиль игры AlphaZero «инопланетным»: иногда он побеждает, предлагая нелогичные жертвы, например, предлагая ферзя и слона, чтобы использовать позиционное преимущество. «Это как шахматы из другого измерения». ^[10]

Учитывая сложность шахматной победы над сильным противником , результат +28 –0 =72 является значительным преимуществом для победы. Однако некоторые гроссмейстеры, такие как Хикару Накамура и Komodo разработчик Ларри Кауфман , преуменьшили значение победы AlphaZero, утверждая, что матч был бы ближе, если бы программы имели доступ к дебютной базе данных (поскольку Stockfish был оптимизирован для этого сценария). ^[11] Ромстад также отметил, что Stockfish не оптимизирован для движений с жестко фиксированным временем, а используемой версии уже год. ^[8]^[12]

Точно так же некоторые наблюдатели сёги утверждали, что размер хеша Elmo был слишком мал, что настройки отставки и настройки «EnteringKingRule» (ср. сёги § Entering King ) могли быть неподходящими и что Elmo уже устарел по сравнению с более новыми программами. ^[13]^[14]

и критика Реакция

Газеты писали, что тренировка по шахматам заняла всего четыре часа: «Это заняло немногим больше времени, чем между завтраком и обедом». ^[2]^[15] Wired описал AlphaZero как «первого чемпиона по настольным играм с искусственным интеллектом». ^[16] Эксперт по искусственному интеллекту Джоанна Брайсон отметила, что «умение Google хорошо рекламировать» поставило ее в сильную позицию перед конкурентами. «Речь идет не только о найме лучших программистов. Это также очень политически, поскольку помогает сделать Google максимально сильной при переговорах с правительствами и регулирующими органами, рассматривающими сектор искусственного интеллекта». ^[9]

Человеческие гроссмейстеры по шахматам обычно выражали восторг по поводу AlphaZero. Датский гроссмейстер Питер Хейне Нильсен сравнил игру AlphaZero с игрой превосходящего инопланетного вида. ^[9] Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал игру AlphaZero как «безумные атакующие шахматы» с глубоким позиционным пониманием. ^[2] Бывший чемпион Гарри Каспаров сказал: «Это выдающееся достижение, даже если мы должны были ожидать его после AlphaGo». ^[11]^[17]

Гроссмейстер Хикару Накамура был менее впечатлен, заявив: «Я не обязательно доверяю результатам просто потому, что я понимаю, что AlphaZero в основном использует суперкомпьютер Google, а Stockfish не работает на этом оборудовании; Stockfish в основном работал на том, что будет моим ноутбуком. Если вы хотите получить сопоставимый результат, вам также необходимо, чтобы Stockfish работал на суперкомпьютере». ^[8]

Ведущий шахматист США по переписке Вольф Морроу также не был впечатлен, заявив, что AlphaZero, вероятно, не выйдет в полуфинал честного соревнования, такого как TCEC , где все движки играют на одинаковом оборудовании. Морроу далее заявил, что, хотя он, возможно, не сможет победить AlphaZero, если AlphaZero разыграет ничейные дебюты, такие как защита Петрова , AlphaZero также не сможет победить его в заочной шахматной партии. ^[18]

Мотохиро Исодзаки, автор YaneuraOu, отметил, что, хотя AlphaZero действительно полностью обыграл Элмо, рейтинг AlphaZero в сёги перестал расти на отметке, которая максимум на 100–200 выше, чем у Элмо. Этот разрыв не так уж велик, и Elmo и другие программы сёги смогут его наверстать через 1–2 года. ^[19]

Окончательные результаты [ править ]

DeepMind учел многие критические замечания в своей окончательной версии статьи, опубликованной в декабре 2018 года в журнале Science . ^[4] Далее они пояснили, что AlphaZero не работает на суперкомпьютере; он был обучен с использованием 5000 тензорных процессоров (TPU), но в своих матчах работал только на четырех TPU и 44-ядерном процессоре. ^[20]

шахматы [ править ]

В окончательных результатах Stockfish версии 8 работала в тех же условиях, что и в суперфинале TCEC : 44 ядра ЦП, эндшпильные таблицы Syzygy и размер хеша 32 ГБ. Вместо фиксированного контроля времени в один ход в минуту обоим движкам давалось 3 часа плюс 15 секунд на ход на завершение игры. В матче из 1000 игр AlphaZero одержала победу со счетом 155 побед, 6 поражений и 839 ничьих. DeepMind также сыграла серию игр, используя начальные позиции TCEC; AlphaZero также убедительно выиграла. Stockfish требовалось время 10 к 1, чтобы соответствовать AlphaZero. ^[21]

Сёги [ править ]

Как и Stockfish, Элмо участвовал в тех же условиях, что и на чемпионате CSA 2017 года. Используемая версия Elmo — WCSC27 в сочетании с YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo работал на том же оборудовании, что и Stockfish: 44 ядра ЦП и размер хэш-памяти 32 ГБ. AlphaZero выиграла 98,2% игр, играя сэнте (т.е. сделав первый ход) и 91,2% в целом.

Реакции и критика [ править ]

Человеческие гроссмейстеры в целом были впечатлены играми AlphaZero против Stockfish. ^[21] Бывший чемпион мира Гарри Каспаров сказал, что наблюдать за игрой AlphaZero было одно удовольствие, тем более что ее стиль был таким же открытым и динамичным, как и его собственный. ^[22]^[23]

В компьютерном шахматном сообществе разработчик Komodo Марк Лефлер назвал это «довольно удивительным достижением», но также отметил, что данные устарели, поскольку Stockfish сильно набрал силу с января 2018 года (когда был выпущен Stockfish 8). Коллега-разработчик Ларри Кауфман сказал, что AlphaZero, вероятно, проиграет матч последней версии Stockfish, Stockfish 10, в условиях Top Chess Engine Championship (TCEC). Кауфман утверждал, что единственным преимуществом движков на основе нейронных сетей было то, что они использовали графический процессор, поэтому, если не учитывалось энергопотребление (например, в соревновании по равному оборудованию, когда оба движка имели доступ к одному и тому же процессору и графическому процессору), тогда все что угодно достигнутый графический процессор был «бесплатным». На основании этого он заявил, что самым сильным движком, скорее всего, будет гибрид нейронных сетей и стандартного альфа-бета-поиска . ^[24]

AlphaZero вдохновила сообщество компьютерных шахмат на разработку Leela Chess Zero , используя те же методы, что и AlphaZero. Лила участвовала в нескольких чемпионатах против Stockfish, где показала примерно такую же силу, что и Stockfish, хотя с тех пор Stockfish отошла. ^[25]

В 2019 году DeepMind опубликовала MuZero — единую систему, позволяющую превосходно играть в шахматы, сёги и го, а также в игры в обучающей среде Atari без предварительного программирования их правил. ^[26]^[27]

См. также [ править ]

Примечания [ править ]

^ Разработчик Stockfish Торд Ромстад ответил
Сами по себе результаты матчей не имеют особого значения из-за довольно странного выбора контроля времени и настроек параметров Stockfish: партии проводились в фиксированное время 1 минута на ход, а это означает, что Stockfish не использует свою эвристику управления временем ( много усилий было приложено к тому, чтобы Stockfish выявлял критические точки в игре и решал, когда тратить дополнительное время на ход в фиксированное время за ход, сила значительно пострадает); Использованной версии Stockfish исполнился один год, она использовала гораздо больше потоков поиска, чем когда-либо проходило сколько-нибудь значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков. Я считаю, что в матче при более нормальных условиях процент ничьих был бы намного выше. ^[8]

Ссылки [ править ]

↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Кнаптон, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие знания о шахматах были усвоены и превзойдены системой AlphaZero от DeepMind за четыре часа» . Телеграф.co.uk . Проверено 6 декабря 2017 г.
^ Винсент, Джеймс (6 декабря 2017 г.). «ИИ DeepMind за несколько часов стал сверхчеловеческим шахматистом, просто для развлечения» . Грань . Проверено 6 декабря 2017 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (7 декабря 2018 г.). «Общий алгоритм обучения с подкреплением, позволяющий освоить шахматы, сёги и самостоятельную игру» . Наука . 362 (6419): 1140–1144. Бибкод : 2018Sci...362.1140S . doi : 10.1126/science.aar6404 . ПМИД 30523106 .
^ «Шахматные термины: AlphaZero» . Chess.com . Проверено 30 июля 2022 г.
^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, го, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .
^ «AlphaZero против Stockfish 2017» .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д «AlphaZero: Реакция ведущих гроссмейстеров, автор Stockfish» . шахматы.com . 8 декабря 2017 года . Проверено 9 декабря 2017 г.
↑ Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и « Сверхчеловеческий» искусственный интеллект Google претендует на шахматную корону» . Новости Би-би-си . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
^ Найт, Уилл (8 декабря 2017 г.). «Чужие» шахматы Alpha Zero демонстрируют силу и особенность искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 11 декабря 2017 г.
↑ Перейти обратно: Перейти обратно: ^а ^б «AlphaZero от Google уничтожила Stockfish в матче из 100 игр» . Chess.com . Проверено 7 декабря 2017 г.
^ Катянна Куах. «ИИ AlphaZero от DeepMind разгромил конкурирующее шахматное приложение на неровной игровой... доске» . Регистр (14 декабря 2017 г.).
^ «Некоторые опасения по поводу условий соответствия между AlphaZero и движком сёги» . Компьютерные рейтинги сёги «uuunuuun» (блогер, оценивающий бесплатные движки сёги) . Получено 9 декабря 2017 . г. «瀧澤誠@elmo (@mktakizawa) | Twitter» . mktakizawa (разработчик Elmo) . 9 декабря 2017 года . Проверено 11 декабря 2017 г. )
^ «Похоже, что DeepMind начал обращать внимание на YaneuraOu» Разработчик YaneuraOu, поискового компонента, используемого elmo 7 декабря 2017 г. Проверено 9 декабря 2017 г.
^ Бадшах, Надим (7 декабря 2017 г.). «Робот DeepMind от Google за четыре часа стал лучшим гроссмейстером мира по шахматам» . Лондонская «Таймс» . Проверено 7 декабря 2017 г.
^ «Последнее шоу искусственного интеллекта Alphabet Pony имеет больше, чем один трюк» . ПРОВОДНОЙ . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
^ Гиббс, Сэмюэл (7 декабря 2017 г.). «ИИ AlphaZero обыграл чемпионскую программу по шахматам, обучившись за четыре часа» . Хранитель . Проверено 8 декабря 2017 г.
^ «Говорим о современных заочных шахматах» . Шахматная база. 26 июня 2018 г. Проверено 11 июля 2018 г.
^ Кажется, DeepMind начал обращать внимание на короля Яневру | Официальный сайт короля Яневры , 7 декабря 2017 г.
^ Как указано в статье Science , TPU «примерно аналогичен по скорости вывода графическому процессору Titan V, хотя архитектуры напрямую не сопоставимы» (ссылка 24).
↑ Перейти обратно: Перейти обратно: ^а ^б «AlphaZero разгромил Stockfish в новом матче из 1000 игр» . 6 декабря 2018 г.
^ Шон Ингл (11 декабря 2018 г.). « Креативный AlphaZero прокладывает путь шахматным компьютерам и, возможно, науке» . Хранитель .
^ Альберт Сильвер (7 декабря 2018 г.). «Внутри (глубокого) разума AlphaZero» . Шахматная база.
^ «Komodo MCTS (поиск по дереву Монте-Карло) — новая звезда TCEC» . Шахматный мир. 18 декабря 2018 г.
^ См. TCEC и Leela Chess Zero .
^ «Может ли искусственный интеллект спасти нас от самого себя?» . Удача . 2019 . Проверено 29 февраля 2020 г.
^ «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . 20 ноября 2019 г. Проверено 29 февраля 2020 г.

Внешние ссылки [ править ]

[9] Разработчик Stockfish Торд Ромстад ответил
Сами по себе результаты матчей не имеют особого значения из-за довольно странного выбора контроля времени и настроек параметров Stockfish: партии проводились в фиксированное время 1 минута на ход, а это означает, что Stockfish не использует свою эвристику управления временем ( много усилий было приложено к тому, чтобы Stockfish выявлял критические точки в игре и решал, когда тратить дополнительное время на ход в фиксированное время за ход, сила значительно пострадает); Использованной версии Stockfish исполнился один год, она использовала гораздо больше потоков поиска, чем когда-либо проходило сколько-нибудь значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков. Я считаю, что в матче при более нормальных условиях процент ничьих был бы намного выше. ^[8]

[preprint-1] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].

[telegraph-2] Перейти обратно: Перейти обратно: ^а ^б ^с Кнаптон, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие знания о шахматах были усвоены и превзойдены системой AlphaZero от DeepMind за четыре часа» . Телеграф.co.uk . Проверено 6 декабря 2017 г.

[3] Винсент, Джеймс (6 декабря 2017 г.). «ИИ DeepMind за несколько часов стал сверхчеловеческим шахматистом, просто для развлечения» . Грань . Проверено 6 декабря 2017 г.

[Science20181207-4] Перейти обратно: Перейти обратно: ^а ^б Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (7 декабря 2018 г.). «Общий алгоритм обучения с подкреплением, позволяющий освоить шахматы, сёги и самостоятельную игру» . Наука . 362 (6419): 1140–1144. Бибкод : 2018Sci...362.1140S . doi : 10.1126/science.aar6404 . ПМИД 30523106 .

[5] «Шахматные термины: AlphaZero» . Chess.com . Проверено 30 июля 2022 г.

[6] Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, го, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .

[7] «AlphaZero против Stockfish 2017» .

[romstad-8] Перейти обратно: Перейти обратно: ^а ^б ^с ^д «AlphaZero: Реакция ведущих гроссмейстеров, автор Stockfish» . шахматы.com . 8 декабря 2017 года . Проверено 9 декабря 2017 г.

[bbc-10] Перейти обратно: Перейти обратно: ^а ^б ^с ^д ^и « Сверхчеловеческий» искусственный интеллект Google претендует на шахматную корону» . Новости Би-би-си . 6 декабря 2017 г. Проверено 7 декабря 2017 г.

[11] Найт, Уилл (8 декабря 2017 г.). «Чужие» шахматы Alpha Zero демонстрируют силу и особенность искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 11 декабря 2017 г.

[chess.com-12] Перейти обратно: Перейти обратно: ^а ^б «AlphaZero от Google уничтожила Stockfish в матче из 100 игр» . Chess.com . Проверено 7 декабря 2017 г.

[13] Катянна Куах. «ИИ AlphaZero от DeepMind разгромил конкурирующее шахматное приложение на неровной игровой... доске» . Регистр (14 декабря 2017 г.).

[14] «Некоторые опасения по поводу условий соответствия между AlphaZero и движком сёги» . Компьютерные рейтинги сёги «uuunuuun» (блогер, оценивающий бесплатные движки сёги) . Получено 9 декабря 2017 . г. «瀧澤誠@elmo (@mktakizawa) | Twitter» . mktakizawa (разработчик Elmo) . 9 декабря 2017 года . Проверено 11 декабря 2017 г. )

[15] «Похоже, что DeepMind начал обращать внимание на YaneuraOu» Разработчик YaneuraOu, поискового компонента, используемого elmo 7 декабря 2017 г. Проверено 9 декабря 2017 г.

[tol-16] Бадшах, Надим (7 декабря 2017 г.). «Робот DeepMind от Google за четыре часа стал лучшим гроссмейстером мира по шахматам» . Лондонская «Таймс» . Проверено 7 декабря 2017 г.

[17] «Последнее шоу искусственного интеллекта Alphabet Pony имеет больше, чем один трюк» . ПРОВОДНОЙ . 6 декабря 2017 г. Проверено 7 декабря 2017 г.

[18] Гиббс, Сэмюэл (7 декабря 2017 г.). «ИИ AlphaZero обыграл чемпионскую программу по шахматам, обучившись за четыре часа» . Хранитель . Проверено 8 декабря 2017 г.

[19] «Говорим о современных заочных шахматах» . Шахматная база. 26 июня 2018 г. Проверено 11 июля 2018 г.

[20] Кажется, DeepMind начал обращать внимание на короля Яневру | Официальный сайт короля Яневры , 7 декабря 2017 г.

[21] Как указано в статье Science , TPU «примерно аналогичен по скорости вывода графическому процессору Titan V, хотя архитектуры напрямую не сопоставимы» (ссылка 24).

[pete-22] Перейти обратно: Перейти обратно: ^а ^б «AlphaZero разгромил Stockfish в новом матче из 1000 игр» . 6 декабря 2018 г.

[23] Шон Ингл (11 декабря 2018 г.). « Креативный AlphaZero прокладывает путь шахматным компьютерам и, возможно, науке» . Хранитель .

[24] Альберт Сильвер (7 декабря 2018 г.). «Внутри (глубокого) разума AlphaZero» . Шахматная база.

[25] «Komodo MCTS (поиск по дереву Монте-Карло) — новая звезда TCEC» . Шахматный мир. 18 декабря 2018 г.

[26] См. TCEC и Leela Chess Zero .

[27] «Может ли искусственный интеллект спасти нас от самого себя?» . Удача . 2019 . Проверено 29 февраля 2020 г.

[28] «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . 20 ноября 2019 г. Проверено 29 февраля 2020 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[примечание 1]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

с Zero Связь AlphaGo

и Элмо Стокфиш ​

Обучение [ править ]

Предварительные результаты [ править ]

Результат [ править ]

шахматы [ править ]

Сёги [ править ]

Иди [ править ]

Анализ [ править ]

и критика Реакция ​

Окончательные результаты [ править ]

шахматы [ править ]

Сёги [ править ]

Реакции и критика [ править ]

См. также [ править ]

Примечания [ править ]

Ссылки [ править ]

Внешние ссылки [ править ]

и Элмо Стокфиш

и критика Реакция