~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 4CE6063BF4E197E30A5417FC13BB69B6__1711236360 ✰
Заголовок документа оригинал.:
✰ AlphaZero - Wikipedia ✰
Заголовок документа перевод.:
✰ AlphaZero — Википедия, бесплатная энциклопедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/AlphaZero ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/4c/b6/4ce6063bf4e197e30a5417fc13bb69b6.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/4c/b6/4ce6063bf4e197e30a5417fc13bb69b6__translat.html ✰
Дата и время сохранения документа:
✰ 09.06.2024 13:35:57 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 March 2024, at 02:26 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

AlphaZero — Википедия, бесплатная энциклопедия Jump to content

АльфаЗеро

Из Википедии, бесплатной энциклопедии

AlphaZero — это компьютерная программа , разработанная в области искусственного интеллекта исследовательской компанией DeepMind для освоения игр в шахматы , сёги и го . Этот алгоритм использует подход, аналогичный AlphaGo Zero .

5 декабря 2017 года команда DeepMind выпустила препринт , представляющий AlphaZero, который за 24 часа обучения достиг сверхчеловеческого уровня игры в этих трёх играх, победив чемпионов мира по программам Stockfish , Elmo и трёхдневную версию AlphaGo. Нуль. В каждом случае использовались специальные тензорные процессоры (TPU), для использования которых были оптимизированы программы Google. [1] AlphaZero обучался исключительно посредством самостоятельной игры с использованием 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей , и все это параллельно , без доступа к начальным книгам или таблицам эндшпиля . После четырех часов обучения DeepMind подсчитал, что AlphaZero играл в шахматы с более высоким рейтингом Эло , чем Stockfish 8; после девяти часов обучения алгоритм победил Stockfish 8 в контролируемом по времени турнире из 100 игр (28 побед, 0 поражений и 72 ничьи). [1] [2] [3] Обученный алгоритм воспроизводился на одной машине с четырьмя TPU.

Статья DeepMind об AlphaZero была опубликована в журнале Science 7 декабря 2018 года; [4] однако сама программа AlphaZero не была доступна публике. [5] В 2019 году DeepMind опубликовал новую статью, в которой подробно описывается MuZero , новый алгоритм, способный обобщить работу AlphaZero, позволяющую играть как в Atari, так и в настольные игры без знания правил или представлений игры. [6]

Связь Zero с AlphaGo

AlphaZero (AZ) — это более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , способный играть в сёги и шахматы , а также в го . К различиям между АЗ и АГЗ относятся: [1]

  • В AZ есть жестко запрограммированные правила установки гиперпараметров поиска .
  • Нейронная сеть теперь постоянно обновляется.
  • AZ не использует симметрии, в отличие от AGZ.
  • шахматы или сёги могут закончиться вничью ; В отличие от го, поэтому AlphaZero учитывает возможность ничьей.

и Элмо Стокфиш

Сравнивая поиск по дереву Монте-Карло , AlphaZero ищет всего 80 000 позиций в секунду в шахматах и ​​40 000 в сёги, по сравнению с 70 миллионами для Stockfish и 35 миллионами для Elmo. AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, чтобы гораздо более избирательно сосредоточиться на наиболее многообещающем варианте. [1]

Обучение [ править ]

AlphaZero обучался исключительно посредством самостоятельной игры , используя 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей . Параллельно обучаемый AlphaZero периодически сравнивался с его эталоном (Stockfish, Elmo или AlphaGo Zero) в коротких играх по одной секунде на ход, чтобы определить, насколько хорошо продвигается обучение. DeepMind пришел к выводу, что производительность AlphaZero превысила эталонный показатель примерно после четырех часов обучения Stockfish, двух часов — Elmo и восьми часов — AlphaGo Zero. [1]

Предварительные результаты [ править ]

Результат [ править ]

шахматы [ править ]

В шахматном матче AlphaZero против Stockfish 8 ( чемпиона мира TCEC 2016 года ) каждой программе было дано по одной минуте на ход. AlphaZero плавал под английским флагом, а Stockfish — под норвежским. [7] Stockfish было выделено 64 потока и размер хеша 1 ГБ. [1] настройку, которую Торд Ромстад из Stockfish позже раскритиковал как неоптимальную. [8] [примечание 1] AlphaZero тренировался по шахматам в общей сложности девять часов перед матчем. Во время матча AlphaZero работала на одной машине с четырьмя специализированными TPU . В 100 играх из обычной стартовой позиции AlphaZero выиграла 25 игр белыми, выиграла 3 черными и сыграла вничью в оставшихся 72 партиях. [9] В серии из двенадцати матчей по 100 игр (с неуказанными ограничениями по времени или ресурсам) против Stockfish, начиная с 12 самых популярных человеческих дебютов, AlphaZero выиграла 290, сыграла вничью 886 и проиграла 24. [1]

Сёги [ править ]

AlphaZero тренировался сёги в общей сложности за два часа до турнира. В 100 играх сёги против Элмо (версия турнира World Computer Shogi Championship 27 лета 2017 года с поиском YaneuraOu 4.73) AlphaZero выиграла 90 раз, проиграла 8 раз и дважды сыграла вничью. [9] Как и в шахматных играх, каждая программа получала одну минуту на ход, а Элмо было выделено 64 потока и размер хеша 1 ГБ. [1]

Иди [ править ]

После 34 часов самообучения го и игры против AlphaGo Zero AlphaZero выиграла 60 игр и проиграла 40. [1] [9]

Анализ [ править ]

DeepMind заявила в своем препринте: «Игра в шахматы представляла собой вершину исследований искусственного интеллекта на протяжении нескольких десятилетий. Современные программы основаны на мощных механизмах, которые ищут многие миллионы позиций, используя ручной опыт в предметной области и сложные адаптации предметной области. AlphaZero — это универсальный алгоритм обучения с подкреплением , первоначально разработанный для игры в го, который достиг превосходных результатов за несколько часов, просматривая в тысячу раз меньше позиций, не имея никаких знаний предметной области, кроме правил». [1] из DeepMind Демис Хассабис , сам шахматист, назвал стиль игры AlphaZero «инопланетным»: иногда он побеждает, предлагая нелогичные жертвы, например, предлагая ферзя и слона, чтобы использовать позиционное преимущество. «Это как шахматы из другого измерения». [10]

Учитывая сложность шахматной победы над сильным противником , результат +28 –0 =72 является значительным преимуществом для победы. Однако некоторые гроссмейстеры, такие как Хикару Накамура и Komodo разработчик Ларри Кауфман , преуменьшили значение победы AlphaZero, утверждая, что матч был бы ближе, если бы программы имели доступ к дебютной базе данных (поскольку Stockfish был оптимизирован для этого сценария). [11] Ромстад также отметил, что Stockfish не оптимизирован для движений с жестко фиксированным временем, а используемой версии уже год. [8] [12]

Точно так же некоторые наблюдатели сёги утверждали, что размер хеша Elmo был слишком мал, что настройки отставки и настройки «EnteringKingRule» (ср. сёги § Entering King ) могли быть неподходящими и что Elmo уже устарел по сравнению с более новыми программами. [13] [14]

и критика Реакция

Газеты писали, что тренировка по шахматам заняла всего четыре часа: «Это заняло немногим больше времени, чем между завтраком и обедом». [2] [15] Wired описал AlphaZero как «первого чемпиона по настольным играм с искусственным интеллектом». [16] Эксперт по искусственному интеллекту Джоанна Брайсон отметила, что «умение Google хорошо рекламировать» поставило ее в сильную позицию перед конкурентами. «Речь идет не только о найме лучших программистов. Это также очень политически, поскольку помогает сделать Google максимально сильной при переговорах с правительствами и регулирующими органами, рассматривающими сектор искусственного интеллекта». [9]

Человеческие гроссмейстеры по шахматам обычно выражали восторг по поводу AlphaZero. Датский гроссмейстер Питер Хейне Нильсен сравнил игру AlphaZero с игрой превосходящего инопланетного вида. [9] Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал игру AlphaZero как «безумные атакующие шахматы» с глубоким позиционным пониманием. [2] Бывший чемпион Гарри Каспаров сказал: «Это выдающееся достижение, даже если мы должны были ожидать его после AlphaGo». [11] [17]

Гроссмейстер Хикару Накамура был менее впечатлен, заявив: «Я не обязательно доверяю результатам просто потому, что я понимаю, что AlphaZero в основном использует суперкомпьютер Google, а Stockfish не работает на этом оборудовании; Stockfish в основном работал на том, что будет моим ноутбуком. Если вы хотите получить сопоставимый результат, вам также необходимо, чтобы Stockfish работал на суперкомпьютере». [8]

Ведущий шахматист США по переписке Вольф Морроу также не был впечатлен, заявив, что AlphaZero, вероятно, не выйдет в полуфинал честного соревнования, такого как TCEC , где все движки играют на одинаковом оборудовании. Морроу далее заявил, что, хотя он, возможно, не сможет победить AlphaZero, если AlphaZero разыграет ничейные дебюты, такие как защита Петрова , AlphaZero также не сможет победить его в заочной шахматной игре. [18]

Мотохиро Исодзаки, автор YaneuraOu, отметил, что, хотя AlphaZero действительно полностью обыграл Элмо, рейтинг AlphaZero в сёги перестал расти на отметке, которая максимум на 100–200 выше, чем у Элмо. Этот разрыв не так уж велик, и Elmo и другие программы сёги смогут его наверстать через 1–2 года. [19]

Окончательные результаты [ править ]

DeepMind учел многие критические замечания в своей окончательной версии статьи, опубликованной в декабре 2018 года в журнале Science . [4] Далее они пояснили, что AlphaZero не работает на суперкомпьютере; он был обучен с использованием 5000 тензорных процессоров (TPU), но в своих матчах работал только на четырех TPU и 44-ядерном процессоре. [20]

шахматы [ править ]

В окончательных результатах Stockfish версии 8 работала в тех же условиях, что и в суперфинале TCEC : 44 ядра ЦП, эндшпильные таблицы Syzygy и размер хеша 32 ГБ. Вместо фиксированного контроля времени в один ход в минуту обоим движкам давалось 3 часа плюс 15 секунд на ход на завершение игры. В матче из 1000 игр AlphaZero одержала победу со счетом 155 побед, 6 поражений и 839 ничьих. DeepMind также сыграла серию игр, используя начальные позиции TCEC; AlphaZero также убедительно выиграла. Stockfish требовалось время 10 к 1, чтобы соответствовать AlphaZero. [21]

Сёги [ править ]

Как и Stockfish, Элмо участвовал в тех же условиях, что и на чемпионате CSA 2017 года. Используемая версия Elmo — WCSC27 в сочетании с YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo работал на том же оборудовании, что и Stockfish: 44 ядра ЦП и размер хэш-памяти 32 ГБ. AlphaZero выиграла 98,2% игр, играя сэнте (т.е. делая первый ход) и 91,2% в целом.

Реакции и критика [ править ]

Человеческие гроссмейстеры в целом были впечатлены играми AlphaZero против Stockfish. [21] Бывший чемпион мира Гарри Каспаров сказал, что наблюдать за игрой AlphaZero было одно удовольствие, тем более что ее стиль был таким же открытым и динамичным, как и его собственный. [22] [23]

В компьютерном шахматном сообществе разработчик Komodo Марк Лефлер назвал это «довольно удивительным достижением», но также отметил, что данные устарели, поскольку Stockfish сильно набрал силу с января 2018 года (когда был выпущен Stockfish 8). Коллега-разработчик Ларри Кауфман сказал, что AlphaZero, вероятно, проиграет матч последней версии Stockfish, Stockfish 10, в условиях Top Chess Engine Championship (TCEC). Кауфман утверждал, что единственным преимуществом движков на основе нейронных сетей было то, что они использовали графический процессор, поэтому, если не учитывалось энергопотребление (например, в соревновании по равному оборудованию, когда оба движка имели доступ к одному и тому же процессору и графическому процессору), тогда все что угодно достигнутый графический процессор был «бесплатным». На основании этого он заявил, что самым сильным движком, скорее всего, будет гибрид нейронных сетей и стандартного альфа-бета-поиска . [24]

AlphaZero вдохновила сообщество компьютерных шахмат на разработку Leela Chess Zero , используя те же методы, что и AlphaZero. Лила участвовала в нескольких чемпионатах против Stockfish, где показала примерно такую ​​же силу, что и Stockfish, хотя с тех пор Stockfish отошла. [25]

В 2019 году DeepMind опубликовала MuZero — единую систему, позволяющую превосходно играть в шахматы, сёги и го, а также в игры в среде обучения Atari , без предварительного программирования их правил. [26] [27]

См. также [ править ]

Примечания [ править ]

  1. ^ Разработчик Stockfish Торд Ромстад ответил

    Сами по себе результаты матчей не имеют особого значения из-за довольно странного выбора контроля времени и настроек параметров Stockfish: партии проводились в фиксированное время 1 минута на ход, а это означает, что Stockfish не использует свою эвристику управления временем ( много усилий было приложено к тому, чтобы Stockfish выявлял критические точки в игре и решал, когда потратить дополнительное время на ход в фиксированное время за ход, сила значительно пострадает); Использованной версии Stockfish исполнился один год, она использовала гораздо больше потоков поиска, чем когда-либо проходило сколько-нибудь значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков. Я считаю, что в матче при более нормальных условиях процент ничьих был бы намного выше. [8]

Ссылки [ править ]

  1. ^ Перейти обратно: а б с д Это ж г час я дж Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
  2. ^ Перейти обратно: а б с Кнаптон, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие знания о шахматах были усвоены и превзойдены системой AlphaZero от DeepMind за четыре часа» . Телеграф.co.uk . Проверено 6 декабря 2017 г.
  3. ^ Винсент, Джеймс (6 декабря 2017 г.). «ИИ DeepMind за несколько часов стал сверхчеловеческим шахматистом, просто для развлечения» . Грань . Проверено 6 декабря 2017 г.
  4. ^ Перейти обратно: а б Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (7 декабря 2018 г.). «Общий алгоритм обучения с подкреплением, позволяющий освоить шахматы, сёги и самостоятельную игру» . Наука . 362 (6419): 1140–1144. Бибкод : 2018Sci...362.1140S . doi : 10.1126/science.aar6404 . ПМИД   30523106 .
  5. ^ «Шахматные термины: AlphaZero» . Chess.com . Проверено 30 июля 2022 г.
  6. ^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти (2020). «Освоение Atari, Go, шахмат и сёги путем планирования с использованием изученной модели». Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД   33361790 . S2CID   208158225 .
  7. ^ «AlphaZero против Stockfish 2017» .
  8. ^ Перейти обратно: а б с д «AlphaZero: Реакция ведущих гроссмейстеров, автор Stockfish» . шахматы.com . 8 декабря 2017 года . Проверено 9 декабря 2017 г.
  9. ^ Перейти обратно: а б с д Это « Сверхчеловеческий» искусственный интеллект Google претендует на шахматную корону» . Новости BBC . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
  10. ^ Найт, Уилл (8 декабря 2017 г.). «Чужие» шахматы Alpha Zero демонстрируют силу и особенность искусственного интеллекта» . Обзор технологий Массачусетского технологического института . Проверено 11 декабря 2017 г.
  11. ^ Перейти обратно: а б «AlphaZero от Google уничтожила Stockfish в матче из 100 игр» . Chess.com . Проверено 7 декабря 2017 г.
  12. ^ Катянна Куах. «ИИ AlphaZero от DeepMind разгромил конкурирующее шахматное приложение на неровной игровой... доске» . Регистр (14 декабря 2017 г.).
  13. ^ «Некоторые опасения по поводу условий соответствия между AlphaZero и движком сёги» . Компьютерные рейтинги сёги «uuunuuun» (блогер, который оценивает бесплатные движки сёги) Получено 9 декабря 2017 г. . . "К черту @elmo (@mktakizawa) | Твиттер " mktakizawa (разработчик Elmo ) 9 декабря , Получено 11 декабря . )
  14. ^ «Похоже, DeepMind начал обращать внимание на YaneuraOu» . Разработчик YaneuraOu, поискового компонента, используемого elmo. Проверено 9 декабря 2017 г.
  15. ^ Бадшах, Надим (7 декабря 2017 г.). «Робот DeepMind от Google за четыре часа стал лучшим гроссмейстером мира по шахматам» . Лондонская «Таймс» . Проверено 7 декабря 2017 г.
  16. ^ «Последнее шоу искусственного интеллекта Alphabet Pony имеет больше, чем один трюк» . ПРОВОДНОЙ . 6 декабря 2017 г. Проверено 7 декабря 2017 г.
  17. ^ Гиббс, Сэмюэл (7 декабря 2017 г.). «ИИ AlphaZero обыграл чемпионскую программу по шахматам, обучившись за четыре часа» . Хранитель . Проверено 8 декабря 2017 г.
  18. ^ «Говорим о современных заочных шахматах» . Шахматная база. 26 июня 2018 г. Проверено 11 июля 2018 г.
  19. ^ Кажется, DeepMind начал обращать внимание на короля Яневру | Официальный сайт короля Яневры , 7 декабря 2017 г.
  20. ^ Как указано в статье Science , TPU «примерно аналогичен по скорости вывода графическому процессору Titan V, хотя архитектуры напрямую не сопоставимы» (ссылка 24).
  21. ^ Перейти обратно: а б «AlphaZero разгромил Stockfish в новом матче из 1000 игр» . 6 декабря 2018 г.
  22. ^ Шон Ингл (11 декабря 2018 г.). « Креативный AlphaZero прокладывает путь шахматным компьютерам и, возможно, науке» . Хранитель .
  23. ^ Альберт Сильвер (7 декабря 2018 г.). «Внутри (глубокого) разума AlphaZero» . Шахматная база.
  24. ^ «Komodo MCTS (поиск по дереву Монте-Карло) — новая звезда TCEC» . Шахматный мир. 18 декабря 2018 г.
  25. ^ См. TCEC и Leela Chess Zero .
  26. ^ «Может ли искусственный интеллект спасти нас от самого себя?» . Удача . 2019 . Проверено 29 февраля 2020 г.
  27. ^ «MuZero от DeepMind учится побеждать в Atari, шахматах, сёги и го» . ВенчурБит . 20 ноября 2019 г. Проверено 29 февраля 2020 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 4CE6063BF4E197E30A5417FC13BB69B6__1711236360
URL1:https://en.wikipedia.org/wiki/AlphaZero
Заголовок, (Title) документа по адресу, URL1:
AlphaZero - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)