Самостоятельная игра

Самостоятельная игра — это метод повышения эффективности агентов обучения с подкреплением . Интуитивно агенты учатся улучшать свою производительность, играя «против себя».

Определение и мотивация

В экспериментах по многоагентному обучению с подкреплением исследователи пытаются оптимизировать производительность обучающего агента при выполнении определенной задачи в сотрудничестве или конкуренции с одним или несколькими агентами. Эти агенты учатся методом проб и ошибок, и исследователи могут выбрать, чтобы алгоритм обучения играл роль двух или более разных агентов. При успешном выполнении эта техника имеет двойное преимущество:

Он обеспечивает простой способ определить действия других агентов, что приводит к значимой задаче.
Это увеличивает количество опыта, который можно использовать для улучшения политики, в два или более раза, поскольку точки зрения каждого из различных агентов можно использовать для обучения.

Чарнецкий и др. ^{[ 1 ]} утверждают, что большинство игр, в которые люди играют ради развлечения, являются «играми мастерства», то есть играми, в которых пространство всех возможных стратегий выглядит как волчок. Более подробно мы можем разбить пространство стратегий на множества $L_{1},L_{2},...,L_{n}$ , такой, что любой $i<j,\pi _{i}\in L_{i},\pi _{j}\in L_{j}$ , стратегия $\pi _{j}$ превосходит стратегию $\pi _{i}$ . Затем, в игре с самим собой, если население превышает $\max _{i}|L_{i}|$ , то алгоритм сходится к наилучшей возможной стратегии.

Использование

Самостоятельная игра используется программой AlphaZero для улучшения своих показателей в играх в шахматы , сёги и го . ^{[ 2 ]}

Самостоятельная игра также используется для обучения системы искусственного интеллекта Цицерона превосходить людей в игре « Дипломатия» . Методика также используется при обучении системы DeepNash игре Stratego . ^{[ 3 ]}^{[ 4 ]}

Связи с другими дисциплинами

Самостоятельную игру сравнивают с эпистемологической концепцией tabula rasa , которая описывает способ, которым люди приобретают знания с «чистого листа». ^{[ 5 ]}

Дальнейшее чтение

ДиДжованни, Энтони; Зелл, Итан; и др. (2021). «Обзор самостоятельной игры в обучении с подкреплением». arXiv : 2107.02850 [ cs.GT ].

Ссылки

^ Чарнецкий, Войцех М.; Гидель, Готье; Трейси, Брендан; Тейлс, Карл; Омидшафии, Шайеган; Бальдуцци, Дэвид; Ядерберг, Макс (2020). «Игры в реальном мире выглядят как волчки» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 17443–17454.
^ Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
^ Снайдер, Элисон (01 декабря 2022 г.). «Две новые системы искусственного интеллекта побеждают людей в сложных играх» . Аксиос . Проверено 29 декабря 2022 г.
^ Erich_Grunewald, «Заметки об ИИ Меты, играющем в дипломатию» , LessWrong
^ Латерр, Александр (2018). «Ранговая награда: включение обучения с подкреплением в самостоятельной игре для комбинаторной оптимизации». arXiv : 1712.01815 [ cs.AI ].

Эта искусственному интеллекту статья, посвященная , незавершена . Вы можете помочь Википедии, расширив ее .

[1] Чарнецкий, Войцех М.; Гидель, Готье; Трейси, Брендан; Тейлс, Карл; Омидшафии, Шайеган; Бальдуцци, Дэвид; Ядерберг, Макс (2020). «Игры в реальном мире выглядят как волчки» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 17443–17454.

[2] Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].

[3] Снайдер, Элисон (01 декабря 2022 г.). «Две новые системы искусственного интеллекта побеждают людей в сложных играх» . Аксиос . Проверено 29 декабря 2022 г.

[4] Erich_Grunewald, «Заметки об ИИ Меты, играющем в дипломатию» , LessWrong

[5] Латерр, Александр (2018). «Ранговая награда: включение обучения с подкреплением в самостоятельной игре для комбинаторной оптимизации». arXiv : 1712.01815 [ cs.AI ].

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]