Самостоятельная игра
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Самостоятельная игра — это метод повышения эффективности агентов обучения с подкреплением . Интуитивно агенты учатся улучшать свою производительность, играя «против себя».
Определение и мотивация
[ редактировать ]В экспериментах по многоагентному обучению с подкреплением исследователи пытаются оптимизировать производительность обучающего агента при выполнении определенной задачи в сотрудничестве или конкуренции с одним или несколькими агентами. Эти агенты учатся методом проб и ошибок, и исследователи могут выбрать, чтобы алгоритм обучения играл роль двух или более разных агентов. При успешном выполнении эта техника имеет двойное преимущество:
- Он обеспечивает простой способ определить действия других агентов, что приводит к значимой задаче.
- Это увеличивает количество опыта, который можно использовать для улучшения политики, в два или более раза, поскольку точки зрения каждого из различных агентов можно использовать для обучения.
Чарнецкий и др. [ 1 ] утверждают, что большинство игр, в которые люди играют ради развлечения, являются «играми мастерства», то есть играми, в которых пространство всех возможных стратегий выглядит как волчок. Более подробно мы можем разбить пространство стратегий на множества , такой, что любой , стратегия превосходит стратегию . Затем, в игре с самим собой, если население превышает , то алгоритм сходится к наилучшей возможной стратегии.
Использование
[ редактировать ]Самостоятельная игра используется программой AlphaZero для улучшения своих показателей в играх в шахматы , сёги и го . [ 2 ]
Самостоятельная игра также используется для обучения системы искусственного интеллекта Цицерона превосходить людей в игре « Дипломатия» . Методика также используется при обучении системы DeepNash игре Stratego . [ 3 ] [ 4 ]
Связи с другими дисциплинами
[ редактировать ]Самостоятельную игру сравнивают с эпистемологической концепцией tabula rasa , которая описывает способ, которым люди приобретают знания с «чистого листа». [ 5 ]
Дальнейшее чтение
[ редактировать ]- ДиДжованни, Энтони; Зелл, Итан; и др. (2021). «Обзор самостоятельной игры в обучении с подкреплением». arXiv : 2107.02850 [ cs.GT ].
Ссылки
[ редактировать ]- ^ Чарнецкий, Войцех М.; Гидель, Готье; Трейси, Брендан; Тейлс, Карл; Омидшафии, Шайеган; Бальдуцци, Дэвид; Ядерберг, Макс (2020). «Игры в реальном мире выглядят как волчки» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 17443–17454.
- ^ Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
- ^ Снайдер, Элисон (01 декабря 2022 г.). «Две новые системы искусственного интеллекта побеждают людей в сложных играх» . Аксиос . Проверено 29 декабря 2022 г.
- ^ Erich_Grunewald, «Заметки об ИИ Меты, играющем в дипломатию» , LessWrong
- ^ Латерр, Александр (2018). «Ранговая награда: включение обучения с подкреплением в самостоятельной игре для комбинаторной оптимизации». arXiv : 1712.01815 [ cs.AI ].