Jump to content

Самостоятельная игра

Самостоятельная игра — это метод повышения эффективности агентов обучения с подкреплением . Интуитивно агенты учатся улучшать свою производительность, играя «против себя».

Определение и мотивация

[ редактировать ]

В экспериментах по многоагентному обучению с подкреплением исследователи пытаются оптимизировать производительность обучающего агента при выполнении определенной задачи в сотрудничестве или конкуренции с одним или несколькими агентами. Эти агенты учатся методом проб и ошибок, и исследователи могут выбрать, чтобы алгоритм обучения играл роль двух или более разных агентов. При успешном выполнении эта техника имеет двойное преимущество:

  1. Он обеспечивает простой способ определить действия других агентов, что приводит к значимой задаче.
  2. Это увеличивает количество опыта, который можно использовать для улучшения политики, в два или более раза, поскольку точки зрения каждого из различных агентов можно использовать для обучения.

Чарнецкий и др. [ 1 ] утверждают, что большинство игр, в которые люди играют ради развлечения, являются «играми мастерства», то есть играми, в которых пространство всех возможных стратегий выглядит как волчок. Более подробно мы можем разбить пространство стратегий на множества , такой, что любой , стратегия превосходит стратегию . Затем, в игре с самим собой, если население превышает , то алгоритм сходится к наилучшей возможной стратегии.

Использование

[ редактировать ]

Самостоятельная игра используется программой AlphaZero для улучшения своих показателей в играх в шахматы , сёги и го . [ 2 ]

Самостоятельная игра также используется для обучения системы искусственного интеллекта Цицерона превосходить людей в игре « Дипломатия» . Методика также используется при обучении системы DeepNash игре Stratego . [ 3 ] [ 4 ]

Связи с другими дисциплинами

[ редактировать ]

Самостоятельную игру сравнивают с эпистемологической концепцией tabula rasa , которая описывает способ, которым люди приобретают знания с «чистого листа». [ 5 ]

Дальнейшее чтение

[ редактировать ]
  • ДиДжованни, Энтони; Зелл, Итан; и др. (2021). «Обзор самостоятельной игры в обучении с подкреплением». arXiv : 2107.02850 [ cs.GT ].
  1. ^ Чарнецкий, Войцех М.; Гидель, Готье; Трейси, Брендан; Тейлс, Карл; Омидшафии, Шайеган; Бальдуцци, Дэвид; Ядерберг, Макс (2020). «Игры в реальном мире выглядят как волчки» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 17443–17454.
  2. ^ Сильвер, Дэвид ; Юбер, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грепель, Торе; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
  3. ^ Снайдер, Элисон (01 декабря 2022 г.). «Две новые системы искусственного интеллекта побеждают людей в сложных играх» . Аксиос . Проверено 29 декабря 2022 г.
  4. ^ Erich_Grunewald, «Заметки об ИИ Меты, играющем в дипломатию» , LessWrong
  5. ^ Латерр, Александр (2018). «Ранговая награда: включение обучения с подкреплением в самостоятельной игре для комбинаторной оптимизации». arXiv : 1712.01815 [ cs.AI ].


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2fb19c333151f6abe6ff9f2b8e876c38__1711735740
URL1:https://arc.ask3.ru/arc/aa/2f/38/2fb19c333151f6abe6ff9f2b8e876c38.html
Заголовок, (Title) документа по адресу, URL1:
Self-play - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)