OpenAI пять

Из Википедии, бесплатной энциклопедии

OpenAI Five компьютерная программа от OpenAI «пять на пять» , которая играет в видеоигру Dota 2 . Ее первое публичное появление произошло в 2017 году, где она была продемонстрирована в живой игре один на один против профессионального игрока Dendi проигравшего ей . В следующем году система продвинулась до такой степени, что стала выступать в качестве полноценной команды из пяти человек, начала играть против профессиональных команд и демонстрировать свою способность побеждать.

Выбрав такую ​​сложную игру, как Dota 2, для изучения машинного обучения , OpenAI полагала, что сможет более точно отразить непредсказуемость и непрерывность, наблюдаемые в реальном мире, тем самым создавая более общие системы решения проблем. Алгоритмы и код, используемые OpenAI Five, в конечном итоге были заимствованы другой нейронной сетью , разрабатываемой компанией, которая управляла физической роботизированной рукой. OpenAI Five сравнивали с другими подобными случаями игры искусственного интеллекта (ИИ) против людей и победы над ними, такими как AlphaStar в видеоигре StarCraft II , AlphaGo в настольной игре Го , Deep Blue в шахматах и ​​Ватсон в телеигре. Опасность! .

История [ править ]

Разработка алгоритмов, используемых для ботов, началась в ноябре 2016 года. OpenAI решила использовать Dota 2 , соревновательную видеоигру «пять на пять», в качестве основы, поскольку она популярна на потокового вещания платформе Twitch и имеет встроенную поддержку Linux . , и имел доступный интерфейс прикладного программирования (API). [1] Прежде чем стать командой из пяти человек, первая публичная демонстрация произошла на The International 2017 в августе, ежегодном премьерном турнире чемпионата по игре, где Денди , украинский профессиональный игрок, проиграл боту OpenAI в живом матче один на один. . [2] [3] После матча технический директор Грег Брокман объяснил, что бот учился, играя против самого себя в течение двух недель в реальном времени , и что обучающее программное обеспечение стало шагом в направлении создания программного обеспечения, способного решать сложные задачи, «например, быть хирургом». [4] [5] OpenAI использовала методологию, называемую обучением с подкреплением , поскольку боты учатся со временем, играя против самих себя сотни раз в день в течение месяцев, при этом они вознаграждаются за такие действия, как убийство врага и разрушение башен. [6] [7] [8]

К июню 2018 года возможности ботов расширились: теперь они могут играть всей командой из пяти человек и способны побеждать команды любителей и полупрофессиональных игроков. [9] [6] [10] [11] На The International 2018 OpenAI Five сыграла две игры против профессиональных команд: одну против бразильской paiN Gaming, а другую — против звездной команды бывших китайских игроков. [12] [13] Хотя боты проиграли оба матча, OpenAI по-прежнему считает это успешным предприятием, заявляя, что игра против некоторых из лучших игроков в Dota 2 позволяет им проанализировать и скорректировать свои алгоритмы для будущих игр. [14] Последняя публичная демонстрация ботов произошла в апреле 2019 года, когда они выиграли серию до трех побед у чемпионов The International 2018 OG на живом мероприятии в Сан-Франциско . [15] В том же месяце состоялось четырехдневное онлайн-мероприятие по игре против ботов, открытое для публики. [16] Там боты сыграли в 42 729 публичных играх, выиграв 99,4% из них. [17]

Архитектура [ править ]

Каждый бот OpenAI Five представляет собой нейронную сеть, содержащую один слой с LSTM из 4096 единиц. [18] который отслеживает текущее состояние игры, полученное из API разработчика Dota. Нейронная сеть выполняет действия с помощью множества возможных головок действий (без участия человеческих данных), и каждая голова имеет значение. Например, количество тиков для задержки действия, какое действие выбрать — координата X или Y этого действия в сетке вокруг объекта. Кроме того, головы действий рассчитываются независимо. Система искусственного интеллекта рассматривает мир как список из 20 000 чисел и предпринимает действия, создавая список из восьми значений перечисления. Кроме того, он выбирает различные действия и цели, чтобы понять, как закодировать каждое действие и наблюдать за миром. [19]

OpenAI Five был разработан как универсальная система обучения с подкреплением на инфраструктуре Rapid. Rapid состоит из двух уровней: он запускает тысячи машин и помогает им «общаться» друг с другом, а второй уровень запускает программное обеспечение. К 2018 году OpenAI Five уже около 180 лет играла в игры по обучению с подкреплением, работающие на 256 графических процессорах и 128 000 процессорных ядрах. [20] с использованием Proximal Policy Optimization , метода градиента политики . [19] [21]

Сравнительная таблица
Бот OpenAI 1 на 1 (2017) OpenAI пять (2018)
процессоры 60 000 ядер ЦП в Microsoft Azure 128 000 вытесняемых ядер ЦП на Google Cloud Platform (GCP)
графические процессоры 256 графических процессоров K80 в Azure 256 графических процессоров P100 на GCP
Накопленный опыт ~300 лет в день ~180 лет в день
Размер наблюдения ~3,3кБ ~36,8кБ
Наблюдений в секунду игрового процесса 10 7.5
Размер партии 8 388 608 наблюдений 1 048 576 наблюдений
Пакетов в минуту ~20 ~60

Сравнение с другими игровыми системами искусственного интеллекта [ править ]

До OpenAI Five и раньше успешно использовались другие эксперименты и системы искусственного интеллекта и человека, такие как Jeopardy! с Watson , шахматы с Deep Blue и го с AlphaGo . [22] [23] [24] По сравнению с другими играми, в которых для игры против игроков-людей использовались системы искусственного интеллекта, Dota 2 отличается, как описано ниже: [19]

Просмотр в долгосрочной перспективе : боты работают со скоростью 30 кадров в секунду при среднем времени матча 45 минут, что дает 80 000 тиков за игру. OpenAI Five отслеживает каждый четвертый кадр, генерируя 20 000 ходов. Для сравнения, шахматы обычно заканчиваются до 40 ходов, а Го заканчивается до 150 ходов.

Частично наблюдаемое состояние игры : игроки и их союзники могут видеть карту только непосредственно вокруг них. Остальное покрыто туманом войны , скрывающим отряды противника и их передвижения. Таким образом, игра в Dota 2 требует делать выводы на основе этих неполных данных, а также предсказывать, что в это же время может делать противник. Для сравнения, шахматы и го - это «игры с полной информацией», поскольку они не скрывают элементы от противника. [25]

Пространство непрерывного действия : каждый игровой персонаж в игре Dota 2 , известный как герой, может выполнять десятки действий, нацеленных либо на другой юнит, либо на позицию. Разработчики OpenAI Five допускают 170 000 возможных действий на каждого героя. Не считая постоянных аспектов игры, на каждый тик совершается в среднем около 1000 действительных действий. Для сравнения, среднее количество действий в шахматах — 35, а в го — 250.

Пространство непрерывного наблюдения : игра в Dota 2 ведется на большой карте с десятью героями, по пять в каждой команде, а также десятками зданий и юнитов неигровых персонажей (NPC). Система OpenAI наблюдает за состоянием игры через API ботов разработчиков, поскольку 20 000 чисел составляют всю информацию, к которой человек имеет доступ. Шахматная доска представлена ​​примерно 70 списками, тогда как доска Го имеет около 400 перечислений.

Прием [ править ]

OpenAI Five получила признание со стороны сообщества искусственного интеллекта, технологий и видеоигр в целом. Microsoft Основатель Билл Гейтс назвал это «большим делом», поскольку их победы «требовали командной работы и сотрудничества». [8] [26] Шахматист Гарри Каспаров , проигравший Deep Blue AI в 1997 году, заявил, что, несмотря на их проигрышное выступление на The International 2018, боты в конечном итоге «доберутся туда, и раньше, чем ожидалось». [27]

В разговоре с MIT Technology Review эксперты по искусственному интеллекту также посчитали систему OpenAI Five значительным достижением, поскольку отметили, что Dota 2 была «чрезвычайно сложной игрой», поэтому даже победа над непрофессиональными игроками была впечатляющей. [25] PC Gamer написал, что их победы над профессиональными игроками стали значительным событием в машинном обучении. [28] Напротив, Motherboard написала, что победа была «по сути мошенничеством» из-за упрощенного пула героев с обеих сторон, а также того факта, что ботам был предоставлен прямой доступ к API, а не с использованием компьютерного зрения для интерпретации пикселей на экране. . [29] The Verge пишет, что боты являются свидетельством того, что подход компании к обучению с подкреплением и ее общая философия в отношении ИИ «достигают важных результатов». [16]

В 2019 году DeepMind представила аналогичного бота для Starcraft II AlphaStar . Как и OpenAI Five, AlphaStar использовала обучение с подкреплением и самостоятельную игру. The Verge сообщила, что «цель такого типа исследований ИИ — не просто сокрушить людей в различных играх, просто чтобы доказать, что это возможно. лучшие люди практически в любой конкурентной когнитивной задаче, будь то настольная игра или современная видеоигра». Они добавили, что победы DeepMind и OpenAI также являются свидетельством эффективности некоторых видов использования обучения с подкреплением. [30]

OpenAI надеялась, что эта технология сможет найти применение за пределами цифровой сферы. В 2018 году они смогли повторно использовать те же алгоритмы обучения с подкреплением и обучающий код из OpenAI Five для Dactyl , человекоподобной руки робота с нейронной сетью, созданной для манипулирования физическими объектами. [31] В 2019 году Дактиль собрал кубик Рубика . [32]

Ссылки [ править ]

  1. ^ ОпенАИ. «ОпенАИ Пять» . openai.com/five . Архивировано из оригинала 1 сентября 2018 года . Проверено 10 октября 2018 г.
  2. ^ Савов Влад (14 августа 2017 г.). «Мою любимую игру заполонили боты-убийцы с искусственным интеллектом и шумиха вокруг Илона Маска» . Грань . Архивировано из оригинала 26 июня 2018 года . Проверено 25 июня 2018 г.
  3. ^ Фрэнк, Блэр Хэнли. «Бот OpenAI настолько сильно обыграл лучшего игрока Dota 2, что ушел» . Венчурный бит . Архивировано из оригинала 12 августа 2017 года . Проверено 12 августа 2017 г.
  4. ^ OpenAI (11 августа 2017 г.). "Dota 2" . blog.openai.com . Архивировано из оригинала 11 августа 2017 года . Проверено 12 августа 2017 г.
  5. ^ OpenAI (16 августа 2017 г.). «Подробнее о Доте 2» . blog.openai.com . Архивировано из оригинала 16 августа 2017 года . Проверено 16 августа 2017 г.
  6. ^ Перейти обратно: а б Симоните, Том (25 июня 2018 г.). «Смогут ли боты перехитрить людей в одной из крупнейших киберспортивных игр?» . Проводной . Архивировано из оригинала 25 июня 2018 года . Проверено 25 июня 2018 г.
  7. ^ Кан, Джереми (25 июня 2018 г.). «Бот, поддерживаемый Илоном Маском, совершил прорыв в области искусственного интеллекта в мире видеоигр» . Bloomberg.com . Архивировано из оригинала 27 июня 2018 года . Проверено 27 июня 2018 г.
  8. ^ Перейти обратно: а б «Билл Гейтс говорит, что геймерские боты из некоммерческой организации, поддерживаемой Илоном Маском, являются «огромной вехой» в развитии искусственного интеллекта», CNBC . 28 июня 2018 г. Архивировано из оригинала 28 июня 2018 г. Проверено 28 июня 2018 г.
  9. ^ OpenAI (18 июля 2018 г.). «Пять тестов OpenAI» . blog.openai.com . Архивировано из оригинала 26 августа 2018 года . Проверено 25 августа 2018 г.
  10. ^ Винсент, Джеймс (25 июня 2018 г.). «Боты с искусственным интеллектом тренировались 180 лет в день, чтобы победить людей в Dota 2» . Грань . Архивировано из оригинала 25 июня 2018 года . Проверено 25 июня 2018 г.
  11. ^ Савов Влад (6 августа 2018 г.). «Боты OpenAI Dota 2 только что победили команду бывших профи» . Грань . Архивировано из оригинала 7 августа 2018 года . Проверено 7 августа 2018 г.
  12. ^ Симонит, Том. «Профессиональные геймеры отбиваются от ИИ-ботов, поддерживаемых Илоном Маском — пока» . Проводной . Архивировано из оригинала 24 августа 2018 года . Проверено 25 августа 2018 г.
  13. ^ Квач, Катянна. «Игра окончена, машины: люди снова побеждают ботов OpenAI на Олимпийских играх по видеоиграм» . Регистр . Архивировано из оригинала 25 августа 2018 года . Проверено 25 августа 2018 г.
  14. ^ OpenAI (24 августа 2018 г.). «The International 2018: Итоги» . blog.openai.com . Архивировано из оригинала 24 августа 2018 года . Проверено 25 августа 2018 г.
  15. ^ Виггерс, Кайл (13 апреля 2019 г.). «OpenAI Five дважды побеждает профессиональную команду Dota 2» . Венчурный бит . Архивировано из оригинала 13 апреля 2019 года . Проверено 13 апреля 2019 г.
  16. ^ Перейти обратно: а б Статт, Ник (13 апреля 2019 г.). «ИИ Dota 2 от OpenAI одерживает подряд победы над командой чемпионов мира по киберспорту» . Грань . Вокс Медиа. Архивировано из оригинала 15 апреля 2019 года . Проверено 15 апреля 2019 г.
  17. ^ Виггерс, Кайл (22 апреля 2019 г.). «Бот OpenAI по Dota 2 победил 99,4% игроков в публичных матчах» . Венчурный бит . Проверено 22 апреля 2019 г.
  18. ^ «Понимание сетей LSTM» . блог Колы . Архивировано из оригинала 1 августа 2017 года . Проверено 27 августа 2015 г.
  19. ^ Перейти обратно: а б с OpenAI (25 июня 2018 г.). «ОпенАИ Пять» . blog.openai.com . Архивировано из оригинала 25 июня 2018 года . Проверено 25 июня 2018 г.
  20. ^ «Почему исследователи искусственного интеллекта так одержимы играми?» . КВАРЦ . 4 августа 2018 г. Архивировано из оригинала 4 августа 2018 г. Проверено 4 августа 2018 г.
  21. ^ Шульман, Джон; Вольский, Филип; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). «Алгоритмы оптимизации проксимальной политики». arXiv : 1707.06347 [ cs.LG ].
  22. ^ Габбатт, Адам (17 февраля 2011 г.). «Компьютер IBM Watson выигрывает битву Jeopardy» . Хранитель . Архивировано из оригинала 21 сентября 2013 года . Проверено 17 февраля 2011 г.
  23. ^ «Шахматный гроссмейстер Гарри Каспаров о том, что происходит, когда машины «достигают уровня, с которым люди не могут конкурировать» » . Бизнес-инсайдер . Архивировано из оригинала 29 декабря 2017 года . Проверено 29 декабря 2017 г.
  24. ^ «ИИ DeepMind, играющий в го, больше не нуждается в человеческой помощи, чтобы победить нас» . Грань . 18 октября 2017 года. Архивировано из оригинала 18 октября 2017 года . Проверено 18 октября 2017 г.
  25. ^ Перейти обратно: а б Найт, Уилл (25 июня 2018 г.). «Команда алгоритмов искусственного интеллекта только что сокрушила людей в сложной компьютерной игре» . Технический обзор Массачусетского технологического института . Проверено 25 июня 2018 г.
  26. ^ «Билл Гейтс приветствует «огромную веху» в развитии искусственного интеллекта, поскольку боты работают в команде, чтобы уничтожать людей в видеоигре «Dota 2 » . Бизнес-инсайдер . Архивировано из оригинала 27 июня 2018 года . Проверено 27 июня 2018 г.
  27. ^ «Твиттер Гарри Каспарова» . 24 августа 2018 года . Проверено 24 августа 2018 г.
  28. ^ Парк, Морган (11 августа 2018 г.). «Как OpenAI Five развалила команду профи Dota 2» . ПК-геймер . Проверено 25 мая 2020 г.
  29. ^ Голт, Мэтью (17 августа 2018 г.). «OpenAI побеждает людей в Dota 2, потому что это по сути жульничество» . Порок . Проверено 25 мая 2020 г.
  30. ^ Статт, Ник (30 октября 2019 г.). «ИИ StarCraft 2 от DeepMind теперь лучше, чем у 99,8 процентов всех игроков-людей» . Грань . Проверено 25 мая 2020 г.
  31. ^ ОпенАИ; Андрыхович, Марцин; Бейкер, Боуэн; Чосей, Мацек; Юзефович, Рафал; МакГрю, Боб; Пачоцкий, Якуб; Петрон, Артур; Плапперт, Матиас; Пауэлл, Гленн; Рэй, Алекс; Шнайдер, Йонас; Сидор, Симон; Тобин, Джош; Велиндер, Питер; Венг, Лилиан; Заремба, Войцех (2019). «Обучение ловкому манипулированию руками». arXiv : 1808.00177v5 [ cs.LG ].
  32. ^ ОпенАИ; Аккая, Ильге; Андрыхович, Марцин; Чосей, Мацек; Литвин, Матеуш; МакГрю, Боб; Петрон, Артур; Пайно, Алекс; Плапперт, Матиас; Пауэлл, Гленн; Рибас, Рафаэль (2019). «Сборка кубика Рубика роботизированной рукой». arXiv : 1910.07113v1 [ cs.LG ].

Внешние ссылки [ править ]