Глубокое обучение с подкреплением

Глубокое обучение с подкреплением ( deep RL ) — это подобласть машинного обучения , сочетающая в себе обучение с подкреплением (RL) и глубокое обучение . RL рассматривает проблему обучения вычислительного агента принимать решения методом проб и ошибок. Deep RL включает в решение глубокое обучение, позволяя агентам принимать решения на основе неструктурированных входных данных без ручного проектирования пространства состояний . Алгоритмы глубокого RL способны принимать очень большие входные данные (например, каждый пиксель, отображаемый на экране в видеоигре) и решать, какие действия следует выполнить для оптимизации цели (например, максимизации очков в игре). Глубокое обучение с подкреплением использовалось для широкого круга приложений, включая, помимо прочего, робототехнику , видеоигры , обработку естественного языка , компьютерное зрение , ^[1] образование, транспорт, финансы и здравоохранение . ^[2]

Обзор [ править ]

Глубокое обучение [ править ]

Глубокое обучение — это форма машинного обучения , которая использует нейронную сеть для преобразования набора входных данных в набор выходных данных с помощью искусственной нейронной сети . Было показано, что методы глубокого обучения, часто использующие контролируемое обучение с помеченными наборами данных, решают задачи, связанные с обработкой сложных, многомерных необработанных входных данных (например, изображений) с меньшим количеством ручного проектирования функций , чем предыдущие методы, что обеспечивает значительный прогресс в нескольких областях, включая компьютерное зрение и обработка естественного языка . За последнее десятилетие глубокое RL добилось замечательных результатов в решении целого ряда задач: от однопользовательских и многопользовательских игр, таких как Go , Atari Games и Dota 2 , до робототехники. ^[3]

Обучение с подкреплением [ править ]

Обучение с подкреплением — это процесс, в котором агент учится принимать решения методом проб и ошибок. Эту проблему часто моделируют математически как марковский процесс принятия решений (MDP), где агент на каждом временном шаге находится в состоянии $s$ , принимает меры $a$ , получает скалярное вознаграждение и переходит в следующее состояние $s'$ в зависимости от динамики окружающей среды $p(s'|s,a)$ . Агент пытается изучить политику $\pi (a|s)$ или сопоставить наблюдения с действиями, чтобы максимизировать отдачу (ожидаемую сумму вознаграждений). При обучении с подкреплением (в отличие от оптимального управления ) алгоритм имеет доступ только к динамике. $p(s'|s,a)$ посредством выборки.

обучение подкреплением Глубокое с

Во многих практических задачах принятия решений государства $s$ MDP являются многомерными (например, изображения с камеры или необработанный поток датчиков робота) и не могут быть решены с помощью традиционных алгоритмов RL. Алгоритмы глубокого обучения с подкреплением включают глубокое обучение для решения таких MDP, часто представляющих политику $\pi (a|s)$ или другие изученные функции в виде нейронной сети и разработку специализированных алгоритмов, которые хорошо работают в этих условиях.

История [ править ]

Наряду с ростом интереса к нейронным сетям, начиная с середины 1980-х годов, вырос интерес к глубокому обучению с подкреплением, где нейронная сеть используется в обучении с подкреплением для представления политик или функций оценки. Поскольку в такой системе весь процесс принятия решений от датчиков до двигателей в роботе или агенте включает одну нейронную сеть , его также иногда называют сквозным обучением с подкреплением. ^[4] Одним из первых успешных применений обучения с подкреплением с помощью нейронных сетей стала TD-Gammon — компьютерная программа, разработанная в 1992 году для игры в нарды . ^[5] Четыре входа использовались для количества фигур данного цвета в заданном месте на доске, всего 198 входных сигналов. Имея нулевые встроенные знания, сеть научилась играть в игру на среднем уровне путем самостоятельной игры и TD( $\lambda$ ) .

Основополагающие учебники Саттона и Барто по обучению с подкреплением, ^[6] Берцекас и Цитиклис о нейродинамическом программировании, ^[7] и другие ^[8] передовые знания и интерес к данной области.

Группа Кацунари Сибаты показала, что в этой структуре возникают различные функции: ^[9]^[10]^[11] включая распознавание изображений, постоянство цвета, движение сенсора (активное распознавание), координацию рук и глаз и движение рук, объяснение деятельности мозга, передачу знаний, память, ^[12] избирательное внимание, предсказание и исследование. ^[10]^[13]

Примерно с 2012 года так называемая революция глубокого обучения привела к возросшему интересу к использованию глубоких нейронных сетей в качестве аппроксиматоров функций в различных областях. Это привело к возобновлению интереса к исследователям, использующим глубокие нейронные сети для изучения политики, ценности и/или Q-функций, присутствующих в существующих алгоритмах обучения с подкреплением.

Примерно начиная с 2013 года DeepMind продемонстрировала впечатляющие результаты обучения, используя глубокое RL для Atari . видеоигр ^[14]^[15] Компьютерного игрока обучала нейронная сеть с использованием алгоритма глубокого RL, глубокой версии Q-обучения , которую они назвали глубокими Q-сетями (DQN), с наградой за игровой счет. Они использовали глубокую сверточную нейронную сеть для обработки 4 кадров RGB-пикселей (84x84) в качестве входных данных. Все 49 игр были изучены с использованием одной и той же сетевой архитектуры и с минимальными предварительными знаниями, превосходя конкурирующие методы почти во всех играх и работая на уровне, сравнимом или превосходящем уровень профессионального тестировщика игр-человека. ^[15]

Глубокое обучение с подкреплением достигло еще одной вехи в 2015 году, когда AlphaGo , ^[16] Компьютерная программа, обученная с помощью глубокого RL для игры в Го , стала первой компьютерной программой Го, которая обыграла профессионального игрока в Го без каких-либо препятствий на полноразмерной доске 19×19.В последующем проекте в 2017 году AlphaZero улучшила производительность в игре Го, а также продемонстрировала, что они могут использовать тот же алгоритм для обучения игре в шахматы и сёги на уровне, конкурентоспособном или превосходящем существующие компьютерные программы для этих игр, и снова улучшилась в 2019 году с MuZero . ^[17] Еще одна веха была достигнута исследователями из Университета Карнеги-Меллона в 2019 году, разработав Pluribus , компьютерную программу для игры в покер , которая первой обыграла профессионалов в многопользовательских играх в безлимитный техасский холдем . OpenAI Five , программа для игры в Dota 2 пять на пять , обыграла предыдущих чемпионов мира в демонстрационном матче 2019 года.

Глубокое обучение с подкреплением также применяется во многих областях, помимо игр. В робототехнике его использовали, чтобы позволить роботам выполнять простые домашние задачи. ^[18] и собрать кубик Рубика с помощью руки робота. ^[19]^[20] Deep RL также нашел приложения для обеспечения устойчивого развития, используемые для снижения энергопотребления в центрах обработки данных. ^[21] Deep RL для автономного вождения — это активная область исследований в академических кругах и промышленности. ^[22] Loon исследовал глубокие RL для автономной навигации своих высотных воздушных шаров. ^[23]

Алгоритмы [ править ]

Существуют различные методы обучения политик решению задач с помощью алгоритмов глубокого обучения с подкреплением, каждый из которых имеет свои преимущества. На самом высоком уровне существует различие между обучением с подкреплением на основе модели и без модели, которое относится к тому, пытается ли алгоритм изучить прямую модель динамики окружающей среды.

В алгоритмах глубокого обучения с подкреплением, основанных на моделях , оценивается прямая модель динамики окружающей среды, обычно путем контролируемого обучения с использованием нейронной сети. Затем действия получаются с помощью прогнозного управления моделью с использованием изученной модели. Поскольку истинная динамика окружающей среды обычно отличается от изученной динамики, агент часто меняет планы при выполнении действий в окружающей среде. Выбранные действия можно оптимизировать с помощью методов Монте-Карло, таких как метод перекрестной энтропии , или комбинации модельного обучения с безмодельными методами.

В безмодельных алгоритмах глубокого обучения с подкреплением политика $\pi (a|s)$ изучается без явного моделирования прямой динамики. Политику можно оптимизировать для максимизации прибыли путем прямой оценки градиента политики. ^[24] но страдает от высокой дисперсии, что делает его непрактичным для использования с аппроксимацией функций в глубоком RL. Последующие алгоритмы были разработаны для более стабильного обучения и широко применяются. ^[25]^[26] Другой класс безмодельных алгоритмов глубокого обучения с подкреплением основан на динамическом программировании , вдохновленном обучением с временными разностями и Q-обучением . В пространствах дискретных действий эти алгоритмы обычно изучают Q-функцию нейронной сети. $Q(s,a)$ который оценивает будущие доходы, принимая меры $a$ из штата $s$ . ^[14] В непрерывных пространствах эти алгоритмы часто изучают как оценку стоимости, так и политику. ^[27]^[28]^[29]

Исследования [ править ]

Глубокое обучение с подкреплением — это активная область исследований, имеющая несколько направлений.

Исследование [ править ]

Агент RL должен сбалансировать компромисс между исследованием и эксплуатацией: проблема принятия решения о том, следует ли выполнять действия, которые, как уже известно, приносят высокие награды, или исследовать другие действия, чтобы обнаружить более высокие награды. Агенты RL обычно собирают данные с помощью какой-либо стохастической политики, такой как распределение Больцмана в пространствах дискретных действий или распределение Гаусса в пространствах непрерывных действий, вызывая базовое исследовательское поведение. Идея исследования, основанного на новизне или движимого любопытством, дает агенту мотив исследовать неизвестные результаты, чтобы найти лучшие решения. Это делается путем «изменения функции потерь (или даже сетевой архитектуры) путем добавления условий, стимулирующих исследование». ^[30] Агенту также можно помочь в исследовании, используя демонстрацию успешных траекторий или формирование вознаграждения, предоставляя агенту промежуточные вознаграждения, настроенные в соответствии с задачей, которую он пытается выполнить. ^[31]

подкреплением вне политики с Обучение

Важным различием в RL является разница между алгоритмами, основанными на политике, которые требуют оценки или улучшения политики, которая собирает данные, и алгоритмами, не связанными с политикой, которые могут изучать политику на основе данных, сгенерированных произвольной политикой. Как правило, методы, основанные на функции ценности, такие как Q-обучение , лучше подходят для обучения вне политики и имеют более высокую эффективность выборки — объем данных, необходимых для изучения задачи, уменьшается, поскольку данные повторно используются для обучения. В крайнем случае, автономное (или «пакетное») RL предполагает изучение политики на основе фиксированного набора данных без дополнительного взаимодействия с окружающей средой.

Обучение обратным с подкреплением

Обратный RL относится к выводу функции вознаграждения агента с учетом его поведения. Обратное обучение с подкреплением можно использовать для обучения на демонстрациях (или обучения в рамках ученичества ), делая вывод о вознаграждении демонстратора и затем оптимизируя политику для максимизации отдачи с помощью RL. Подходы глубокого обучения использовались для различных форм имитационного обучения и обратного RL. ^[32]

целью обусловленным с подкреплением , Обучение

Еще одна активная область исследований — изучение политики, обусловленной целями, также называемой контекстной или универсальной политикой. $\pi (a|s,g)$ которые включают дополнительную цель $g$ в качестве входных данных для сообщения агенту желаемой цели. ^[33] Воспроизведение ретроспективного опыта — это метод целенаправленного RL, который включает в себя хранение и изучение предыдущих неудачных попыток выполнить задачу. ^[34] Хотя неудачная попытка, возможно, и не привела к намеченной цели, она может послужить уроком того, как достичь непредвиденного результата путем ретроспективного изменения ярлыков.

Мультиагентное подкреплением с обучение

Во многих приложениях обучения с подкреплением используется не один агент, а скорее совокупность агентов, которые учатся вместе и совместно адаптируются. Эти агенты могут быть конкурентными, как во многих играх, или кооперативными, как во многих реальных многоагентных системах. Мультиагентное обучение с подкреплением изучает проблемы, возникающие в этой ситуации.

Обобщение [ править ]

Перспективой использования инструментов глубокого обучения в обучении с подкреплением является обобщение: способность правильно работать с ранее невидимыми входными данными. Например, нейронные сети, обученные распознаванию изображений, могут распознавать, что на изображении изображена птица, даже если они никогда не видели это конкретное изображение или даже эту конкретную птицу. Поскольку глубокое RL позволяет использовать необработанные данные (например, пиксели) в качестве входных данных, снижается необходимость в предварительном определении среды, что позволяет обобщить модель для нескольких приложений. Благодаря этому уровню абстракции алгоритмы глубокого обучения с подкреплением могут быть разработаны таким образом, чтобы они были общими и одна и та же модель могла использоваться для разных задач. ^[35] Одним из методов повышения способности политик, обученных с помощью политик глубокого RL, к обобщению является включение обучения представлению .

Ссылки [ править ]

^ Ле, Нган; Ратур, Видхивар Сингх; Ямадзаки, Касю; Луу, Хоа; Саввидес, Мариос (01 апреля 2022 г.). «Глубокое обучение с подкреплением в компьютерном зрении: комплексный обзор» . Обзор искусственного интеллекта . 55 (4): 2733–2819. arXiv : 2108.11510 . дои : 10.1007/s10462-021-10061-9 . ISSN 1573-7462 .
^ Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Бельмар, Марк Г.; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Бибкод : 2018arXiv181112560F . дои : 10.1561/2200000071 . ISSN 1935-8237 . S2CID 54434537 .
^ Грассер, Лаура. «Основы глубокого обучения с подкреплением: теория и практика Python» . Открытая библиотека Телкомского университета . Проверено 1 июля 2023 г.
^ Демис, Хассабис (11 марта 2016 г.). Искусственный интеллект и будущее (Речь).
^ Тезауро, Джеральд (март 1995 г.). «Обучение с временными различиями и TD-гаммон» . Коммуникации АКМ . 38 (3): 58–68. дои : 10.1145/203330.203343 . S2CID 8763243 . Архивировано из оригинала 9 февраля 2010 г. Проверено 10 марта 2017 г.
^ Саттон, Ричард; Барто, Эндрю (сентябрь 1996 г.). Обучение с подкреплением: Введение . Афина Сайентифик.
^ Берцекас, Джон; Цициклис, Дмитрий (сентябрь 1996 г.). Нейродинамическое программирование . Афина Сайентифик. ISBN 1-886529-10-8 .
^ Миллер, В. Томас; Вербос, Пол; Саттон, Ричард (1990). Нейронные сети для управления .
^ Сибата, Кацунари; Окабе, Ёичи (1997). Обучение с подкреплением, когда зрительные сенсорные сигналы напрямую подаются в качестве входных данных (PDF) . Международная конференция по нейронным сетям (ICNN), 1997 г. Архивировано из оригинала (PDF) 9 декабря 2020 г. Проверено 1 декабря 2020 г.
^ Jump up to: ^а ^б Сибата, Кацунари; Иида, Масару (2003). Освоение толкания ящиков с помощью обучения с подкреплением на основе прямого зрения (PDF) . Ежегодная конференция SICE 2003. Архивировано из оригинала (PDF) 9 декабря 2020 г. Проверено 1 декабря 2020 г.
^ Сибата, Кацунари (7 марта 2017 г.). «Функции, возникающие в результате сквозного обучения с подкреплением». arXiv : 1703.02239 [ cs.AI ].
^ Уцуномия, Хироки; Сибата, Кацунари (2008). Контекстное поведение и внутренние представления, полученные в результате обучения с подкреплением с помощью рекуррентной нейронной сети в задаче с непрерывным состоянием и пространством действий (PDF) . Международная конференция по нейронной обработке информации (ICONIP) '08. Архивировано из оригинала (PDF) 10 августа 2017 г. Проверено 14 декабря 2020 г.
^ Сибата, Кацунари; Кавано, Томохико (2008). Обучение генерации действий на основе необработанных изображений с камеры в реальной среде путем простого сочетания обучения с подкреплением и нейронной сети (PDF) . Международная конференция по нейронной обработке информации (ICONIP) '08. Архивировано из оригинала (PDF) 11 декабря 2020 г. Проверено 1 декабря 2020 г.
^ Jump up to: ^а ^б Мних, Владимир; и др. (декабрь 2013 г.). Игра в Atari с глубоким обучением с подкреплением (PDF) . Семинар NIPS по глубокому обучению 2013.
^ Jump up to: ^а ^б Мних, Владимир; и др. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M . дои : 10.1038/nature14236 . ПМИД 25719670 . S2CID 205242740 .
^ Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нэм, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грепель, Торе; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S . дои : 10.1038/nature16961 . ISSN 0028-0836 . ПМИД 26819042 . S2CID 515925 .
^ Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти; Сильвер, Дэвид (23 декабря 2020 г.). «Освоение Atari, Go, шахмат и сёги путем планирования с использованием изученной модели» . Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .
^ Левин, Сергей; Финн, Челси ; Даррелл, Тревор; Аббель, Питер (январь 2016 г.). «Сквозное обучение глубокой зрительно-моторной политике» (PDF) . JMLR . 17 . arXiv : 1504.00702 .
^ «OpenAI — сборка кубика Рубика с помощью руки робота» . ОпенАИ .
^ ОпенАИ; и др. (2019). Сборка кубика Рубика роботизированной рукой . arXiv : 1910.07113 .
^ «DeepMind AI сокращает расходы на охлаждение центров обработки данных Google на 40%» . ДипМайнд .
^ «Семинар по машинному обучению для автономного вождения на NeurIPS 2021» . НейрИПС 2021 . Декабрь 2021.
^ Бельмар, Марк; Кандидо, Сальваторе; Кастро, Пабло; Гонг, Цзюнь; Мачадо, Марлос; Мойтра, Субходип; Понда, Самира; Ван, Зию (2 декабря 2020 г.). «Автономная навигация стратосферных шаров с использованием обучения с подкреплением» . Природа . 588 (7836): 77–82. Бибкод : 2020Natur.588...77B . дои : 10.1038/s41586-020-2939-8 . PMID 33268863 . S2CID 227260253 .
^ Уильямс, Рональд Дж (1992). «Простые статистические алгоритмы следования градиенту для коннекционистского обучения с подкреплением» . Машинное обучение . 8 (3–4): 229–256. дои : 10.1007/BF00992696 . S2CID 2332513 .
^ Шульман, Джон; Левин, Сергей; Мориц, Филипп; Джордан, Майкл; Аббель, Питер (2015). Оптимизация политики доверительного региона . Международная конференция по машинному обучению (ICML). arXiv : 1502.05477 .
^ Шульман, Джон; Вольский, Филип; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). Алгоритмы оптимизации проксимальной политики . arXiv : 1707.06347 .
^ Лилликрап, Тимоти; Хант, Джонатан; Притцель, Александр; Хесс, Николас; Эрез, Том; Тасса, Юваль; Сильвер, Дэвид; Виерстра, Даан (2016). Непрерывный контроль с глубоким обучением с подкреплением . Международная конференция по обучению представлений (ICLR). arXiv : 1509.02971 .
^ Мних, Владимир; Пуигдоменек Бадия, Адрия; Мирзи, Мехди; Грейвс, Алекс; Харли, Тим; Лилликрап, Тимоти; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). Асинхронные методы глубокого обучения с подкреплением . Международная конференция по машинному обучению (ICML). arXiv : 1602.01783 .
^ Хаарноя, Туомас; Чжоу, Аурик; Левин, Сергей; Аббель, Питер (2018). Мягкий актер-критик: внеполитическое обучение с максимальной энтропией и глубоким подкреплением со стохастическим актером . Международная конференция по машинному обучению (ICML). arXiv : 1801.01290 .
^ Райзингер, Патрик; Семеней, Мартон (23 октября 2019 г.). «Исследование, основанное на любопытстве, в области глубокого обучения с подкреплением». ICASSP 2020–2020 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) . стр. 3542–3546. arXiv : 1910.10840 . дои : 10.1109/ICASSP40776.2020.9054546 . ISBN 978-1-5090-6631-5 . S2CID 204852215 .
^ Вевиора, Эрик (2010), «Формирование вознаграждения» , Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 863–865, doi : 10.1007/978-0-387-30164-8_731 , ISBN 978-0-387-30164-8 , получено 16 ноября 2020 г.
^ Вульфмайер, Маркус; Ондрушка, Питер; Познер, Ингмар (2015). «Глубокое обратное обучение с максимальной энтропией». arXiv : 1507.04888 [ cs.LG ].
^ Шауль, Том; Хорган, Дэниел; Грегор, Кароль; Сильвер, Дэвид (2015). Универсальные аппроксиматоры функций значения . Международная конференция по машинному обучению (ICML).
^ Андрыхович, Марцин; Вольский, Филип; Рэй, Алекс; Шнайдер, Йонас; Фонг, Рэйчел; Велиндер, Питер; МакГрю, Боб; Тобин, Джош; Аббель, Питер; Заремба, Войцех (2018). Повтор ретроспективного опыта . Достижения в области нейронных систем обработки информации (NeurIPS). arXiv : 1707.01495 .
^ Пакер, Чарльз; Гао, Кейтлин; Кос, Джерней; Креэнбюль, Филипп; Колтун, Владлен; Песня, Рассвет (15 марта 2019 г.). «Оценка обобщения в глубоком обучении с подкреплением». arXiv : 1810.12282 [ cs.LG ].

[1] Ле, Нган; Ратур, Видхивар Сингх; Ямадзаки, Касю; Луу, Хоа; Саввидес, Мариос (01 апреля 2022 г.). «Глубокое обучение с подкреплением в компьютерном зрении: комплексный обзор» . Обзор искусственного интеллекта . 55 (4): 2733–2819. arXiv : 2108.11510 . дои : 10.1007/s10462-021-10061-9 . ISSN 1573-7462 .

[francoislavet2018-2] Франсуа-Лаве, Винсент; Хендерсон, Питер; Ислам, Риашат; Бельмар, Марк Г.; Пино, Жоэль (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Бибкод : 2018arXiv181112560F . дои : 10.1561/2200000071 . ISSN 1935-8237 . S2CID 54434537 .

[3] Грассер, Лаура. «Основы глубокого обучения с подкреплением: теория и практика Python» . Открытая библиотека Телкомского университета . Проверено 1 июля 2023 г.

[Hassabis-4] Демис, Хассабис (11 марта 2016 г.). Искусственный интеллект и будущее (Речь).

[TD-Gammon-5] Тезауро, Джеральд (март 1995 г.). «Обучение с временными различиями и TD-гаммон» . Коммуникации АКМ . 38 (3): 58–68. дои : 10.1145/203330.203343 . S2CID 8763243 . Архивировано из оригинала 9 февраля 2010 г. Проверено 10 марта 2017 г.

[sutton1996-6] Саттон, Ричард; Барто, Эндрю (сентябрь 1996 г.). Обучение с подкреплением: Введение . Афина Сайентифик.

[tsitsiklis1996-7] Берцекас, Джон; Цициклис, Дмитрий (сентябрь 1996 г.). Нейродинамическое программирование . Афина Сайентифик. ISBN 1-886529-10-8 .

[miller1990-8] Миллер, В. Томас; Вербос, Пол; Саттон, Ричард (1990). Нейронные сети для управления .

[Shibata3-9] Сибата, Кацунари; Окабе, Ёичи (1997). Обучение с подкреплением, когда зрительные сенсорные сигналы напрямую подаются в качестве входных данных (PDF) . Международная конференция по нейронным сетям (ICNN), 1997 г. Архивировано из оригинала (PDF) 9 декабря 2020 г. Проверено 1 декабря 2020 г.

[Shibata4-10] Jump up to: ^а ^б Сибата, Кацунари; Иида, Масару (2003). Освоение толкания ящиков с помощью обучения с подкреплением на основе прямого зрения (PDF) . Ежегодная конференция SICE 2003. Архивировано из оригинала (PDF) 9 декабря 2020 г. Проверено 1 декабря 2020 г.

[Shibata2-11] Сибата, Кацунари (7 марта 2017 г.). «Функции, возникающие в результате сквозного обучения с подкреплением». arXiv : 1703.02239 [ cs.AI ].

[Shibata5-12] Уцуномия, Хироки; Сибата, Кацунари (2008). Контекстное поведение и внутренние представления, полученные в результате обучения с подкреплением с помощью рекуррентной нейронной сети в задаче с непрерывным состоянием и пространством действий (PDF) . Международная конференция по нейронной обработке информации (ICONIP) '08. Архивировано из оригинала (PDF) 10 августа 2017 г. Проверено 14 декабря 2020 г.

[Shibata6-13] Сибата, Кацунари; Кавано, Томохико (2008). Обучение генерации действий на основе необработанных изображений с камеры в реальной среде путем простого сочетания обучения с подкреплением и нейронной сети (PDF) . Международная конференция по нейронной обработке информации (ICONIP) '08. Архивировано из оригинала (PDF) 11 декабря 2020 г. Проверено 1 декабря 2020 г.

[DQN1-14] Jump up to: ^а ^б Мних, Владимир; и др. (декабрь 2013 г.). Игра в Atari с глубоким обучением с подкреплением (PDF) . Семинар NIPS по глубокому обучению 2013.

[DQN2-15] Jump up to: ^а ^б Мних, Владимир; и др. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M . дои : 10.1038/nature14236 . ПМИД 25719670 . S2CID 205242740 .

[AlphaGo-16] Сильвер, Дэвид ; Хуанг, Аджа ; Мэддисон, Крис Дж.; Гез, Артур; Сифре, Лоран; Дрессе, Джордж ван ден; Шритвизер, Джулиан; Антоноглу, Иоаннис; Паннеершелвам, Веда; Ланкто, Марк; Дилеман, Сандер; Греве, Доминик; Нэм, Джон; Кальхбреннер, Нал; Суцкевер, Илья ; Лилликрап, Тимоти; Лич, Мадлен; Кавукчуоглу, Корай; Грепель, Торе; Хассабис, Демис (28 января 2016 г.). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву». Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S . дои : 10.1038/nature16961 . ISSN 0028-0836 . ПМИД 26819042 . S2CID 515925 .

[muzero-17] Шритвизер, Джулиан; Антоноглу, Иоаннис; Юбер, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грепель, Торе; Лилликрап, Тимоти; Сильвер, Дэвид (23 декабря 2020 г.). «Освоение Atari, Go, шахмат и сёги путем планирования с использованием изученной модели» . Природа . 588 (7839): 604–609. arXiv : 1911.08265 . Бибкод : 2020Natur.588..604S . дои : 10.1038/s41586-020-03051-4 . ПМИД 33361790 . S2CID 208158225 .

[levine2016-18] Левин, Сергей; Финн, Челси ; Даррелл, Тревор; Аббель, Питер (январь 2016 г.). «Сквозное обучение глубокой зрительно-моторной политике» (PDF) . JMLR . 17 . arXiv : 1504.00702 .

[openaihand-19] «OpenAI — сборка кубика Рубика с помощью руки робота» . ОпенАИ .

[openaihandarxiv-20] ОпенАИ; и др. (2019). Сборка кубика Рубика роботизированной рукой . arXiv : 1910.07113 .

[deepmindcooling-21] «DeepMind AI сокращает расходы на охлаждение центров обработки данных Google на 40%» . ДипМайнд .

[neurips2021ml4ad-22] «Семинар по машинному обучению для автономного вождения на NeurIPS 2021» . НейрИПС 2021 . Декабрь 2021.

[loonrl-23] Бельмар, Марк; Кандидо, Сальваторе; Кастро, Пабло; Гонг, Цзюнь; Мачадо, Марлос; Мойтра, Субходип; Понда, Самира; Ван, Зию (2 декабря 2020 г.). «Автономная навигация стратосферных шаров с использованием обучения с подкреплением» . Природа . 588 (7836): 77–82. Бибкод : 2020Natur.588...77B . дои : 10.1038/s41586-020-2939-8 . PMID 33268863 . S2CID 227260253 .

[williams1992-24] Уильямс, Рональд Дж (1992). «Простые статистические алгоритмы следования градиенту для коннекционистского обучения с подкреплением» . Машинное обучение . 8 (3–4): 229–256. дои : 10.1007/BF00992696 . S2CID 2332513 .

[schulman2015trpo-25] Шульман, Джон; Левин, Сергей; Мориц, Филипп; Джордан, Майкл; Аббель, Питер (2015). Оптимизация политики доверительного региона . Международная конференция по машинному обучению (ICML). arXiv : 1502.05477 .

[schulman2017ppo-26] Шульман, Джон; Вольский, Филип; Дхаривал, Прафулла; Рэдфорд, Алек; Климов, Олег (2017). Алгоритмы оптимизации проксимальной политики . arXiv : 1707.06347 .

[lillicrap2015ddpg-27] Лилликрап, Тимоти; Хант, Джонатан; Притцель, Александр; Хесс, Николас; Эрез, Том; Тасса, Юваль; Сильвер, Дэвид; Виерстра, Даан (2016). Непрерывный контроль с глубоким обучением с подкреплением . Международная конференция по обучению представлений (ICLR). arXiv : 1509.02971 .

[mnih2016a3c-28] Мних, Владимир; Пуигдоменек Бадия, Адрия; Мирзи, Мехди; Грейвс, Алекс; Харли, Тим; Лилликрап, Тимоти; Сильвер, Дэвид; Кавукчуоглу, Корай (2016). Асинхронные методы глубокого обучения с подкреплением . Международная конференция по машинному обучению (ICML). arXiv : 1602.01783 .

[haarnoja2018sac-29] Хаарноя, Туомас; Чжоу, Аурик; Левин, Сергей; Аббель, Питер (2018). Мягкий актер-критик: внеполитическое обучение с максимальной энтропией и глубоким подкреплением со стохастическим актером . Международная конференция по машинному обучению (ICML). arXiv : 1801.01290 .

[30] Райзингер, Патрик; Семеней, Мартон (23 октября 2019 г.). «Исследование, основанное на любопытстве, в области глубокого обучения с подкреплением». ICASSP 2020–2020 Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) . стр. 3542–3546. arXiv : 1910.10840 . дои : 10.1109/ICASSP40776.2020.9054546 . ISBN 978-1-5090-6631-5 . S2CID 204852215 .

[31] Вевиора, Эрик (2010), «Формирование вознаграждения» , Саммут, Клод; Уэбб, Джеффри И. (ред.), Энциклопедия машинного обучения , Бостон, Массачусетс: Springer US, стр. 863–865, doi : 10.1007/978-0-387-30164-8_731 , ISBN 978-0-387-30164-8 , получено 16 ноября 2020 г.

[deepirl-32] Вульфмайер, Маркус; Ондрушка, Питер; Познер, Ингмар (2015). «Глубокое обратное обучение с максимальной энтропией». arXiv : 1507.04888 [ cs.LG ].

[schaul2015uva-33] Шауль, Том; Хорган, Дэниел; Грегор, Кароль; Сильвер, Дэвид (2015). Универсальные аппроксиматоры функций значения . Международная конференция по машинному обучению (ICML).

[andrychowicz2017her-34] Андрыхович, Марцин; Вольский, Филип; Рэй, Алекс; Шнайдер, Йонас; Фонг, Рэйчел; Велиндер, Питер; МакГрю, Боб; Тобин, Джош; Аббель, Питер; Заремба, Войцех (2018). Повтор ретроспективного опыта . Достижения в области нейронных систем обработки информации (NeurIPS). arXiv : 1707.01495 .

[packer2019-35] Пакер, Чарльз; Гао, Кейтлин; Кос, Джерней; Креэнбюль, Филипп; Колтун, Владлен; Песня, Рассвет (15 марта 2019 г.). «Оценка обобщения в глубоком обучении с подкреплением». arXiv : 1810.12282 [ cs.LG ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]