Без моделей (обучение с подкреплением)

В обучении с подкреплением (RL) безмодельный алгоритм (в отличие от алгоритма, основанного на модели ) — это алгоритм, который не оценивает перехода распределение вероятностей (и функцию вознаграждения ), связанное с марковским процессом принятия решений (MDP), ^[1] что в RL представляет собой проблему, которую необходимо решить. Распределение вероятностей перехода (или модель перехода) и функция вознаграждения часто вместе называются «моделью» среды (или MDP), отсюда и название «без модели». Алгоритм RL без модели можно рассматривать как «явный» алгоритм проб и ошибок . ^[1] Типичные примеры безмодельных алгоритмов включают Monte Carlo RL , Sarsa и Q-learning .

В безмодельном обучении с подкреплением оценка Монте-Карло (MC) является центральным компонентом большого класса безмодельных алгоритмов. Алгоритм обучения MC по сути является важной ветвью обобщенной итерации политики, которая состоит из двух периодически чередующихся этапов, а именно: оценки политики (PEV) и улучшения политики (PIM). В этой структуре каждая политика сначала оценивается с помощью соответствующей функции ценности. Затем на основе результата оценки завершается жадный поиск для получения лучшей политики. Оценка MC в основном применяется на первом этапе, т.е. оценке политики. Самая простая идея, т.е. усреднение результатов всех собранных выборок, используется для оценки эффективности текущей политики. По мере накопления большего опыта оценка будет сходиться к истинному значению по закону больших чисел. Следовательно, оценка политики MC не требует каких-либо предварительных знаний о динамике окружающей среды. Вместо этого все, что ему нужно, — это опыт, т. е. образцы состояний, действий и вознаграждений, которые генерируются в результате взаимодействия с реальной средой. ^[2]

Оценка функции ценности имеет решающее значение для безмодельных алгоритмов RL. В отличие от методов Монте-Карло (MC), методы временной разницы (TD) изучают функцию стоимости путем повторного использования существующих оценок значений. Если бы нужно было определить одну идею как центральную и новую для обучения с подкреплением, это, несомненно, была бы временная разница. TD имеет возможность учиться на неполной последовательности событий, не дожидаясь окончательного результата. TD имеет возможность аппроксимировать будущую доходность как функцию текущего состояния. Подобно MC, TD использует опыт только для оценки функции ценности, не имея каких-либо предварительных знаний о динамике окружающей среды. Преимущество TD заключается в том, что он может обновлять функцию значения на основе ее текущей оценки. Таким образом, алгоритмы обучения TD могут обучаться на основе незавершенных эпизодов или продолжающихся задач пошагово, в то время как MC должен реализовываться поэтапно. ^[2]

Алгоритмы обучения без с модели подкреплением

Алгоритмы обучения без модели с подкреплением могут начать с чистого кандидата на политику и достичь сверхчеловеческой производительности во многих сложных задачах, включая игры Atari, StarCraft и Chinese Go. Глубокие нейронные сети ответственны за недавние прорывы в области искусственного интеллекта, и их можно объединить с обучением с подкреплением, чтобы создать что-то поразительное, например, AlphaGo от DeepMind. Основные алгоритмы RL без моделей включают глубокую Q-сеть (DQN), дуэльный DQN, двойной DQN (DDQN), оптимизацию политики доверительного региона (TRPO), оптимизацию проксимальной политики (PPO), асинхронное преимущество субъекта-критика (A3C), глубоко детерминированный. Политический градиент (DDPG), DDPG с двойной задержкой (TD3), мягкий актер-критик (SAC), распределительный мягкий актер-критик (DSAC) и т. д. ^[2] Ниже перечислены некоторые безмодельные алгоритмы, особенно с глубоким обучением.

Алгоритм	Описание	Модель	Политика	Пространство действий	Государственное пространство	Оператор
ДКН	Сеть Deep Q	Без модели	Вне политики	Дискретный	Обычно дискретный или непрерывный	Q-значение
ДДПГ	Глубокий детерминистический политический градиент	Без модели	Вне политики	Непрерывный	Дискретный или непрерывный	Q-значение
А3С	Асинхронный алгоритм «Актор-критик»	Без модели	В соответствии с политикой	Непрерывный	Дискретный или непрерывный	Преимущество
ТРПО	Оптимизация политики доверительного региона	Без модели	В соответствии с политикой	Непрерывный или дискретный	Дискретный или непрерывный	Преимущество
ППО	Оптимизация проксимальной политики	Без модели	В соответствии с политикой	Непрерывный или дискретный	Дискретный или непрерывный	Преимущество
ТД3	Двойной глубокий детерминированный политический градиент с задержкой	Без модели	Вне политики	Непрерывный	Непрерывный	Q-значение
САК	Мягкий актер-критик	Без модели	Вне политики	Непрерывный	Дискретный или непрерывный	Преимущество
ДСАК ^[3]	Распределительный мягкий актер-критик	Без модели	Вне политики	Непрерывный	Непрерывный	Распределение стоимости

Ссылки [ править ]

^ Jump up to: Перейти обратно: ^а ^б Саттон, Ричард С.; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (второе изд.). Книга Брэдфорда. п. 552. ИСБН 0262039249 . Проверено 18 февраля 2019 г.
^ Jump up to: Перейти обратно: ^а ^б ^с Ли, Шэнбо Эбен (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (первое изд.). Спрингер Верлаг, Сингапур. стр. 1–460. дои : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1 . S2CID 257928563 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ Дж Дуань; Ю Гуань; С. Ли (2021). «Распределительный мягкий актер-критик: обучение с подкреплением вне политики для устранения ошибок оценки стоимости» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 . ПМИД 34101599 . S2CID 211259373 .

[sutton2018-1] Jump up to: Перейти обратно: ^а ^б Саттон, Ричард С.; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: Введение (PDF) (второе изд.). Книга Брэдфорда. п. 552. ИСБН 0262039249 . Проверено 18 февраля 2019 г.

[LiS-2023-2] Jump up to: Перейти обратно: ^а ^б ^с Ли, Шэнбо Эбен (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (первое изд.). Спрингер Верлаг, Сингапур. стр. 1–460. дои : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1 . S2CID 257928563 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[3] Дж Дуань; Ю Гуань; С. Ли (2021). «Распределительный мягкий актер-критик: обучение с подкреплением вне политики для устранения ошибок оценки стоимости» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 . ПМИД 34101599 . S2CID 211259373 .

[1]

[2]

[3]