Критик распределительного мягкого актера

Distributional Soft Actor Critic (DSAC) — это набор безмодельных алгоритмов обучения с подкреплением вне политики , предназначенных для изучения политик принятия решений или управления в сложных системах с непрерывным пространством действий. ^[1] В отличие от традиционных методов, которые фокусируются исключительно на ожидаемой доходности, алгоритмы DSAC предназначены для изучения распределения Гаусса по стохастической доходности, называемого распределением значений. Такое внимание к изучению гауссовского распределения стоимости заметно уменьшает переоценку стоимости, что, в свою очередь, повышает эффективность политики. Кроме того, распределение значений, полученное с помощью DSAC, также можно использовать для изучения политики с учетом рисков. ^[2]^[3]^[4] С технической точки зрения DSAC, по сути, представляет собой распределительную адаптацию хорошо зарекомендовавшего себя метода мягкого актера-критика (SAC). ^[5]

На сегодняшний день семейство DSAC состоит из двух итераций: исходного DSAC-v1 и его преемника DSAC-T (также известного как DSAC-v2), причем последний демонстрирует превосходные возможности по сравнению с Soft Actor-Critic (SAC) в тестовых задачах Mujoco. . Исходный код DSAC-T можно найти по следующему URL-адресу: Jingliang-Duan/DSAC-T .

Обе итерации были интегрированы в расширенный набор инструментов обучения с подкреплением на базе Pytorch под названием GOPS: ^[6] GOPS (Общее средство решения задач оптимального управления) .

Ссылки [ править ]

^ Дуань, Цзинлян; и др. (2021). «Критик мягкого субъекта распределения: обучение вне политики для устранения ошибок оценки ценности» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584-6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 .
^ Ян, Цисон; и др. (2021). «WCSAC: критик мягкого актера наихудшего случая для обучения с подкреплением с ограничениями безопасности» . АААИ .
^ Ву, Джингда; и др. (2022). «Обучение с подкреплением на основе моделей с учетом неопределенности: методология и применение в автономном вождении» . Транзакции IEEE в интеллектуальных транспортных средствах .
^ Ян, Цисон; и др. (2023). «Обучение с подкреплением, ограниченным безопасностью, с критиком распределительной безопасности» . Машинное обучение .
^ Хаарноя, Туомас; и др. (2018). «Мягкий актер-критик: внеполитическое обучение с глубоким подкреплением с максимальной энтропией со стохастическим актером» . ИКМЛ .
^ Ван, Вэньсюань; и др. (2023). «GOPS: общее решение задач оптимального управления для приложений автономного вождения и промышленного управления» . Коммуникации в транспортных исследованиях .

[1] Дуань, Цзинлян; и др. (2021). «Критик мягкого субъекта распределения: обучение вне политики для устранения ошибок оценки ценности» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584-6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 .

[2] Ян, Цисон; и др. (2021). «WCSAC: критик мягкого актера наихудшего случая для обучения с подкреплением с ограничениями безопасности» . АААИ .

[3] Ву, Джингда; и др. (2022). «Обучение с подкреплением на основе моделей с учетом неопределенности: методология и применение в автономном вождении» . Транзакции IEEE в интеллектуальных транспортных средствах .

[4] Ян, Цисон; и др. (2023). «Обучение с подкреплением, ограниченным безопасностью, с критиком распределительной безопасности» . Машинное обучение .

[5] Хаарноя, Туомас; и др. (2018). «Мягкий актер-критик: внеполитическое обучение с глубоким подкреплением с максимальной энтропией со стохастическим актером» . ИКМЛ .

[6] Ван, Вэньсюань; и др. (2023). «GOPS: общее решение задач оптимального управления для приложений автономного вождения и промышленного управления» . Коммуникации в транспортных исследованиях .

[1]

[2]

[3]

[4]

[5]

[6]