Критик распределительного мягкого актера
Distributional Soft Actor Critic (DSAC) — это набор безмодельных алгоритмов обучения с подкреплением вне политики , предназначенных для изучения политик принятия решений или управления в сложных системах с непрерывным пространством действий. [1] В отличие от традиционных методов, которые фокусируются исключительно на ожидаемой доходности, алгоритмы DSAC предназначены для изучения распределения Гаусса по стохастической доходности, называемого распределением значений. Такое внимание к изучению гауссовского распределения стоимости заметно уменьшает переоценку стоимости, что, в свою очередь, повышает эффективность политики. Кроме того, распределение значений, полученное с помощью DSAC, также можно использовать для изучения политики с учетом рисков. [2] [3] [4] С технической точки зрения DSAC, по сути, представляет собой распределительную адаптацию хорошо зарекомендовавшего себя метода мягкого актера-критика (SAC). [5]
На сегодняшний день семейство DSAC состоит из двух итераций: исходного DSAC-v1 и его преемника DSAC-T (также известного как DSAC-v2), причем последний демонстрирует превосходные возможности по сравнению с Soft Actor-Critic (SAC) в тестовых задачах Mujoco. . Исходный код DSAC-T можно найти по следующему URL-адресу: Jingliang-Duan/DSAC-T .
Обе итерации были интегрированы в расширенный набор инструментов обучения с подкреплением на базе Pytorch под названием GOPS: [6] GOPS (Общее средство решения задач оптимального управления) .
Ссылки [ править ]
- ^ Дуань, Цзинлян; и др. (2021). «Критик мягкого субъекта распределения: обучение вне политики для устранения ошибок оценки ценности» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584-6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 .
- ^ Ян, Цисон; и др. (2021). «WCSAC: критик мягкого актера наихудшего случая для обучения с подкреплением с ограничениями безопасности» . АААИ .
- ^ Ву, Джингда; и др. (2022). «Обучение с подкреплением на основе моделей с учетом неопределенности: методология и применение в автономном вождении» . Транзакции IEEE в интеллектуальных транспортных средствах .
- ^ Ян, Цисон; и др. (2023). «Обучение с подкреплением, ограниченным безопасностью, с критиком распределительной безопасности» . Машинное обучение .
- ^ Хаарноя, Туомас; и др. (2018). «Мягкий актер-критик: внеполитическое обучение с глубоким подкреплением с максимальной энтропией со стохастическим актером» . ИКМЛ .
- ^ Ван, Вэньсюань; и др. (2023). «GOPS: общее решение задач оптимального управления для приложений автономного вождения и промышленного управления» . Коммуникации в транспортных исследованиях .