Jump to content

Критик распределительного мягкого актера

Distributional Soft Actor Critic (DSAC) — это набор безмодельных алгоритмов обучения с подкреплением вне политики , предназначенных для изучения политик принятия решений или управления в сложных системах с непрерывным пространством действий. [1] В отличие от традиционных методов, которые фокусируются исключительно на ожидаемой доходности, алгоритмы DSAC предназначены для изучения распределения Гаусса по стохастической доходности, называемого распределением значений. Такое внимание к изучению гауссовского распределения стоимости заметно уменьшает переоценку стоимости, что, в свою очередь, повышает эффективность политики. Кроме того, распределение значений, полученное с помощью DSAC, также можно использовать для изучения политики с учетом рисков. [2] [3] [4] С технической точки зрения DSAC, по сути, представляет собой распределительную адаптацию хорошо зарекомендовавшего себя метода мягкого актера-критика (SAC). [5]

На сегодняшний день семейство DSAC состоит из двух итераций: исходного DSAC-v1 и его преемника DSAC-T (также известного как DSAC-v2), причем последний демонстрирует превосходные возможности по сравнению с Soft Actor-Critic (SAC) в тестовых задачах Mujoco. . Исходный код DSAC-T можно найти по следующему URL-адресу: Jingliang-Duan/DSAC-T .

Обе итерации были интегрированы в расширенный набор инструментов обучения с подкреплением на базе Pytorch под названием GOPS: [6] GOPS (Общее средство решения задач оптимального управления) .

Ссылки [ править ]

  1. ^ Дуань, Цзинлян; и др. (2021). «Критик мягкого субъекта распределения: обучение вне политики для устранения ошибок оценки ценности» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584-6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 .
  2. ^ Ян, Цисон; и др. (2021). «WCSAC: критик мягкого актера наихудшего случая для обучения с подкреплением с ограничениями безопасности» . АААИ .
  3. ^ Ву, Джингда; и др. (2022). «Обучение с подкреплением на основе моделей с учетом неопределенности: методология и применение в автономном вождении» . Транзакции IEEE в интеллектуальных транспортных средствах .
  4. ^ Ян, Цисон; и др. (2023). «Обучение с подкреплением, ограниченным безопасностью, с критиком распределительной безопасности» . Машинное обучение .
  5. ^ Хаарноя, Туомас; и др. (2018). «Мягкий актер-критик: внеполитическое обучение с глубоким подкреплением с максимальной энтропией со стохастическим актером» . ИКМЛ .
  6. ^ Ван, Вэньсюань; и др. (2023). «GOPS: общее решение задач оптимального управления для приложений автономного вождения и промышленного управления» . Коммуникации в транспортных исследованиях .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 638ccb05c95936ba60b4c86a8bd11246__1704068040
URL1:https://arc.ask3.ru/arc/aa/63/46/638ccb05c95936ba60b4c86a8bd11246.html
Заголовок, (Title) документа по адресу, URL1:
Distributional Soft Actor Critic - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)