Jump to content

Состояние-действие-награда-состояние-действие

(Перенаправлено с State-Action-Reward-State-Action )

Состояние-действие-вознаграждение-состояние-действие ( SARSA ) — это алгоритм изучения марковской политики процесса принятия решений , используемый в с подкреплением области машинного обучения . Это было предложено Раммери и Ниранджаном в технической записке. [ 1 ] под названием «Модифицированное коннекционистское Q-Learning» (MCQ-L). Альтернативное название SARSA, предложенное Ричем Саттоном , было упомянуто лишь в сноске.

Это название отражает тот факт, что основная функция обновления Q-значения зависит от текущего состояния агента « S 1 », действия, которое агент выбирает « A 1 », вознаграждения « R 2 », которое агент получает за этот выбор. действие, состояние « S2 А2 », в которое агент входит после совершения этого действия, и, наконец, следующее действие « » , которое агент выбирает в своем новом состоянии. Акроним пятерки ( S t , A t , R t+1 , St +1 , A t+1 ) — SARSA. [ 2 ] Некоторые авторы используют несколько иное соглашение и записывают пятерку (S t , A t , R t , S t+1 , A t+1 ) в зависимости от того, на каком временном шаге формально назначается награда. В остальной части статьи используется прежнее соглашение.

Алгоритм

[ редактировать ]

Агент SARSA взаимодействует со средой и обновляет политику на основе предпринятых действий, поэтому это называется алгоритмом обучения на основе политики . Значение Q для действия состояния обновляется с помощью ошибки, корректируемой скоростью обучения α. Значения Q представляют собой возможное вознаграждение, полученное на следующем временном шаге за выполнение действия a в состоянии s , плюс дисконтированное будущее вознаграждение, полученное в результате наблюдения следующего действия в состоянии.

Уоткина Q-обучение обновляет оценку оптимальной функции значения состояния-действия на основе максимального вознаграждения за доступные действия. В то время как SARSA изучает значения Q, связанные с принятием политики, которой она следует, Q-обучение Уоткина изучает значения Q, связанные с принятием оптимальной политики, при следовании политике исследования/эксплуатации .

Некоторые оптимизации Q-обучения Уоткина могут быть применены к SARSA. [ 3 ]

Гиперпараметры

[ редактировать ]

Скорость обучения (альфа)

[ редактировать ]

Скорость обучения определяет, в какой степени вновь полученная информация превосходит старую. Коэффициент 0 заставит агента ничего не изучать, а коэффициент 1 заставит агента учитывать только самую свежую информацию.

Коэффициент дисконтирования (гамма)

[ редактировать ]

Коэффициент дисконтирования определяет важность будущих вознаграждений. Коэффициент дисконтирования, равный 0, делает агента «оппортунистическим» или «близоруким», например: [ 4 ] принимая во внимание только текущие вознаграждения, в то время как коэффициент, приближающийся к 1, заставит его стремиться к высокому долгосрочному вознаграждению. Если коэффициент дисконтирования равен или превышает 1, значения могут расходиться.

Начальные условия ( Q ( S 0 , A 0 ) )

[ редактировать ]

Поскольку SARSA является итеративным алгоритмом, он неявно предполагает начальное состояние до того, как произойдет первое обновление. Высокое (бесконечное) начальное значение, также известное как «оптимистические начальные условия». [ 5 ] может стимулировать исследование: независимо от того, какое действие происходит, правило обновления приводит к тому, что оно имеет более высокие значения, чем другая альтернатива, тем самым увеличивая вероятность их выбора. В 2013 году было предложено назначить первую награду может быть использован для сброса начальных условий. Согласно этой идее, при первом выполнении действия награда используется для установки значения . Это позволяет немедленно обучаться в случае фиксированных детерминированных вознаграждений. Этот подход сброса начальных условий (RIC), по-видимому, согласуется с поведением человека в повторяющихся экспериментах с бинарным выбором. [ 6 ]

См. также

[ редактировать ]
  1. ^ Онлайн-обучение с использованием коннекционистских систем» Руммери и Ниранджана (1994)
  2. ^ Обучение с подкреплением: Введение Ричард С. Саттон и Эндрю Г. Барто (глава 6.4)
  3. ^ Виринг, Марко; Шмидхубер, Юрген (1 октября 1998 г.). «Быстрый онлайн Q (λ)» (PDF) . Машинное обучение . 33 (1): 105–115. дои : 10.1023/A:1007562800292 . ISSN   0885-6125 . S2CID   8358530 .
  4. ^ «Аргументы против близоруких тренировок» . Проверено 17 мая 2023 г.
  5. ^ «2.7 Оптимистические начальные значения» . incompleteideas.net . Проверено 28 февраля 2018 г.
  6. ^ Штейнгарт, Х; Нейман, Т; Левенштейн, Ю. (май 2013 г.). «Роль первого впечатления в оперантном обучении» (PDF) . J Exp Psychol Gen. 142 (2): 476–88. дои : 10.1037/a0029550 . ПМИД   22924882 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c2d82a1e8df3cfe5629140e21e728edb__1721388300
URL1:https://arc.ask3.ru/arc/aa/c2/db/c2d82a1e8df3cfe5629140e21e728edb.html
Заголовок, (Title) документа по адресу, URL1:
State–action–reward–state–action - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)