Состояние-действие-награда-состояние-действие
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Состояние-действие-вознаграждение-состояние-действие ( SARSA ) — это алгоритм изучения марковской политики процесса принятия решений , используемый в с подкреплением области машинного обучения . Это было предложено Раммери и Ниранджаном в технической записке. [ 1 ] под названием «Модифицированное коннекционистское Q-Learning» (MCQ-L). Альтернативное название SARSA, предложенное Ричем Саттоном , было упомянуто лишь в сноске.
Это название отражает тот факт, что основная функция обновления Q-значения зависит от текущего состояния агента « S 1 », действия, которое агент выбирает « A 1 », вознаграждения « R 2 », которое агент получает за этот выбор. действие, состояние « S2 А2 », в которое агент входит после совершения этого действия, и, наконец, следующее действие « » , которое агент выбирает в своем новом состоянии. Акроним пятерки ( S t , A t , R t+1 , St +1 , A t+1 ) — SARSA. [ 2 ] Некоторые авторы используют несколько иное соглашение и записывают пятерку (S t , A t , R t , S t+1 , A t+1 ) в зависимости от того, на каком временном шаге формально назначается награда. В остальной части статьи используется прежнее соглашение.
Алгоритм
[ редактировать ]Агент SARSA взаимодействует со средой и обновляет политику на основе предпринятых действий, поэтому это называется алгоритмом обучения на основе политики . Значение Q для действия состояния обновляется с помощью ошибки, корректируемой скоростью обучения α. Значения Q представляют собой возможное вознаграждение, полученное на следующем временном шаге за выполнение действия a в состоянии s , плюс дисконтированное будущее вознаграждение, полученное в результате наблюдения следующего действия в состоянии.
Уоткина Q-обучение обновляет оценку оптимальной функции значения состояния-действия на основе максимального вознаграждения за доступные действия. В то время как SARSA изучает значения Q, связанные с принятием политики, которой она следует, Q-обучение Уоткина изучает значения Q, связанные с принятием оптимальной политики, при следовании политике исследования/эксплуатации .
Некоторые оптимизации Q-обучения Уоткина могут быть применены к SARSA. [ 3 ]
Гиперпараметры
[ редактировать ]Скорость обучения (альфа)
[ редактировать ]Скорость обучения определяет, в какой степени вновь полученная информация превосходит старую. Коэффициент 0 заставит агента ничего не изучать, а коэффициент 1 заставит агента учитывать только самую свежую информацию.
Коэффициент дисконтирования (гамма)
[ редактировать ]Коэффициент дисконтирования определяет важность будущих вознаграждений. Коэффициент дисконтирования, равный 0, делает агента «оппортунистическим» или «близоруким», например: [ 4 ] принимая во внимание только текущие вознаграждения, в то время как коэффициент, приближающийся к 1, заставит его стремиться к высокому долгосрочному вознаграждению. Если коэффициент дисконтирования равен или превышает 1, значения могут расходиться.
Начальные условия ( Q ( S 0 , A 0 ) )
[ редактировать ]Поскольку SARSA является итеративным алгоритмом, он неявно предполагает начальное состояние до того, как произойдет первое обновление. Высокое (бесконечное) начальное значение, также известное как «оптимистические начальные условия». [ 5 ] может стимулировать исследование: независимо от того, какое действие происходит, правило обновления приводит к тому, что оно имеет более высокие значения, чем другая альтернатива, тем самым увеличивая вероятность их выбора. В 2013 году было предложено назначить первую награду может быть использован для сброса начальных условий. Согласно этой идее, при первом выполнении действия награда используется для установки значения . Это позволяет немедленно обучаться в случае фиксированных детерминированных вознаграждений. Этот подход сброса начальных условий (RIC), по-видимому, согласуется с поведением человека в повторяющихся экспериментах с бинарным выбором. [ 6 ]
См. также
[ редактировать ]- Рабочая память префронтальной коры базальных ганглиев
- Картирование Сампо
- Построение деревьев навыков
- Q-обучение
- Обучение временной разнице
- Обучение с подкреплением
Ссылки
[ редактировать ]- ^ Онлайн-обучение с использованием коннекционистских систем» Руммери и Ниранджана (1994)
- ^ Обучение с подкреплением: Введение Ричард С. Саттон и Эндрю Г. Барто (глава 6.4)
- ^ Виринг, Марко; Шмидхубер, Юрген (1 октября 1998 г.). «Быстрый онлайн Q (λ)» (PDF) . Машинное обучение . 33 (1): 105–115. дои : 10.1023/A:1007562800292 . ISSN 0885-6125 . S2CID 8358530 .
- ^ «Аргументы против близоруких тренировок» . Проверено 17 мая 2023 г.
- ^ «2.7 Оптимистические начальные значения» . incompleteideas.net . Проверено 28 февраля 2018 г.
- ^ Штейнгарт, Х; Нейман, Т; Левенштейн, Ю. (май 2013 г.). «Роль первого впечатления в оперантном обучении» (PDF) . J Exp Psychol Gen. 142 (2): 476–88. дои : 10.1037/a0029550 . ПМИД 22924882 .