Обучение временной разнице

временной разнице ( TD ) Обучение относится к классу без модели методов обучения с подкреплением , которые обучаются путем начальной загрузки из текущей оценки функции значения. Эти методы выбирают данные из окружающей среды, например методы Монте-Карло , и выполняют обновления на основе текущих оценок, как методы динамического программирования . ^[1]

В то время как методы Монте-Карло корректируют свои оценки только после того, как становится известен окончательный результат, методы TD корректируют прогнозы, чтобы они соответствовали более поздним, более точным прогнозам о будущем, прежде чем станет известен окончательный результат. ^[2] Это форма начальной загрузки , как показано в следующем примере:

Предположим, вы хотите спрогнозировать погоду на субботу и у вас есть некоторая модель, которая предсказывает погоду на субботу, учитывая погоду каждого дня недели. В стандартном случае вам придется подождать до субботы, а затем настроить все свои модели. Однако, когда, например, пятница, вы должны иметь довольно хорошее представление о том, какая погода будет в субботу, и, таким образом, иметь возможность изменить, скажем, субботнюю модель до наступления субботы. ^[2]

Методы временных различий связаны с моделью временных различий в обучении животных . ^[3]^[4]^[5]^[6]^[7]

формулировка Математическая

Табличный метод TD(0) является одним из самых простых методов TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния (MDP) с конечным числом состояний марковского процесса принятия решений в соответствии с политикой $\pi$ . Позволять $V^{\pi }$ обозначаем функцию значения состояния MDP с состояниями $(S_{t})_{t\in \mathbb {N} }$ , награды $(R_{t})_{t\in \mathbb {N} }$ и ставка дисконтирования ^[8] $\gamma$ согласно политике $\pi$ : ^[9]

V^{\pi }(s)=E_{a\sim \pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}{\Bigg |}S_{0}=s\right\}.

Для удобства мы опустим действие из обозначений. $V^{\pi }$ удовлетворяет уравнению Гамильтона-Якоби-Беллмана :

V^{\pi }(s)=E_{\pi }\{R_{1}+\gamma V^{\pi }(S_{1})|S_{0}=s\},

так $R_{1}+\gamma V^{\pi }(S_{1})$ является несмещенной оценкой $V^{\pi }(s)$ . Это наблюдение мотивирует следующий алгоритм оценки $V^{\pi }$ .

Алгоритм начинается с инициализации таблицы $V(s)$ произвольно, с одним значением для каждого состояния MDP. Положительная скорость обучения $\alpha$ выбран.

Затем мы неоднократно оцениваем политику $\pi$ , получить награду $r$ и обновите функцию значения для текущего состояния, используя правило: ^[10]

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\underbrace {\alpha } _{\text{learning rate}}[\overbrace {R_{t+1}+\gamma V(S_{t+1})} ^{\text{The TD target}}]

где $S_{t}$ и $S_{t+1}$ являются текущим и следующим состояниями соответственно. Значение $R_{t+1}+\gamma V(S_{t+1})$ известен как цель TD, и $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$ известна как ошибка TD.

ТД-Лямбда [ править ]

TD-Lambda — это алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Сэмюэля по обучению временной разности . ^[11] Этот алгоритм был широко применен Джеральдом Тезауро для создания TD-Gammon , программы, которая научилась играть в нарды на уровне опытных игроков-людей. ^[12]

Лямбда ( $\lambda$ ) относится к параметру затухания трассы, при этом $0\leqslant \lambda \leqslant 1$ . Более высокие настройки приводят к более длительному сохранению следов; то есть большая часть вознаграждения может быть отдана более отдаленным состояниям и действиям, когда $\lambda$ выше, с $\lambda =1$ параллельное обучение алгоритмам RL Монте-Карло. ^[13]

В нейробиологии [ править ]

TD Алгоритм также привлек внимание в области нейробиологии . Исследователи обнаружили, что частота возбуждения дофаминовых нейронов в вентральной покрышке (VTA) и черной субстанции (SNc), похоже, имитирует функцию ошибки в алгоритме. ^[3]^[4]^[5]^[6]^[7] Функция ошибок возвращает разницу между предполагаемым вознаграждением в любом заданном состоянии или временном шаге и фактически полученным вознаграждением. Чем больше функция ошибок, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущее вознаграждение, ошибку можно использовать для того, чтобы связать стимул с будущим вознаграждением .

Дофаминовые клетки, по-видимому, ведут себя аналогичным образом. В одном эксперименте измерения количества дофаминовых клеток проводились во время обучения обезьяны связывать стимул с вознаграждением в виде сока. ^[14] Первоначально, когда обезьяна получала сок, количество дофаминовых клеток увеличивалось, что указывает на разницу в ожидаемом и фактическом вознаграждении. Со временем это усиление ответного огня распространилось на самый ранний надежный стимул для получения награды. Когда обезьяна была полностью обучена, при вручении прогнозируемой награды скорострельность не увеличивалась. Впоследствии, когда ожидаемое вознаграждение не было получено, частота активации дофаминовых клеток снизилась ниже нормальной активации. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением .

Взаимосвязь между моделью и потенциальной неврологической функцией привела к исследованию, пытающемуся использовать TD для объяснения многих аспектов поведенческих исследований. ^[15]^[16] Его также использовали для изучения таких состояний, как шизофрения или последствий фармакологических манипуляций с дофамином на обучение. ^[17]

См. также [ править ]

Примечания [ править ]

^ Саттон и Барто (2018) , с. 133.
↑ Перейти обратно: Перейти обратно: ^а ^б Саттон, Ричард С. (1 августа 1988 г.). «Учимся прогнозировать методами временных разностей» . Машинное обучение . 3 (1): 9–44. дои : 10.1007/BF00115009 . ISSN 1573-0565 . S2CID 207771194 .
↑ Перейти обратно: Перейти обратно: ^а ^б Шульц В., Даян П. и Монтегю П.Р. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . дои : 10.1126/science.275.5306.1593 . ПМИД 9054347 . S2CID 220093382 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
↑ Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Даян, П.; Сейновский, Ти Джей (1 марта 1996 г.). «Система мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . ПМК 6578666 . ПМИД 8774460 .
↑ Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Даян, П.; Ноулан, С.Дж.; Пуже, А.; Сейновский, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в области нейронных систем обработки информации . 5 : 969–976.
↑ Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Сейновский, Т.Дж. (1994). «Прогностический мозг: временное совпадение и временной порядок в механизмах синаптического обучения» . Обучение и память . 1 (1): 1–33. дои : 10.1101/lm.1.1.1 . ISSN 1072-0502 . ПМИД 10467583 . S2CID 44560099 .
↑ Перейти обратно: Перейти обратно: ^а ^б Сейновский, Т.Дж.; Даян, П.; Монтегю, PR (1995). «Прогнозирующее обучение Хебба». Материалы восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . стр. 15–18. дои : 10.1145/225298.225300 . ISBN 0897917235 . S2CID 1709691 .
^ Параметр ставки дисконтирования позволяет отдать предпочтение по времени в пользу более немедленных вознаграждений и отказаться от вознаграждений в отдаленном будущем.
^ Саттон и Барто (2018) , с. 134.
^ Саттон и Барто (2018) , с. 135.
^ Саттон и Барто (2018) , с. 130?.
^ Тезауро (1995) .
^ Саттон и Барто (2018) , с. 175.
^ Шульц, В. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . дои : 10.1152/jn.1998.80.1.1 . ПМИД 9658025 . S2CID 52857162 .
^ Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в области нейронных систем обработки информации . 14 . Массачусетский технологический институт Пресс: 11–18.
^ Тобиа, MJ и др. (2016). «Измененная поведенческая и нервная реакция на контрфактические достижения у пожилых людей» . Когнитивная, аффективная и поведенческая нейронаука . 16 (3): 457–472. дои : 10.3758/s13415-016-0406-7 . ПМИД 26864879 . S2CID 11299945 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Смит А., Ли М., Беккер С. и Капур С. (2006). «Дофамин, ошибка прогнозирования и ассоциативное обучение: отчет на основе модели». Сеть: Вычисления в нейронных системах . 17 (1): 61–84. дои : 10.1080/09548980500361624 . ПМИД 16613795 . S2CID 991839 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

Цитируемые работы [ править ]

Саттон, Ричард С.; Барто, Эндрю Г. (2018). Обучение с подкреплением: Введение (2-е изд.). Кембридж, Массачусетс: MIT Press.
Тезауро, Джеральд (март 1995 г.). «Обучение с временными различиями и TD-гаммон» . Коммуникации АКМ . 38 (3): 58–68. дои : 10.1145/203330.203343 . S2CID 6023746 .

Дальнейшее чтение [ править ]

Мейн, СП (2007). Методы управления сложными сетями . Издательство Кембриджского университета. ISBN 978-0521884419 . См. последнюю главу и приложение.
Саттон, РС; Барто, АГ (1990). «Модели производной по времени павловского армирования» (PDF) . Обучение и вычислительная нейронаука: основы адаптивных сетей : 497–537.

Внешние ссылки [ править ]

Апплет Connect Four TDGravity (+ версия для мобильного телефона) – самостоятельное обучение с использованием метода TD-Leaf (комбинация TD-Lambda с поиском по мелкому дереву)
Самообучающееся мета-крестики-нолики. Пример веб-приложения, показывающий, как можно использовать обучение временной разнице для изучения констант оценки состояния минимаксного ИИ, играющего в простую настольную игру.
Проблема обучения с подкреплением , документ, объясняющий, как можно использовать обучение с временной разницей для ускорения Q-обучения.
TD-Simulator Симулятор временной разницы для классического кондиционирования

[FOOTNOTESuttonBarto2018133-1] Саттон и Барто (2018) , с. 133.

[RSutton-1988-2] Перейти обратно: Перейти обратно: ^а ^б Саттон, Ричард С. (1 августа 1988 г.). «Учимся прогнозировать методами временных разностей» . Машинное обучение . 3 (1): 9–44. дои : 10.1007/BF00115009 . ISSN 1573-0565 . S2CID 207771194 .

[WSchultz-1997-3] Перейти обратно: Перейти обратно: ^а ^б Шульц В., Даян П. и Монтегю П.Р. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176 . дои : 10.1126/science.275.5306.1593 . ПМИД 9054347 . S2CID 220093382 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[:0-4] Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Даян, П.; Сейновский, Ти Джей (1 марта 1996 г.). «Система мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . ПМК 6578666 . ПМИД 8774460 .

[:1-5] Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Даян, П.; Ноулан, С.Дж.; Пуже, А.; Сейновский, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в области нейронных систем обработки информации . 5 : 969–976.

[:2-6] Перейти обратно: Перейти обратно: ^а ^б Монтегю, PR; Сейновский, Т.Дж. (1994). «Прогностический мозг: временное совпадение и временной порядок в механизмах синаптического обучения» . Обучение и память . 1 (1): 1–33. дои : 10.1101/lm.1.1.1 . ISSN 1072-0502 . ПМИД 10467583 . S2CID 44560099 .

[:3-7] Перейти обратно: Перейти обратно: ^а ^б Сейновский, Т.Дж.; Даян, П.; Монтегю, PR (1995). «Прогнозирующее обучение Хебба». Материалы восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . стр. 15–18. дои : 10.1145/225298.225300 . ISBN 0897917235 . S2CID 1709691 .

[8] Параметр ставки дисконтирования позволяет отдать предпочтение по времени в пользу более немедленных вознаграждений и отказаться от вознаграждений в отдаленном будущем.

[FOOTNOTESuttonBarto2018134-9] Саттон и Барто (2018) , с. 134.

[FOOTNOTESuttonBarto2018135-10] Саттон и Барто (2018) , с. 135.

[FOOTNOTESuttonBarto2018130?-11] Саттон и Барто (2018) , с. 130?.

[FOOTNOTETesauro1995-12] Тезауро (1995) .

[FOOTNOTESuttonBarto2018175-13] Саттон и Барто (2018) , с. 175.

[WSchultz-1998-14] Шульц, В. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . дои : 10.1152/jn.1998.80.1.1 . ПМИД 9658025 . S2CID 52857162 .

[PDayan-2001-15] Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в области нейронных систем обработки информации . 14 . Массачусетский технологический институт Пресс: 11–18.

[16] Тобиа, MJ и др. (2016). «Измененная поведенческая и нервная реакция на контрфактические достижения у пожилых людей» . Когнитивная, аффективная и поведенческая нейронаука . 16 (3): 457–472. дои : 10.3758/s13415-016-0406-7 . ПМИД 26864879 . S2CID 11299945 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[ASmith-2006-17] Смит А., Ли М., Беккер С. и Капур С. (2006). «Дофамин, ошибка прогнозирования и ассоциативное обучение: отчет на основе модели». Сеть: Вычисления в нейронных системах . 17 (1): 61–84. дои : 10.1080/09548980500361624 . ПМИД 16613795 . S2CID 991839 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

формулировка Математическая ​ ​