Jump to content

Обучение временной разнице

(Перенаправлено с Временная разница )

временной разнице ( TD ) Обучение относится к классу без модели методов обучения с подкреплением , которые обучаются путем начальной загрузки из текущей оценки функции значения. Эти методы выбирают данные из окружающей среды, например методы Монте-Карло , и выполняют обновления на основе текущих оценок, как методы динамического программирования . [1]

В то время как методы Монте-Карло корректируют свои оценки только после того, как становится известен окончательный результат, методы TD корректируют прогнозы, чтобы они соответствовали более поздним, более точным прогнозам о будущем, прежде чем станет известен окончательный результат. [2] Это форма начальной загрузки , как показано в следующем примере:

Предположим, вы хотите спрогнозировать погоду на субботу и у вас есть некоторая модель, которая предсказывает погоду на субботу, учитывая погоду каждого дня недели. В стандартном случае вам придется подождать до субботы, а затем настроить все свои модели. Однако, когда, например, пятница, вы должны иметь довольно хорошее представление о том, какая погода будет в субботу, и, таким образом, иметь возможность изменить, скажем, субботнюю модель до наступления субботы. [2]

Методы временных различий связаны с моделью временных различий в обучении животных . [3] [4] [5] [6] [7]

формулировка Математическая

Табличный метод TD(0) является одним из самых простых методов TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния (MDP) с конечным числом состояний марковского процесса принятия решений в соответствии с политикой . Позволять обозначаем функцию значения состояния MDP с состояниями , награды и ставка дисконтирования [8] согласно политике : [9]

Для удобства мы опустим действие из обозначений. удовлетворяет уравнению Гамильтона-Якоби-Беллмана :

так является несмещенной оценкой . Это наблюдение мотивирует следующий алгоритм оценки .

Алгоритм начинается с инициализации таблицы произвольно, с одним значением для каждого состояния MDP. Положительная скорость обучения выбран.

Затем мы неоднократно оцениваем политику , получить награду и обновите функцию значения для текущего состояния, используя правило: [10]

где и являются текущим и следующим состояниями соответственно. Значение известен как цель TD, и известна как ошибка TD.

ТД-Лямбда [ править ]

TD-Lambda — это алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Сэмюэля по обучению временной разности . [11] Этот алгоритм был широко применен Джеральдом Тезауро для создания TD-Gammon , программы, которая научилась играть в нарды на уровне опытных игроков-людей. [12]

Лямбда ( ) относится к параметру затухания трассы, при этом . Более высокие настройки приводят к более длительному сохранению следов; то есть большая часть вознаграждения может быть отдана более отдаленным состояниям и действиям, когда выше, с параллельное обучение алгоритмам RL Монте-Карло. [13]

В нейробиологии [ править ]

TD Алгоритм также привлек внимание в области нейробиологии . Исследователи обнаружили, что частота возбуждения дофаминовых нейронов в вентральной покрышке (VTA) и черной субстанции (SNc), похоже, имитирует функцию ошибки в алгоритме. [3] [4] [5] [6] [7] Функция ошибок возвращает разницу между предполагаемым вознаграждением в любом заданном состоянии или временном шаге и фактически полученным вознаграждением. Чем больше функция ошибок, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущее вознаграждение, ошибку можно использовать для того, чтобы связать стимул с будущим вознаграждением .

Дофаминовые клетки, по-видимому, ведут себя аналогичным образом. В одном эксперименте измерения количества дофаминовых клеток проводились во время обучения обезьяны связывать стимул с вознаграждением в виде сока. [14] Первоначально, когда обезьяна получала сок, количество дофаминовых клеток увеличивалось, что указывает на разницу в ожидаемом и фактическом вознаграждении. Со временем это усиление ответного огня распространилось на самый ранний надежный стимул для получения награды. Когда обезьяна была полностью обучена, при вручении прогнозируемой награды скорострельность не увеличивалась. Впоследствии, когда ожидаемое вознаграждение не было получено, частота активации дофаминовых клеток снизилась ниже нормальной активации. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением .

Взаимосвязь между моделью и потенциальной неврологической функцией привела к исследованию, пытающемуся использовать TD для объяснения многих аспектов поведенческих исследований. [15] [16] Его также использовали для изучения таких состояний, как шизофрения или последствий фармакологических манипуляций с дофамином на обучение. [17]

См. также [ править ]

Примечания [ править ]

  1. ^ Саттон и Барто (2018) , с. 133.
  2. Перейти обратно: Перейти обратно: а б Саттон, Ричард С. (1 августа 1988 г.). «Учимся прогнозировать методами временных разностей» . Машинное обучение . 3 (1): 9–44. дои : 10.1007/BF00115009 . ISSN   1573-0565 . S2CID   207771194 .
  3. Перейти обратно: Перейти обратно: а б Шульц В., Даян П. и Монтегю П.Р. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX   10.1.1.133.6176 . дои : 10.1126/science.275.5306.1593 . ПМИД   9054347 . S2CID   220093382 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  4. Перейти обратно: Перейти обратно: а б Монтегю, PR; Даян, П.; Сейновский, Ти Джей (1 марта 1996 г.). «Система мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN   0270-6474 . ПМК   6578666 . ПМИД   8774460 .
  5. Перейти обратно: Перейти обратно: а б Монтегю, PR; Даян, П.; Ноулан, С.Дж.; Пуже, А.; Сейновский, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в области нейронных систем обработки информации . 5 : 969–976.
  6. Перейти обратно: Перейти обратно: а б Монтегю, PR; Сейновский, Т.Дж. (1994). «Прогностический мозг: временное совпадение и временной порядок в механизмах синаптического обучения» . Обучение и память . 1 (1): 1–33. дои : 10.1101/lm.1.1.1 . ISSN   1072-0502 . ПМИД   10467583 . S2CID   44560099 .
  7. Перейти обратно: Перейти обратно: а б Сейновский, Т.Дж.; Даян, П.; Монтегю, PR (1995). «Прогнозирующее обучение Хебба». Материалы восьмой ежегодной конференции по теории вычислительного обучения - COLT '95 . стр. 15–18. дои : 10.1145/225298.225300 . ISBN  0897917235 . S2CID   1709691 .
  8. ^ Параметр ставки дисконтирования позволяет отдать предпочтение по времени в пользу более немедленных вознаграждений и отказаться от вознаграждений в отдаленном будущем.
  9. ^ Саттон и Барто (2018) , с. 134.
  10. ^ Саттон и Барто (2018) , с. 135.
  11. ^ Саттон и Барто (2018) , с. 130?.
  12. ^ Тезауро (1995) .
  13. ^ Саттон и Барто (2018) , с. 175.
  14. ^ Шульц, В. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1–27. CiteSeerX   10.1.1.408.5994 . дои : 10.1152/jn.1998.80.1.1 . ПМИД   9658025 . S2CID   52857162 .
  15. ^ Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в области нейронных систем обработки информации . 14 . Массачусетский технологический институт Пресс: 11–18.
  16. ^ Тобиа, MJ и др. (2016). «Измененная поведенческая и нервная реакция на контрфактические достижения у пожилых людей» . Когнитивная, аффективная и поведенческая нейронаука . 16 (3): 457–472. дои : 10.3758/s13415-016-0406-7 . ПМИД   26864879 . S2CID   11299945 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Смит А., Ли М., Беккер С. и Капур С. (2006). «Дофамин, ошибка прогнозирования и ассоциативное обучение: отчет на основе модели». Сеть: Вычисления в нейронных системах . 17 (1): 61–84. дои : 10.1080/09548980500361624 . ПМИД   16613795 . S2CID   991839 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

Цитируемые работы [ править ]

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

  • Апплет Connect Four TDGravity (+ версия для мобильного телефона) – самостоятельное обучение с использованием метода TD-Leaf (комбинация TD-Lambda с поиском по мелкому дереву)
  • Самообучающееся мета-крестики-нолики. Пример веб-приложения, показывающий, как можно использовать обучение временной разнице для изучения констант оценки состояния минимаксного ИИ, играющего в простую настольную игру.
  • Проблема обучения с подкреплением , документ, объясняющий, как можно использовать обучение с временной разницей для ускорения Q-обучения.
  • TD-Simulator Симулятор временной разницы для классического кондиционирования
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bdca42ef259d5d98cd33620a17652ef6__1714187040
URL1:https://arc.ask3.ru/arc/aa/bd/f6/bdca42ef259d5d98cd33620a17652ef6.html
Заголовок, (Title) документа по адресу, URL1:
Temporal difference learning - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)