Q-обучение
Часть серии на |
Машинное обучение и добыча данных |
---|
Q -обучение -это без модели алгоритм обучения для изучения ценности действия в конкретном состоянии. Это не требует модели окружающей среды (следовательно, «без модели»), и он может решать проблемы со стохастическими переходами и вознаграждениями, не требуя адаптации. [ 1 ]
Для любого конечного процесса принятия решений Марков , Q -обучение находит оптимальную политику в смысле максимизации ожидаемого значения общего вознаграждения по сравнению с любыми и всеми последовательными шагами, начиная с текущего состояния. [ 2 ] Q -обучение может определить оптимальную политику выбора действий для любого данного конечного процесса принятия решений Марков, учитывая бесконечное время разведки и частично случайную политику. [ 2 ] «Q» относится к функции, которую вычисляет алгоритм - ожидаемые награды за действие, предпринятое в данном состоянии. [ 3 ]
Подкрепление обучения
[ редактировать ]Подкрепление обучения включает в себя агента , набор государств и набор действий на состояние . Выполняя действие , агент переходит от штата к государству. Выполнение действия в конкретном состоянии обеспечивает агенту вознаграждение ( численная оценка).
Цель агента - максимизировать его полную награду. Это делает это путем добавления максимального вознаграждения, достижимого от будущих государств, к вознаграждению за достижение его нынешнего состояния, эффективно влияя на текущее действие потенциальным будущим вознаграждением. Эта потенциальная награда является взвешенной суммой ожидаемых значений вознаграждений всех будущих шагов, начиная с текущего состояния. [ 1 ]
В качестве примера рассмотрим процесс посадки на поезд, в котором вознаграждение измеряется отрицательным от общего времени, затраченного посадки (в качестве альтернативы, стоимость посадки на поезд равна временю посадки). Одна стратегия состоит в том, чтобы войти в дверь поезда, как только они откроются, минимизируя начальное время ожидания для себя. Однако, если поезд переполнен, то у вас будет медленный вход после первоначального действия, когда люди вступают в дверь, когда люди сражаются с вами, чтобы покинуть поезд, пытаясь сесть на сесть. Тогда общее время посадки или стоимость:
- 0 секунд времени ожидания + 15 секунд времени боя
На следующий день, случайно случайно (исследование), вы решите подождать и позволить другим людям уйти в первую очередь. Это изначально приводит к более длительному времени ожидания. Однако меньше времени тратится на борьбу с уходящими пассажирами. В целом, этот путь имеет более высокую награду, чем у предыдущего дня, так как общее время посадки сейчас:
- 5 Второе время ожидания + 0 Второе время боя
Благодаря разведке, несмотря на первоначальное (пациентное) действие, приводящее к большей стоимости (или отрицательной вознаграждению), чем в сильной стратегии, общая стоимость ниже, что выявляет более полезную стратегию.
Алгоритм
[ редактировать ]
После Шаги в будущее агент решит какой -то следующий шаг. Вес этого шага рассчитывается как , где ( коэффициент дисконтирования ) - это число от 0 до 1 ( ) Предполагая , он имеет эффект оценки вознаграждений, полученных ранее выше, чем полученные позже (отражает стоимость «хорошего старта»). может также интерпретироваться как вероятность успеха (или выжить) на каждом этапе .
Следовательно, алгоритм имеет функцию, которая рассчитывает качество комбинации состояния и действия:
- .
Перед началом обучения Инициализируется до возможного произвольного фиксированного значения (выбранного программистом). Тогда, каждый раз Агент выбирает действие , наблюдает за наградой , входит в новое государство (Это может зависеть от обоих предыдущего состояния и выбранное действие), и обновляется. Ядром алгоритма является уравнение Беллмана в качестве обновления итерации простого значения , используя средневзвешенное текущее значение и новую информацию: [ 4 ]
где получена вознаграждение при переходе из штата в государство , и Скорость обучения .
Обратите внимание, что это сумма трех факторов:
- : Текущее значение (взвешенное на один минус скорость обучения)
- : награда Чтобы получить действие принимается, когда в штате (взвешен по скорости обучения)
- : Максимальная награда, которая может быть получена из состояния (взвешен по скорости обучения и коэффициента дисконтирования)
Эпизод алгоритма заканчивается, когда государство является окончательным или терминальным состоянием . Тем не менее, Q -обучение также может учиться в неэпизодических задачах (в результате свойства сходящейся бесконечной серии). Если коэффициент дисконтирования ниже 1, значения действия конечны, даже если проблема может содержать бесконечные петли.
Для всех конечных состояний , никогда не обновляется, но устанавливается на значение вознаграждения наблюдается для состояния Полем В большинстве случаев, может быть принято в равное ноль.
Влияние переменных
[ редактировать ]Скорость обучения
[ редактировать ]Скорость обучения или размер шага определяет, в какой степени вновь приобретенная информация переопределяет старую информацию. Фактор 0 заставляет агента ничего не изучать (исключительно эксплуатируя предварительные знания), в то время как фактор 1 заставляет агента рассматривать только самую последнюю информацию (игнорируя предварительные знания для изучения возможностей). В полностью детерминированных условиях скорость обучения оптимально. Когда проблема является стохастической , алгоритм сходится в некоторых технических условиях по скорости обучения, которые требуют, чтобы он уменьшился до нуля. На практике часто используется постоянная скорость обучения, например для всех . [ 5 ]
Коэффициент дисконтирования
[ редактировать ]Коэффициент дисконтирования Определяет важность будущих вознаграждений. Коэффициент 0 сделает агент «близоруком» (или близоруким), учитывая только текущие вознаграждения, т.е. (В правиле обновления выше), в то время как фактор, приближающийся к 1, заставит его стремиться к долгосрочной высокой награде. Если фактор дисконтирования соответствует или превышает 1, значения действия могут расходиться. Для , без терминального состояния, или если агент никогда не достигает одного, все истории окружающей среды становятся бесконечно длинными, а коммунальные услуги с аддитивными, недисконтированными вознаграждениями, как правило, становятся бесконечными. [ 6 ] Даже с коэффициентом дисконтирования лишь немного ниже 1, обучение Q -функции приводит к распространению ошибок и нестабильности, когда функция значения аппроксимируется с помощью искусственной нейронной сети . [ 7 ] В этом случае, начиная с более низкого фактора дисконтирования и увеличивая его к окончательному значению, ускоряет обучение. [ 8 ]
Начальные условия ( Q 0 )
[ редактировать ]Поскольку Q -обучение является итерационным алгоритмом, он косвенно предполагает начальное условие до того, как произошло первое обновление. Высокие начальные значения, также известные как «оптимистичные начальные условия», [ 9 ] может поощрять исследование: независимо от того, какое действие выбрано, правило обновления приведет к тому, что оно будет иметь более низкие значения, чем другая альтернатива, что увеличивает вероятность их выбора. Первая награда можно использовать для сброса начальных условий. [ 10 ] Согласно этой идее, впервые предпринимается действие, вознаграждение используется для установки значения Полем Это позволяет немедленное обучение в случае фиксированных детерминированных вознаграждений. Ожидается, что модель, которая включает сброс начальных условий (RIC), будет предсказать поведение участников лучше, чем модель, которая предполагает любое произвольное начальное условие (AIC). [ 10 ] RIC, по -видимому, согласуется с поведением человека в экспериментах с повторным бинарным выбором. [ 10 ]
Выполнение
[ редактировать ]Q -обучение в самых простых хранилище данных в таблицах. Этот подход колеблется с растущим числом состояний/действий, поскольку вероятность того, что агент посетит конкретное состояние, и выполнение конкретного действия становится все более мала.
Функция приближения
[ редактировать ]Q -обучение может быть объединено с аппроксимацией функции . [ 11 ] Это позволяет применять алгоритм к более крупным проблемам, даже если пространство состояния непрерывное.
Одним из решений является использование (адаптированной) искусственной нейронной сети в качестве аппроксиматора функции. [ 12 ] Другая возможность заключается в интеграции интерполяции нечетких правил (FRI) и использовать редкие нечеткие базы правил [ 13 ] Вместо дискретных Q-таблиц или ANN, что имеет преимущество в том, что он читается, читающая форма знания. Функциональное приближение может ускорить обучение в конечных проблемах, из -за того, что алгоритм может обобщить более ранний опыт для ранее невидимых состояний.
Квантование
[ редактировать ]Другой метод для уменьшения пространства состояния/действия определяет возможные значения. Рассмотрим пример обучения, чтобы сбалансировать палку на пальце. Чтобы описать состояние в определенный момент времени включает в себя положение пальца в пространстве, его скорость, угол палки и угловая скорость палочки. Это дает вектор с четырьмя элементами, который описывает одно состояние, то есть снимок одного состояния, закодированного в четыре значения. Проблема в том, что бесконечно много возможных состояний присутствует. Чтобы сократить возможное пространство действительных действий, можно назначить несколько значений. Точное расстояние пальца от его исходного положения (-индиновичность к бесконечности) неизвестно, а скорее, это далеко или нет (близко, далеко). [ 14 ]
История
[ редактировать ]Q -обучение было введено Крисом Уоткинсом в 1989 году. [ 15 ] Уоткинс и Питер Даян в 1992 году было представлено доказательство конвергенции. [ 16 ]
Уоткинс обращался к «обучению от задержанных вознаграждений», названием своей докторской диссертации. Восемь лет назад, в 1981 году, та же проблема под названием «Обучение задержанному подкреплению» была решена с помощью адаптивного массива Bozinovski's Crossbar (CAA). [ 17 ] [ 18 ] Матрица памяти был таким же, как через восемь лет Q-таблица Q-обучения. Архитектура ввела термин «оценка состояния» в обучении подкреплению. Алгоритм обучения перекладиной, написанный в математическом псевдокоде в статье, в каждой итерации выполняет следующее вычисление:
- В государстве выполняют действие A ;
- Получить последствия состояния S ' ;
- Вычислить оценку состояния ;
- Обновить значение перекладины .
Термин «вторичное подкрепление» заимствован из теории обучения животных, для моделирования значений состояния через обратное распространение : значение состояния Следующая ситуация обрабатывается к ранее встречающимся ситуациям. CAA вычисляет значения состояния вертикально и действия горизонтально («перекладка»). Демонстрационные графики, показывающие отсроченное обучение подкреплению, содержали состояния (желательные, нежелательные и нейтральные состояния), которые были рассчитаны по функции оценки состояния. Эта система обучения была предшественником алгоритма Q-обучения. [ 19 ]
В 2014 году Google DeepMind запатентован [ 20 ] Применение Q-обучения к глубокому обучению под названием «глубокое обучение подкреплению» или «глубокое Q-обучение», которое может играть в игры Atari 2600 на экспертных уровнях человека.
Варианты
[ редактировать ]Глубокое Q-обучение
[ редактировать ]Система DeepMind использовала глубокую сверточную нейронную сеть со слоями плиточных сверточных фильтров, чтобы имитировать эффекты рецептивных полей. Подкрепление обучения нестабильным или расходящимся, когда аппроксиматор нелинейной функции, такая как нейронная сеть, используется для представления Q. Эта нестабильность исходит из корреляций, присутствующих в последовательности наблюдений, тот факт, что небольшие обновления в Q могут значительно изменить политику агента и распределение данных, а также корреляции между Q и целевыми значениями. Метод может использоваться для стохастического поиска в различных доменах и приложениях. [ 1 ] [ 21 ]
Техника использовал опыт Replay, биологически вдохновленный механизм, который использует случайную выборку предыдущих действий вместо самого последнего действия для продолжения. [ 3 ] Это удаляет корреляции в последовательности наблюдения и сглаживает изменения в распределении данных. Итеративные обновления Нарегулируют Q к целевым значениям, которые только периодически обновляются, что еще больше снижает корреляции с целью. [ 22 ]
Двойное Q-обучение
[ редактировать ]Поскольку максимальное приблизительное значение действия в будущем в Q-обучении оценивается с использованием той же функции Q, что и в текущей политике выбора действий, в шумных средах Q-обучение может иногда переоценивать значения действия, замедляя обучение. Был предложен вариант, называемый двойным Q-обучением, чтобы исправить это. Двойное Q-обучение [ 23 ] это алгоритм обучения вне политики , где для оценки стоимости используется другая политика, чем то, что используется для выбора следующего действия.
На практике две отдельные функции значения и обучаются взаимно симметричным образом, используя отдельные впечатления. Двойной шаг обновления Q-обучения тогда следующим образом:
- , и
Теперь оценочная стоимость дисконтированного будущего оценивается с использованием другой политики, которая решает проблему переоценки.
Этот алгоритм был позже изменен в 2015 году и в сочетании с глубоким обучением , [ 24 ] Как и в алгоритме DQN, в результате чего двойной DQN, который превосходит исходный алгоритм DQN. [ 25 ]
Другие
[ редактировать ]Задержка Q -обучения -это альтернативная реализация алгоритма онлайн -обучения Q -обучению с, вероятно, приблизительно правильным (PAC) обучением . [ 26 ]
Gredy GQ -это вариант Q -обучения для использования в комбинации с (линейным) аппроксимацией функции. [ 27 ] Преимущество жадного GQ заключается в том, что конвергенция гарантирована, даже когда функциональная приближение используется для оценки значений действия.
Распределение Q -обучение -это вариант Q -обучения, который стремится моделировать распределение возвратов, а не ожидаемое возврат каждого действия. Наблюдалось, что он облегчает оценку по глубоким нейронным сетям и может обеспечить альтернативные методы контроля, такие как контроль, чувствительный к риску. [ 28 ]
Многоагентное обучение
[ редактировать ]Q-обучение было предложено в многопользовательской настройке (см. Раздел 4.1.2 в [ 29 ] ) Один подход заключается в том, чтобы притворяться, что окружающая среда является пассивной. [ 30 ] Littman предлагает минимальный Q -алгоритм обучения. [ 31 ]
Ограничения
[ редактировать ]Стандартный алгоритм Q-обучения (с помощью Таблица) применяется только к дискретным действиям и государственным пространствам. Дискретизация этих значений приводит к неэффективному обучению, в основном из -за проклятия размерности . Тем не менее, существуют адаптацию Q-обучения, которые пытаются решить эту проблему, такую как Q-обучение нейронной сети, основанной на проводке. [ 32 ]
Смотрите также
[ редактировать ]- Подкрепление обучения
- Временная разница в обучении
- СОУС
- Итеративная дилемма заключенного
- Теория игры
Ссылки
[ редактировать ]- ^ Jump up to: а беременный в Ли, Шенгбо (2023). Подкрепление обучения для последовательного решения и оптимального контроля (первое изд.). Springer Verlag, Сингапур. С. 1–460. doi : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1 Полем S2CID 257928563 .
{{cite book}}
: CS1 Maint: местоположение отсутствует издатель ( ссылка ) - ^ Jump up to: а беременный Francisco Melo S. ,
- ^ Jump up to: а беременный Матисен, Тамбет (19 декабря 2015 г.). «Демистификация глубокого подкрепления обучения» . Neuro.cs.ut.ee . Вычислительная нейробиологическая лаборатория . Получено 2018-04-06 .
- ^ Диттерих, Томас Г. (21 мая 1999 г.). «Иерархическое обучение подкреплению с разложением функции значения MAXQ». ARXIV : CS/9905014 .
- ^ Саттон, Ричард; Барто, Эндрю (1998). Подкрепление обучения: введение . MIT Press.
- ^ Рассел, Стюарт Дж .; Норвиг, Питер (2010). Искусственный интеллект: современный подход (третье изд.). Прентис Холл . п. 649. ISBN 978-0136042594 .
- ^ Baird, Leemon (1995). «Остаточные алгоритмы: обучение подкреплению с приближением функции» (PDF) . ICML : 30–37.
- ^ Франсуа-Лавет, Винсент; Фонтен, Рафаэль; Эрнст, Дэмиен (2015-12-07). «Как сбрасывать со счетов глубокое обучение подкреплению: к новым динамическим стратегиям». Arxiv : 1512.02011 [ Cs.lg ].
- ^ Саттон, Ричард С.; Барто, Эндрю Г. "2.7 Оптимистичные начальные значения" . Подкрепление обучения: введение . Архивировано с оригинала 2013-09-08 . Получено 2013-07-18 .
- ^ Jump up to: а беременный в Shteingart, Ханан; Нейман, Тал; Loewenstein, Yonatan (май 2013 г.). «Роль первого впечатления в оперантном обучении» (PDF) . Журнал экспериментальной психологии: общий . 142 (2): 476–488. doi : 10.1037/a0029550 . ISSN 1939-2222 . PMID 22924882 .
- ^ Хассельт, Хадо Ван (5 марта 2012 г.). «Подкрепление обучения в непрерывном состоянии и пространствах действий» . В ужасном, Марко; Оттерло, Мартиян Ван (ред.). Подкрепление обучения: современное . Springer Science & Business Media. С. 207–251. ISBN 978-3-642-27645-3 .
- ^ Тесоро, Джеральд (март 1995 г.). «Временная разница в обучении и TD-Gammon» . Коммуникации ACM . 38 (3): 58–68. doi : 10.1145/203330.203343 . S2CID 8763243 . Получено 2010-02-08 .
- ^ Винц, Дэвид (2017). «Нечеткое правило интерполяция и обучение подкреплению» (PDF) . 2017 IEEE 15 -й Международный симпозиум по разведке и информатике прикладной машины (SAMI) . IEEE. С. 173–178. doi : 10.1109/sami.2017.7880298 . ISBN 978-1-5090-5655-2 Полем S2CID 17590120 .
- ^ Кришнан, Шриватсан; Лам, Максимилиан; Читлангия, Шарад; Ван, Зишен; Барт-Марон, Габриэль; Фауст, Александра; Редди, Виджай Джанапа (13 ноября 2022 г.). «QUARL: Квантование для быстрого и экологически устойчивого обучения подкреплению». Arxiv : 1910.01055 [ Cs.lg ].
- ^ Уоткинс, CJCH (1989). Обучение от задержки вознаграждений (PDF) (докторская диссертация). Кембриджский университет . Ethos uk.bl.ethos.330022 .
- ^ Уоткинс, Крис; Даян, Питер (1992). «Q-обучение» . Машинное обучение . 8 (3–4): 279–292. doi : 10.1007/bf00992698 . HDL : 21.11116/0000-0002-D738-D .
- ^ Бозиновский, С. (15 июля 1999 г.). «Адаптивная массива по переламыванию: первая сеть соединений, которая решила проблему с задержкой подкрепления обучения» . В Добникаре, Андрей; Стил, Найджел С.; Пирсон, Дэвид В.; Альбрехт, Рудольф Ф. (ред.). Искусственные нейронные сети и генетические алгоритмы: Материалы Международной конференции в Порторо, Словения, 1999 . Springer Science & Business Media. С. 320–325. ISBN 978-3-211-83364-3 .
- ^ Бозиновский С. (1982). «Система самоучастия с использованием вторичного подкрепления» . В Траппл, Роберт (ред.). Кибернетика и системы исследований: Материалы шестой Европейской встречи по кибернетике и системам исследований . Северная Голландия. С. 397–402. ISBN 978-0-444-86488-8 .
- ^ Барто А. (24 февраля 1997 г.). «Управляющее обучение» . В Омидваре, Омид; Эллиотт, Дэвид Л. (ред.). Нейронные системы для контроля . Elsevier. ISBN 978-0-08-053739-9 .
- ^ «Методы и аппарат для обучения подкрепления, патент США № 20150100530A1» (PDF) . США патентное управление. 9 апреля 2015 года . Получено 28 июля 2018 года .
- ^ Мацлиах Б.; Бен-Гал I.; Каган Э. (2022). «Обнаружение статических и мобильных целей автономным агентом с глубокими способностями Q-обучения» (PDF) . Энтропия . 24 (8): 1168. Bibcode : 2022ntrp..24.1168m . doi : 10.3390/e24081168 . PMC 9407070 . PMID 36010832 .
- ^ Mnih, Volodymyr; Кавуккуглу, Корай; Серебро, Дэвид; Русу, Андрей А.; Вейнс, Джоэл; Беллемар, Марк Г.; Грейвз, Алекс; Ридмиллер, Мартин; Фидджленд, Андреас К. (февраль 2015 г.). «Контроль на уровне человека через глубокое обучение подкреплению». Природа . 518 (7540): 529–533. Bibcode : 2015natur.518..529m . doi : 10.1038/nature14236 . ISSN 0028-0836 . PMID 25719670 . S2CID 205242740 .
- ^ Ван Хассельт, Хадо (2011). «Двойное Q-обучение» (PDF) . Достижения в системах обработки нейронной информации . 23 : 2613–2622.
- ^ Ван Хассельт, Хадо; Гуэз, Артур; Серебро, Дэвид (8 декабря 2015 г.). «Глубокое обучение подкреплению с двойным Q-обучением». Arxiv : 1509.06461 [ Cs.lg ].
- ^ Ван Хассельт, Хадо; Гуэз, Артур; Сильвер, Дэвид (2015). «Глубокое обучение подкреплению с двойным Q-обучением» (PDF) . Конференция AAAI по искусственному интеллекту : 2094–2100. Arxiv : 1509.06461 .
- ^ Стрел, Александр Л.; Ли, Лихонг; Wiewiora, Eric; Лэнгфорд, Джон; Littman, Michael L. (2006). «PAC без модели обучения подкреплению» (PDF) . Прокурор 22 -й ICML : 881–888.
- ^ Maei, Хамид; Szepesvári, Csaba; Бхатнагар, Шалабх; Саттон, Ричард (2010). «На пути к неполитическому контролю обучения с приближением функции в процессах 27-й Международной конференции по машинному обучению» (PDF) . С. 719–726. Архивировано из оригинала (PDF) 2012-09-08 . Получено 2016-01-25 .
- ^ Хессель, Маттео; Модаил, Джозеф; Ван Хассельт, Хадо; Шаул, Том; Островский, Георг; Дабни, Уилл; Хорган, Дэн; Пиот, Билал; Азар, Мохаммед; Сильвер, Дэвид (февраль 2018 г.). «Радуга: объединение улучшений в обучении глубоким подкреплением». Труды конференции АААИ по искусственному интеллекту . 32 Arxiv : 1710.02298 . doi : 10.1609/aaai.v32i1.11796 . S2CID 19135734 .
- ^ Шохам, Йоав; Силы, Роб; Гренагер, Тронд (1 мая 2007 г.). «Если многоагентное обучение-это ответ, в чем вопрос?» Полем Искусственный интеллект . 171 (7): 365–377. doi : 10.1016/j.artint.2006.02.006 . ISSN 0004-3702 . Получено 4 апреля 2023 года .
- ^ Сен, Сандип; Секаран, Махендра; Хейл, Джон (1 августа 1994 г.). «Обучение координации без обмена информацией» . Труды Двенадцатой национальной конференции AAAI по искусственному интеллекту . AAAI Press: 426–431 . Получено 4 апреля 2023 года .
- ^ Литтман, Майкл Л. (10 июля 1994 г.). «Марковские игры как структура для многоагентного обучения подкреплению» . Материалы Одиннадцатой Международной конференции по Международной конференции по машинному обучению . Morgan Kaufmann Publishers Inc.: 157–163. ISBN 9781558603356 Полем Получено 4 апреля 2023 года .
- ^ Гаскетт, Крис; Wettergreen, David; Зелинский, Александр (1999). «Q-обучение в непрерывном состоянии и пространствах действия» (PDF) .
Внешние ссылки
[ редактировать ]- Уоткинс, CJCH (1989). Обучение от задержанных вознаграждений. Докторская диссертация, Кембриджский университет, Кембридж, Англия.
- Стрел, Ли, Вьюора, Лэнгфорд, Литтман (2006). PAC без модели. Обучение подкреплению
- Подкрепление обучения: введение Ричарда Саттона и Эндрю С. Барто, онлайн -учебник. См. «6.5 Q-обучение: вне политики контроля TD» .
- PIQLE: общая Java Platform для обучения подкреплению
- Учебный лабиринт для подкрепления , демонстрация направления муравья через лабиринт с использованием Q -обучения
- Q -обучение работы Джеральда Тесоро