Обучение с подкреплением

Из Википедии, бесплатной энциклопедии

Обучение с подкреплением ( RL ) — это междисциплинарная область машинного обучения и оптимального управления , связанная с тем, как интеллектуальный агент должен действовать в динамической среде, чтобы максимизировать совокупное вознаграждение . Обучение с подкреплением — одна из трех основных парадигм машинного обучения , наряду с обучением с учителем и обучением без учителя .

Обучение с подкреплением отличается от обучения с учителем тем, что не требует представления помеченных пар входных/выходных данных и не требует явного исправления неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и использованием (текущих знаний) с целью максимизации долгосрочного вознаграждения, чья обратная связь может быть неполной или отложенной. [1]

Среда обычно описывается в форме марковского процесса принятия решений (MDP), поскольку многие алгоритмы обучения с подкреплением для этого контекста используют динамического программирования . методы [2] Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением состоит в том, что последние не предполагают знание точной математической модели марковского процесса принятия решений и нацелены на большие марковские процессы принятия решений, где точные методы становятся невозможными. [3]

Введение [ править ]

Типичная структура сценария обучения с подкреплением (RL): агент совершает действия в среде, которые интерпретируются как вознаграждение и представление состояния, которые передаются обратно агенту.

Из-за своей общности обучение с подкреплением изучается во многих дисциплинах, таких как теория игр , теория управления , исследование операций , теория информации , оптимизация на основе моделирования , многоагентные системы , роевой интеллект и статистика . В литературе по исследованию операций и управлению обучение с подкреплением называется приближенным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес для обучения с подкреплением, также изучались в теории оптимального управления , которая занимается главным образом существованием и характеристикой оптимальных решений, а также алгоритмами их точного вычисления, и в меньшей степени обучением или аппроксимацией, особенно в отсутствие математическая модель окружающей среды.

Базовое обучение с подкреплением моделируется как марковский процесс принятия решений :

  • набор состояний среды и агента, ;
  • набор действий, , агента;
  • , вероятность перехода (в момент времени ) из штата заявить в действии .
  • , немедленная награда после перехода из к с действием .

Цель обучения с подкреплением состоит в том, чтобы агент выучил оптимальную или почти оптимальную политику, которая максимизирует «функцию вознаграждения» или другой сигнал подкрепления, предоставляемый пользователем, который накапливается из немедленных вознаграждений. Это похоже на процессы, которые происходят в психологии животных. (См. «Подкрепление» .) Например, биологический мозг запрограммирован интерпретировать такие сигналы, как боль и голод, как отрицательное подкрепление, а удовольствие и прием пищи — как положительное подкрепление. В некоторых обстоятельствах животные могут научиться вести себя так, чтобы оптимизировать эти вознаграждения. Это говорит о том, что животные способны к обучению с подкреплением. [4] [5]

Базовый ИИ-агент обучения с подкреплением взаимодействует со своей средой дискретными шагами по времени. В каждый момент времени t агент получает текущее состояние и награда . Затем он выбирает действие из набора доступных действий, который впоследствии отправляется в среду. Окружающая среда переходит в новое состояние и награда связанный с переходом определен. Целью агента обучения с подкреплением является изучение политики : , это максимизирует ожидаемое совокупное вознаграждение.

Формулировка проблемы в виде марковского процесса принятия решений предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды; в этом случае говорят, что задача имеет полную наблюдаемость . Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажаются шумом, говорят, что агент имеет частичную наблюдаемость , и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений . В обоих случаях набор доступных агенту действий может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3 и переход между состояниями пытается уменьшить значение на 4, переход не будет разрешен.

Когда эффективность агента сравнивается с эффективностью агента, действующего оптимально, разница в производительности порождает понятие сожаления . Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (т. е. максимизировать будущий доход), хотя связанное с этим немедленное вознаграждение может быть отрицательным.

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, которые включают в себя компромисс между долгосрочным и краткосрочным вознаграждением. Он успешно применяется для решения различных задач, включая эксплуатацию накопителей энергии, [6] управление роботом, [7] отправка фотоэлектрических генераторов, [8] нарды , шашки , [9] Go ( AlphaGo ) и системы автономного вождения . [10]

Два элемента делают обучение с подкреплением мощным: использование выборок для оптимизации производительности и использование аппроксимации функций для работы с большими средами. Благодаря этим двум ключевым компонентам обучение с подкреплением можно использовать в больших средах в следующих ситуациях:

Первые две из этих проблем можно рассматривать как проблемы планирования (поскольку доступна некоторая форма модели), а последнюю можно считать настоящей проблемой обучения. Однако обучение с подкреплением превращает обе проблемы планирования в проблемы машинного обучения .

Исследование [ править ]

Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и марковских процессов принятия решений с конечным пространством состояний в Бернетасе и Катехакисе (1997). [12]

Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без привязки к предполагаемому распределению вероятностей показывает плохую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются в зависимости от количества состояний (или масштабируются для задач с бесконечными пространствами состояний), наиболее практичными являются простые методы исследования.

Одним из таких методов является - жадный, где — это параметр, контролирующий объем разведки и эксплуатации. С вероятностью , выбирается эксплуатация, и агент выбирает действие, которое, по его мнению, имеет наилучший долгосрочный эффект (связь между действиями разрывается равномерно и случайным образом). Альтернативно, с вероятностью , выбирается исследование, а действие выбирается равномерно случайным образом. обычно является фиксированным параметром, но его можно корректировать либо по расписанию (заставляя агента все меньше исследовать), либо адаптивно на основе эвристики. [13]

Алгоритмы управления обучением [ править ]

Даже если вопрос исследования игнорируется и даже если состояние было наблюдаемым (предполагается ниже), остается проблема использования прошлого опыта, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.

Критерий оптимальности [ править ]

Политика [ править ]

Выбор действий агента моделируется в виде карты, называемой политикой :

Карта политики показывает вероятность принятия мер когда в штате . [14] : 61  Существуют также детерминистские политики.

Функция значения состояния [ править ]

Функция значения состояния определяется как ожидаемая дисконтированная доходность, начиная с состояния , то есть и последовательно следуя политике . Следовательно, грубо говоря, функция ценности оценивает, «насколько хорошо» находиться в данном состоянии. [14] : 60 

где случайная величина обозначает дисконтированный доход и определяется как сумма будущих дисконтированных вознаграждений:

где это награда за переход из состояния к , это ставка дисконтирования . меньше 1, поэтому вознаграждения в отдаленном будущем имеют меньший вес, чем вознаграждения в ближайшем будущем.

Алгоритм должен найти политику с максимальной ожидаемой дисконтированной доходностью. Из теории марковских процессов принятия решений известно, что без ограничения общности поиск можно ограничить множеством так называемых стационарных политик. Политика является стационарной , если возвращаемое ею распределение действий зависит только от последнего посещенного состояния (из истории агента наблюдения). Поиск может быть дополнительно ограничен детерминистской стационарной политикой. Детерминированная стационарная политика детерминированно выбирает действия на основе текущего состояния. Поскольку любую такую ​​политику можно идентифицировать с помощью отображения набора состояний на набор действий, эти политики можно идентифицировать с помощью таких отображений без потери общности.

Грубая сила [ править ]

Метод грубой силы включает в себя два этапа:

  • Для каждой возможной политики возвращается выборка при ее соблюдении.
  • Выберите полис с наибольшим ожидаемым доходом со скидкой

Одна из проблем заключается в том, что количество политик может быть большим или даже бесконечным. Другая причина заключается в том, что дисперсия доходности может быть большой, что требует большого количества выборок для точной оценки дисконтированной доходности каждого полиса.

Эти проблемы можно решить, если мы предположим некоторую структуру и позволим выборкам, полученным на основе одной политики, влиять на оценки, сделанные для других. Двумя основными подходами для достижения этой цели являются оценка функции стоимости и прямой поиск политики .

Функция значения [ править ]

Подходы с использованием функции стоимости пытаются найти политику, которая максимизирует дисконтированную доходность, поддерживая набор оценок ожидаемой дисконтированной доходности. для некоторой политики (обычно либо «текущей» [on-policy], либо оптимальной [off-policy]).

Эти методы основаны на теории марковских процессов принятия решений, где оптимальность определяется в более строгом смысле, чем приведенный выше: политика оптимальна, если она обеспечивает наилучший ожидаемый дисконтированный доход от любого начального состояния (т. е. начальные распределения не играют никакой роли в это определение). Опять же, оптимальную политику всегда можно найти среди стационарных политик.

Чтобы формально определить оптимальность, определите государственную ценность политики. к

где означает дисконтированный доход, связанный со следующими из исходного состояния . Определение как максимально возможное значение состояния , где разрешено изменять,

Политика, которая достигает этих оптимальных значений состояния в каждом штате, называется оптимальной . Очевидно, что политика, оптимальная в этом строгом смысле, также оптимальна в том смысле, что она максимизирует ожидаемую дисконтированную доходность. , с , где это состояние, случайно выбранное из распределения начальных состояний (так ).

Хотя значений состояния достаточно для определения оптимальности, полезно определить значения действия. Учитывая состояние , действие и политика , значение действия пары под определяется

где теперь означает случайный доход со скидкой, связанный с первым действием. в штате и следующие , после этого.

Теория марковских процессов принятия решений утверждает, что если оптимальная политика, мы действуем оптимально (совершаем оптимальное действие), выбирая действие из с наивысшей ценностью действия в каждом состоянии, . Функция действия-ценности такой оптимальной политики ( ) называется оптимальной функцией действия-ценности и обычно обозначается как . Таким образом, одного только знания оптимальной функции «действие-ценность» достаточно, чтобы знать, как действовать оптимально.

Предполагая полное знание марковского процесса принятия решений, можно выделить два основных подхода к вычислению оптимальной функции «действие-ценность»: итерация значения и итерация политики . Оба алгоритма вычисляют последовательность функций ( ), которые сходятся к . Вычисление этих функций включает в себя вычисление ожиданий по всему пространству состояний, что непрактично для всех, кроме самых маленьких (конечных) марковских процессов принятия решений. В методах обучения с подкреплением ожидания аппроксимируются путем усреднения по выборкам и использования методов аппроксимации функций, чтобы справиться с необходимостью представления функций значения в больших пространствах состояний и действий.

Методы Монте-Карло [ править ]

Методы Монте-Карло можно использовать в алгоритме, имитирующем итерацию политики. Итерация политики состоит из двух этапов: оценка политики и улучшение политики .

Монте-Карло используется на этапе оценки политики. На этом этапе, учитывая стационарную, детерминированную политику , цель состоит в том, чтобы вычислить значения функции (или хорошее приближение к ним) для всех пар состояние-действие . Предположим (для простоты), что процесс решения Маркова конечен, что доступно достаточно памяти для размещения значений действия, и что проблема носит эпизодический характер, и после каждого эпизода новый начинается с некоторого случайного начального состояния. Тогда оценка значения данной пары состояние-действие могут быть вычислены путем усреднения выборочных доходов, полученных из через некоторое время. Таким образом, при наличии достаточного времени эта процедура может построить точную оценку функции действие-ценность . На этом заканчивается описание этапа оценки политики.

На этапе улучшения политики следующая политика получается путем вычисления жадной политики по отношению к : Учитывая состояние , эта новая политика возвращает действие, которое максимизирует . На практике ленивая оценка может отложить вычисление максимизирующих действий до того момента, когда они потребуются.

Проблемы с этой процедурой включают в себя:

  1. Процедура может потребовать слишком много времени для оценки неоптимальной политики.
  2. Он использует выборки неэффективно, поскольку длинная траектория улучшает оценку только одной пары состояние-действие, с которой началась траектория.
  3. Когда доходность по траекториям имеет высокую дисперсию , сходимость происходит медленно.
  4. Это работает только в эпизодических проблемах .
  5. Он работает только в небольших, конечных марковских процессах принятия решений.

Методы временной разницы [ править ]

Первая проблема решается путем разрешения процедуре изменять политику (в некоторых или во всех состояниях) до того, как значения установятся. Это также может быть проблематичным, поскольку может помешать конвергенции. Большинство современных алгоритмов делают это, создавая класс алгоритмов итерации обобщенной политики . Многие актерско-критические методы относятся к этой категории.

Вторую проблему можно исправить, разрешив траекториям вносить вклад в любую пару состояние-действие в них. (TD) Саттона, Это также может в некоторой степени помочь в решении третьей проблемы, хотя лучшим решением, когда доходность имеет высокую дисперсию, является метод временной разницы основанный на рекурсивном уравнении Беллмана . [15] [16] Вычисления в методах TD могут быть инкрементальными (когда после каждого перехода память меняется и переход выбрасывается) или пакетными (когда переходы группируются и оценки вычисляются один раз на основе пакета). Пакетные методы, такие как метод временной разницы наименьших квадратов, [17] могут лучше использовать информацию в выборках, в то время как инкрементные методы являются единственным выбором, когда пакетные методы неосуществимы из-за их высокой вычислительной сложности или сложности памяти. Некоторые методы пытаются объединить два подхода. Методы, основанные на временных различиях, также решают четвертую проблему.

Другая проблема, характерная для TD, связана с тем, что они полагаются на рекурсивное уравнение Беллмана. Большинство методов TD имеют так называемый параметр который может непрерывно интерполировать между методами Монте-Карло, которые не полагаются на уравнения Беллмана, и основными методами TD, которые полностью полагаются на уравнения Беллмана. Это может быть эффективным решением этой проблемы.

Методы аппроксимации функций [ править ]

Для решения пятой проблемы методы аппроксимации функций используются . Приближение линейной функции начинается с отображения который присваивает конечномерный вектор каждой паре состояние-действие. Затем значения действия пары состояние-действие получаются путем линейного объединения компонентов с некоторыми весами :

Затем алгоритмы корректируют веса вместо корректировки значений, связанных с отдельными парами состояние-действие. Были изучены методы, основанные на идеях непараметрической статистики (которые, как видно, создают свои собственные функции).

Итерацию значений также можно использовать в качестве отправной точки, что дает начало алгоритму Q-обучения и его многочисленным вариантам. [18] Включая методы глубокого Q-обучения, когда для представления Q используется нейронная сеть, с различными приложениями в задачах стохастического поиска. [19]

Проблема с использованием значений действий заключается в том, что им могут потребоваться очень точные оценки конкурирующих значений действий, которые может быть трудно получить, когда результаты зашумлены, хотя эта проблема в некоторой степени смягчается методами временной разницы. Использование так называемого метода аппроксимации совместимых функций снижает общность и эффективность.

Прямой поиск по политике [ править ]

Альтернативным методом является поиск непосредственно в (некотором подмножестве) политического пространства, и в этом случае проблема становится случаем стохастической оптимизации . Доступны два подхода: градиентный и безградиентный.

Градиентные методы ( методы градиента политики ) начинаются с отображения конечномерного пространства (параметров) в пространство политик: с учетом вектора параметров , позволять обозначают политику, связанную с . Определение функции производительности с помощью в мягких условиях эта функция будет дифференцируема как функция вектора параметров . Если градиент было известно, можно было использовать градиентный подъем . Поскольку аналитическое выражение для градиента недоступно, доступна только зашумленная оценка. Такую оценку можно построить разными способами, что приводит к появлению таких алгоритмов, как метод REINFORCE Уильямса. [20] известен как метод отношения правдоподобия (который в литературе по оптимизации на основе моделирования ). [21]

Большой класс методов избегает использования информации о градиенте. К ним относятся моделирование отжига , перекрестный энтропийный поиск или методы эволюционных вычислений . Многие безградиентные методы могут достичь (теоретически и в пределе) глобального оптимума.

Методы поиска политики могут медленно сходиться при наличии зашумленных данных. Например, это происходит в эпизодических задачах, когда траектории длинные и дисперсия доходностей велика. В этом случае могут помочь методы, основанные на функции стоимости, основанные на временных различиях. В последние годы методы актер-критик были предложены и хорошо зарекомендовали себя при решении различных проблем. [22]

Методы поиска политики использовались в контексте робототехники . [23] Многие методы поиска политик могут застрять в локальных оптимумах (поскольку они основаны на локальном поиске ).

Алгоритмы на основе моделей [ править ]

Наконец, все вышеперечисленные методы можно объединить с алгоритмами, которые сначала изучают модель марковского процесса принятия решений , вероятность каждого следующего состояния с учетом действия, предпринятого из существующего состояния. Например, алгоритм Dyna [24] изучает модель на основе опыта и использует ее для обеспечения более смоделированных переходов для функции значения в дополнение к реальным переходам. Иногда такие методы можно расширить за счет использования непараметрических моделей, например, когда переходы просто сохраняются и «воспроизводятся». [25] к алгоритму обучения.

Методы, основанные на моделях, могут быть более интенсивными в вычислительном отношении, чем подходы без моделей, и их полезность может быть ограничена степенью, в которой можно изучить марковский процесс принятия решений. [26]

Существуют и другие способы использования моделей, кроме обновления функции значения. [27] Например, в прогнозирующем управлении моделью модель используется для непосредственного обновления поведения.

Теория [ править ]

Как асимптотическое, так и конечно-выборочное поведение большинства алгоритмов хорошо изучено. Алгоритмы с доказуемо хорошей онлайновой производительностью (решающие проблему разведки) известны.

Эффективное исследование марковских процессов принятия решений дано в Burnetas and Katehakis (1997). [12] Для многих алгоритмов также появились границы производительности за конечное время, но ожидается, что эти границы будут довольно расплывчатыми, и поэтому потребуется дополнительная работа, чтобы лучше понять относительные преимущества и ограничения.

Для инкрементальных алгоритмов решены проблемы асимптотической сходимости. [ нужны разъяснения ] . Алгоритмы, основанные на временной разности, сходятся при более широком наборе условий, чем это было возможно ранее (например, при использовании произвольной плавной аппроксимации функции).

Исследования [ править ]

Темы исследований включают в себя:

  • актер-критик архитектуры
  • актер-критик-декораторская архитектура [3]
  • адаптивные методы, которые работают с меньшим количеством параметров (или без них) в большом количестве условий.
  • обнаружение ошибок в программных проектах [28]
  • непрерывное обучение
  • комбинации с логическими структурами [29]
  • исследование больших марковских процессов принятия решений
  • человеческая обратная связь [30]
  • взаимодействие между неявным и явным обучением при приобретении навыков
  • внутренняя мотивация , которая отличает поведение, связанное с поиском информации и любопытством, от целенаправленного поведения, зависящего от выполнения задачи. Крупномасштабные эмпирические оценки.
  • большие (или непрерывные) пространства действий
  • модульное и иерархическое обучение с подкреплением [31]
  • Многоагентное/распределенное обучение с подкреплением является темой, представляющей интерес. Приложения расширяются. [32]
  • контроль, ориентированный на пассажира
  • оптимизация вычислительных ресурсов [33] [34] [35]
  • частичная информация (например, с использованием прогнозного представления состояния )
  • функция вознаграждения, основанная на максимизации новой информации [36] [37] [38]
  • планирование на основе выборки (например, на основе поиска по дереву Монте-Карло ).
  • торговля ценными бумагами [39]
  • трансферное обучение [40]
  • TD-обучение, моделирующее дофамина обучение мозга на основе . Дофаминергические проекции от черной субстанции к функции базальных ганглиев являются ошибкой прогнозирования.
  • методы поиска функций и политик

Сравнение ключевых алгоритмов [ править ]

Алгоритм Описание Политика Пространство действия Государственное пространство Оператор
Монте-Карло Каждый визит в Монте-Карло Или Дискретный Дискретный Выборочные средства значений состояния или значений действия
Обучение ТД Состояние-действие-награда-состояние Вне политики Дискретный Дискретный Государственная ценность
Q-обучение Состояние-действие-награда-состояние Вне политики Дискретный Дискретный Значение действия
СОУС Состояние-действие-награда-состояние-действие В соответствии с политикой Дискретный Дискретный Значение действия
ДКН Сеть Deep Q Вне политики Дискретный Непрерывный Значение действия
ДДПГ Глубокий детерминистический политический градиент Вне политики Непрерывный Непрерывный Значение действия
А3С Асинхронный алгоритм «Актор-критик» В соответствии с политикой Дискретный Непрерывный Преимущество (=значение действия - значение состояния)
ТРПО Оптимизация политики доверительного региона В соответствии с политикой Непрерывный или дискретный Непрерывный Преимущество
ППО Оптимизация проксимальной политики В соответствии с политикой Непрерывный или дискретный Непрерывный Преимущество
ТД3 Двойной глубокий детерминированный политический градиент с задержкой Вне политики Непрерывный Непрерывный Значение действия
САК Мягкий актер-критик Вне политики Непрерывный Непрерывный Преимущество
ДСАК [41] [42] [43] Критик распределительного мягкого актера Вне политики Непрерывный Непрерывный Распределение действия и значения

Ассоциативное с обучение подкреплением

Задачи ассоциативного обучения с подкреплением сочетают в себе аспекты задач автоматов стохастического обучения и задач классификации шаблонов обучения с учителем. В задачах ассоциативного обучения с подкреплением система обучения взаимодействует со своей средой в замкнутом цикле. [44]

Глубокое с обучение подкреплением

Этот подход расширяет обучение с подкреплением за счет использования глубокой нейронной сети без явного проектирования пространства состояний. [45] Работа Google DeepMind по изучению игр ATARI повысила внимание к глубокому обучению с подкреплением или сквозному обучению с подкреплением . [46]

обучение с глубоким Состязательное подкреплением

Состязательное глубокое обучение с подкреплением — это активная область исследований в области обучения с подкреплением, в которой основное внимание уделяется уязвимостям изученных политик. Некоторые исследования в этой области исследований изначально показали, что политика обучения с подкреплением подвержена незаметным состязательным манипуляциям. [47] [48] [49] Хотя были предложены некоторые методы для преодоления этой уязвимости, в самых последних исследованиях было показано, что эти предлагаемые решения далеки от точного представления текущих уязвимостей политики глубокого обучения с подкреплением. [50]

обучение Нечеткое с подкреплением

Вводя нечеткий вывод в обучение с подкреплением, [51] становится возможной аппроксимация функции ценности состояния-действия нечеткими правилами в непрерывном пространстве. Форма нечетких правил ЕСЛИ-ТО делает этот подход пригодным для выражения результатов в форме, близкой к естественному языку. Расширение FRL с помощью интерполяции нечетких правил [52] позволяет использовать разреженные нечеткие базы правил уменьшенного размера, чтобы подчеркнуть кардинальные правила (наиболее важные значения действий государства).

Обучение с обратным подкреплением

В обратном обучении с подкреплением (IRL) функция вознаграждения не задается. Вместо этого функция вознаграждения выводится с учетом наблюдаемого поведения эксперта. Идея состоит в том, чтобы имитировать наблюдаемое поведение, которое часто является оптимальным или близким к оптимальному. [53] Одна популярная парадигма IRL называется обучением с обратным подкреплением с максимальной энтропией (MaxEnt IRL). [54] MaxEnt IRL оценивает параметры линейной модели функции вознаграждения путем максимизации энтропии распределения вероятностей наблюдаемых траекторий с учетом ограничений, связанных с совпадением ожидаемого количества признаков. Недавно было показано, что MaxEnt IRL является частным случаем более общей структуры, называемой обучением с обратным подкреплением случайной полезности (RU-IRL). [55] RU-IRL основан на теории случайной полезности и марковских процессах принятия решений. В то время как предыдущие подходы IRL предполагают, что кажущееся случайное поведение наблюдаемого агента обусловлено тем, что он следует случайной политике, RU-IRL предполагает, что наблюдаемый агент следует детерминированной политике, но случайность в наблюдаемом поведении обусловлена ​​тем фактом, что наблюдатель имеет только частичный доступ к функциям, которые наблюдаемый агент использует при принятии решений. Функция полезности моделируется как случайная величина, чтобы учесть незнание наблюдателем особенностей, которые наблюдаемый агент фактически учитывает в своей функции полезности.

Безопасное обучение подкреплением с

Безопасное обучение с подкреплением (SRL) можно определить как процесс политики обучения, которая максимизирует ожидание отдачи в проблемах, в которых важно обеспечить разумную производительность системы и/или соблюдать ограничения безопасности во время процессов обучения и/или развертывания. [56]

См. также [ править ]

Ссылки [ править ]

  1. ^ Кельблинг, Лесли П .; Литтман, Майкл Л .; Мур, Эндрю В. (1996). «Обучение с подкреплением: опрос» . Журнал исследований искусственного интеллекта . 4 : 237–285. arXiv : cs/9605103 . дои : 10.1613/jair.301 . S2CID   1708582 . Архивировано из оригинала 20 ноября 2001 г.
  2. ^ ван Оттерло, М.; Виринг, М. (2012). «Обучение с подкреплением и марковские процессы принятия решений». Обучение с подкреплением . Адаптация, обучение и оптимизация. Том. 12. стр. 3–42. дои : 10.1007/978-3-642-27645-3_1 . ISBN  978-3-642-27644-6 .
  3. ^ Перейти обратно: а б с д Ли, Шэнбо (2023). Обучение с подкреплением для последовательного принятия решений и оптимального управления (первое изд.). Спрингер Верлаг, Сингапур. стр. 1–460. дои : 10.1007/978-981-19-7784-8 . ISBN  978-9-811-97783-1 . S2CID   257928563 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  4. ^ Рассел, Стюарт Дж.; Норвиг, Питер (2010). Искусственный интеллект: современный подход (Третье изд.). Река Аппер-Сэдл, Нью-Джерси. стр. 830, 831. ISBN.  978-0-13-604259-4 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  5. ^ Ли, Дэёль; Со, Хёджон; Юнг, Мин Ван (21 июля 2012 г.). «Нейронные основы обучения с подкреплением и принятия решений» . Ежегодный обзор неврологии . 35 (1): 287–308. doi : 10.1146/annurev-neuro-062111-150512 . ПМК   3490621 . ПМИД   22462543 .
  6. ^ Салазар Дуке, Эдгар Маурисио; Хиральдо, Хуан С.; Вергара, Педро П.; Нгуен, Фуонг; Ван дер Молен, Энн; Слотвег, Хан (2022). «Эксплуатация общественного хранилища энергии посредством обучения с подкреплением и отслеживанием приемлемости» . Исследование электроэнергетических систем . 212 . дои : 10.1016/j.epsr.2022.108515 . S2CID   250635151 .
  7. ^ Се, Чжаомин; Хун Юй Лин; Нам Хи Ким; Мишель ван де Панн (2020). «ALLSTEPS: Обучение ступенькам на основе учебной программы». arXiv : 2005.04323 [ cs.GR ].
  8. ^ Вергара, Педро П.; Салазар, Маурисио; Хиральдо, Хуан С.; Паленский, Петр (2022). «Оптимальное управление фотоэлектрическими инверторами в несбалансированных распределительных системах с использованием обучения с подкреплением» . Международный журнал электроэнергетики и энергетических систем . 136 . дои : 10.1016/j.ijepes.2021.107628 . S2CID   244099841 .
  9. ^ Саттон и Барто 2018 , Глава 11.
  10. ^ Рен, Янган; Цзян, Цзяньхуа; Чжан, Гоцзянь; Ли, Шэнбо Эбен; Чен, Чен; Ли, Кэцян; Дуань, Цзинлян (2022). «Самообучающийся интеллект для комплексного принятия решений и управления автоматическими транспортными средствами на регулируемых перекрестках» . Транзакции IEEE в интеллектуальных транспортных системах . 23 (12): 24145–24156. arXiv : 2110.12359 . дои : 10.1109/TITS.2022.3196167 .
  11. ^ Госави, Абхиджит (2003). Оптимизация на основе моделирования: методы параметрической оптимизации и усиление . Серия интерфейсов исследования операций/информатики. Спрингер. ISBN  978-1-4020-7454-7 .
  12. ^ Перейти обратно: а б Бурнетас, Апостолос Н.; Катехакис, Майкл Н. (1997), «Оптимальные адаптивные политики для марковских процессов принятия решений», Mathematics of Operations Research , 22 (1): 222–255, doi : 10.1287/moor.22.1.222 , JSTOR   3690147
  13. ^ Токич, Мишель; Палм, Гюнтер (2011), «Исследование на основе разницы ценностей: адаптивное управление между Epsilon-Greedy и Softmax» (PDF) , KI 2011: Достижения в области искусственного интеллекта , Конспекты лекций по информатике, том. 7006, Springer, стр. 335–346, ISBN.  978-3-642-24455-1
  14. ^ Перейти обратно: а б «Обучение с подкреплением: введение» (PDF) . Архивировано из оригинала (PDF) 12 июля 2017 г. Проверено 23 июля 2017 г.
  15. ^ Саттон, Ричард С. (1984). Временное присвоение кредитов в обучении с подкреплением (докторская диссертация). Массачусетский университет, Амхерст, Массачусетс. Архивировано из оригинала 30 марта 2017 г. Проверено 29 марта 2017 г.
  16. ^ Саттон и Барто 2018 , §6. Обучение с временными различиями .
  17. ^ Брадтке, Стивен Дж .; Барто, Эндрю Г. (1996). «Учимся прогнозировать методом временных разностей». Машинное обучение . 22 : 33–57. CiteSeerX   10.1.1.143.857 . дои : 10.1023/А:1018056104778 . S2CID   20327856 .
  18. ^ Уоткинс, Кристофер Дж.Ч. (1989). Обучение на основе отложенного вознаграждения (PDF) (кандидатская диссертация). Королевский колледж, Кембридж, Великобритания.
  19. ^ Мацлиах, Баруш; Бен-Гал, Ирад; Каган, Евгений (2022). «Обнаружение статических и мобильных целей автономным агентом с возможностями глубокого Q-обучения» . Энтропия . 24 (8): 1168. Бибкод : 2022Entrp..24.1168M . дои : 10.3390/e24081168 . ПМК   9407070 . ПМИД   36010832 .
  20. ^ Уильямс, Рональд Дж. (1987). «Класс алгоритмов оценки градиента для обучения с подкреплением в нейронных сетях». Материалы Первой международной конференции IEEE по нейронным сетям . CiteSeerX   10.1.1.129.8871 .
  21. ^ Питерс, Ян ; Виджаякумар, Сету ; Шааль, Стефан (2003). Обучение с подкреплением для гуманоидной робототехники (PDF) . Международная конференция IEEE-RAS по гуманоидным роботам. Архивировано из оригинала (PDF) 12 мая 2013 г.
  22. ^ Джулиани, Артур (17 декабря 2016 г.). «Простое обучение с подкреплением с помощью Tensorflow. Часть 8: Асинхронные агенты-актеры-критики (A3C)» . Середина . Проверено 22 февраля 2018 г.
  23. ^ Дейзенрот, Марк Питер ; Нойманн, Герхард ; Петерс, Ян (2013). Опрос по поиску политики в области робототехники (PDF) . Основы и тенденции в робототехнике. Том. 2. Издательство NOW. стр. 1–142. дои : 10.1561/2300000021 . hdl : 10044/1/12051 .
  24. ^ Саттон, Ричард (1990). «Интегрированные архитектуры для обучения, планирования и реагирования на основе динамического программирования». Машинное обучение: материалы седьмого международного семинара .
  25. ^ Линь, Лун-Цзи (1992). «Самосовершенствование реактивных агентов на основе обучения, планирования и обучения с подкреплением» (PDF) . Машинное обучение, том 8 . дои : 10.1007/BF00992699 .
  26. ^ Цзоу, Лан (01 января 2023 г.), Цзоу, Лан (редактор), «Глава 7 - Обучение с мета-подкреплением» , Мета-обучение , Academic Press, стр. 267–297, doi : 10.1016/b978-0- 323-89931-4.00011-0 , ISBN  978-0-323-89931-4 , получено 8 ноября 2023 г.
  27. ^ ван Хасселт, Хадо; Хессель, Маттео; Асланидес, Джон (2019). «Когда использовать параметрические модели в обучении с подкреплением?» (PDF) . Достижения в области нейронных систем обработки информации 32 .
  28. ^ «Об использовании обучения с подкреплением для тестирования игровой механики: ACM — Компьютеры в развлечениях» . cie.acm.org . Проверено 27 ноября 2018 г.
  29. ^ Риверет, Реджис; Гао, Ян (2019). «Вероятностная основа аргументации для агентов обучения с подкреплением». Автономные агенты и мультиагентные системы . 33 (1–2): 216–274. дои : 10.1007/s10458-019-09404-2 . S2CID   71147890 .
  30. ^ Ямагата, Таку; МакКонвилл, Райан; Сантос-Родригес, Рауль (16 ноября 2021 г.). «Обучение с подкреплением с обратной связью от нескольких людей с различными навыками». arXiv : 2111.08596 [ cs.LG ].
  31. ^ Кулкарни, Теджас Д.; Нарасимхан, Картик Р.; Саиди, Ардаван; Тененбаум, Джошуа Б. (2016). «Иерархическое обучение с глубоким подкреплением: интеграция временной абстракции и внутренней мотивации» . Материалы 30-й Международной конференции по нейронным системам обработки информации . НИПС'16. США: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Бибкод : 2016arXiv160406057K . ISBN  978-1-5108-3881-9 .
  32. ^ «Обучение с подкреплением / Успехи обучения с подкреплением» . umichrl.pbworks.com . Проверено 6 августа 2017 г.
  33. ^ Дей, Сомдип; Сингх, Амит Кумар; Ван, Сяохан; Макдональд-Майер, Клаус (март 2020 г.). «Усиленное обучение с учетом взаимодействия с пользователем для повышения энергоэффективности и тепловой эффективности мобильных MPSoC CPU-GPU» . Конференция и выставка «Проектирование, автоматизация и испытания в Европе» 2020 (ДАТА) (PDF) . стр. 1728–1733. дои : 10.23919/ДАТА48585.2020.9116294 . ISBN  978-3-9819263-4-7 . S2CID   219858480 .
  34. ^ Разыскивается, Тони. «Смартфоны становятся умнее благодаря инновациям Essex» . Деловой еженедельник . Проверено 17 июня 2021 г.
  35. ^ Уильямс, Рианнон (21 июля 2020 г.). «Смартфоны будущего «продлят срок службы батареи, отслеживая поведение владельцев» » . я . Проверено 17 июня 2021 г.
  36. ^ Каплан, Ф.; Удейер, П. (2004). «Максимизация прогресса в обучении: внутренняя система вознаграждения за развитие». В Ииде, Ф.; Пфайфер, Р.; Стилс, Л.; Куниёси, Ю. (ред.). Воплощенный искусственный интеллект . Конспекты лекций по информатике. Том. 3139. Берлин; Гейдельберг: Спрингер. стр. 259–270. дои : 10.1007/978-3-540-27833-7_19 . ISBN  978-3-540-22484-6 . S2CID   9781221 .
  37. ^ Клубин А.; Полани, Д.; Неханив, К. (2008). «Держите свои возможности открытыми: принцип управления сенсомоторными системами, основанный на информации» . ПЛОС ОДИН . 3 (12): е4018. Бибкод : 2008PLoSO...3.4018K . дои : 10.1371/journal.pone.0004018 . ПМК   2607028 . ПМИД   19107219 .
  38. ^ Барто, АГ (2013). «Внутренняя мотивация и обучение с подкреплением». Внутренне мотивированное обучение в естественных и искусственных системах (PDF) . Берлин; Гейдельберг: Спрингер. стр. 17–47.
  39. ^ Дабериус, Кевин; Гранат, Элвин; Карлссон, Патрик (2020). «Deep Execution - обучение с подкреплением на основе ценностей и политик для торговли и достижения рыночных показателей». Журнал машинного обучения в финансах . 1 . ССНН   3374766 .
  40. ^ Джордж Каримпанал, Томмен; Буффанае, Роланд (2019). «Самоорганизующиеся карты для хранения и передачи знаний в обучении с подкреплением». Адаптивное поведение . 27 (2): 111–126. arXiv : 1811.08318 . дои : 10.1177/1059712318818568 . ISSN   1059-7123 . S2CID   53774629 .
  41. ^ Дж Дуань; Ю Гуань; С. Ли (2021). «Распределительный мягкий актер-критик: обучение с подкреплением вне политики для устранения ошибок оценки стоимости» . Транзакции IEEE в нейронных сетях и системах обучения . 33 (11): 6584–6598. arXiv : 2001.02811 . дои : 10.1109/TNNLS.2021.3082568 . ПМИД   34101599 . S2CID   211259373 .
  42. ^ Ю Рен; Дж Дуань; С Ли (2020). «Улучшение обобщения обучения с подкреплением с помощью минимаксного распределительного мягкого актера-критика» . 23-я Международная конференция IEEE по интеллектуальным транспортным системам (ITSC) , 2020 г. стр. 1–6. arXiv : 2002.05502 . дои : 10.1109/ITSC45102.2020.9294300 . ISBN  978-1-7281-4149-7 . S2CID   211096594 .
  43. ^ Дуань, Дж; Ван, В; Сяо, Л. (26 октября 2023 г.). «DSAC-T: Распределительный мягкий актер-критик с тремя уточнениями». arXiv : 2310.05858 [ cs.LG ].
  44. ^ Соучек, Бранко (6 мая 1992 г.). Динамическое, генетическое и хаотическое программирование: серия компьютерных технологий шестого поколения . John Wiley & Sons, Inc. с. 38. ISBN  0-471-55717-Х .
  45. ^ Франсуа-Лаве, Винсент; и другие. (2018). «Введение в глубокое обучение с подкреплением». Основы и тенденции в машинном обучении . 11 (3–4): 219–354. arXiv : 1811.12560 . Бибкод : 2018arXiv181112560F . дои : 10.1561/2200000071 . S2CID   54434537 .
  46. ^ Мних, Владимир; и другие. (2015). «Контроль на человеческом уровне посредством глубокого обучения с подкреплением». Природа . 518 (7540): 529–533. Бибкод : 2015Natur.518..529M . дои : 10.1038/nature14236 . ПМИД   25719670 . S2CID   205242740 .
  47. ^ Гудфеллоу, Ян; Шленс, Джонатан; Сегеди, Кристиан (2015). «Объяснение и использование состязательных примеров». Международная конференция по обучению представлений . arXiv : 1412.6572 .
  48. ^ Бехзадан, Вахид; Мунир, Арслан (2017). «Уязвимость глубокого обучения с подкреплением для политических атак». Машинное обучение и интеллектуальный анализ данных в распознавании образов . Конспекты лекций по информатике. Том. 10358. стр. 262–275. arXiv : 1701.04143 . дои : 10.1007/978-3-319-62416-7_19 . ISBN  978-3-319-62415-0 . S2CID   1562290 .
  49. ^ Питер, Хуанг, Сэнди Папернот, Николас Гудфеллоу, Ян Дуан, Ян Аббил (07 февраля 2017 г.). Состязательные атаки на политики нейронных сетей . OCLC   1106256905 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  50. ^ Коркмаз, Эзги (2022). «Политики глубокого обучения с подкреплением изучают общие состязательные функции в MDP» . Тридцать шестая конференция AAAI по искусственному интеллекту (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . дои : 10.1609/aaai.v36i7.20684 . S2CID   245219157 .
  51. ^ Беренджи, HR (1994). «Нечеткое Q-обучение: новый подход к нечеткому динамическому программированию» . Материалы 3-й Международной конференции по нечетким системам IEEE 1994 г. Орландо, Флорида, США: IEEE. стр. 486–491. дои : 10.1109/FUZZY.1994.343737 . ISBN  0-7803-1896-Х . S2CID   56694947 .
  52. ^ Винце, Дэвид (2017). «Интерполяция нечетких правил и обучение с подкреплением» (PDF) . 2017 15-й Международный симпозиум IEEE по прикладному машинному интеллекту и информатике (SAMI) . IEEE. стр. 173–178. дои : 10.1109/САМИ.2017.7880298 . ISBN  978-1-5090-5655-2 . S2CID   17590120 .
  53. ^ Нг, АЙ; Рассел, SJ (2000). «Алгоритмы обратного обучения с подкреплением» (PDF) . Труды ICML '00 Материалы семнадцатой международной конференции по машинному обучению . стр. 663–670. ISBN  1-55860-707-2 .
  54. ^ Зибарт, Брайан Д.; Маас, Эндрю; Багнелл, Дж. Эндрю; Дей, Анинд К. (13 июля 2008 г.). «Обучение с обратным подкреплением с максимальной энтропией» . Материалы 23-й национальной конференции по искусственному интеллекту. Том 3 . АААИ'08. Чикаго, Иллинойс: AAAI Press: 1433–1438. ISBN  978-1-57735-368-3 . S2CID   336219 .
  55. ^ Питомбейра-Нето, Ансельмо Р.; Сантос, Хелано П.; Коэльо да Силва, Тициана Л.; де Маседо, Хосе Антонио Ф. (март 2024 г.). «Моделирование траектории с помощью обучения с обратным подкреплением со случайной полезностью» . Информационные науки . 660 120128.arXiv : : 2105.12092 . дои : 10.1016/j.ins.2024.120128 . ISSN   0020-0255 . S2CID   235187141 .
  56. ^ Гарсия, Хавьер; Фернандес, Фернандо (1 января 2015 г.). «Комплексный опрос по безопасному обучению с подкреплением» (PDF) . Журнал исследований машинного обучения . 16 (1): 1437–1480.
  57. ^ Перейти обратно: а б Гуань, Ян; Ли, Шэнбо; Дуань, Цзянлян (2021). «Обучение с прямым и косвенным подкреплением» . Международный журнал интеллектуальных систем . 36 (8): 4439–4467. arXiv : 1912.10600 . дои : 10.1002/int.22466 .

Источники [ править ]

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]