Jump to content

Функция протозначения

В прикладной математике функции протозначений (PVF) — это автоматически изучаемые базисные функции , которые полезны при аппроксимации функций значений для конкретных задач, обеспечивая компактное представление степеней матриц перехода. Они обеспечивают новую основу для решения проблемы присвоения кредитов . Структура представляет новый подход к решению марковских процессов принятия решений (MDP) и обучения с подкреплением задач с использованием многомасштабных спектральных и многообразных методов обучения. Функции протозначения генерируются путем спектрального анализа графика с использованием лапласиана графа .

Функции протозначения были впервые представлены в контексте обучения с подкреплением Шридхаром Махадеваном в его статье « Функции протозначения: обучение с подкреплением развития» на ICML 2005. [1]

Мотивация

[ редактировать ]

функции значения Аппроксимация является важнейшим компонентом решения марковских процессов принятия решений (MDP), определенных в непрерывном пространстве состояний. Хороший аппроксиматор функций позволяет агенту обучения с подкреплением (RL) точно представлять значение любого состояния, которое он испытал, без явного сохранения его значения. Аппроксимация линейной функции с использованием базисных функций — это распространенный способ построения аппроксимации функции значения, такой как радиальные базисные функции , полиномиальное кодирование состояний и CMAC . Однако параметры, связанные с этими базисными функциями, часто требуют значительной ручной разработки с учетом специфики предметной области. [2] Функции протозначений пытаются решить эту проблему, требующую ручной разработки, учитывая основную многообразную структуру проблемной области. [1]

Функции протозначения — это независимые от задачи глобальные базисные функции, которые в совокупности охватывают все пространство возможных функций значения для данного пространства состояний. [1] Они включают в себя геометрические ограничения, присущие окружающей среде. Например, состояния, близкие на евклидовом расстоянии (например, состояния на противоположных сторонах стены), могут находиться далеко друг от друга в пространстве многообразия. Предыдущие подходы к этой проблеме нелинейности не имели широкой теоретической основы и, следовательно, изучались только в контексте дискретных MDP .

Функции протозначения возникают в результате переформулировки проблемы аппроксимации функции цены как аппроксимации действительнозначной функции на графике или многообразии. Это приводит к более широкому применению изученных баз и позволяет создать новый класс алгоритмов обучения, которые одновременно изучают представления и политики. [3]

Базисные функции из графа Лапласа

[ редактировать ]

Этот подход строит базисные функции путем спектрального анализа лапласиана графа, самосопряженного (или симметричного) оператора в пространстве функций на графике, тесно связанного с оператором случайного блуждания .

Для простоты предположим, что базовое пространство состояний может быть представлено как неориентированный невзвешенный граф. Комбинаторный лапласиан определяется как оператор , где представляет собой диагональную матрицу, называемую матрицей степеней , и матрица смежности . [1]

Спектральный анализ оператора Лапласа на графе состоит в нахождении собственных значений и собственных функций, которые решают уравнение

где является комбинаторным лапласианом, является собственной функцией, связанной с собственным значением . Здесь термин «собственная функция» используется для обозначения того, что традиционно называют собственным вектором в линейной алгебре, поскольку собственные векторы Лапласа естественным образом можно рассматривать как функции, которые отображают каждую вершину в действительное число. [3]

Комбинаторный лапласиан — не единственный оператор на графах, из которого можно выбирать. Другие возможные операторы графа включают:

  • Нормализованный лапласиан [4]
  • Случайное блуждание [4]

Построение графа в дискретном пространстве состояний

[ редактировать ]

Для конечного пространства состояний граф Упомянутое выше можно просто построить, исследуя связи между состояниями. Позволять и быть любыми двумя состояниями. Затем

Важно отметить, что это можно сделать только тогда, когда пространство состояний конечно и имеет разумный размер.

Построение графа на непрерывном или большом пространстве состояний

[ редактировать ]

Для непрерывного пространства состояний или просто очень большого дискретного пространства состояний необходимо осуществлять выборку из многообразия в пространстве состояний. Затем построим график на основе образцов. Здесь следует рассмотреть несколько вопросов: [4]

  • Как взять пробу коллектора
    • Случайная прогулка или исследование под руководством гида
  • Как определить, нужно ли соединять два образца

Приложение

[ редактировать ]

После создания PVF их можно подключить к традиционной системе аппроксимации функций. Одним из таких методов является аппроксимация методом наименьших квадратов.

Приближение методом наименьших квадратов с использованием функций протозначений

[ редактировать ]

Позволять быть базовым набором PVF, где каждый — собственная функция, определенная для всех состояний графа . Позволять быть функцией целевого значения, которая известна только для подмножества состояний .

Определите матрицу грамма

Здесь это покомпонентная проекция PVF на состояния в . Следовательно, каждый элемент матрицы грамма есть

Коэффициенты, минимизирующие ошибку метода наименьших квадратов, затем описываются уравнением

Нелинейный подход наименьших квадратов возможен за счет использования k PVF с наибольшими абсолютными коэффициентами для вычисления аппроксимации. [1]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и Махадеван, С. Функции протоценностей: обучение с подкреплением развития . Материалы Международной конференции по машинному обучению ICML 2005.
  2. ^ Джонс Дж. и Махадеван С., Построение базисных функций из ориентированных графов для аппроксимации функции значения , Международная конференция по машинному обучению (ICML), 2007 г.
  3. ^ Jump up to: а б Махадеван С. и Маджионо М., Функции протозначения: лапласова структура для обучения представлению и управлению в марковских процессах принятия решений , Массачусетский университет, Технический отчет факультета компьютерных наук TR-2006-35, 2006 г.
  4. ^ Jump up to: а б с Махадеван С. и Маджионо М. Учебное пособие ICML 2006 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5669502f76d87b719d0d8907c48b6842__1639394760
URL1:https://arc.ask3.ru/arc/aa/56/42/5669502f76d87b719d0d8907c48b6842.html
Заголовок, (Title) документа по адресу, URL1:
Proto-value function - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)