Функция протозначения
В прикладной математике функции протозначений (PVF) — это автоматически изучаемые базисные функции , которые полезны при аппроксимации функций значений для конкретных задач, обеспечивая компактное представление степеней матриц перехода. Они обеспечивают новую основу для решения проблемы присвоения кредитов . Структура представляет новый подход к решению марковских процессов принятия решений (MDP) и обучения с подкреплением задач с использованием многомасштабных спектральных и многообразных методов обучения. Функции протозначения генерируются путем спектрального анализа графика с использованием лапласиана графа .
Функции протозначения были впервые представлены в контексте обучения с подкреплением Шридхаром Махадеваном в его статье « Функции протозначения: обучение с подкреплением развития» на ICML 2005. [1]
Мотивация
[ редактировать ]функции значения Аппроксимация является важнейшим компонентом решения марковских процессов принятия решений (MDP), определенных в непрерывном пространстве состояний. Хороший аппроксиматор функций позволяет агенту обучения с подкреплением (RL) точно представлять значение любого состояния, которое он испытал, без явного сохранения его значения. Аппроксимация линейной функции с использованием базисных функций — это распространенный способ построения аппроксимации функции значения, такой как радиальные базисные функции , полиномиальное кодирование состояний и CMAC . Однако параметры, связанные с этими базисными функциями, часто требуют значительной ручной разработки с учетом специфики предметной области. [2] Функции протозначений пытаются решить эту проблему, требующую ручной разработки, учитывая основную многообразную структуру проблемной области. [1]
Обзор
[ редактировать ]Функции протозначения — это независимые от задачи глобальные базисные функции, которые в совокупности охватывают все пространство возможных функций значения для данного пространства состояний. [1] Они включают в себя геометрические ограничения, присущие окружающей среде. Например, состояния, близкие на евклидовом расстоянии (например, состояния на противоположных сторонах стены), могут находиться далеко друг от друга в пространстве многообразия. Предыдущие подходы к этой проблеме нелинейности не имели широкой теоретической основы и, следовательно, изучались только в контексте дискретных MDP .
Функции протозначения возникают в результате переформулировки проблемы аппроксимации функции цены как аппроксимации действительнозначной функции на графике или многообразии. Это приводит к более широкому применению изученных баз и позволяет создать новый класс алгоритмов обучения, которые одновременно изучают представления и политики. [3]
Базисные функции из графа Лапласа
[ редактировать ]Этот подход строит базисные функции путем спектрального анализа лапласиана графа, самосопряженного (или симметричного) оператора в пространстве функций на графике, тесно связанного с оператором случайного блуждания .
Для простоты предположим, что базовое пространство состояний может быть представлено как неориентированный невзвешенный граф. Комбинаторный лапласиан определяется как оператор , где представляет собой диагональную матрицу, называемую матрицей степеней , и – матрица смежности . [1]
Спектральный анализ оператора Лапласа на графе состоит в нахождении собственных значений и собственных функций, которые решают уравнение
где является комбинаторным лапласианом, является собственной функцией, связанной с собственным значением . Здесь термин «собственная функция» используется для обозначения того, что традиционно называют собственным вектором в линейной алгебре, поскольку собственные векторы Лапласа естественным образом можно рассматривать как функции, которые отображают каждую вершину в действительное число. [3]
Комбинаторный лапласиан — не единственный оператор на графах, из которого можно выбирать. Другие возможные операторы графа включают:
Построение графа в дискретном пространстве состояний
[ редактировать ]Для конечного пространства состояний граф Упомянутое выше можно просто построить, исследуя связи между состояниями. Позволять и быть любыми двумя состояниями. Затем
Важно отметить, что это можно сделать только тогда, когда пространство состояний конечно и имеет разумный размер.
Построение графа на непрерывном или большом пространстве состояний
[ редактировать ]Для непрерывного пространства состояний или просто очень большого дискретного пространства состояний необходимо осуществлять выборку из многообразия в пространстве состояний. Затем построим график на основе образцов. Здесь следует рассмотреть несколько вопросов: [4]
- Как взять пробу коллектора
- Случайная прогулка или исследование под руководством гида
- Как определить, нужно ли соединять два образца
Приложение
[ редактировать ]После создания PVF их можно подключить к традиционной системе аппроксимации функций. Одним из таких методов является аппроксимация методом наименьших квадратов.
Приближение методом наименьших квадратов с использованием функций протозначений
[ редактировать ]Позволять быть базовым набором PVF, где каждый — собственная функция, определенная для всех состояний графа . Позволять быть функцией целевого значения, которая известна только для подмножества состояний .
Определите матрицу грамма
Здесь это покомпонентная проекция PVF на состояния в . Следовательно, каждый элемент матрицы грамма есть
Коэффициенты, минимизирующие ошибку метода наименьших квадратов, затем описываются уравнением
Нелинейный подход наименьших квадратов возможен за счет использования k PVF с наибольшими абсолютными коэффициентами для вычисления аппроксимации. [1]
См. также
[ редактировать ]- Обучение с подкреплением
- Марковский процесс принятия решения
- Базовая функция
- Собственная функция
- Матрица Лапласа
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и Махадеван, С. Функции протоценностей: обучение с подкреплением развития . Материалы Международной конференции по машинному обучению ICML 2005.
- ^ Джонс Дж. и Махадеван С., Построение базисных функций из ориентированных графов для аппроксимации функции значения , Международная конференция по машинному обучению (ICML), 2007 г.
- ^ Jump up to: а б Махадеван С. и Маджионо М., Функции протозначения: лапласова структура для обучения представлению и управлению в марковских процессах принятия решений , Массачусетский университет, Технический отчет факультета компьютерных наук TR-2006-35, 2006 г.
- ^ Jump up to: а б с Махадеван С. и Маджионо М. Учебное пособие ICML 2006 .