Автоматическое построение базисной функции
Эта статья может быть слишком технической для понимания большинства читателей . ( Март 2019 г. ) |
В машинном обучении автоматическое построение базисной функции (или обнаружение базиса ) — это математический метод поиска набора независимых от задачи базисных функций , которые отображают пространство состояний в низкомерное вложение, при этом точно представляя функцию значения . Автоматическое построение базиса не зависит от предварительных знаний предметной области , что позволяет ему хорошо работать там, где создание экспертных базисных функций затруднено или невозможно.
Мотивация
[ редактировать ]В обучении с подкреплением (RL) большинство реальных задач Марковского процесса принятия решений (MDP) имеют большие или непрерывные пространства состояний, которые обычно требуют некоторого рода приближения для эффективного представления.
Linear function approximators[1] (LFAs) are widely adopted for their low theoretical complexity. Two sub-problems needs to be solved for better approximation: weight optimization and basis construction. To solve the second problem, one way is to design special basis functions. Those basis functions work well in specific tasks but are significantly restricted to domains. Thus constructing basis construction functions automatically is preferred for broader applications.[citation needed]
Определение проблемы
[ редактировать ]Марковский процесс принятия решений с конечным пространством состояний и фиксированной политикой определяется с помощью пятикортежа , который включает конечное пространство состояний , конечное пространство действия , функция вознаграждения , коэффициент дисконтирования и модель перехода .
Уравнение Беллмана определяется как:
Когда количество элементов в маленький, обычно сохраняется в табличной форме. Пока становится слишком большим для такого рода представления. обычно аппроксимируется с помощью линейной комбинации базисной функции , [2] чтобы у нас было:
Здесь это матрица, в которой каждая строка содержит вектор признаков для соответствующей строки, представляет собой весовой вектор с n параметрами и обычно .
Построение базиса ищет способы автоматического построения лучшей базисной функции. который может хорошо представлять функцию ценности.
Хороший метод строительства должен обладать следующими характеристиками:
- Границы небольшой ошибки между оценкой и функцией реального значения
- Сформируйте ортогональный базис в пространстве функции ценности
- Быстрое переход к функции стационарного значения
Популярные методы
[ редактировать ]Протоценностная основа
[ редактировать ]В этом подходе Махадеван анализирует граф связности между состояниями, чтобы определить набор базисных функций. [3]
Нормализованный лапласиан графа определяется как:
Здесь W — матрица смежности , которая представляет состояния фиксированной политики MDP, которая образует неориентированный граф (N,E). D — диагональная матрица, связанная со степенями узлов.
В дискретном пространстве состояний матрица смежности можно построить, просто проверив, связаны ли два состояния, а D можно вычислить путем суммирования каждой строки W. В непрерывном пространстве состояний мы могли бы взять лапласиан случайного блуждания W.
Эту спектральную структуру можно использовать для аппроксимации функции ценности (VFA). Учитывая фиксированную политику, веса ребер определяются вероятностью перехода соответствующих состояний. Чтобы получить плавную аппроксимацию значений, диффузионные вейвлеты . используются [3]
Krylov basis
[ редактировать ]При построении базиса Крылова вместо лапласиана случайного блуждания используется реальная матрица перехода. Предположение этого метода заключается в том, что модель перехода P и вознаграждение r доступны.
Векторы в рядах Неймана обозначаются как для всех .
Это показывает, что пространство Крылова, натянутое на достаточно для представления любой функции значения, [4] а m — степень минимального многочлена .
Предположим, что минимальный многочлен равен , и у нас есть , функцию значения можно записать как:
- Алгоритм Расширенный метод Крылова [5]
- являются верхними действительными собственными векторами P
- для делать
- если затем
- ;
- конец, если
- для делать
- конец для
- если затем
- перерыв ;
- конец, если
- если затем
- конец для
- k: количество собственных векторов в базисе
- l: общее количество векторов
Основа ошибки Беллмана
[ редактировать ]Ошибка Беллмана (или BEBF) определяется как: .
Грубо говоря, ошибка Беллмана указывает на функцию оптимального значения. [6] Последовательность BEBF образует базисное пространство, ортогональное пространству функций действительного значения; таким образом, при достаточном количестве BEBF любая функция значения может быть представлена точно.
- Алгоритм BEBF
- этап этап i=1, ;
- этап
- вычислить весовой вектор согласно текущей базисной функции ;
- вычислить новую ошибку Беллмана с помощью ;
- добавьте ошибку Беллмана, чтобы сформировать новую базисную функцию: ;
- N представляет количество итераций до сходимости.
- «:» означает сопоставление матриц или векторов.
Базы среднего вознаграждения Беллмана
[ редактировать ]База среднего вознаграждения Беллмана (или BARB) [7] аналогично «Базисам Крылова», но функция вознаграждения расширяется за счет средней скорректированной матрицы перехода . Здесь можно рассчитать многими методами. [8]
BARB сходятся быстрее, чем BEBF и Крылов, когда близко к 1.
- Алгоритм BARB
- этап этап i=1, ;
- этап
- вычислить весовой вектор согласно текущей базисной функции ;
- вычислить новый базис: и добавьте его, чтобы сформировать новую базовую матрицу ;
- N представляет количество итераций до сходимости.
- «:» означает сопоставление матриц или векторов.
Обсуждение и анализ
[ редактировать ]Существует два основных типа методов построения базиса.
Первый тип методов чувствителен к вознаграждению, как Крылов и BEBF; они геометрически расширяют функцию вознаграждения за счет матрицы перехода. Однако, когда коэффициент дисконтирования при приближении к 1 Крылова и BEBF сходятся медленно. Это связано с тем, что погрешность методов, основанных на Крылове, ограничена полиномом Чебышева. [5] Для решения этой проблемы предлагаются такие методы, как BARB. BARB — это инкрементный вариант оснований Дразина, который сходится быстрее, чем Крылов и BEBF, когда становится большим.
Другой тип - это базисная функция протозначения, нечувствительная к вознаграждению, полученная из графа Лапаласиана. Этот метод использует информацию графа, но построение матрицы смежности затрудняет анализ этого метода. [5]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Келлер, Филипп; Маннор, Ши; Пречап, Дойна . (2006) Автоматическое построение базисной функции для приближенного динамического программирования и обучения с подкреплением. Материалы 23-й Международной конференции по машинному обучению, Питтсбург, Пенсильвания.
- ^ Ричард С. Саттон и Эндрю Г. Барто. Обучение с подкреплением: введение. (1998) MIT Press, Кембридж, Массачусетс, глава 8.
- ^ Перейти обратно: а б Махадеван, Шридхар; Маджиони, Мауро. (2005) Аппроксимация функции ценности с помощью диффузионных вейвлетов и собственных функций Лапласа. Труды о достижениях в области нейронных систем обработки информации.
- ^ Ильза К.Ф. Ипсен и Карл Д. Мейер. Идея метода Крылова. Американский математический ежемесячник, 105 (10): 889–899, 1998.
- ^ Перейти обратно: а б с д М. Петрик. Анализ лапласовых методов аппроксимации функции цены в MDP. В материалах Международной совместной конференции по искусственному интеллекту (IJCAI), страницы 2574–2579, 2007 г.
- ^ Р. Парр, К. Пейнтер-Уэйкфилд, Л.-Х. Ли и М. Литтман. Анализ генерации признаков для аппроксимации функции значения. В ICML'07, 2007 г.
- ^ С. Махадеван и Б. Лю. Построение базиса из разложения функций цены в степенной ряд. В НИПС'10, 2010 г.
- ^ Уильям Дж. Стюарт. Численные методы вычисления стационарных распределений конечных неприводимых цепей Маркова . В достижениях в области вычислительной вероятности. Издательство Kluwer Academic, 1997.
Внешние ссылки
[ редактировать ]- [1] Лаборатория UMASS ALL