Jump to content

Автоматическое построение базисной функции

В машинном обучении автоматическое построение базисной функции (или обнаружение базиса ) — это математический метод поиска набора независимых от задачи базисных функций , которые отображают пространство состояний в низкомерное вложение, при этом точно представляя функцию значения . Автоматическое построение базиса не зависит от предварительных знаний предметной области , что позволяет ему хорошо работать там, где создание экспертных базисных функций затруднено или невозможно.

Мотивация

[ редактировать ]

В обучении с подкреплением (RL) большинство реальных задач Марковского процесса принятия решений (MDP) имеют большие или непрерывные пространства состояний, которые обычно требуют некоторого рода приближения для эффективного представления.

Linear function approximators[1] (LFAs) are widely adopted for their low theoretical complexity. Two sub-problems needs to be solved for better approximation: weight optimization and basis construction. To solve the second problem, one way is to design special basis functions. Those basis functions work well in specific tasks but are significantly restricted to domains. Thus constructing basis construction functions automatically is preferred for broader applications.[citation needed]

Определение проблемы

[ редактировать ]

Марковский процесс принятия решений с конечным пространством состояний и фиксированной политикой определяется с помощью пятикортежа , который включает конечное пространство состояний , конечное пространство действия , функция вознаграждения , коэффициент дисконтирования и модель перехода .

Уравнение Беллмана определяется как:

Когда количество элементов в маленький, обычно сохраняется в табличной форме. Пока становится слишком большим для такого рода представления. обычно аппроксимируется с помощью линейной комбинации базисной функции , [2] чтобы у нас было:

Здесь это матрица, в которой каждая строка содержит вектор признаков для соответствующей строки, представляет собой весовой вектор с n параметрами и обычно .

Построение базиса ищет способы автоматического построения лучшей базисной функции. который может хорошо представлять функцию ценности.

Хороший метод строительства должен обладать следующими характеристиками:

  • Границы небольшой ошибки между оценкой и функцией реального значения
  • Сформируйте ортогональный базис в пространстве функции ценности
  • Быстрое переход к функции стационарного значения
[ редактировать ]

Протоценностная основа

[ редактировать ]

В этом подходе Махадеван анализирует граф связности между состояниями, чтобы определить набор базисных функций. [3]

Нормализованный лапласиан графа определяется как:

Здесь W — матрица смежности , которая представляет состояния фиксированной политики MDP, которая образует неориентированный граф (N,E). D — диагональная матрица, связанная со степенями узлов.

В дискретном пространстве состояний матрица смежности можно построить, просто проверив, связаны ли два состояния, а D можно вычислить путем суммирования каждой строки W. В непрерывном пространстве состояний мы могли бы взять лапласиан случайного блуждания W.

Эту спектральную структуру можно использовать для аппроксимации функции ценности (VFA). Учитывая фиксированную политику, веса ребер определяются вероятностью перехода соответствующих состояний. Чтобы получить плавную аппроксимацию значений, диффузионные вейвлеты . используются [3]

При построении базиса Крылова вместо лапласиана случайного блуждания используется реальная матрица перехода. Предположение этого метода заключается в том, что модель перехода P и вознаграждение r доступны.

Векторы в рядах Неймана обозначаются как для всех .

Это показывает, что пространство Крылова, натянутое на достаточно для представления любой функции значения, [4] а m — степень минимального многочлена .

Предположим, что минимальный многочлен равен , и у нас есть , функцию значения можно записать как:

[5]
Алгоритм Расширенный метод Крылова [5]
являются верхними действительными собственными векторами P
для делать
если затем
;
конец, если
для делать
конец для
если затем
перерыв ;
конец, если
конец для
  • k: количество собственных векторов в базисе
  • l: общее количество векторов

Основа ошибки Беллмана

[ редактировать ]

Ошибка Беллмана (или BEBF) определяется как: .

Грубо говоря, ошибка Беллмана указывает на функцию оптимального значения. [6] Последовательность BEBF образует базисное пространство, ортогональное пространству функций действительного значения; таким образом, при достаточном количестве BEBF любая функция значения может быть представлена ​​точно.

Алгоритм BEBF
этап этап i=1, ;
этап
вычислить весовой вектор согласно текущей базисной функции ;
вычислить новую ошибку Беллмана с помощью ;
добавьте ошибку Беллмана, чтобы сформировать новую базисную функцию: ;
  • N представляет количество итераций до сходимости.
  • «:» означает сопоставление матриц или векторов.

Базы среднего вознаграждения Беллмана

[ редактировать ]

База среднего вознаграждения Беллмана (или BARB) [7] аналогично «Базисам Крылова», но функция вознаграждения расширяется за счет средней скорректированной матрицы перехода . Здесь можно рассчитать многими методами. [8]

BARB сходятся быстрее, чем BEBF и Крылов, когда близко к 1.

Алгоритм BARB
этап этап i=1, ;
этап
вычислить весовой вектор согласно текущей базисной функции ;
вычислить новый базис: и добавьте его, чтобы сформировать новую базовую матрицу ;
  • N представляет количество итераций до сходимости.
  • «:» означает сопоставление матриц или векторов.

Обсуждение и анализ

[ редактировать ]

Существует два основных типа методов построения базиса.

Первый тип методов чувствителен к вознаграждению, как Крылов и BEBF; они геометрически расширяют функцию вознаграждения за счет матрицы перехода. Однако, когда коэффициент дисконтирования при приближении к 1 Крылова и BEBF сходятся медленно. Это связано с тем, что погрешность методов, основанных на Крылове, ограничена полиномом Чебышева. [5] Для решения этой проблемы предлагаются такие методы, как BARB. BARB — это инкрементный вариант оснований Дразина, который сходится быстрее, чем Крылов и BEBF, когда становится большим.

Другой тип - это базисная функция протозначения, нечувствительная к вознаграждению, полученная из графа Лапаласиана. Этот метод использует информацию графа, но построение матрицы смежности затрудняет анализ этого метода. [5]

См. также

[ редактировать ]
  1. ^ Келлер, Филипп; Маннор, Ши; Пречап, Дойна . (2006) Автоматическое построение базисной функции для приближенного динамического программирования и обучения с подкреплением. Материалы 23-й Международной конференции по машинному обучению, Питтсбург, Пенсильвания.
  2. ^ Ричард С. Саттон и Эндрю Г. Барто. Обучение с подкреплением: введение. (1998) MIT Press, Кембридж, Массачусетс, глава 8.
  3. ^ Перейти обратно: а б Махадеван, Шридхар; Маджиони, Мауро. (2005) Аппроксимация функции ценности с помощью диффузионных вейвлетов и собственных функций Лапласа. Труды о достижениях в области нейронных систем обработки информации.
  4. ^ Ильза К.Ф. Ипсен и Карл Д. Мейер. Идея метода Крылова. Американский математический ежемесячник, 105 (10): 889–899, 1998.
  5. ^ Перейти обратно: а б с д М. Петрик. Анализ лапласовых методов аппроксимации функции цены в MDP. В материалах Международной совместной конференции по искусственному интеллекту (IJCAI), страницы 2574–2579, 2007 г.
  6. ^ Р. Парр, К. Пейнтер-Уэйкфилд, Л.-Х. Ли и М. Литтман. Анализ генерации признаков для аппроксимации функции значения. В ICML'07, 2007 г.
  7. ^ С. Махадеван и Б. Лю. Построение базиса из разложения функций цены в степенной ряд. В НИПС'10, 2010 г.
  8. ^ Уильям Дж. Стюарт. Численные методы вычисления стационарных распределений конечных неприводимых цепей Маркова . В достижениях в области вычислительной вероятности. Издательство Kluwer Academic, 1997.
[ редактировать ]
  • [1] Лаборатория UMASS ALL
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a1e69bd7fc0694285224201a395b6609__1704024960
URL1:https://arc.ask3.ru/arc/aa/a1/09/a1e69bd7fc0694285224201a395b6609.html
Заголовок, (Title) документа по адресу, URL1:
Automatic basis function construction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)