Байесовская интерпретация регуляризации ядра
Эта статья может быть слишком технической для понимания большинства читателей . ( Май 2012 г. ) |
В статистике машинного обучения байесовской методы ядра возникают из предположения о внутреннем пространстве продукта или структуре сходства входных данных. Для некоторых таких методов, таких как машины опорных векторов (SVM), исходная формулировка и ее регуляризация не носили байесовского характера. Полезно понять их с байесовской точки зрения. Поскольку ядра не обязательно являются положительно полуопределенными, базовая структура может быть не пространствами внутреннего произведения, а более общими гильбертовыми пространствами, воспроизводящими ядро . В байесовских методах вероятностного ядра являются ключевым компонентом гауссовских процессов , где функция ядра известна как функция ковариации. Методы ядра традиционно использовались в обучения с учителем задачах , где входное пространство обычно представляет собой пространство векторов , а выходное пространство — пространство скаляров . Совсем недавно эти методы были распространены на задачи, связанные с несколькими результатами , например, при многозадачном обучении . [1]
Математическая эквивалентность регуляризации и байесовской точки зрения легко доказывается в случаях, когда воспроизводящее ядро гильбертова пространства конечномерно . Бесконечномерный случай поднимает тонкие математические проблемы; здесь мы рассмотрим конечномерный случай. Мы начнем с краткого обзора основных идей, лежащих в основе ядерных методов скалярного обучения, и кратко представим концепции регуляризации и гауссовских процессов. Затем мы покажем, как обе точки зрения приходят к по существу эквивалентным оценкам , и покажем связь, которая связывает их вместе.
Проблема контролируемого обучения
[ редактировать ]Классическая задача обучения с учителем требует оценки результата для некоторой новой входной точки. изучая скалярную оценку на основе обучающего набора состоящий из пары ввода-вывода, . [2] Учитывая симметричную и положительную двумерную функцию называемый ядром , один из самых популярных оценщиков в машинном обучении имеет вид
( 1 ) |
где это матрица ядра с записями , , и . Мы увидим, как эту оценку можно получить как с точки зрения регуляризации, так и с точки зрения Байеса.
Перспектива регуляризации
[ редактировать ]Основное предположение в перспективе регуляризации состоит в том, что набор функций предполагается принадлежащим воспроизводящему ядерному гильбертовому пространству . [2] [3] [4] [5]
Воспроизведение ядра гильбертова пространства
[ редактировать ]Воспроизводящее ядро гильбертова пространства (RKHS) является гильбертовым пространством функций, определяемых симметричной функцией положительно определенной называемое воспроизводящим ядром такое, что функция принадлежит для всех . [6] [7] [8] Есть три основных свойства, которые делают RKHS привлекательным:
1. Воспроизводящее свойство , дающее имя пространству,
где является внутренним продуктом в .
2. Функции в РКХС находятся в замыкании линейной комбинации ядра в заданных точках:
- .
Это позволяет строить в единых рамках как линейные, так и обобщенно-линейные модели.
3. Квадрат нормы в РКХС можно записать как
и его можно рассматривать как измерение сложности функции.
Регуляризованный функционал
[ редактировать ]Оценка получается как минимизатор регуляризованного функционала
( 2 ) |
где и это норма в . Первый член этого функционала, измеряющий среднее значение квадратов ошибок между и , называется эмпирическим риском и представляет собой цену, которую мы платим, прогнозируя за истинную ценность . Второй член функционала — это квадрат нормы в RKHS, умноженный на вес. и служит цели стабилизации проблемы [3] [5] а также добавление компромисса между подгонкой и сложностью оценщика. [2] Вес , называемый регуляризатором , определяет степень, до которой следует наказывать нестабильность и сложность оценки (более высокий штраф за увеличение значения ).
Вывод оценки
[ редактировать ]Явная форма оценки в уравнении ( 1 ) выводится в два этапа. Во-первых, теорема о представителе [9] [10] [11] утверждает, что минимизатор функционала ( 2 ) всегда можно записать как линейную комбинацию ядер с центрами в точках обучающего набора,
( 3 ) |
для некоторых . Явный вид коэффициентов можно найти, заменив в функционале ( 2 ). Для функции вида в уравнении ( 3 ) мы имеем следующее:
Мы можем переписать функционал ( 2 ) как
Этот функционал выпуклый по и поэтому мы можем найти его минимум, установив градиент по отношению к до нуля,
Подставляя это выражение для коэффициентов в уравнении ( 3 ), мы получаем оценку, указанную ранее в уравнении ( 1 ),
Байесовский взгляд
[ редактировать ]Понятие ядра играет решающую роль в байесовской вероятности как ковариационной функции случайного процесса, называемого гауссовским процессом .
Обзор байесовской вероятности
[ редактировать ]Как часть байесовской структуры, гауссов процесс определяет априорное распределение , которое описывает априорные представления о свойствах моделируемой функции. Эти убеждения обновляются после учета данных наблюдений с помощью функции правдоподобия , которая связывает предыдущие убеждения с наблюдениями. В совокупности априорное распределение и правдоподобие приводят к обновленному распределению, называемому апостериорным распределением , которое обычно используется для прогнозирования тестовых случаев.
Гауссов процесс
[ редактировать ]Гауссов процесс (GP) — это случайный процесс, в котором любое конечное число выбранных случайных величин подчиняется совместному нормальному распределению . [12] Средний вектор и ковариационная матрица распределения Гаусса полностью определяют GP. GP обычно используются в качестве априорного распределения функций, и поэтому средний вектор и ковариационная матрица могут рассматриваться как функции, где ковариационная функция также называется ядром GP . Пусть функция следовать гауссовскому процессу со средней функцией и функция ядра ,
С точки зрения основного распределения Гаусса мы имеем это для любого конечного набора если мы позволим затем
где средний вектор и — ковариационная матрица многомерного распределения Гаусса.
Вывод оценки
[ редактировать ]В контексте регрессии обычно предполагается, что функция правдоподобия представляет собой распределение Гаусса, а наблюдения независимы и одинаково распределены (iid),
Это предположение соответствует искажению наблюдений гауссовским шумом с нулевым средним с дисперсией . Предположение iid позволяет факторизовать функцию правдоподобия по точкам данных с учетом набора входных данных. и дисперсия шума , и, таким образом, апостериорное распределение можно вычислить аналитически. Для тестового входного вектора , учитывая данные обучения , апостериорное распределение определяется выражением
где обозначает набор параметров, которые включают дисперсию шума и любые параметры из ковариационной функции и где
Связь между регуляризацией и Байесом
[ редактировать ]Связь между теорией регуляризации и байесовской теорией может быть достигнута только в случае конечномерной RKHS . Согласно этому предположению, теория регуляризации и байесовская теория связаны посредством предсказания гауссовского процесса. [3] [12]
В конечномерном случае каждый RKHS можно описать с помощью карты признаков. такой, что [2]
Функции в RKHS с ядром тогда можно записать как
и у нас тоже есть такое
Теперь мы можем построить гауссов процесс, предположив распределяться в соответствии с многомерным распределением Гаусса с нулевым средним значением и единичной ковариационной матрицей,
Если мы предположим гауссову вероятность, мы имеем
где . Результирующее апостериорное распределение определяется выражением
Мы видим, что максимальная апостериорная оценка (MAP) эквивалентна задаче минимизации, определяющей тихоновскую регуляризацию , где в байесовском случае параметр регуляризации связан с дисперсией шума.
С философской точки зрения функция потерь в условиях регуляризации играет иную роль, чем функция правдоподобия в условиях Байеса. В то время как функция потерь измеряет ошибку, возникающую при прогнозировании вместо Функция правдоподобия измеряет, насколько вероятны наблюдения из модели, которая считалась истинной в генеративном процессе. Однако с математической точки зрения формулировки регуляризации и байесовской модели делают функцию потерь и функцию правдоподобия одной и той же математической ролью, способствующей выводу функций. которые приближаются к этикеткам как можно больше.
См. также
[ редактировать ]- Регуляризованные наименьшие квадраты
- Байесовская линейная регрессия
- Байесовская интерпретация тихоновской регуляризации
Ссылки
[ редактировать ]- ^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра векторных функций: обзор». arXiv : 1106.6251 [ stat.ML ].
- ^ Jump up to: а б с д Вапник, Владимир (1998). Статистическая теория обучения . Уайли. ISBN 9780471030034 .
- ^ Jump up to: а б с Вахба, Грейс (1990). Сплайновые модели для данных наблюдений . СИАМ.
- ^ Шёлкопф, Бернхард; Смола, Александр Дж. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и многое другое . МТИ Пресс. ISBN 9780262194754 .
- ^ Jump up to: а б Джирози, Ф.; Поджо, Т. (1990). «Сети и свойство наилучшего приближения» (PDF) . Биологическая кибернетика . 63 (3). Спрингер: 169–176. дои : 10.1007/bf00195855 . hdl : 1721.1/6017 . S2CID 18824241 .
- ^ Аронсайн, Н. (май 1950 г.). «Теория воспроизведения ядер» . Труды Американского математического общества . 68 (3): 337–404. дои : 10.2307/1990404 . JSTOR 1990404 .
- ^ Шварц, Лоран (1964). «Гильбертовы подпространства топологических векторных пространств и связанные с ними ядра (воспроизводящие ядра)». Журнал математического анализа . 13 (1). Спрингер: 115–256. дои : 10.1007/bf02786620 . S2CID 117202393 .
- ^ Какер, Фелипе; Смейл, Стив (5 октября 2001 г.). «О математических основах обучения» . Бюллетень Американского математического общества . 39 (1): 1–49. дои : 10.1090/s0273-0979-01-00923-5 .
- ^ Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой случайных процессов и сглаживанием сплайнами» . Анналы математической статистики . 41 (2): 495–502. дои : 10.1214/aoms/1177697089 .
- ^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Алекс Дж. (2001). «Обобщенная теорема о представителе». Вычислительная теория обучения . Конспекты лекций по информатике. Том. 2111/2001. стр. 416–426. дои : 10.1007/3-540-44581-1_27 . ISBN 978-3-540-42343-0 .
- ^ Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства регуляризованных методов ядра». Журнал исследований машинного обучения . 5 : 1363–1390.
- ^ Jump up to: а б Расмуссен, Карл Эдвард; Уильямс, Кристофер К.И. (2006). Гауссовы процессы для машинного обучения . Массачусетский технологический институт Пресс. ISBN 0-262-18253-Х .