Байесовская интерпретация регуляризации ядра

В статистике машинного обучения байесовской методы ядра возникают из предположения о внутреннем пространстве продукта или структуре сходства входных данных. Для некоторых таких методов, таких как машины опорных векторов (SVM), исходная формулировка и ее регуляризация не носили байесовского характера. Полезно понять их с байесовской точки зрения. Поскольку ядра не обязательно являются положительно полуопределенными, базовая структура может быть не пространствами внутреннего произведения, а более общими гильбертовыми пространствами, воспроизводящими ядро . В байесовских методах вероятностного ядра являются ключевым компонентом гауссовских процессов , где функция ядра известна как функция ковариации. Методы ядра традиционно использовались в обучения с учителем задачах , где входное пространство обычно представляет собой пространство векторов , а выходное пространство — пространство скаляров . Совсем недавно эти методы были распространены на задачи, связанные с несколькими результатами , например, при многозадачном обучении . ^[1]

Математическая эквивалентность регуляризации и байесовской точки зрения легко доказывается в случаях, когда воспроизводящее ядро гильбертова пространства конечномерно . Бесконечномерный случай поднимает тонкие математические проблемы; здесь мы рассмотрим конечномерный случай. Мы начнем с краткого обзора основных идей, лежащих в основе ядерных методов скалярного обучения, и кратко представим концепции регуляризации и гауссовских процессов. Затем мы покажем, как обе точки зрения приходят к по существу эквивалентным оценкам , и покажем связь, которая связывает их вместе.

Проблема контролируемого обучения

Классическая задача обучения с учителем требует оценки результата для некоторой новой входной точки. $\mathbf {x} '$ изучая скалярную оценку ${\hat {f}}(\mathbf {x} ')$ на основе обучающего набора $S$ состоящий из $n$ пары ввода-вывода, $S=(\mathbf {X} ,\mathbf {Y} )=(\mathbf {x} _{1},y_{1}),\ldots ,(\mathbf {x} _{n},y_{n})$ . ^[2] Учитывая симметричную и положительную двумерную функцию $k(\cdot ,\cdot )$ называемый ядром , один из самых популярных оценщиков в машинном обучении имеет вид

{\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} ,

( 1 )

где $\mathbf {K} \equiv k(\mathbf {X} ,\mathbf {X} )$ это матрица ядра с записями $\mathbf {K} _{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ , $\mathbf {k} =[k(\mathbf {x} _{1},\mathbf {x} '),\ldots ,k(\mathbf {x} _{n},\mathbf {x} ')]^{\top }$ , и $\mathbf {Y} =[y_{1},\ldots ,y_{n}]^{\top }$ . Мы увидим, как эту оценку можно получить как с точки зрения регуляризации, так и с точки зрения Байеса.

Перспектива регуляризации

Основное предположение в перспективе регуляризации состоит в том, что набор функций ${\mathcal {F}}$ предполагается принадлежащим воспроизводящему ядерному гильбертовому пространству ${\mathcal {H}}_{k}$ . ^[2]^[3]^[4]^[5]

Воспроизведение ядра гильбертова пространства

Воспроизводящее ядро гильбертова пространства (RKHS) ${\mathcal {H}}_{k}$ является гильбертовым пространством функций, определяемых симметричной функцией положительно определенной $k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R}$ называемое воспроизводящим ядром такое, что функция $k(\mathbf {x} ,\cdot )$ принадлежит ${\mathcal {H}}_{k}$ для всех $\mathbf {x} \in {\mathcal {X}}$ . ^[6]^[7]^[8] Есть три основных свойства, которые делают RKHS привлекательным:

1. Воспроизводящее свойство , дающее имя пространству,

f(\mathbf {x} )=\langle f,k(\mathbf {x} ,\cdot )\rangle _{k},\quad \forall \ f\in {\mathcal {H}}_{k},

где $\langle \cdot ,\cdot \rangle _{k}$ является внутренним продуктом в ${\mathcal {H}}_{k}$ .

2. Функции в РКХС находятся в замыкании линейной комбинации ядра в заданных точках:

f(\mathbf {x} )=\sum _{i}k(\mathbf {x} _{i},\mathbf {x} )c_{i}

.

Это позволяет строить в единых рамках как линейные, так и обобщенно-линейные модели.

3. Квадрат нормы в РКХС можно записать как

\|f\|_{k}^{2}=\sum _{i,j}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i}c_{j}

и его можно рассматривать как измерение сложности функции.

Регуляризованный функционал

Оценка получается как минимизатор регуляризованного функционала

{\frac {1}{n}}\sum _{i=1}^{n}(f(\mathbf {x} _{i})-y_{i})^{2}+\lambda \|f\|_{k}^{2},

( 2 )

где $f\in {\mathcal {H}}_{k}$ и $\|\cdot \|_{k}$ это норма в ${\mathcal {H}}_{k}$ . Первый член этого функционала, измеряющий среднее значение квадратов ошибок между $f(\mathbf {x} _{i})$ и $y_{i}$ , называется эмпирическим риском и представляет собой цену, которую мы платим, прогнозируя $f(\mathbf {x} _{i})$ за истинную ценность $y_{i}$ . Второй член функционала — это квадрат нормы в RKHS, умноженный на вес. $\lambda$ и служит цели стабилизации проблемы ^[3]^[5] а также добавление компромисса между подгонкой и сложностью оценщика. ^[2] Вес $\lambda$ , называемый регуляризатором , определяет степень, до которой следует наказывать нестабильность и сложность оценки (более высокий штраф за увеличение значения $\lambda$ ).

Вывод оценки

Явная форма оценки в уравнении ( 1 ) выводится в два этапа. Во-первых, теорема о представителе ^[9]^[10]^[11] утверждает, что минимизатор функционала ( 2 ) всегда можно записать как линейную комбинацию ядер с центрами в точках обучающего набора,

{\hat {f}}(\mathbf {x} ')=\sum _{i=1}^{n}c_{i}k(\mathbf {x} _{i},\mathbf {x} ')=\mathbf {k} ^{\top }\mathbf {c} ,

( 3 )

для некоторых $\mathbf {c} \in \mathbb {R} ^{n}$ . Явный вид коэффициентов $\mathbf {c} =[c_{1},\ldots ,c_{n}]^{\top }$ можно найти, заменив $f(\cdot )$ в функционале ( 2 ). Для функции вида в уравнении ( 3 ) мы имеем следующее:

{\begin{aligned}\|f\|_{k}^{2}&=\langle f,f\rangle _{k},\\&=\left\langle \sum _{i=1}^{N}c_{i}k(\mathbf {x} _{i},\cdot ),\sum _{j=1}^{N}c_{j}k(\mathbf {x} _{j},\cdot )\right\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}\langle k(\mathbf {x} _{i},\cdot ),k(\mathbf {x} _{j},\cdot )\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}k(\mathbf {x} _{i},\mathbf {x} _{j}),\\&=\mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .\end{aligned}}

Мы можем переписать функционал ( 2 ) как

{\frac {1}{n}}\|\mathbf {y} -\mathbf {K} \mathbf {c} \|^{2}+\lambda \mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .

Этот функционал выпуклый по $\mathbf {c}$ и поэтому мы можем найти его минимум, установив градиент по отношению к $\mathbf {c}$ до нуля,

{\begin{aligned}-{\frac {1}{n}}\mathbf {K} (\mathbf {Y} -\mathbf {K} \mathbf {c} )+\lambda \mathbf {K} \mathbf {c} &=0,\\(\mathbf {K} +\lambda n\mathbf {I} )\mathbf {c} &=\mathbf {Y} ,\\\mathbf {c} &=(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .\end{aligned}}

Подставляя это выражение для коэффициентов в уравнении ( 3 ), мы получаем оценку, указанную ранее в уравнении ( 1 ),

{\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .

Байесовский взгляд

Понятие ядра играет решающую роль в байесовской вероятности как ковариационной функции случайного процесса, называемого гауссовским процессом .

Обзор байесовской вероятности

Как часть байесовской структуры, гауссов процесс определяет априорное распределение , которое описывает априорные представления о свойствах моделируемой функции. Эти убеждения обновляются после учета данных наблюдений с помощью функции правдоподобия , которая связывает предыдущие убеждения с наблюдениями. В совокупности априорное распределение и правдоподобие приводят к обновленному распределению, называемому апостериорным распределением , которое обычно используется для прогнозирования тестовых случаев.

Гауссов процесс

Гауссов процесс (GP) — это случайный процесс, в котором любое конечное число выбранных случайных величин подчиняется совместному нормальному распределению . ^[12] Средний вектор и ковариационная матрица распределения Гаусса полностью определяют GP. GP обычно используются в качестве априорного распределения функций, и поэтому средний вектор и ковариационная матрица могут рассматриваться как функции, где ковариационная функция также называется ядром GP . Пусть функция $f$ следовать гауссовскому процессу со средней функцией $m$ и функция ядра $k$ ,

f\sim {\mathcal {GP}}(m,k).

С точки зрения основного распределения Гаусса мы имеем это для любого конечного набора $\mathbf {X} =\{\mathbf {x} _{i}\}_{i=1}^{n}$ если мы позволим $f(\mathbf {X} )=[f(\mathbf {x} _{1}),\ldots ,f(\mathbf {x} _{n})]^{\top }$ затем

f(\mathbf {X} )\sim {\mathcal {N}}(\mathbf {m} ,\mathbf {K} ),

где $\mathbf {m} =m(\mathbf {X} )=[m(\mathbf {x} _{1}),\ldots ,m(\mathbf {x} _{N})]^{\top }$ средний вектор и $\mathbf {K} =k(\mathbf {X} ,\mathbf {X} )$ — ковариационная матрица многомерного распределения Гаусса.

Вывод оценки

В контексте регрессии обычно предполагается, что функция правдоподобия представляет собой распределение Гаусса, а наблюдения независимы и одинаково распределены (iid),

p(y|f,\mathbf {x} ,\sigma ^{2})={\mathcal {N}}(f(\mathbf {x} ),\sigma ^{2}).

Это предположение соответствует искажению наблюдений гауссовским шумом с нулевым средним с дисперсией $\sigma ^{2}$ . Предположение iid позволяет факторизовать функцию правдоподобия по точкам данных с учетом набора входных данных. $\mathbf {X}$ и дисперсия шума $\sigma ^{2}$ , и, таким образом, апостериорное распределение можно вычислить аналитически. Для тестового входного вектора $\mathbf {x} '$ , учитывая данные обучения $S=\{\mathbf {X} ,\mathbf {Y} \}$ , апостериорное распределение определяется выражением

p(f(\mathbf {x} ')|S,\mathbf {x} ',{\boldsymbol {\phi }})={\mathcal {N}}(m(\mathbf {x} '),\sigma ^{2}(\mathbf {x} ')),

где ${\boldsymbol {\phi }}$ обозначает набор параметров, которые включают дисперсию шума $\sigma ^{2}$ и любые параметры из ковариационной функции $k$ и где

{\begin{aligned}m(\mathbf {x} ')&=\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {Y} ,\\\sigma ^{2}(\mathbf {x} ')&=k(\mathbf {x} ',\mathbf {x} ')-\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {k} .\end{aligned}}

Связь между регуляризацией и Байесом

Связь между теорией регуляризации и байесовской теорией может быть достигнута только в случае конечномерной RKHS . Согласно этому предположению, теория регуляризации и байесовская теория связаны посредством предсказания гауссовского процесса. ^[3]^[12]

В конечномерном случае каждый RKHS можно описать с помощью карты признаков. $\Phi :{\mathcal {X}}\rightarrow \mathbb {R} ^{p}$ такой, что ^[2]

k(\mathbf {x} ,\mathbf {x} ')=\sum _{i=1}^{p}\Phi ^{i}(\mathbf {x} )\Phi ^{i}(\mathbf {x} ').

Функции в RKHS с ядром $\mathbf {K}$ тогда можно записать как

f_{\mathbf {w} }(\mathbf {x} )=\sum _{i=1}^{p}\mathbf {w} ^{i}\Phi ^{i}(\mathbf {x} )=\langle \mathbf {w} ,\Phi (\mathbf {x} )\rangle ,

и у нас тоже есть такое

\|f_{\mathbf {w} }\|_{k}=\|\mathbf {w} \|.

Теперь мы можем построить гауссов процесс, предположив $\mathbf {w} =[w^{1},\ldots ,w^{p}]^{\top }$ распределяться в соответствии с многомерным распределением Гаусса с нулевым средним значением и единичной ковариационной матрицей,

\mathbf {w} \sim {\mathcal {N}}(0,\mathbf {I} )\propto \exp(-\|\mathbf {w} \|^{2}).

Если мы предположим гауссову вероятность, мы имеем

P(\mathbf {Y} |\mathbf {X} ,f)={\mathcal {N}}(f(\mathbf {X} ),\sigma ^{2}\mathbf {I} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|^{2}\right),

где $f_{\mathbf {w} }(\mathbf {X} )=(\langle \mathbf {w} ,\Phi (\mathbf {x} _{1})\rangle ,\ldots ,\langle \mathbf {w} ,\Phi (\mathbf {x} _{n}\rangle )$ . Результирующее апостериорное распределение определяется выражением

P(f|\mathbf {X} ,\mathbf {Y} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|_{n}^{2}+\|\mathbf {w} \|^{2}\right)

Мы видим, что максимальная апостериорная оценка (MAP) эквивалентна задаче минимизации, определяющей тихоновскую регуляризацию , где в байесовском случае параметр регуляризации связан с дисперсией шума.

С философской точки зрения функция потерь в условиях регуляризации играет иную роль, чем функция правдоподобия в условиях Байеса. В то время как функция потерь измеряет ошибку, возникающую при прогнозировании $f(\mathbf {x} )$ вместо $y$ Функция правдоподобия измеряет, насколько вероятны наблюдения из модели, которая считалась истинной в генеративном процессе. Однако с математической точки зрения формулировки регуляризации и байесовской модели делают функцию потерь и функцию правдоподобия одной и той же математической ролью, способствующей выводу функций. $f$ которые приближаются к этикеткам $y$ как можно больше.

См. также

Ссылки

^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра векторных функций: обзор». arXiv : 1106.6251 [ stat.ML ].
^ Jump up to: ^а ^б ^с ^д Вапник, Владимир (1998). Статистическая теория обучения . Уайли. ISBN 9780471030034 .
^ Jump up to: ^а ^б ^с Вахба, Грейс (1990). Сплайновые модели для данных наблюдений . СИАМ.
^ Шёлкопф, Бернхард; Смола, Александр Дж. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и многое другое . МТИ Пресс. ISBN 9780262194754 .
^ Jump up to: ^а ^б Джирози, Ф.; Поджо, Т. (1990). «Сети и свойство наилучшего приближения» (PDF) . Биологическая кибернетика . 63 (3). Спрингер: 169–176. дои : 10.1007/bf00195855 . hdl : 1721.1/6017 . S2CID 18824241 .
^ Аронсайн, Н. (май 1950 г.). «Теория воспроизведения ядер» . Труды Американского математического общества . 68 (3): 337–404. дои : 10.2307/1990404 . JSTOR 1990404 .
^ Шварц, Лоран (1964). «Гильбертовы подпространства топологических векторных пространств и связанные с ними ядра (воспроизводящие ядра)». Журнал математического анализа . 13 (1). Спрингер: 115–256. дои : 10.1007/bf02786620 . S2CID 117202393 .
^ Какер, Фелипе; Смейл, Стив (5 октября 2001 г.). «О математических основах обучения» . Бюллетень Американского математического общества . 39 (1): 1–49. дои : 10.1090/s0273-0979-01-00923-5 .
^ Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой случайных процессов и сглаживанием сплайнами» . Анналы математической статистики . 41 (2): 495–502. дои : 10.1214/aoms/1177697089 .
^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Алекс Дж. (2001). «Обобщенная теорема о представителе». Вычислительная теория обучения . Конспекты лекций по информатике. Том. 2111/2001. стр. 416–426. дои : 10.1007/3-540-44581-1_27 . ISBN 978-3-540-42343-0 .
^ Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства регуляризованных методов ядра». Журнал исследований машинного обучения . 5 : 1363–1390.
^ Jump up to: ^а ^б Расмуссен, Карл Эдвард; Уильямс, Кристофер К.И. (2006). Гауссовы процессы для машинного обучения . Массачусетский технологический институт Пресс. ISBN 0-262-18253-Х .

[AlvRosLaw11-1] Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра векторных функций: обзор». arXiv : 1106.6251 [ stat.ML ].

[Vap98-2] Jump up to: ^а ^б ^с ^д Вапник, Владимир (1998). Статистическая теория обучения . Уайли. ISBN 9780471030034 .

[Wah90-3] Jump up to: ^а ^б ^с Вахба, Грейс (1990). Сплайновые модели для данных наблюдений . СИАМ.

[SchSmo02-4] Шёлкопф, Бернхард; Смола, Александр Дж. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и многое другое . МТИ Пресс. ISBN 9780262194754 .

[GirPog90-5] Jump up to: ^а ^б Джирози, Ф.; Поджо, Т. (1990). «Сети и свойство наилучшего приближения» (PDF) . Биологическая кибернетика . 63 (3). Спрингер: 169–176. дои : 10.1007/bf00195855 . hdl : 1721.1/6017 . S2CID 18824241 .

[Aro50-6] Аронсайн, Н. (май 1950 г.). «Теория воспроизведения ядер» . Труды Американского математического общества . 68 (3): 337–404. дои : 10.2307/1990404 . JSTOR 1990404 .

[Sch64-7] Шварц, Лоран (1964). «Гильбертовы подпространства топологических векторных пространств и связанные с ними ядра (воспроизводящие ядра)». Журнал математического анализа . 13 (1). Спрингер: 115–256. дои : 10.1007/bf02786620 . S2CID 117202393 .

[CucSma01-8] Какер, Фелипе; Смейл, Стив (5 октября 2001 г.). «О математических основах обучения» . Бюллетень Американского математического общества . 39 (1): 1–49. дои : 10.1090/s0273-0979-01-00923-5 .

[KimWha70-9] Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой случайных процессов и сглаживанием сплайнами» . Анналы математической статистики . 41 (2): 495–502. дои : 10.1214/aoms/1177697089 .

[SchHerSmo01-10] Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Алекс Дж. (2001). «Обобщенная теорема о представителе». Вычислительная теория обучения . Конспекты лекций по информатике. Том. 2111/2001. стр. 416–426. дои : 10.1007/3-540-44581-1_27 . ISBN 978-3-540-42343-0 .

[DevEtal04-11] Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства регуляризованных методов ядра». Журнал исследований машинного обучения . 5 : 1363–1390.

[RasWil06-12] Jump up to: ^а ^б Расмуссен, Карл Эдвард; Уильямс, Кристофер К.И. (2006). Гауссовы процессы для машинного обучения . Массачусетский технологический институт Пресс. ISBN 0-262-18253-Х .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]