Jump to content

Байесовская интерпретация регуляризации ядра

В статистике машинного обучения байесовской методы ядра возникают из предположения о пространстве внутреннего продукта или структуре сходства входных данных. Для некоторых таких методов, таких как машины опорных векторов (SVM), исходная формулировка и ее регуляризация не носили байесовского характера. Полезно понять их с байесовской точки зрения. Поскольку ядра не обязательно являются положительно полуопределенными, базовая структура может быть не пространствами внутренних произведений, а более общими гильбертовыми пространствами, воспроизводящими ядро . В байесовских методах вероятностного ядра являются ключевым компонентом гауссовских процессов , где функция ядра известна как функция ковариации. Методы ядра традиционно использовались в обучения с учителем задачах , где входное пространство обычно представляет собой пространство векторов , а выходное пространство пространство скаляров . Совсем недавно эти методы были распространены на задачи, связанные с несколькими результатами , например, при многозадачном обучении . [1]

Математическая эквивалентность регуляризации и байесовской точки зрения легко доказывается в случаях, когда воспроизводящее ядро ​​гильбертова пространства конечномерно . Бесконечномерный случай поднимает тонкие математические проблемы; здесь мы рассмотрим конечномерный случай. Мы начнем с краткого обзора основных идей, лежащих в основе ядерных методов скалярного обучения, и кратко представим концепции регуляризации и гауссовских процессов. Затем мы покажем, как обе точки зрения приходят к по существу эквивалентным оценкам , и покажем связь, которая связывает их вместе.

Проблема контролируемого обучения

[ редактировать ]

Классическая задача обучения с учителем требует оценки результата для некоторой новой входной точки. изучая скалярную оценку на основе обучающего набора состоящий из пары ввода-вывода, . [2] Учитывая симметричную и положительную двумерную функцию называемый ядром , один из самых популярных оценщиков в машинном обучении имеет вид

( 1 )

где это матрица ядра с записями , , и . Мы увидим, как эту оценку можно получить как с точки зрения регуляризации, так и с точки зрения Байеса.

Перспектива регуляризации

[ редактировать ]

Основное предположение в перспективе регуляризации состоит в том, что набор функций предполагается принадлежащим воспроизводящему ядерному гильбертовому пространству . [2] [3] [4] [5]

Воспроизведение ядра гильбертова пространства

[ редактировать ]

Воспроизводящее ядро ​​гильбертова пространства (RKHS) является гильбертовым пространством функций, определяемых симметричной функцией положительно определенной называемое воспроизводящим ядром такое, что функция принадлежит для всех . [6] [7] [8] Есть три основных свойства, которые делают RKHS привлекательным:

1. Воспроизводящее свойство , дающее имя пространству,

где является внутренним продуктом в .

2. Функции в РКХС находятся в замыкании линейной комбинации ядра в заданных точках:

.

Это позволяет строить в единых рамках как линейные, так и обобщенно-линейные модели.

3. Квадрат нормы в РКХС можно записать как

и может рассматриваться как измерение сложности функции.

Регуляризованный функционал

[ редактировать ]

Оценка получается как минимизатор регуляризованного функционала

( 2 )

где и это норма в . Первый член этого функционала, измеряющий среднее значение квадратов ошибок между и , называется эмпирическим риском и представляет собой цену, которую мы платим, прогнозируя за истинную ценность . Второй член функционала — это квадрат нормы в RKHS, умноженный на вес. и служит цели стабилизации проблемы [3] [5] а также добавление компромисса между подгонкой и сложностью оценщика. [2] Вес , называемый регуляризатором , определяет степень, до которой следует наказывать нестабильность и сложность оценки (более высокий штраф за увеличение значения ).

Вывод оценки

[ редактировать ]

Явная форма оценки в уравнении ( 1 ) выводится в два этапа. Во-первых, теорема о представителе [9] [10] [11] утверждает, что минимизатор функционала ( 2 ) всегда можно записать как линейную комбинацию ядер с центрами в точках обучающего набора,

( 3 )

для некоторых . Явный вид коэффициентов можно найти, заменив в функционале ( 2 ). Для функции вида в уравнении ( 3 ) мы имеем следующее:

Мы можем переписать функционал ( 2 ) как

Этот функционал выпуклый по и поэтому мы можем найти его минимум, установив градиент по отношению к до нуля,

Подставляя это выражение для коэффициентов в уравнении ( 3 ), мы получаем оценку, указанную ранее в уравнении ( 1 ),

Байесовский взгляд

[ редактировать ]

Понятие ядра играет решающую роль в байесовской вероятности как ковариационной функции случайного процесса, называемого гауссовским процессом .

Обзор байесовской вероятности

[ редактировать ]

Как часть байесовской структуры, гауссов процесс определяет априорное распределение , которое описывает априорные представления о свойствах моделируемой функции. Эти убеждения обновляются после учета данных наблюдений с помощью функции правдоподобия , которая связывает предыдущие убеждения с наблюдениями. В совокупности априорное распределение и правдоподобие приводят к обновленному распределению, называемому апостериорным распределением , которое обычно используется для прогнозирования тестовых случаев.

Гауссов процесс

[ редактировать ]

Гауссов процесс (GP) — это случайный процесс, в котором любое конечное число выбранных случайных величин подчиняется совместному нормальному распределению . [12] Средний вектор и ковариационная матрица распределения Гаусса полностью определяют GP. GP обычно используются в качестве априорного распределения функций, и поэтому средний вектор и ковариационная матрица могут рассматриваться как функции, где ковариационная функция также называется ядром GP . Пусть функция следовать гауссовскому процессу со средней функцией и функция ядра ,

С точки зрения основного распределения Гаусса мы имеем это для любого конечного набора если мы позволим затем

где средний вектор и — ковариационная матрица многомерного распределения Гаусса.

Вывод оценки

[ редактировать ]

В контексте регрессии обычно предполагается, что функция правдоподобия представляет собой распределение Гаусса, а наблюдения независимы и одинаково распределены (iid),

Это предположение соответствует искажению наблюдений гауссовским шумом с нулевым средним с дисперсией . Предположение iid позволяет факторизовать функцию правдоподобия по точкам данных с учетом набора входных данных. и дисперсия шума , и, таким образом, апостериорное распределение можно вычислить аналитически. Для тестового входного вектора , учитывая данные обучения , апостериорное распределение определяется выражением

где обозначает набор параметров, которые включают дисперсию шума и любые параметры из ковариационной функции и где

Связь между регуляризацией и Байесом

[ редактировать ]

Связь между теорией регуляризации и байесовской теорией может быть достигнута только в случае конечномерной RKHS . Согласно этому предположению, теория регуляризации и байесовская теория связаны посредством предсказания гауссовского процесса. [3] [12]

В конечномерном случае каждый RKHS можно описать с помощью карты признаков. такой, что [2]

Функции в RKHS с ядром тогда можно записать как

и у нас тоже есть такое

Теперь мы можем построить гауссов процесс, предположив распределяться в соответствии с многомерным распределением Гаусса с нулевым средним значением и единичной ковариационной матрицей,

Если мы предположим гауссову вероятность, мы имеем

где . Результирующее апостериорное распределение определяется выражением

Мы видим, что максимальная апостериорная оценка (MAP) эквивалентна задаче минимизации, определяющей тихоновскую регуляризацию , где в байесовском случае параметр регуляризации связан с дисперсией шума.

С философской точки зрения функция потерь в условиях регуляризации играет иную роль, чем функция правдоподобия в условиях Байеса. В то время как функция потерь измеряет ошибку, возникающую при прогнозировании вместо Функция правдоподобия измеряет, насколько вероятны наблюдения из модели, которая считалась истинной в генеративном процессе. Однако с математической точки зрения формулировки регуляризации и байесовской модели делают функцию потерь и функцию правдоподобия одной и той же математической ролью, способствующей выводу функций. которые приближаются к этикеткам как можно больше.

См. также

[ редактировать ]
  1. ^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра векторных функций: обзор». arXiv : 1106.6251 [ stat.ML ].
  2. ^ Jump up to: а б с д Вапник, Владимир (1998). Статистическая теория обучения . Уайли. ISBN  9780471030034 .
  3. ^ Jump up to: а б с Вахба, Грейс (1990). Сплайновые модели для данных наблюдений . СИАМ.
  4. ^ Шёлкопф, Бернхард; Смола, Александр Дж. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и многое другое . МТИ Пресс. ISBN  9780262194754 .
  5. ^ Jump up to: а б Джирози, Ф.; Поджо, Т. (1990). «Сети и свойство наилучшего приближения» (PDF) . Биологическая кибернетика . 63 (3). Спрингер: 169–176. дои : 10.1007/bf00195855 . hdl : 1721.1/6017 . S2CID   18824241 .
  6. ^ Аронсайн, Н. (май 1950 г.). «Теория воспроизведения ядер» . Труды Американского математического общества . 68 (3): 337–404. дои : 10.2307/1990404 . JSTOR   1990404 .
  7. ^ Шварц, Лоран (1964). «Гильбертовы подпространства топологических векторных пространств и связанные с ними ядра (воспроизводящие ядра)». Журнал математического анализа . 13 (1). Спрингер: 115–256. дои : 10.1007/bf02786620 . S2CID   117202393 .
  8. ^ Какер, Фелипе; Смейл, Стив (5 октября 2001 г.). «О математических основах обучения» . Бюллетень Американского математического общества . 39 (1): 1–49. дои : 10.1090/s0273-0979-01-00923-5 .
  9. ^ Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой случайных процессов и сглаживанием сплайнами» . Анналы математической статистики . 41 (2): 495–502. дои : 10.1214/aoms/1177697089 .
  10. ^ Шёлкопф, Бернхард; Хербрих, Ральф; Смола, Алекс Дж. (2001). «Обобщенная теорема о представителе». Вычислительная теория обучения . Конспекты лекций по информатике. Том. 2111/2001. стр. 416–426. дои : 10.1007/3-540-44581-1_27 . ISBN  978-3-540-42343-0 .
  11. ^ Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Мишель; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства регуляризованных методов ядра». Журнал исследований машинного обучения . 5 : 1363–1390.
  12. ^ Jump up to: а б Расмуссен, Карл Эдвард; Уильямс, Кристофер К.И. (2006). Гауссовы процессы для машинного обучения . Массачусетский технологический институт Пресс. ISBN  0-262-18253-Х .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 422c79b1f43fc6f486d1df49dc365d69__1693816020
URL1:https://arc.ask3.ru/arc/aa/42/69/422c79b1f43fc6f486d1df49dc365d69.html
Заголовок, (Title) документа по адресу, URL1:
Bayesian interpretation of kernel regularization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)