Встраивание дистрибутивов в ядро

В машинном обучении встраивание распределений в ядро (также называемое средним значением ядра или картой средних значений ) включает класс непараметрических методов, в которых распределение вероятностей представляется как элемент воспроизводящего ядра гильбертова пространства (RKHS). ^[1] Обобщение сопоставления признаков отдельных точек данных, выполненное с помощью классических методов ядра , встраивание распределений в бесконечномерные пространства признаков может сохранить все статистические характеристики произвольных распределений, в то же время позволяя сравнивать распределения и манипулировать ими с использованием операций гильбертового пространства, таких как как внутренние произведения , расстояния, проекции , линейные преобразования и спектральный анализ . ^[2] Эта структура обучения очень общая и может применяться к распределениям в любом пространстве. $\Omega$ на которой разумная функция ядра (измеряющая сходство между элементами $\Omega$ ) можно определить. Например, для обучения на основе данных были предложены различные ядра: векторы в $\mathbb {R} ^{d}$ , дискретные классы/категории, строки , графы / сети , изображения, временные ряды , многообразия , динамические системы и другие структурированные объекты. ^[3]^[4] Теория, лежащая в основе вложений ядра распределений, была в первую очередь разработана Алексом Смолой , Ле Сонгом , Артуром Греттоном и Бернхардом Шёлкопфом . Обзор последних работ по встраиванию дистрибутивов в ядро можно найти здесь. ^[5]

Анализ распределений имеет фундаментальное значение в машинном обучении и статистике , и многие алгоритмы в этих областях полагаются на теоретико-информационные подходы, такие как энтропия , взаимная информация или расхождение Кульбака-Лейблера . Однако для оценки этих величин необходимо сначала либо выполнить оценку плотности, либо использовать сложные стратегии пространственного разделения/коррекции смещения, которые обычно неосуществимы для многомерных данных. ^[6] Обычно методы моделирования сложных распределений основаны на параметрических предположениях, которые могут быть необоснованными или сложными с точки зрения вычислений (например, модели гауссовой смеси ), в то время как непараметрические методы, такие как оценка плотности ядра (Примечание: ядра сглаживания в этом контексте интерпретируются иначе, чем ядра, обсуждаемые здесь). ) или представление характеристической функции (через преобразование Фурье распределения) нарушаются в многомерных условиях. ^[2]

Методы, основанные на встраивании дистрибутивов в ядро, обходят эти проблемы, а также обладают следующими преимуществами: ^[6]

Данные можно моделировать без ограничительных предположений о форме распределений и взаимосвязях между переменными.
Промежуточная оценка плотности не требуется
Практикующие специалисты могут указать свойства дистрибутива, наиболее подходящие для их проблемы (с учетом предварительных знаний путем выбора ядра).
Если используется характеристическое ядро, то встраивание позволяет однозначно сохранить всю информацию о распределении, а благодаря трюку с ядром вычисления на потенциально бесконечномерном RKHS могут быть реализованы на практике как простые Грама . матричные операции
Можно доказать независимую от размерности скорость сходимости эмпирического среднего значения ядра (оцененного с использованием выборок из распределения) к вложению ядра истинного основного распределения.
Алгоритмы обучения, основанные на этой структуре, демонстрируют хорошую способность к обобщению и сходимость на конечной выборке, при этом часто они проще и эффективнее, чем методы теории информации.

Таким образом, обучение посредством встраивания распределений в ядро предлагает принципиальную замену теоретико-информационным подходам и представляет собой структуру, которая не только включает многие популярные методы машинного обучения и статистики в качестве особых случаев, но также может привести к совершенно новым алгоритмам обучения.

Определения

Позволять $X$ обозначим случайную величину с доменом $\Omega$ и распространение $P$ . Учитывая симметричное положительно определенное ядро $k:\Omega \times \Omega \rightarrow \mathbb {R}$ теорема Мура – Ароншайна утверждает существование уникального RKHS ${\mathcal {H}}$ на $\Omega$ ( гильбертово пространство функций $f:\Omega \to \mathbb {R}$ оснащен внутренним продуктом $\langle \cdot ,\cdot \rangle _{\mathcal {H}}$ и норма $\|\cdot \|_{\mathcal {H}}$ ) для чего $k$ является воспроизводящим ядром, т. е. в котором элемент $k(x,\cdot )$ удовлетворяет воспроизводящему свойству

\langle f,k(x,\cdot )\rangle _{\mathcal {H}}=f(x)\qquad \forall f\in {\mathcal {H}},\quad \forall x\in \Omega .

Альтернативно можно рассмотреть $x\mapsto k(x,\cdot )$ как неявное сопоставление функций $\varphi :\Omega \rightarrow {\mathcal {H}}$ (которое поэтому также называют пространством признаков), так что $k(x,x')=\langle \varphi (x),\varphi (x')\rangle _{\mathcal {H}}$ можно рассматривать как меру сходства между точками $x,x'\in \Omega .$ Хотя мера сходства является линейной в пространстве признаков, она может быть сильно нелинейной в исходном пространстве в зависимости от выбора ядра.

Встраивание ядра

Встраивание ядра дистрибутива $P$ в ${\mathcal {H}}$ (также называемое средним значением ядра или средней картой ) определяется следующим образом: ^[1]

\mu _{X}:=\mathbb {E} [k(X,\cdot )]=\mathbb {E} [\varphi (X)]=\int _{\Omega }\varphi (x)\ \mathrm {d} P(x)

Если $P$ допускает квадратично интегрируемую плотность $p$ , затем $\mu _{X}={\mathcal {E}}_{k}p$ , где ${\mathcal {E}}_{k}$ – интегральный оператор Гильберта–Шмидта . Ядро является характерным, если среднее вложение $\mu :\{{\text{family of distributions over }}\Omega \}\to {\mathcal {H}}$ является инъективным. ^[7] Таким образом, каждое распределение может быть однозначно представлено в RKHS, и все статистические характеристики распределений сохраняются за счет встраивания ядра, если используется характеристическое ядро.

Эмпирическое встраивание ядра

Данный $n$ примеры обучения $\{x_{1},\ldots ,x_{n}\}$ взятые независимо и одинаково распределенные (iid) из $P,$ встраивание ядра $P$ можно оценить эмпирически как

{\widehat {\mu }}_{X}={\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})

Встраивание совместного распределения

Если $Y$ обозначает другую случайную величину (для простоты предположим, что это ко-область $Y$ также $\Omega$ с тем же ядром $k$ который удовлетворяет $\langle \varphi (x)\otimes \varphi (y),\varphi (x')\otimes \varphi (y')\rangle =k(x,x')k(y,y')$ ), то совместное распределение $P(x,y))$ может быть отображено в тензорного произведения пространстве признаков ${\mathcal {H}}\otimes {\mathcal {H}}$ с помощью ^[2]

{\mathcal {C}}_{XY}=\mathbb {E} [\varphi (X)\otimes \varphi (Y)]=\int _{\Omega \times \Omega }\varphi (x)\otimes \varphi (y)\ \mathrm {d} P(x,y)

В силу эквивалентности между тензором и линейным отображением это совместное вложение можно интерпретировать как нецентрированный перекрестной ковариации. оператор ${\mathcal {C}}_{XY}:{\mathcal {H}}\to {\mathcal {H}}$ откуда кросс-ковариация функций $f,g\in {\mathcal {H}}$ может быть вычислено как ^[8]

\operatorname {Cov} (f(X),g(Y)):=\mathbb {E} [f(X)g(Y)]-\mathbb {E} [f(X)]\mathbb {E} [g(Y)]=\langle f,{\mathcal {C}}_{XY}g\rangle _{\mathcal {H}}=\langle f\otimes g,{\mathcal {C}}_{XY}\rangle _{{\mathcal {H}}\otimes {\mathcal {H}}}

Данный $n$ пары обучающих примеров $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ взято из $P$ , мы также можем эмпирически оценить вложение ядра совместного распределения через

{\widehat {\mathcal {C}}}_{XY}={\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})\otimes \varphi (y_{i})

Встраивание условного распределения

Учитывая условное распределение $P(y\mid x),$ можно определить соответствующее вложение RKHS как ^[2]

\mu _{Y\mid x}=\mathbb {E} [\varphi (Y)\mid X]=\int _{\Omega }\varphi (y)\ \mathrm {d} P(y\mid x)

Обратите внимание, что вложение $P(y\mid x)$ таким образом, определяет семейство точек в RKHS, индексированных значениями $x$ взято условной переменной $X$ . Исправив $X$ к определенному значению, мы получаем один элемент в ${\mathcal {H}}$ , и поэтому естественно определить оператор

{\begin{cases}{\mathcal {C}}_{Y\mid X}:{\mathcal {H}}\to {\mathcal {H}}\\{\mathcal {C}}_{Y\mid X}={\mathcal {C}}_{YX}{\mathcal {C}}_{XX}^{-1}\end{cases}}

что, учитывая отображение функций $x$ выводит условное встраивание $Y$ данный $X=x.$ Предполагая, что для всех $g\in {\mathcal {H}}:\mathbb {E} [g(Y)\mid X]\in {\mathcal {H}},$ можно показать, что ^[8]

\mu _{Y\mid x}={\mathcal {C}}_{Y\mid X}\varphi (x)

Это предположение всегда верно для конечных областей с характеристическими ядрами, но не обязательно справедливо для непрерывных областей. ^[2] Тем не менее, даже в тех случаях, когда предположение не соответствует действительности, ${\mathcal {C}}_{Y\mid X}\varphi (x)$ все еще может использоваться для аппроксимации условного встраивания ядра $\mu _{Y\mid x},$ и на практике оператор инверсии заменяется регуляризованной версией самого себя $({\mathcal {C}}_{XX}+\lambda \mathbf {I} )^{-1}$ (где $\mathbf {I}$ обозначает единичную матрицу ).

Приведены примеры обучения $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\},$ оператор условного встраивания эмпирического ядра можно оценить как ^[2]

{\widehat {C}}_{Y\mid X}={\boldsymbol {\Phi }}(\mathbf {K} +\lambda \mathbf {I} )^{-1}{\boldsymbol {\Upsilon }}^{T}

где ${\boldsymbol {\Phi }}=\left(\varphi (y_{1}),\dots ,\varphi (y_{n})\right),{\boldsymbol {\Upsilon }}=\left(\varphi (x_{1}),\dots ,\varphi (x_{n})\right)$ представляют собой неявно сформированные матрицы признаков, $\mathbf {K} ={\boldsymbol {\Upsilon }}^{T}{\boldsymbol {\Upsilon }}$ — матрица Грама для образцов $X$ , и $\lambda$ — параметр регуляризации, необходимый для предотвращения переобучения .

Таким образом, эмпирическая оценка условного вложения ядра дается взвешенной суммой выборок $Y$ в пространстве признаков:

{\widehat {\mu }}_{Y\mid x}=\sum _{i=1}^{n}\beta _{i}(x)\varphi (y_{i})={\boldsymbol {\Phi }}{\boldsymbol {\beta }}(x)

где ${\boldsymbol {\beta }}(x)=(\mathbf {K} +\lambda \mathbf {I} )^{-1}\mathbf {K} _{x}$ и $\mathbf {K} _{x}=\left(k(x_{1},x),\dots ,k(x_{n},x)\right)^{T}$

Характеристики

Ожидание любой функции $f$ в RKHS можно вычислить как внутренний продукт с встраиванием ядра:

\mathbb {E} [f(X)]=\langle f,\mu _{X}\rangle _{\mathcal {H}}

При наличии больших объемов выборки манипуляции $n\times n$ Матрица Грамма может требовать больших вычислительных ресурсов. За счет использования низкоранговой аппроксимации матрицы Грама (например, неполной факторизации Холецкого ) время работы и требования к памяти алгоритмов обучения на основе встраивания ядра могут быть значительно сокращены без большой потери точности аппроксимации. ^[2]

Сходимость среднего эмпирического ядра к вложению истинного распределения

Если $k$ определяется так, что $f$ принимает значения в $[0,1]$ для всех $f\in {\mathcal {H}}$ с $\|f\|_{\mathcal {H}}\leq 1$ (как и в случае с широко используемыми ядрами радиальных базисных функций ), то с вероятностью не менее $1-\delta$ : ^[6]

\|\mu _{X}-{\widehat {\mu }}_{X}\|_{\mathcal {H}}=\sup _{f\in {\mathcal {B}}(0,1)}\left|\mathbb {E} [f(X)]-{\frac {1}{n}}\sum _{i=1}^{n}f(x_{i})\right|\leq {\frac {2}{n}}\mathbb {E} \left[{\sqrt {\operatorname {tr} K}}\right]+{\sqrt {\frac {\log(2/\delta )}{2n}}}

где

{\mathcal {B}}(0,1)

обозначает единичный шар в

{\mathcal {H}}

и

\mathbf {K} =(k_{ij})

представляет собой матрицу Грама с

k_{ij}=k(x_{i},x_{j}).

Скорость сходимости (в норме RKHS) вложения эмпирического ядра к его аналогу распределения равна $O(n^{-1/2})$ и не зависит от размерности $X$ .
Таким образом, статистика, основанная на вложениях ядра, позволяет избежать проклятия размерности , и хотя истинное основное распределение на практике неизвестно, можно (с высокой вероятностью) получить приближение в пределах $O(n^{-1/2})$ истинного встраивания ядра на основе конечной выборки размера $n$ .
Для внедрения условных распределений эмпирическую оценку можно рассматривать как средневзвешенное значение отображений признаков (где веса $\beta _{i}(x)$ зависят от значения условной переменной и отражают влияние обусловленности на встраивание в ядро). В этом случае эмпирическая оценка сходится к вложению условного распределения RKHS со скоростью $O\left(n^{-1/4}\right)$ если параметр регуляризации $\lambda$ уменьшается, так как $O\left(n^{-1/2}\right),$ хотя более высокие темпы конвергенции могут быть достигнуты за счет дополнительных предположений о совместном распределении. ^[2]

Универсальные ядра

Позволять ${\mathcal {X}}$ быть компактным метрическим пространством и $C({\mathcal {X}})$ множество непрерывных функций . Воспроизводящее ядро $k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R}$ называется универсальным тогда и только тогда, когда RKHS ${\mathcal {H}}$ из $k$ плотный в $C({\mathcal {X}})$ , то есть для любого $g\in C({\mathcal {X}})$ и все $\varepsilon >0$ существует $f\in {\mathcal {H}}$ такой, что $\|f-g\|_{\infty }\leq \varepsilon$ . ^[9] Все универсальные ядра, определенные на компакте, являются характеристическими ядрами, но обратное не всегда верно. ^[10]
Позволять $k$ непрерывной трансляции инвариантным при быть ядром, $k(x,x')=h(x-x')$ с $x\in \mathbb {R} ^{b}$ . Тогда теорема Бохнера гарантирует существование единственной конечной борелевской меры $\mu$ (называемой спектральной мерой ) на $\mathbb {R} ^{b}$ такой, что

h(t)=\int _{\mathbb {R} ^{b}}e^{-i\langle t,\omega \rangle }d\mu (\omega ),\quad \forall t\in \mathbb {R} ^{b}.

Для

k

чтобы быть универсальным, достаточно, чтобы непрерывная часть

\mu

в своем уникальном разложении Лебега

\mu =\mu _{c}+\mu _{s}

не равно нулю. Кроме того, если

d\mu _{c}(\omega )=s(\omega )d\omega ,

затем

s

– спектральная плотность частот

\omega

в

\mathbb {R} ^{b}

и

h

представляет собой Фурье преобразование

s

. Если поддержка

\mu

это все из

\mathbb {R} ^{b}

, затем

k

также является характерным ядром. ^[11]^[12]^[13]

Если $k$ индуцирует строго положительно определенную матрицу ядра для любого набора различных точек, то это универсальное ядро. ^[6] Например, широко используемое гауссово RBF-ядро

k(x,x')=\exp \left(-{\frac {1}{2\sigma ^{2}}}\|x-x'\|^{2}\right)

на компактных подмножествах

\mathbb {R} ^{d}

является универсальным.

Выбор параметров для вложений ядра условного распределения

Оператор встраивания условного распределения эмпирического ядра ${\widehat {\mathcal {C}}}_{Y|X}$ альтернативно можно рассматривать как решение следующей задачи регуляризованной регрессии наименьших квадратов (функциональнозначной) ^[14]

\min _{{\mathcal {C}}:{\mathcal {H}}\to {\mathcal {H}}}\sum _{i=1}^{n}\left\|\varphi (y_{i})-{\mathcal {C}}\varphi (x_{i})\right\|_{\mathcal {H}}^{2}+\lambda \|{\mathcal {C}}\|_{HS}^{2}

где

\|\cdot \|_{HS}

– норма Гильберта–Шмидта .

Таким образом, можно выбрать параметр регуляризации $\lambda$ путем выполнения перекрестной проверки на основе квадратичной функции потерь задачи регрессии.

Правила вероятности как операции в РКХС

Этот раздел иллюстрирует, как основные вероятностные правила могут быть переформулированы как (мульти)линейные алгебраические операции в среде встраивания ядра, и в первую очередь основан на работе Song et al. ^[2]^[8] Приняты следующие обозначения:

$P(X,Y)=$ совместное распределение по случайным величинам $X,Y$
$P(X)=\int _{\Omega }P(X,\mathrm {d} y)=$ предельное распределение $X$ ; $P(Y)=$ предельное распределение $Y$

$P(Y\mid X)={\frac {P(X,Y)}{P(X)}}=$ условное распределение $Y$ данный $X$ с соответствующим оператором условного встраивания ${\mathcal {C}}_{Y\mid X}$
$\pi (Y)=$ предварительное распространение по $Y$
$Q$ используется, чтобы отличить дистрибутивы, включающие априорное значение, от дистрибутивов $P$ которые не полагаются на предыдущие

На практике все вложения оцениваются эмпирически по данным $\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ и предполагалось, что набор образцов $\{{\widetilde {y}}_{1},\ldots ,{\widetilde {y}}_{\widetilde {n}}\}$ может использоваться для оценки встраивания ядра предыдущего дистрибутива $\pi (Y)$ .

Правило сумм ядра

В теории вероятностей предельное распределение $X$ можно вычислить путем интегрирования $Y$ от плотности соединений (включая предварительное распределение по $Y$ )

Q(X)=\int _{\Omega }P(X\mid Y)\,\mathrm {d} \pi (Y)

Аналог этого правила в среде встраивания ядра гласит, что $\mu _{X}^{\pi },$ встраивание RKHS $Q(X)$ , можно вычислить через

\mu _{X}^{\pi }=\mathbb {E} [{\mathcal {C}}_{X\mid Y}\varphi (Y)]={\mathcal {C}}_{X\mid Y}\mathbb {E} [\varphi (Y)]={\mathcal {C}}_{X\mid Y}\mu _{Y}^{\pi }

где $\mu _{Y}^{\pi }$ это встраивание ядра $\pi (Y).$ В практических реализациях правило сумм ядра принимает следующий вид

{\widehat {\mu }}_{X}^{\pi }={\widehat {\mathcal {C}}}_{X\mid Y}{\widehat {\mu }}_{Y}^{\pi }={\boldsymbol {\Upsilon }}(\mathbf {G} +\lambda \mathbf {I} )^{-1}{\widetilde {\mathbf {G} }}{\boldsymbol {\alpha }}

где

\mu _{Y}^{\pi }=\sum _{i=1}^{\widetilde {n}}\alpha _{i}\varphi ({\widetilde {y}}_{i})

- это эмпирическое встраивание ядра предыдущего распределения, ${\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{\widetilde {n}})^{T},$ ${\boldsymbol {\Upsilon }}=\left(\varphi (x_{1}),\ldots ,\varphi (x_{n})\right)$ , и $\mathbf {G} ,{\widetilde {\mathbf {G} }}$ представляют собой матрицы Грама с записями $\mathbf {G} _{ij}=k(y_{i},y_{j}),{\widetilde {\mathbf {G} }}_{ij}=k(y_{i},{\widetilde {y}}_{j})$ соответственно.

Правило цепочки ядра

В теории вероятностей совместное распределение можно разложить на произведение условного и предельного распределений.

Q(X,Y)=P(X\mid Y)\pi (Y)

Аналог этого правила в среде встраивания ядра гласит, что ${\mathcal {C}}_{XY}^{\pi },$ совместное встраивание $Q(X,Y),$ может быть факторизован как композиция оператора условного встраивания с оператором автоковариации, связанным с $\pi (Y)$

{\mathcal {C}}_{XY}^{\pi }={\mathcal {C}}_{X\mid Y}{\mathcal {C}}_{YY}^{\pi }

где

{\mathcal {C}}_{XY}^{\pi }=\mathbb {E} [\varphi (X)\otimes \varphi (Y)],

{\mathcal {C}}_{YY}^{\pi }=\mathbb {E} [\varphi (Y)\otimes \varphi (Y)].

В практических реализациях правило цепочки ядра принимает следующую форму:

{\widehat {\mathcal {C}}}_{XY}^{\pi }={\widehat {\mathcal {C}}}_{X\mid Y}{\widehat {\mathcal {C}}}_{YY}^{\pi }={\boldsymbol {\Upsilon }}(\mathbf {G} +\lambda \mathbf {I} )^{-1}{\widetilde {\mathbf {G} }}\operatorname {diag} ({\boldsymbol {\alpha }}){\boldsymbol {\widetilde {\Phi }}}^{T}

Правило ядра Байеса

В теории вероятностей апостериорное распределение можно выразить через априорное распределение и функцию правдоподобия как

Q(Y\mid x)={\frac {P(x\mid Y)\pi (Y)}{Q(x)}}

где

Q(x)=\int _{\Omega }P(x\mid y)\,\mathrm {d} \pi (y)

Аналог этого правила в системе встраивания ядра выражает встраивание ядра условного распределения в терминах операторов условного встраивания, которые модифицируются предыдущим распределением.

\mu _{Y\mid x}^{\pi }={\mathcal {C}}_{Y\mid X}^{\pi }\varphi (x)={\mathcal {C}}_{YX}^{\pi }\left({\mathcal {C}}_{XX}^{\pi }\right)^{-1}\varphi (x)

откуда из цепного правила:

{\mathcal {C}}_{YX}^{\pi }=\left({\mathcal {C}}_{X\mid Y}{\mathcal {C}}_{YY}^{\pi }\right)^{T}.

В практических реализациях правило Байеса ядра принимает следующий вид

{\widehat {\mu }}_{Y\mid x}^{\pi }={\widehat {\mathcal {C}}}_{YX}^{\pi }\left(\left({\widehat {\mathcal {C}}}_{XX}\right)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widehat {\mathcal {C}}}_{XX}^{\pi }\varphi (x)={\widetilde {\boldsymbol {\Phi }}}{\boldsymbol {\Lambda }}^{T}\left((\mathbf {D} \mathbf {K} )^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}\mathbf {K} \mathbf {D} \mathbf {K} _{x}

где

{\boldsymbol {\Lambda }}=\left(\mathbf {G} +{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widetilde {\mathbf {G} }}\operatorname {diag} ({\boldsymbol {\alpha }}),\qquad \mathbf {D} =\operatorname {diag} \left(\left(\mathbf {G} +{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widetilde {\mathbf {G} }}{\boldsymbol {\alpha }}\right).

В этой структуре используются два параметра регуляризации: $\lambda$ для оценки ${\widehat {\mathcal {C}}}_{YX}^{\pi },{\widehat {\mathcal {C}}}_{XX}^{\pi }={\boldsymbol {\Upsilon }}\mathbf {D} {\boldsymbol {\Upsilon }}^{T}$ и ${\widetilde {\lambda }}$ для оценки окончательного оператора условного встраивания

{\widehat {\mathcal {C}}}_{Y\mid X}^{\pi }={\widehat {\mathcal {C}}}_{YX}^{\pi }\left(\left({\widehat {\mathcal {C}}}_{XX}^{\pi }\right)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}{\widehat {\mathcal {C}}}_{XX}^{\pi }.

Последняя регуляризация выполняется на квадрате ${\widehat {\mathcal {C}}}_{XX}^{\pi }$ потому что $D$ не может быть положительно определенным .

Приложения

Измерение расстояния между распределениями

Максимальное среднее несоответствие (MMD) - это мера расстояния между распределениями. $P(X)$ и $Q(Y)$ которое определяется как расстояние между их вложениями в RKHS ^[6]

{\text{MMD}}(P,Q)=\left\|\mu _{X}-\mu _{Y}\right\|_{\mathcal {H}}.

Хотя большинство мер расстояния между распределениями, таких как широко используемая дивергенция Кульбака – Лейблера, требуют либо оценки плотности (параметрической или непараметрической), либо стратегий пространственного разделения/коррекции смещения, ^[6] MMD легко оценить как эмпирическое среднее значение, которое сконцентрировано вокруг истинного значения MMD. Характеристика этого расстояния как максимального среднего несоответствия относится к тому факту, что вычисление MMD эквивалентно нахождению функции RKHS, которая максимизирует разницу в ожиданиях между двумя распределениями вероятностей.

{\text{MMD}}(P,Q)=\sup _{\|f\|_{\mathcal {H}}\leq 1}\left(\mathbb {E} [f(X)]-\mathbb {E} [f(Y)]\right),

форма интегральной вероятностной метрики .

Тест ядра с двумя выборками

Даны n обучающих примеров из $P(X)$ и m образцов из $Q(Y)$ , можно сформулировать тестовую статистику на основе эмпирической оценки MMD

{\begin{aligned}{\widehat {\text{MMD}}}(P,Q)&=\left\|{\frac {1}{n}}\sum _{i=1}^{n}\varphi (x_{i})-{\frac {1}{m}}\sum _{i=1}^{m}\varphi (y_{i})\right\|_{\mathcal {H}}^{2}\\[5pt]&={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}k(x_{i},x_{j})+{\frac {1}{m^{2}}}\sum _{i=1}^{m}\sum _{j=1}^{m}k(y_{i},y_{j})-{\frac {2}{nm}}\sum _{i=1}^{n}\sum _{j=1}^{m}k(x_{i},y_{j})\end{aligned}}

чтобы получить двухвыборочный тест ^[15] нулевой гипотезы о том, что обе выборки происходят из одного и того же распределения (т.е. $P=Q$ ) против широкой альтернативы $P\neq Q$ .

Оценка плотности с помощью вложений ядра

Хотя алгоритмы обучения в структуре встраивания ядра обходят необходимость в промежуточной оценке плотности, тем не менее можно использовать эмпирическое встраивание для выполнения оценки плотности на основе n выборок, взятых из базового распределения. $P_{X}^{*}$ . Это можно сделать, решив следующую оптимизационную задачу ^[6]^[16]

\max _{P_{X}}H(P_{X})

при условии

\|{\widehat {\mu }}_{X}-\mu _{X}[P_{X}]\|_{\mathcal {H}}\leq \varepsilon

где максимизация производится по всему пространству распределений на $\Omega .$ Здесь, $\mu _{X}[P_{X}]$ - это вложение ядра предлагаемой плотности $P_{X}$ и $H$ является энтропийно-подобной величиной (например , энтропия , дивергенция КЛ , дивергенция Брегмана ). Распределение, которое решает эту оптимизацию, можно интерпретировать как компромисс между хорошей подгонкой эмпирических средних значений выборки и в то же время распределением значительной части вероятностной массы по всем областям вероятностного пространства (большая часть которых может быть не представлена в обучающие примеры). На практике хорошее приближенное решение сложной оптимизации можно найти, ограничив пространство плотностей кандидатов смесью M распределений кандидатов с регуляризованными пропорциями смешивания. Связи между идеями, лежащими в основе гауссовских процессов , и условными случайными полями могут быть установлены с помощью оценки условных распределений вероятностей таким образом, если рассматривать сопоставления признаков, связанные с ядром, как достаточную статистику в обобщенных (возможно, бесконечномерных) экспоненциальных семействах . ^[6]

Измерительная зависимость случайных величин

Мера статистической зависимости между случайными величинами $X$ и $Y$ (из любых областей, в которых можно определить разумные ядра) может быть сформулировано на основе критерия независимости Гильберта – Шмидта. ^[17]

{\text{HSIC}}(X,Y)=\left\|{\mathcal {C}}_{XY}-\mu _{X}\otimes \mu _{Y}\right\|_{{\mathcal {H}}\otimes {\mathcal {H}}}^{2}

и может использоваться в качестве принципиальной замены взаимной информации , корреляции Пирсона или любой другой меры зависимости, используемой в алгоритмах обучения. В частности, HSIC может обнаруживать произвольные зависимости (когда во вложениях используется характеристическое ядро, HSIC равен нулю тогда и только тогда, когда переменные независимы ) и может использоваться для измерения зависимости между различными типами данных (например, изображениями и текстовыми подписями). ). Учитывая n iid выборок каждой случайной величины, простую несмещенную оценку HSIC без параметров, которая демонстрирует концентрацию вокруг истинного значения: можно вычислить $O(n(d_{f}^{2}+d_{g}^{2}))$ время, ^[6] где матрицы Грама двух наборов данных аппроксимируются с использованием $\mathbf {A} \mathbf {A} ^{T},\mathbf {B} \mathbf {B} ^{T}$ с $\mathbf {A} \in \mathbb {R} ^{n\times d_{f}},\mathbf {B} \in \mathbb {R} ^{n\times d_{g}}$ . Желательные свойства HSIC привели к разработке многочисленных алгоритмов, которые используют эту меру зависимости для множества распространенных задач машинного обучения, таких как: выбор признаков (BAHSIC ^[18]), кластеризация (CLUHSIC ^[19]) и уменьшение размерности (MUHSIC ^[20]).

HSIC можно расширить для измерения зависимости нескольких случайных величин. Вопрос о том, когда HSIC обретет независимость в этом случае, недавно изучался: ^[21] для более двух переменных

на $\mathbb {R} ^{d}$ : характеристическое свойство отдельных ядер остается эквивалентным условием.
в общих областях: характеристическое свойство компонентов ядра необходимо, но недостаточно .

Распространение убеждений ядра

Распространение убеждений — это фундаментальный алгоритм вывода в графических моделях , в которых узлы неоднократно передают и получают сообщения, соответствующие оценке условных ожиданий. В структуре встраивания ядра сообщения могут быть представлены как функции RKHS, а встраивания условного распределения могут применяться для эффективного вычисления обновлений сообщений. Учитывая n выборок случайных величин, представленных узлами в марковском случайном поле , входящее сообщение в узел t из узла u может быть выражено как

m_{ut}(\cdot )=\sum _{i=1}^{n}\beta _{ut}^{i}\varphi (x_{t}^{i})

если бы предполагалось, что он лежит в РХС. Сообщение обновления распространения доверия ядра от t к узлу s затем задается следующим образом: ^[2]

{\widehat {m}}_{ts}=\left(\odot _{u\in N(t)\backslash s}\mathbf {K} _{t}{\boldsymbol {\beta }}_{ut}\right)^{T}(\mathbf {K} _{s}+\lambda \mathbf {I} )^{-1}{\boldsymbol {\Upsilon }}_{s}^{T}\varphi (x_{s})

где $\odot$ обозначает поэлементное векторное произведение, $N(t)\backslash s$ — набор узлов, подключенных к t, исключая узел s , ${\boldsymbol {\beta }}_{ut}=\left(\beta _{ut}^{1},\dots ,\beta _{ut}^{n}\right)$ , $\mathbf {K} _{t},\mathbf {K} _{s}$ являются матрицами Грамма выборок от переменных $X_{t},X_{s}$ соответственно и ${\boldsymbol {\Upsilon }}_{s}=\left(\varphi (x_{s}^{1}),\dots ,\varphi (x_{s}^{n})\right)$ — это матрица признаков для образцов из $X_{s}$ .

Таким образом, если входящие сообщения в узел t представляют собой линейные комбинации выборок с сопоставлением признаков из $X_{t}$ , то исходящее сообщение от этого узла также представляет собой линейную комбинацию выборок с сопоставлением признаков из $X_{s}$ . Таким образом, это функциональное представление обновлений передачи сообщений RKHS создает эффективный алгоритм распространения убеждений, в котором потенциалы представляют собой непараметрические функции, выведенные из данных, так что можно моделировать произвольные статистические отношения. ^[2]

Непараметрическая фильтрация в скрытых марковских моделях

В скрытой марковской модели (HMM) две ключевые величины, представляющие интерес, — это вероятности перехода между скрытыми состояниями. $P(S^{t}\mid S^{t-1})$ и вероятности выбросов $P(O^{t}\mid S^{t})$ для наблюдений. Используя структуру встраивания условного распределения ядра, эти величины можно выразить в терминах выборок из HMM. Серьезным ограничением методов внедрения в этой области является необходимость обучения выборок, содержащих скрытые состояния, поскольку в противном случае вывод с произвольными распределениями в HMM невозможен.

Одним из распространенных применений HMM является фильтрация , цель которой состоит в том, чтобы оценить апостериорное распределение по скрытому состоянию. $s^{t}$ на временном шаге t с учетом истории предыдущих наблюдений $h^{t}=(o^{1},\dots ,o^{t})$ из системы. При фильтрации состояние убеждения $P(S^{t+1}\mid h^{t+1})$ рекурсивно поддерживается на этапе прогнозирования (где обновления $P(S^{t+1}\mid h^{t})=\mathbb {E} [P(S^{t+1}\mid S^{t})\mid h^{t}]$ вычисляются путем исключения предыдущего скрытого состояния), за которым следует этап подготовки (где обновления $P(S^{t+1}\mid h^{t},o^{t+1})\propto P(o^{t+1}\mid S^{t+1})P(S^{t+1}\mid h^{t})$ вычисляются путем применения правила Байеса к условиям нового наблюдения). ^[2] Вложение RKHS состояния убеждения в момент времени t+1 может быть рекурсивно выражено как

\mu _{S^{t+1}\mid h^{t+1}}={\mathcal {C}}_{S^{t+1}O^{t+1}}^{\pi }\left({\mathcal {C}}_{O^{t+1}O^{t+1}}^{\pi }\right)^{-1}\varphi (o^{t+1})

путем вычисления вложений шага прогнозирования с помощью правила сумм ядра и внедрения шага кондиционирования с помощью правила Байеса ядра . Предполагая обучающую выборку $({\widetilde {s}}^{1},\dots ,{\widetilde {s}}^{T},{\widetilde {o}}^{1},\dots ,{\widetilde {o}}^{T})$ задано, на практике можно оценить

{\widehat {\mu }}_{S^{t+1}\mid h^{t+1}}=\sum _{i=1}^{T}\alpha _{i}^{t}\varphi ({\widetilde {s}}^{t})

Таким образом, фильтрация с использованием вложений ядра реализуется рекурсивно с использованием следующих обновлений весов: ${\boldsymbol {\alpha }}=(\alpha _{1},\dots ,\alpha _{T})$ ^[2]

\mathbf {D} ^{t+1}=\operatorname {diag} \left((G+\lambda \mathbf {I} )^{-1}{\widetilde {G}}{\boldsymbol {\alpha }}^{t}\right)

{\boldsymbol {\alpha }}^{t+1}=\mathbf {D} ^{t+1}\mathbf {K} \left((\mathbf {D} ^{t+1}K)^{2}+{\widetilde {\lambda }}\mathbf {I} \right)^{-1}\mathbf {D} ^{t+1}\mathbf {K} _{o^{t+1}}

где $\mathbf {G} ,\mathbf {K}$ обозначим матрицы Грама ${\widetilde {s}}^{1},\dots ,{\widetilde {s}}^{T}$ и ${\widetilde {o}}^{1},\dots ,{\widetilde {o}}^{T}$ соответственно, ${\widetilde {\mathbf {G} }}$ представляет собой трансфер-матрицу Грама, определяемую как ${\widetilde {\mathbf {G} }}_{ij}=k({\widetilde {s}}_{i},{\widetilde {s}}_{j+1}),$ и $\mathbf {K} _{o^{t+1}}=(k({\widetilde {o}}^{1},o^{t+1}),\dots ,k({\widetilde {o}}^{T},o^{t+1}))^{T}.$

Машины для измерения опоры

Машина меры поддержки (SMM) представляет собой обобщение машины опорных векторов (SVM), в которой обучающими примерами являются распределения вероятностей в сочетании с метками. $\{P_{i},y_{i}\}_{i=1}^{n},\ y_{i}\in \{+1,-1\}$ . ^[22] SMM решают стандартную задачу двойной оптимизации SVM, используя следующее ожидаемое ядро:

K\left(P(X),Q(Z)\right)=\langle \mu _{X},\mu _{Z}\rangle _{\mathcal {H}}=\mathbb {E} [k(x,z)]

которое вычислимо в замкнутой форме для многих общих конкретных распределений $P_{i}$ (например, распределение Гаусса) в сочетании с популярными ядрами внедрения $k$ (например, ядро Гаусса или полиномиальное ядро), или может быть точно оценено эмпирически на основе выборок iid $\{x_{i}\}_{i=1}^{n}\sim P(X),\{z_{j}\}_{j=1}^{m}\sim Q(Z)$ с помощью

{\widehat {K}}(X,Z)={\frac {1}{nm}}\sum _{i=1}^{n}\sum _{j=1}^{m}k(x_{i},z_{j})

При определенном выборе ядра встраивания $k$ , СММ применительно к обучающим примерам $\{P_{i},y_{i}\}_{i=1}^{n}$ эквивалентно SVM, обученному на выборках $\{x_{i},y_{i}\}_{i=1}^{n}$ , и, таким образом, SMM можно рассматривать как гибкую SVM, в которой другое ядро, зависящее от данных (заданное предполагаемой формой распределения $P_{i}$ ) можно разместить на каждой тренировочной точке. ^[22]

Адаптация предметной области при ковариате, целевом и условном сдвиге

Целью адаптации предметной области является формулирование алгоритмов обучения, которые хорошо обобщают, когда обучающие и тестовые данные имеют разное распределение. Приведены примеры обучения $\{(x_{i}^{\text{tr}},y_{i}^{\text{tr}})\}_{i=1}^{n}$ и тестовый набор $\{(x_{j}^{\text{te}},y_{j}^{\text{te}})\}_{j=1}^{m}$ где $y_{j}^{\text{te}}$ неизвестны, обычно предполагают три типа различий между распределением обучающих примеров $P^{\text{tr}}(X,Y)$ и тестовый дистрибутив $P^{\text{te}}(X,Y)$ : ^[23]^[24]

Ковариатный сдвиг , при котором предельное распределение ковариат меняется по областям: $P^{\text{tr}}(X)\neq P^{\text{te}}(X)$
Целевой сдвиг , при котором предельное распределение результатов меняется по областям: $P^{\text{tr}}(Y)\neq P^{\text{te}}(Y)$
Условный сдвиг, при котором $P(Y)$ остается одинаковым во всех доменах, но условные распределения различаются: $P^{\text{tr}}(X\mid Y)\neq P^{\text{te}}(X\mid Y)$ . В общем случае наличие условного сдвига приводит к некорректной задаче и дополнительному предположению, что $P(X\mid Y)$ изменяется только при преобразовании местоположения - масштаба (LS) на $X$ обычно применяется для того, чтобы решить проблему.

Используя встраивание в ядро маргинальных и условных распределений, можно сформулировать практические подходы к устранению подобных различий между обучающей и тестовой областями. Ковариатный сдвиг можно учесть путем повторного взвешивания примеров с помощью оценок отношения $P^{\text{te}}(X)/P^{\text{tr}}(X)$ полученные непосредственно из вложений ядра маргинальных распределений $X$ в каждой области без необходимости явной оценки распределений. ^[24] Целевой сдвиг, с которым невозможно справиться аналогичным образом, поскольку отсутствуют образцы из $Y$ доступны в тестовой области, учитывается путем взвешивания обучающих примеров с использованием вектора ${\boldsymbol {\beta }}^{*}(\mathbf {y} ^{\text{tr}})$ который решает следующую задачу оптимизации (где на практике необходимо использовать эмпирические приближения) ^[23]

\min _{{\boldsymbol {\beta }}(y)}\left\|{\mathcal {C}}_{{(X\mid Y)}^{\text{tr}}}\mathbb {E} [{\boldsymbol {\beta }}(y)\varphi (y^{\text{tr}})]-\mu _{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}

при условии

{\boldsymbol {\beta }}(y)\geq 0,\mathbb {E} [{\boldsymbol {\beta }}(y^{\text{tr}})]=1

Чтобы справиться с условным сдвигом масштаба местоположения, можно выполнить LS-преобразование обучающих точек, чтобы получить новые преобразованные обучающие данные. $\mathbf {X} ^{\text{new}}=\mathbf {X} ^{\text{tr}}\odot \mathbf {W} +\mathbf {B}$ (где $\odot$ обозначает поэлементное векторное произведение). Чтобы обеспечить одинаковое распределение между новыми преобразованными обучающими выборками и тестовыми данными, $\mathbf {W} ,\mathbf {B}$ оцениваются путем минимизации следующего эмпирического расстояния встраивания ядра ^[23]

\left\|{\widehat {\mu }}_{X^{\text{new}}}-{\widehat {\mu }}_{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}=\left\|{\widehat {\mathcal {C}}}_{(X\mid Y)^{\text{new}}}{\widehat {\mu }}_{Y^{\text{tr}}}-{\widehat {\mu }}_{X^{\text{te}}}\right\|_{\mathcal {H}}^{2}

В общем, методы внедрения ядра для работы с условным сдвигом LS и целевым сдвигом могут быть объединены, чтобы найти перевзвешенное преобразование обучающих данных, которое имитирует тестовое распределение, и эти методы могут хорошо работать даже при наличии условных сдвигов, отличных от местоположения. -масштабные изменения. ^[23]

Обобщение предметной области посредством инвариантного представления признаков

Учитывая N наборов обучающих примеров, выбранных iid из распределений $P^{(1)}(X,Y),P^{(2)}(X,Y),\ldots ,P^{(N)}(X,Y)$ Целью обобщения предметной области является формулирование алгоритмов обучения, которые хорошо работают на тестовых примерах, выбранных из ранее невиданной предметной области. $P^{*}(X,Y)$ где во время обучения данные из тестовой области недоступны. Если условные распределения $P(Y\mid X)$ предполагаются относительно одинаковыми во всех областях, то учащийся, способный к обобщению предметной области, должен оценить функциональную связь между переменными, устойчивую к изменениям маргинальных значений. $P(X)$ . Анализ инвариантных компонентов области (DICA), основанный на встраивании этих распределений в ядро, представляет собой метод, который определяет преобразование обучающих данных, которое минимизирует разницу между маргинальными распределениями, сохраняя при этом общее условное распределение, общее для всех обучающих доменов. ^[25] Таким образом, DICA извлекает инварианты , функции, которые передаются между доменами, и может рассматриваться как обобщение многих популярных методов уменьшения размерностей, таких как анализ главных компонентов ядра , анализ компонентов переноса и обратная регрессия ковариационного оператора. ^[25]

Определение распределения вероятностей ${\mathcal {P}}$ на РХС ${\mathcal {H}}$ с

{\mathcal {P}}\left(\mu _{X^{(i)}Y^{(i)}}\right)={\frac {1}{N}}\qquad {\text{ for }}i=1,\dots ,N,

DICA измеряет различия между доменами посредством дисперсии распределения , которая рассчитывается как

V_{\mathcal {H}}({\mathcal {P}})={\frac {1}{N}}\operatorname {tr} (\mathbf {G} )-{\frac {1}{N^{2}}}\sum _{i,j=1}^{N}\mathbf {G} _{ij}

где

\mathbf {G} _{ij}=\left\langle \mu _{X^{(i)}},\mu _{X^{(j)}}\right\rangle _{\mathcal {H}}

так $\mathbf {G}$ это $N\times N$ Матрица Грамма по распределениям, из которых выбираются обучающие данные. Находя ортогональное преобразование в низкоразмерном подпространстве B (в пространстве признаков), которое минимизирует дисперсию распределения, DICA одновременно гарантирует, что B выравнивается по основаниям центрального подпространства C , для которого $Y$ становится независимым от $X$ данный $C^{T}X$ по всем доменам. При отсутствии целевых значений $Y$ , можно сформулировать неконтролируемую версию DICA, которая находит низкоразмерное подпространство, которое минимизирует дисперсию распределения и одновременно максимизирует дисперсию $X$ (в пространстве признаков) во всех доменах (вместо сохранения центрального подпространства). ^[25]

Регрессия распределения

В регрессии распределения цель состоит в том, чтобы перейти от вероятностных распределений к действительным значениям (или векторам). Многие важные задачи машинного обучения и статистики вписываются в эту структуру, включая многоэкземплярное обучение и задачи точечной оценки без аналитического решения (например, оценка гиперпараметра или энтропии ). На практике наблюдаются только выборки из выборочных распределений, и оценки должны основываться на сходстве, вычисленном между наборами точек . Регрессия распределения успешно применялась, например, при контролируемом энтропийном обучении и прогнозировании аэрозолей с использованием многоспектральных спутниковых изображений. ^[26]

Данный ${\left(\{X_{i,n}\}_{n=1}^{N_{i}},y_{i}\right)}_{i=1}^{\ell }$ данные обучения, где ${\hat {X_{i}}}:=\{X_{i,n}\}_{n=1}^{N_{i}}$ мешок содержит образцы из распределения вероятностей $X_{i}$ и $i^{\text{th}}$ выходная метка $y_{i}\in \mathbb {R}$ , можно решить задачу регрессии распределения, взяв вложения распределений и изучив регрессор от вложений к выходным данным. Другими словами, можно рассмотреть следующую регрессии гребня ядра: задачу $(\lambda >0)$

J(f)={\frac {1}{\ell }}\sum _{i=1}^{\ell }\left[f\left(\mu _{\hat {X_{i}}}\right)-y_{i}\right]^{2}+\lambda \|f\|_{{\mathcal {H}}(K)}^{2}\to \min _{f\in {\mathcal {H}}(K)},

где

\mu _{{\hat {X}}_{i}}=\int _{\Omega }k(\cdot ,u)\,\mathrm {d} {\hat {X}}_{i}(u)={\frac {1}{N_{i}}}\sum _{n=1}^{N_{i}}k(\cdot ,X_{i,n})

с $k$ ядро в домене $X_{i}$ -с $(k:\Omega \times \Omega \to \mathbb {R} )$ , $K$ это ядро во встроенных дистрибутивах, и ${\mathcal {H}}(K)$ RKHS определяется $K$ . Примеры для $K$ включить линейное ядро $\left[K(\mu _{P},\mu _{Q})=\langle \mu _{P},\mu _{Q}\rangle _{{\mathcal {H}}(k)}\right]$ , ядро Гаусса $\left[K(\mu _{P},\mu _{Q})=e^{-\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}/(2\sigma ^{2})}\right]$ , экспоненциальное ядро $\left[K(\mu _{P},\mu _{Q})=e^{-\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}/(2\sigma ^{2})}\right]$ , ядро Коши $\left[K(\mu _{P},\mu _{Q})=\left(1+\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}/\sigma ^{2}\right)^{-1}\right]$ , обобщенное ядро t-стьюдента $\left[K(\mu _{P},\mu _{Q})=\left(1+\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{\sigma }\right)^{-1},(\sigma \leq 2)\right]$ , или обратное ядро мультиквадрики $\left[K(\mu _{P},\mu _{Q})=\left(\left\|\mu _{P}-\mu _{Q}\right\|_{H(k)}^{2}+\sigma ^{2}\right)^{-{\frac {1}{2}}}\right]$ .

Прогноз на новую раздачу $({\hat {X}})$ принимает простую аналитическую форму

{\hat {y}}{\big (}{\hat {X}}{\big )}=\mathbf {k} [\mathbf {G} +\lambda \ell ]^{-1}\mathbf {y} ,

где $\mathbf {k} ={\big [}K{\big (}\mu _{{\hat {X}}_{i}},\mu _{\hat {X}}{\big )}{\big ]}\in \mathbb {R} ^{1\times \ell }$ , $\mathbf {G} =[G_{ij}]\in \mathbb {R} ^{\ell \times \ell }$ , $G_{ij}=K{\big (}\mu _{{\hat {X}}_{i}},\mu _{{\hat {X}}_{j}}{\big )}\in \mathbb {R}$ , $\mathbf {y} =[y_{1};\ldots ;y_{\ell }]\in \mathbb {R} ^{\ell }$ . В условиях умеренной регулярности можно показать, что эта оценка непротиворечива, и она может обеспечить одноэтапную выборку (как если бы у вас был доступ к истинному значению). $X_{i}$ -s) минимаксная оптимальная скорость. ^[26] В $J$ целевая функция $y_{i}$ -s — действительные числа; результаты могут быть распространены и на случай, когда $y_{i}$ -s являются $d$ -мерные векторы или, в более общем смысле, элементы сепарабельного гильбертова пространства с использованием операторных значений. $K$ ядра.

Пример

В этом простом примере, взятом из Song et al., ^[2] $X,Y$ предполагаются дискретными случайными величинами , принимающими значения из множества $\{1,\ldots ,K\}$ и ядро выбрано в качестве дельта-функции Кронекера , поэтому $k(x,x')=\delta (x,x')$ . Карта признаков, соответствующая этому ядру, представляет собой стандартный базисный вектор. $\varphi (x)=\mathbf {e} _{x}$ . Таким образом, вложения ядра таких распределений являются векторами маргинальных вероятностей, тогда как вложения совместных распределений в этом случае равны $K\times K$ матрицы, задающие совместные таблицы вероятностей, и явная форма этих вложений имеет вид

\mu _{X}=\mathbb {E} [\mathbf {e} _{X}]={\begin{pmatrix}P(X=1)\\\vdots \\P(X=K)\\\end{pmatrix}}

{\mathcal {C}}_{XY}=\mathbb {E} [\mathbf {e} _{X}\otimes \mathbf {e} _{Y}]=(P(X=s,Y=t))_{s,t\in \{1,\ldots ,K\}}

Когда $P(X=s)>0$ , для всех $s\in \{1,\ldots ,K\}$ , оператор встраивания условного распределения,

{\mathcal {C}}_{Y\mid X}={\mathcal {C}}_{YX}{\mathcal {C}}_{XX}^{-1},

в этой настройке является таблицей условной вероятности

{\mathcal {C}}_{Y\mid X}=(P(Y=s\mid X=t))_{s,t\in \{1,\dots ,K\}}

и

{\mathcal {C}}_{XX}={\begin{pmatrix}P(X=1)&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &P(X=K)\\\end{pmatrix}}

Таким образом, вложения условного распределения при фиксированном значении $X$ может быть вычислено как

\mu _{Y\mid x}={\mathcal {C}}_{Y\mid X}\varphi (x)={\begin{pmatrix}P(Y=1\mid X=x)\\\vdots \\P(Y=K\mid X=x)\\\end{pmatrix}}

В этой дискретной настройке с дельта-ядром Кронекера правило сумм ядра принимает вид

\underbrace {\begin{pmatrix}P(X=1)\\\vdots \\P(X=N)\\\end{pmatrix}} _{\mu _{X}^{\pi }}=\underbrace {\begin{pmatrix}\\P(X=s\mid Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{X\mid Y}}\underbrace {\begin{pmatrix}\pi (Y=1)\\\vdots \\\pi (Y=N)\\\end{pmatrix}} _{\mu _{Y}^{\pi }}

Правило цепочки ядра в этом случае имеет вид

\underbrace {\begin{pmatrix}\\P(X=s,Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{XY}^{\pi }}=\underbrace {\begin{pmatrix}\\P(X=s\mid Y=t)\\\\\end{pmatrix}} _{{\mathcal {C}}_{X\mid Y}}\underbrace {\begin{pmatrix}\pi (Y=1)&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\pi (Y=K)\\\end{pmatrix}} _{{\mathcal {C}}_{YY}^{\pi }}

Ссылки

^ Jump up to: ^а ^б А. Смола, А. Греттон, Л. Сонг, Б. Шёлкопф. (2007). Вложение в гильбертово пространство для распределений. Архивировано 15 декабря 2013 г. в Wayback Machine . Алгоритмическая теория обучения: 18-я Международная конференция . Спрингер: 13–31.
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н Л. Сонг, К. Фукумидзу, Ф. Динуццо, А. Греттон (2013). Ядро встраивания условных распределений: унифицированная структура ядра для непараметрического вывода в графических моделях . Журнал обработки сигналов IEEE 30 : 98–111.
^ Дж. Шоу-Тейлор, Н. Кристианини. (2004). Ядерные методы анализа закономерностей . Издательство Кембриджского университета, Кембридж, Великобритания.
^ Т. Хофманн, Б. Шёлкопф, А. Смола. (2008). Методы ядра в машинном обучении . Анналы статистики 36 (3): 1171–1220.
^ Муандет, Крикамол; Фукумидзу, Кендзи; Шриперумбудур, Бхарат; Шёлкопф, Бернхард (28 июня 2017 г.). «Встраивание распределений по ядру: обзор и не только». Основы и тенденции в машинном обучении . 10 (1–2): 1–141. arXiv : 1605.09522 . дои : 10.1561/2200000060 . ISSN 1935-8237 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Л. Песня. (2008) Обучение через вложение распределений в гильбертово пространство . Докторская диссертация, Сиднейский университет.
^ К. Фукумидзу, А. Греттон, X. Сан и Б. Шёлкопф (2008). Ядерные меры условной независимости . Достижения в области нейронных систем обработки информации 20 , MIT Press, Кембридж, Массачусетс.
^ Jump up to: ^а ^б ^с Л. Сонг, Дж. Хуанг, А. Дж. Смола, К. Фукумидзу. (2009). Вложения условных распределений в гильбертово пространство . Учеб. Межд. Конф. Машинное обучение . Монреаль, Канада: 961–968.
^ * Стейнварт, Инго; Кристманн, Андреас (2008). Машины опорных векторов . Нью-Йорк: Спрингер. ISBN 978-0-387-77241-7 .
^ Шриперумбудур, Британская Колумбия; Фукумидзу, К.; Ланкриет, GRG (2011). «Универсальность, характеристические ядра и вложение мер RKHS». Журнал исследований машинного обучения . 12 (70).
^ Лян, Перси (2016), CS229T/STAT231: Статистическая теория обучения (PDF) , конспекты лекций в Стэнфорде
^ Шриперумбудур, Британская Колумбия; Фукумидзу, К.; Ланкриет, GRG (2010). О связи универсальности, характеристических ядер и RKHS-вложения мер . Материалы тринадцатой международной конференции по искусственному интеллекту и статистике. Италия.
^ Миккелли, Калифорния; Сюй, Ю.; Чжан, Х. (2006). «Универсальные ядра» . Журнал исследований машинного обучения . 7 (95): 2651–2667.
^ С. Грюневальдер, Г. Левер, Л. Бальдассар, С. Паттерсон, А. Греттон, М. Понтиль. (2012). Условные средние вложения как регрессоры . Учеб. Межд. Конф. Машинное обучение : 1823–1830 гг.
^ А. Греттон, К. Боргвардт, М. Раш, Б. Шёлкопф, А. Смола. (2012). Двухвыборочный тест ядра . Журнал исследований машинного обучения , 13 : 723–773.
^ М. Дудик, С. Дж. Филлипс, Р. Э. Шапире. (2007). Оценка распределения максимальной энтропии с помощью обобщенной регуляризации и приложение к моделированию распределения видов . Журнал исследований машинного обучения , 8 : 1217–1260.
^ А. Греттон, О. Буске, А. Смола, Б. Шёлкопф. (2005). Измерение статистической зависимости с помощью норм Гильберта – Шмидта . Учеб. Международный Конф. по теории алгоритмического обучения : 63–78.
^ Л. Сонг, А. Смола, А. Греттон, К. Боргвардт, Дж. Бедо. (2007). Контролируемый выбор признаков посредством оценки зависимости . Учеб. Международный Конф. Машинное обучение , Omnipress: 823–830.
^ Л. Сонг, А. Смола, А. Греттон, К. Боргвардт. (2007). Представление кластеризации с точки зрения максимизации зависимостей . Учеб. Международный Конф. Машинное обучение . Омнипресс: 815–822.
^ Л. Сонг, А. Смола, К. Боргвардт, А. Греттон. (2007). Разворачивается цветная максимальная дисперсия . Нейронные системы обработки информации .
^ Золтан Сабо, Бхарат К. Шриперумбудур. Характеристические и универсальные ядра тензорных произведений . Журнал исследований машинного обучения , 19:1–29, 2018 г.
^ Jump up to: ^а ^б К. Муандет, К. Фукумидзу, Ф. Динуццо, Б. Шёлкопф. (2012). Обучение на распределениях с помощью машин меры поддержки . Достижения в области нейронных систем обработки информации : 10–18.
^ Jump up to: ^а ^б ^с ^д К. Чжан, Б. Шёлкопф, К. Муандет, З. Ван. (2013). Адаптация предметной области при целевом и условном сдвиге . Журнал исследований машинного обучения, 28 (3): 819–827.
^ Jump up to: ^а ^б А. Греттон, А. Смола, Дж. Хуанг, М. Шмитфулл, К. Боргвардт, Б. Шёлкопф. (2008). Сдвиг ковариации и локальное обучение путем сопоставления распределений. В Дж. Кинонеро-Кандела, М. Сугияма, А. Швайгофер, Н. Лоуренс (ред.). Сдвиг набора данных в машинном обучении , MIT Press, Кембридж, Массачусетс: 131–160.
^ Jump up to: ^а ^б ^с К. Муандет, Д. Бальдуцци, Б. Шёлкопф. (2013). Обобщение предметной области посредством инвариантного представления признаков . 30-я Международная конференция по машинному обучению .
^ Jump up to: ^а ^б З. Сабо, Б. Сриперумбудур, Б. Почос, А. Греттон. Теория обучения регрессии распределения . Журнал исследований машинного обучения , 17(152):1–40, 2016.

Внешние ссылки

Набор инструментов для теоретических оценок информации (демонстрация регрессии распределения).

[Smola2007-1] Jump up to: ^а ^б А. Смола, А. Греттон, Л. Сонг, Б. Шёлкопф. (2007). Вложение в гильбертово пространство для распределений. Архивировано 15 декабря 2013 г. в Wayback Machine . Алгоритмическая теория обучения: 18-я Международная конференция . Спрингер: 13–31.

[Song2013-2] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к ^л ^м ^н Л. Сонг, К. Фукумидзу, Ф. Динуццо, А. Греттон (2013). Ядро встраивания условных распределений: унифицированная структура ядра для непараметрического вывода в графических моделях . Журнал обработки сигналов IEEE 30 : 98–111.

[3] Дж. Шоу-Тейлор, Н. Кристианини. (2004). Ядерные методы анализа закономерностей . Издательство Кембриджского университета, Кембридж, Великобритания.

[4] Т. Хофманн, Б. Шёлкопф, А. Смола. (2008). Методы ядра в машинном обучении . Анналы статистики 36 (3): 1171–1220.

[5] Муандет, Крикамол; Фукумидзу, Кендзи; Шриперумбудур, Бхарат; Шёлкопф, Бернхард (28 июня 2017 г.). «Встраивание распределений по ядру: обзор и не только». Основы и тенденции в машинном обучении . 10 (1–2): 1–141. arXiv : 1605.09522 . дои : 10.1561/2200000060 . ISSN 1935-8237 .

[SongThesis-6] Jump up to: ^а ^б ^с ^д ^и ^ж ^г ^час ^я Л. Песня. (2008) Обучение через вложение распределений в гильбертово пространство . Докторская диссертация, Сиднейский университет.

[Fukumizu2008-7] К. Фукумидзу, А. Греттон, X. Сан и Б. Шёлкопф (2008). Ядерные меры условной независимости . Достижения в области нейронных систем обработки информации 20 , MIT Press, Кембридж, Массачусетс.

[SongCDE-8] Jump up to: ^а ^б ^с Л. Сонг, Дж. Хуанг, А. Дж. Смола, К. Фукумидзу. (2009). Вложения условных распределений в гильбертово пространство . Учеб. Межд. Конф. Машинное обучение . Монреаль, Канада: 961–968.

[9] * Стейнварт, Инго; Кристманн, Андреас (2008). Машины опорных векторов . Нью-Йорк: Спрингер. ISBN 978-0-387-77241-7 .

[10] Шриперумбудур, Британская Колумбия; Фукумидзу, К.; Ланкриет, GRG (2011). «Универсальность, характеристические ядра и вложение мер RKHS». Журнал исследований машинного обучения . 12 (70).

[11] Лян, Перси (2016), CS229T/STAT231: Статистическая теория обучения (PDF) , конспекты лекций в Стэнфорде

[12] Шриперумбудур, Британская Колумбия; Фукумидзу, К.; Ланкриет, GRG (2010). О связи универсальности, характеристических ядер и RKHS-вложения мер . Материалы тринадцатой международной конференции по искусственному интеллекту и статистике. Италия.

[13] Миккелли, Калифорния; Сюй, Ю.; Чжан, Х. (2006). «Универсальные ядра» . Журнал исследований машинного обучения . 7 (95): 2651–2667.

[14] С. Грюневальдер, Г. Левер, Л. Бальдассар, С. Паттерсон, А. Греттон, М. Понтиль. (2012). Условные средние вложения как регрессоры . Учеб. Межд. Конф. Машинное обучение : 1823–1830 гг.

[15] А. Греттон, К. Боргвардт, М. Раш, Б. Шёлкопф, А. Смола. (2012). Двухвыборочный тест ядра . Журнал исследований машинного обучения , 13 : 723–773.

[16] М. Дудик, С. Дж. Филлипс, Р. Э. Шапире. (2007). Оценка распределения максимальной энтропии с помощью обобщенной регуляризации и приложение к моделированию распределения видов . Журнал исследований машинного обучения , 8 : 1217–1260.

[17] А. Греттон, О. Буске, А. Смола, Б. Шёлкопф. (2005). Измерение статистической зависимости с помощью норм Гильберта – Шмидта . Учеб. Международный Конф. по теории алгоритмического обучения : 63–78.

[18] Л. Сонг, А. Смола, А. Греттон, К. Боргвардт, Дж. Бедо. (2007). Контролируемый выбор признаков посредством оценки зависимости . Учеб. Международный Конф. Машинное обучение , Omnipress: 823–830.

[19] Л. Сонг, А. Смола, А. Греттон, К. Боргвардт. (2007). Представление кластеризации с точки зрения максимизации зависимостей . Учеб. Международный Конф. Машинное обучение . Омнипресс: 815–822.

[20] Л. Сонг, А. Смола, К. Боргвардт, А. Греттон. (2007). Разворачивается цветная максимальная дисперсия . Нейронные системы обработки информации .

[CharAndUniv-21] Золтан Сабо, Бхарат К. Шриперумбудур. Характеристические и универсальные ядра тензорных произведений . Журнал исследований машинного обучения , 19:1–29, 2018 г.

[SMM-22] Jump up to: ^а ^б К. Муандет, К. Фукумидзу, Ф. Динуццо, Б. Шёлкопф. (2012). Обучение на распределениях с помощью машин меры поддержки . Достижения в области нейронных систем обработки информации : 10–18.

[DA-23] Jump up to: ^а ^б ^с ^д К. Чжан, Б. Шёлкопф, К. Муандет, З. Ван. (2013). Адаптация предметной области при целевом и условном сдвиге . Журнал исследований машинного обучения, 28 (3): 819–827.

[CovS-24] Jump up to: ^а ^б А. Греттон, А. Смола, Дж. Хуанг, М. Шмитфулл, К. Боргвардт, Б. Шёлкопф. (2008). Сдвиг ковариации и локальное обучение путем сопоставления распределений. В Дж. Кинонеро-Кандела, М. Сугияма, А. Швайгофер, Н. Лоуренс (ред.). Сдвиг набора данных в машинном обучении , MIT Press, Кембридж, Массачусетс: 131–160.

[DICA-25] Jump up to: ^а ^б ^с К. Муандет, Д. Бальдуцци, Б. Шёлкопф. (2013). Обобщение предметной области посредством инвариантного представления признаков . 30-я Международная конференция по машинному обучению .

[MERR-26] Jump up to: ^а ^б З. Сабо, Б. Сриперумбудур, Б. Почос, А. Греттон. Теория обучения регрессии распределения . Журнал исследований машинного обучения , 17(152):1–40, 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]