Методы ядра для векторного вывода

Методы ядра — это хорошо зарекомендовавший себя инструмент для анализа взаимосвязи между входными данными и соответствующим выходом функции. Ядра инкапсулируют свойства функций эффективным с точки зрения вычислений способом и позволяют алгоритмам легко заменять функции различной сложности.

В типичных алгоритмах машинного обучения эти функции выдают скалярный результат. Недавнее развитие методов ядра для функций с векторным выводом обусловлено, по крайней мере частично, интересом к одновременному решению связанных задач. Ядра, которые фиксируют взаимосвязь между проблемами, позволяют им заимствовать силы друг у друга. Алгоритмы этого типа включают многозадачное обучение (также называемое многовыходным обучением или векторно-значным обучением), трансферное обучение и кокригинг . Классификацию по нескольким меткам можно интерпретировать как сопоставление входных данных с (двоичными) векторами кодирования длиной, равной количеству классов.

В гауссовских процессах ядра называются ковариационными функциями . Функции с несколькими выходами соответствуют рассмотрению нескольких процессов. См. Байесовскую интерпретацию регуляризации, чтобы узнать о связи между двумя точками зрения.

История [ править ]

История изучения векторных функций тесно связана с трансферным обучением — сохранением знаний, полученных при решении одной задачи, и применением их к другой, но связанной задаче. Фундаментальная мотивация трансферного обучения в области машинного обучения обсуждалась на семинаре NIPS-95 «Обучение обучению», в котором основное внимание уделялось необходимости в методах машинного обучения на протяжении всей жизни, которые сохраняют и повторно используют ранее полученные знания. Исследования трансферного обучения привлекли большое внимание с 1995 года под разными названиями: обучение обучению, обучение на протяжении всей жизни, передача знаний, индуктивная передача, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, индуктивное смещение, основанное на знаниях, метаобучение и поэтапное/кумулятивное обучение . обучение . ^[1] Интерес к изучению векторных функций был особенно вызван многозадачным обучением — структурой, которая пытается одновременно изучать несколько, возможно, разных задач.

Большая часть первоначальных исследований в области многозадачного обучения в сообществе машинного обучения носила алгоритмический характер и применялась к таким методам, как нейронные сети, деревья решений и $k$ -ближайшие соседи в 1990-х годах. ^[2] Использование вероятностных моделей и гауссовских процессов было впервые и широко развито в контексте геостатистики, где прогнозирование на основе векторных выходных данных известно как кокригинг. ^[3]^[4]^[5] Геостатистические подходы к многомерному моделированию в основном сформулированы вокруг линейной модели сорегионализации (LMC), генеративного подхода для разработки действительных ковариационных функций, который использовался для многомерной регрессии и в статистике для компьютерной эмуляции дорогостоящих многомерных компьютерных кодов. Литература по регуляризации и теории ядра для векторных функций появилась в 2000-х годах. ^[6]^[7] Хотя подходы Байеса и регуляризации были разработаны независимо, на самом деле они тесно связаны. ^[8]

Обозначения [ править ]

В этом контексте задача обучения с учителем заключается в изучении функции $f$ который лучше всего предсказывает векторные выходные данные $\mathbf {y_{i}}$ заданные входные данные (данные) $\mathbf {x_{i}}$ .

f(\mathbf {x_{i}} )=\mathbf {y_{i}}

для

i=1,\ldots ,N

\mathbf {x_{i}} \in {\mathcal {X}}

, пространство ввода (например,

{\mathcal {X}}=\mathbb {R} ^{p}

)

\mathbf {y_{i}} \in \mathbb {R} ^{D}

В общем случае каждый компонент ( $\mathbf {y_{i}}$ ), могут иметь разные входные данные ( $\mathbf {x_{d,i}}$ ) с разной мощностью ( $p$ ) и даже разные входные пространства ( ${\mathcal {X}}$ ). ^[8]В литературе по геостатистике этот случай называется гетеротопным и использует изотопный , чтобы указать, что каждый компонент выходного вектора имеет одинаковый набор входных данных. ^[9]

Здесь для простоты обозначений мы предполагаем, что количество и пространство выборки данных для каждого выхода одинаковы.

Перспектива регуляризации ^[8]^[10]^[11][ редактировать ]

С точки зрения регуляризации проблема состоит в том, чтобы научиться $f_{*}$ принадлежащее воспроизводящему ядру гильбертова пространства вектор-функций ( ${\mathcal {H}}$ ). Это похоже на скалярный случай тихоновской регуляризации , но с некоторой осторожностью в обозначениях.

	Векторный случай	Скалярный случай
Воспроизводящее ядро	$\mathbf {K} :{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} ^{D\times D}$	$k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R}$
Проблема обучения	$f_{*}=\operatorname {argmin} \sum \limits _{j=1}^{D}{\frac {1}{N}}\sum \limits _{i=1}^{N}(f_{j}(\mathbf {x_{i}} )-y_{j,i})^{2}+\lambda \Vert \mathbf {f} \Vert _{\mathbf {K} }^{2}$	$f_{*}=\operatorname {argmin} {\frac {1}{N}}\sum \limits _{i=1}^{N}(f(\mathbf {x_{i}} )-y_{i})^{2}+\lambda \Vert \mathbf {f} \Vert _{k}^{2}$
Решение (получено на основе теоремы о представителе $^{\dagger }$ )	$f_{*}(\mathbf {x} )=\sum \limits _{i=1}^{N}\mathbf {K} (\mathbf {x_{i}} ,\mathbf {x} )c_{i}$ с ${\bar {\mathbf {c} }}=(\mathbf {K} (\mathbf {X} ,\mathbf {X} )+\lambda N\mathbf {(} I))^{-1}{\bar {\mathbf {y} }}$ , где ${\bar {\mathbf {c} }}{\text{ and }}{\bar {\mathbf {y} }}$ - это коэффициенты и выходные векторы, объединенные в форму $ND$ векторы и $\mathbf {K} (\mathbf {X} ,\mathbf {X} ){\text{ is an }}ND\times ND$ матрица $N\times N$ блоки: $(\mathbf {K} (\mathbf {x_{i}} ,\mathbf {x_{j}} ))_{d,d'}$	$f_{}(\mathbf {x} )=\sum \limits _{i=1}^{N}k(\mathbf {x_{i}} ,\mathbf {x} )c_{i}=\mathbf {k} _{\mathbf {x} }^{\intercal }\mathbf {c}$ Решите для $\mathbf {c}$ взяв производную задачи обучения, приравняв ее нулю и подставив в приведенное выше выражение $f_{}$ : $\mathbf {c} =(\mathbf {K} +\lambda I)^{-1}\mathbf {y}$ где $\mathbf {K} _{ij}=k(\mathbf {x_{i}} ,\mathbf {x_{j}} )=i^{\text{th}}{\text{ element of }}\mathbf {k} _{\mathbf {x_{j}} }$

$^{\dagger }$ Можно, хотя и нетривиально, показать, что теорема о представителе справедлива и для тихоновской регуляризации в векторной ситуации. ^[8]

Заметим, что матричное ядро $\mathbf {K}$ также может быть определено скалярным ядром $R$ на пространстве ${\mathcal {X}}\times \{1,\ldots ,D\}$ . : изометрия Между гильбертовыми пространствами, связанными с этими двумя ядрами, существует

(\mathbf {K} (x,x'))_{d,d'}=R((x,d),(x',d'))

процесса Перспектива гауссовского

Оценщик векторнозначной структуры регуляризации также может быть получен с байесовской точки зрения с использованием методов гауссовского процесса в случае конечномерного гильбертова пространства с воспроизводящим ядром . в скалярном случае Вывод аналогичен байесовской интерпретации регуляризации . Вектор-функция ${\textbf {f}}$ , состоящий из $D$ результаты $\left\{f_{d}\right\}_{d=1}^{D}$ , предполагается, что он подчиняется гауссовскому процессу:

{\textbf {f}}\sim {\mathcal {GP}}({\textbf {m}},{\textbf {K}})

где ${\textbf {m}}:{\mathcal {X}}\to {\textbf {R}}^{D}$ теперь является вектором средних функций $\left\{m_{d}({\textbf {x}})\right\}_{d=1}^{D}$ для выходов и ${\textbf {K}}$ — положительно определенная матрица-функция с элементом $({\textbf {K}}({\textbf {x}},{\textbf {x}}'))_{d,d'}$ соответствующий ковариации между выходными данными $f_{d}({\textbf {x}})$ и $f_{d'}({\textbf {x}}')$ .

Для набора входов ${\textbf {X}}$ , априорное распределение по вектору ${\textbf {f}}({\textbf {X}})$ дается ${\mathcal {N}}({\textbf {m}}({\textbf {X}}),{\textbf {K}}({\textbf {X}},{\textbf {X}}))$ , где ${\textbf {m}}({\textbf {X}})$ - это вектор, который объединяет средние векторы, связанные с выходными данными и ${\textbf {K}}({\textbf {X}},{\textbf {X}})$ представляет собой блочную матрицу. Распределение выходных данных считается гауссовым:

p({\textbf {y}}\mid {\textbf {f}},{\textbf {x}},\Sigma )={\mathcal {N}}({\textbf {f}}({\textbf {x}}),\Sigma )

где $\Sigma \in {\mathcal {\textbf {R}}}^{D\times D}$ представляет собой диагональную матрицу с элементами $\left\{\sigma _{d}^{2}\right\}_{d=1}^{D}$ определение шума для каждого выхода. Используя эту форму для определения вероятности, прогнозируемое распределение для нового вектора ${\textbf {x}}_{*}$ является:

p({\textbf {f}}({\textbf {x}}_{*})\mid {\textbf {S}},{\textbf {f}},{\textbf {x}}_{*},\phi )={\mathcal {N}}({\textbf {f}}_{*}({\textbf {x}}_{*}),{\textbf {K}}_{*}({\textbf {x}}_{*},{\textbf {x}}_{*}))

где ${\textbf {S}}$ это данные обучения, и $\phi$ представляет собой набор гиперпараметров для ${\textbf {K}}({\textbf {x}},{\textbf {x}}')$ и $\Sigma$ .

Уравнения для ${\textbf {f}}_{*}$ и ${\textbf {K}}_{*}$ тогда можно получить:

{\textbf {f}}_{*}({\textbf {x}}_{*})={\textbf {K}}_{{\textbf {x}}_{*}}^{T}({\textbf {K}}({\textbf {X}},{\textbf {X}})+{\boldsymbol {\Sigma }})^{-1}{\bar {\textbf {y}}}

{\textbf {K}}_{*}({\textbf {x}}_{*},{\textbf {x}}_{*})={\textbf {K}}({\textbf {x}}_{*},{\textbf {x}}_{*})-{\textbf {K}}_{{\textbf {x}}_{*}}({\textbf {K}}({\textbf {X}},{\textbf {X}})+{\boldsymbol {\Sigma }})^{-1}{\textbf {K}}_{{\textbf {x}}_{*}}^{T}

где ${\boldsymbol {\Sigma }}=\Sigma \otimes {\textbf {I}}_{N},{\textbf {K}}_{{\textbf {x}}_{*}}\in {\mathcal {\textbf {R}}}^{D\times ND}$ есть записи $({\textbf {K}}({\textbf {x}}_{*},{\textbf {x}}_{j}))_{d,d'}$ для $j=1,\cdots ,N$ и $d,d'=1,\cdots ,D$ . Обратите внимание, что предсказатель ${\textbf {f}}^{*}$ идентичен предиктору, полученному в рамках регуляризации. Для негауссовых вероятностей для аппроксимации оценок необходимы различные методы, такие как аппроксимация Лапласа и вариационные методы.

Примеры ядер [ править ]

Разделяемый [ править ]

Простой, но широко применимый класс ядер с несколькими выходами можно разделить на произведение ядра во входном пространстве и ядро, представляющее корреляции между выходами: ^[8]

(\mathbf {K} (\mathbf {x} ,\mathbf {x'} ))_{d,d'}=k(\mathbf {x} ,\mathbf {x'} )k_{T}(d,d')

k

: скалярное ядро включено

{\mathcal {X}}\times {\mathcal {X}}

k_{T}

: скалярное ядро включено

\{1,\ldots ,D\}\times \{1,\ldots ,D\}

В матричной форме: $\mathbf {K} (\mathbf {x} ,\mathbf {x'} )=k(\mathbf {x} ,\mathbf {x'} )\mathbf {B}$ где $\mathbf {B}$ это $D\times D$ симметричная и положительная полуопределенная матрица. Обратите внимание, настройка $\mathbf {B}$ к единичной матрице рассматривает выходные данные как несвязанные и эквивалентно решению задач скалярного выходного сигнала отдельно.

В несколько более общей форме добавление нескольких таких ядер дает сумму разделимых ядер (ядер SoS).

Из литературы по регуляризации ^[8]^[10]^[12]^[13]^[14][ редактировать ]

Получено из регуляризатора [ править ]

Один из способов получения $k_{T}$ заключается в том, чтобы указать регуляризатор , который ограничивает сложность $f$ желаемым образом, а затем получить соответствующее ядро. Для некоторых регуляризаторов это ядро окажется сепарабельным.

Регуляризатор смешанного эффекта

R(\mathbf {f} )=A_{\omega }(C_{\omega }\sum \limits _{l=1}^{D}\|f_{l}\|_{k}^{2}+\omega D\sum \limits _{l=1}^{D}\|f_{l}-{\bar {f}}\|_{k}^{2})

где:

$A_{\omega }={\frac {1}{2(1-\omega )(1-\omega +\omega D)}}$
$C_{\omega }=(2-2\omega +\omega D)$
${\bar {f}}={\frac {1}{D}}\sum \limits _{q=1}^{D}f_{q}$
$K_{\omega }(x,x')=k(x,x')(\omega \mathbf {1} +(1-\omega )\mathbf {I} _{D}$

где $\mathbf {1} {\text{ is a }}D\times D$ матрица, все элементы которой равны 1.

Этот регуляризатор представляет собой комбинацию ограничения сложности каждого компонента оценки ( $f_{l}$ ) и заставляя каждый компонент средства оценки быть близким к среднему значению всех компонентов. Параметр $\omega =0$ рассматривает все компоненты как независимые и аналогично решению скалярных задач по отдельности. Параметр $\omega =1$ предполагает, что все компоненты объясняются одной и той же функцией.

Регуляризатор на основе кластеров

R(\mathbf {f} )=\varepsilon _{1}\sum _{c=1}^{r}\sum _{l\in I(c)}\|f_{l}-{\bar {f_{c}}}\|_{k}^{2}+\varepsilon _{2}\sum \limits _{c=1}^{r}m_{c}\|{\bar {f_{c}}}\|_{k}^{2}

где:

$I(c)$ это набор индексов компонентов, принадлежащих кластеру $c$
$m_{c}$ мощность кластера $c$
${\bar {f_{c}}}={\frac {1}{m_{c}}}\sum \limits _{q\in I(c)}f_{q}$
$\mathbf {M} _{l,q}={\frac {1}{m_{c}}}$ если $l$ и $q$ оба принадлежат кластеру $c$ ( $\mathbf {M} _{l,q}=0$ в противном случае
$K(x,x')=k(x,x')\mathbf {G} ^{\dagger }$

где $\mathbf {G} _{l,q}=\varepsilon _{1}\delta _{lq}+(\varepsilon _{2}-\varepsilon _{1})\mathbf {M} _{l,q}$

Этот регуляризатор делит компоненты на $r$ кластеры и заставляет компоненты в каждом кластере быть похожими.

Регуляризатор графа

R(\mathbf {f} )={\frac {1}{2}}\sum \limits _{l,q=1}^{D}\Vert f_{l}-f_{q}\Vert _{k}^{2}\mathbf {M} _{lq}+\sum \limits _{l=1}^{D}\Vert f_{l}\Vert _{k}^{2}\mathbf {M} _{l,l}

где $\mathbf {M} {\text{ is a }}D\times D$ матрица весов, кодирующая сходство между компонентами

K(x,x')=k(x,x')\mathbf {L} ^{\dagger }

где $\mathbf {L} =\mathbf {D} -\mathbf {M}$ , $\mathbf {D} _{l,q}=\delta _{l,q}(\sum \limits _{h=1}^{D}\mathbf {M} _{l,h}+\mathbf {M} _{l,q})$

Примечание, $\mathbf {L}$ является графом лапласиана . См. также: ядро графа .

Узнано на основе данных [ править ]

Несколько подходов к обучению $\mathbf {B}$ на основе данных были предложены. ^[8] К ним относятся: выполнение предварительного этапа вывода для оценки $\mathbf {B}$ из данных обучения, ^[9] предложение научиться $\mathbf {B}$ и $\mathbf {f}$ вместе на основе регуляризатора кластера, ^[15] и необходимы подходы, основанные на разреженности, которые предполагают лишь некоторые из функций. ^[16]^[17]

Из байесовской литературы [ править ]

Линейная модель сорегионализации (LMC) [ править ]

В LMC выходные данные выражаются как линейные комбинации независимых случайных функций, так что результирующая ковариационная функция (по всем входным и выходным данным) является допустимой положительной полуопределенной функцией. Предполагая $D$ результаты $\left\{f_{d}({\textbf {x}})\right\}_{d=1}^{D}$ с ${\textbf {x}}\in {\mathcal {\textbf {R}}}^{p}$ , каждый $f_{d}$ выражается как:

f_{d}({\textbf {x}})=\sum _{q=1}^{Q}{a_{d,q}u_{q}({\textbf {x}})}

где $a_{d,q}$ — скалярные коэффициенты и независимые функции $u_{q}({\textbf {x}})$ иметь нулевое среднее значение и ковариацию cov $[u_{q}({\textbf {x}}),u_{q'}({\textbf {x}}')]=k_{q}({\textbf {x}},{\textbf {x}}')$ если $q=q'$ и 0 в противном случае. Перекрестная ковариация между любыми двумя функциями $f_{d}({\textbf {x}})$ и $f_{d'}({\textbf {x}})$ тогда можно записать как:

\operatorname {cov} [f_{d}({\textbf {x}}),f_{d'}({\textbf {x}}')]=\sum _{q=1}^{Q}{\sum _{i=1}^{R_{q}}{a_{d,q}^{i}a_{d',q}^{i}k_{q}({\textbf {x}},{\textbf {x}}')}}=\sum _{q=1}^{Q}{b_{d,d'}^{q}k_{q}({\textbf {x}},{\textbf {x}}')}

где функции $u_{q}^{i}({\textbf {x}})$ , с $q=1,\cdots ,Q$ и $i=1,\cdots ,R_{q}$ иметь нулевое среднее значение и ковариацию cov $[u_{q}^{i}({\textbf {x}}),u_{q'}^{i'}({\textbf {x}})']=k_{q}({\textbf {x}},{\textbf {x}}')$ если $i=i'$ и $q=q'$ . Но $\operatorname {cov} [f_{d}({\textbf {x}}),f_{d'}({\textbf {x}}')]$ дается $({\textbf {K}}({\textbf {x}},{\textbf {x}}'))_{d,d'}$ . Таким образом, ядро ${\textbf {K}}({\textbf {x}},{\textbf {x}}')$ теперь можно выразить как

{\textbf {K}}({\textbf {x}},{\textbf {x}}')=\sum _{q=1}^{Q}{{\textbf {B}}_{q}k_{q}({\textbf {x}},{\textbf {x}}')}

где каждый ${\textbf {B}}_{q}\in {\mathcal {\textbf {R}}}^{D\times D}$ известна как матрица сорегионализации. Следовательно, ядро, полученное из LMC, представляет собой сумму произведений двух ковариационных функций, одна из которых моделирует зависимость между выходными данными независимо от входного вектора. ${\textbf {x}}$ (матрица сорегионализации ${\textbf {B}}_{q}$ ), и тот, который моделирует входную зависимость независимо от $\left\{f_{d}({\textbf {x}})\right\}_{d=1}^{D}$ (ковариационная функция $k_{q}({\textbf {x}},{\textbf {x}}')$ ).

модель сорегионализации ( Внутренняя ) ICM

ICM — это упрощенная версия LMC, с $Q=1$ . ICM предполагает, что элементы $b_{d,d'}^{q}$ матрицы сорегионализации $\mathbf {B} _{q}$ можно записать как $b_{d,d'}^{q}=v_{d,d'}b_{q}$ , для некоторых подходящих коэффициентов $v_{d,d'}$ . С помощью этой формы для $b_{d,d'}^{q}$ :

\operatorname {cov} \left[f_{d}(\mathbf {x} ),f_{d'}(\mathbf {x} ')\right]=\sum _{q=1}^{Q}{v_{d,d'}b_{q}k_{q}(\mathbf {x} ,\mathbf {x} ')}=v_{d,d'}\sum _{q=1}^{Q}{b_{q}k_{q}(\mathbf {x} ,\mathbf {x} ')}=v_{d,d'}k(\mathbf {x} ,\mathbf {x} ')

где

k(\mathbf {x} ,\mathbf {x} ')=\sum _{q=1}^{Q}{b_{q}k_{q}(\mathbf {x} ,\mathbf {x} ')}.

В этом случае коэффициенты

v_{d,d'}=\sum _{i=1}^{R_{1}}{a_{d,1}^{i}a_{d',1}^{i}}=b_{d,d'}^{1}

и матрица ядра для нескольких выходов становится $\mathbf {K} (\mathbf {x} ,\mathbf {x} ')=k(\mathbf {x} ,\mathbf {x} ')\mathbf {B}$ . ICM гораздо более ограничителен, чем LMC, поскольку предполагает, что каждая базовая ковариация $k_{q}(\mathbf {x} ,\mathbf {x} ')$ в равной степени способствует построению автоковариаций и перекрестных ковариаций для выходных данных. Однако вычисления, необходимые для вывода, значительно упрощаются.

модель латентного фактора ( Полупараметрическая ) SLFM

Другой упрощенной версией LMC является полупараметрическая модель латентного фактора (SLFM), которая соответствует настройке $R_{q}=1$ (вместо $Q=1$ как в ICM). Таким образом, каждая скрытая функция $u_{q}$ имеет свою ковариацию.

Неразделимый [ править ]

Несмотря на свою простоту, структура разделимых ядер может оказаться слишком ограничивающей для решения некоторых задач.

Яркие примеры неразделимых ядер в литературе по регуляризации включают:

Матричные возведенные в степень квадратичные ядра (EQ), предназначенные для оценки векторных полей без дивергенций или без роторов (или их выпуклой комбинации) ^[8]^[18]
Ядра, определенные преобразованиями ^[8]^[19]

С байесовской точки зрения LMC создает разделимое ядро, поскольку выходные функции оцениваются в определенной точке. ${\textbf {x}}$ зависят только от значений скрытых функций при ${\textbf {x}}$ . Нетривиальный способ смешивания скрытых функций — это свертка базового процесса со сглаживающим ядром. Если базовый процесс является гауссовским процессом, свернутый процесс также является гауссовским. Поэтому мы можем использовать свертки для построения ковариационных функций. ^[20] Этот метод получения неразделимых ядер известен как свертка процесса. Свертки процессов были представлены в сообществе машинного обучения для нескольких результатов как «зависимые гауссовы процессы». ^[21]

Реализация [ править ]

При реализации алгоритма с использованием любого из приведенных выше ядер необходимо учитывать практические соображения по настройке параметров и обеспечению разумного времени вычислений.

Перспектива регуляризации

С точки зрения регуляризации настройка параметров аналогична случаю со скалярными значениями и обычно может быть выполнена с помощью перекрестной проверки . Решение требуемой линейной системы обычно требует больших затрат памяти и времени. Если ядро сепарабельно, преобразование координат может преобразовать $\mathbf {K} (\mathbf {X} ,\mathbf {X} )$ к блочно-диагональной матрице , что значительно снижает вычислительную нагрузку за счет решения D независимых подзадач (плюс собственное разложение $\mathbf {B}$ ). В частности, для функции потерь по методу наименьших квадратов (регуляризация Тихонова) существует решение в замкнутом виде для ${\bar {\mathbf {c} }}$ : ^[8]^[14]

{\bar {\mathbf {c} }}^{d}=\left(k(\mathbf {X} ,\mathbf {X} )+{\frac {\lambda _{N}}{\sigma _{d}}}\mathbf {I} \right)^{-1}{\frac {{\bar {\mathbf {y} }}^{d}}{\sigma _{d}}}

Байесовский подход [ править ]

Существует множество работ, связанных с оценкой параметров гауссовских процессов. Некоторые методы, такие как максимизация предельного правдоподобия (также известная как аппроксимация доказательств, максимальное правдоподобие типа II, эмпирический байесовский метод) и метод наименьших квадратов, дают точечные оценки вектора параметров. $\phi$ . Есть также работы, использующие полный байесовский вывод путем присвоения априорных значений $\phi$ и вычисление апостериорного распределения посредством процедуры выборки. Для негауссовых вероятностей не существует решения в замкнутой форме для апостериорного распределения или предельного правдоподобия. Однако предельное правдоподобие можно аппроксимировать с помощью аппроксимации Лапласа, вариационного Байеса или аппроксимации распространения ожидания (EP) для классификации множественных выходных данных и использовать для поиска оценок гиперпараметров.

Основная вычислительная проблема с байесовской точки зрения такая же, как и в теории регуляризации обращения матрицы

{\overline {\mathbf {K} (\mathbf {X} ,\mathbf {X} )}}=\mathbf {K} (\mathbf {X} ,\mathbf {X} )+{\boldsymbol {\Sigma }}.

Этот шаг необходим для расчета предельного правдоподобия и прогнозируемого распределения. Для большинства предлагаемых методов аппроксимации для сокращения вычислений получаемая вычислительная эффективность не зависит от конкретного используемого метода (например, LMC, свертки процесса), используемого для вычисления ковариационной матрицы с несколькими выходами. Краткое изложение различных методов снижения вычислительной сложности в гауссовских процессах с несколькими выходами представлено в статье. ^[8]

Ссылки [ править ]

^ С. Дж. Пан и К. Ян, «Опрос по трансферному обучению», IEEE Transactions on Knowledge and Data Engineering, 22, 2010 г.
^ Рич Каруана, «Многозадачное обучение», Машинное обучение, 41–76, 1997 г.
^ Дж. Вер Хоф и Р. Барри, « Построение и подбор моделей для кокригинга и многомерного пространственного прогнозирования». ^{[ мертвая ссылка ]}», «Журнал статистического планирования и выводов», 69: 275–294, 1998 г.
^ П. Гувертс, «Геостатистика для оценки природных ресурсов», Oxford University Press, США, 1997 г.
^ Н. Кресси «Статистика пространственных данных», John Wiley & Sons Inc. (пересмотренное издание), США, 1993 г.
^ CA Микелли и М. Понтил, « Об изучении векторных функций », Neural Computation, 17:177–204, 2005 г.
^ К. Кармели и др., « Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера », Anal. Прил. (Сингап.), 4
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Маурисио А. Альварес, Лоренцо Росаско и Нил Д. Лоуренс, «Ядра векторных функций: обзор», Основы и тенденции в машинном обучении 4, вып. 3 (2012): 195–266. doi: 10.1561/2200000036 arXiv:1106.6251
^ Jump up to: Перейти обратно: ^а ^б Ганс Вакернагель. Многомерная геостатистика. Springer-Verlag Heidelberg, Нью-Йорк, 2003 г.
^ Jump up to: Перейти обратно: ^а ^б К. А. Миккелли и М. Понтиль. Об изучении векторных функций. Нейронные вычисления, 17:177–204, 2005.
^ К.Кармели, Э.ДеВито и А.Тойго. Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера. Анальный. Прил. (Сингап), 4(4):377–408, 2006.
^ CA Микелли и М. Понтиль. Ядра для многозадачного обучения. В достижениях в области нейронных систем обработки информации (NIPS). МИТ Пресс, 2004.
^ Т.Евгениу, КАМикчелли и М.Понтиль. Изучение нескольких задач с помощью методов ядра . Журнал исследований машинного обучения, 6:615–637, 2005.
^ Jump up to: Перейти обратно: ^а ^б Л. Бальдасарре, Л. Росаско, А. Барла и А. Верри. Многовыходное обучение посредством спектральной фильтрации . Технический отчет, Массачусетский технологический институт, 2011 г. MIT-CSAIL-TR-2011-004, CBCL-296.
^ Лоран Жакоб, Фрэнсис Бах и Жан-Филипп Верт. Кластерное многозадачное обучение: выпуклая формулировка . В NIPS 21, страницы 745–752, 2008 г.
^ Андреас Аргириу, Теодорос Евгениу и Массимилиано Понтил. Выпуклое многозадачное обучение. Машинное обучение, 73(3):243–272, 2008.
^ Андреас Аргириу, Андреас Маурер и Массимилиано Понтил. Алгоритм трансферного обучения в гетерогенной среде. В ECML/PKDD (1), стр. 71–85, 2008 г.
^ И. Маседо и Р. Кастро. Изучение векторных полей без дивергенций и роторов с матричными ядрами. Технический отчет, Instituto Nacional de Matematica Pura e Aplicada, 2008 г.
^ А. Капоннетто, К. А. Миккелли, М. Понтил и Ю. Ин. Универсальные ядра для многозадачного обучения. Журнал исследований машинного обучения, 9:1615–1646, 2008.
^ Д. Хигдон, «Моделирование пространства и пространства-времени с использованием сверток процессов», Количественные методы решения текущих экологических проблем, 37–56, 2002 г.
^ П. Бойл и М. Фрин, « Зависимые гауссовы процессы » , Достижения в области нейронных систем обработки информации, 17: 217–224, MIT Press, 2005.

[pan-1] С. Дж. Пан и К. Ян, «Опрос по трансферному обучению», IEEE Transactions on Knowledge and Data Engineering, 22, 2010 г.

[caruana-2] Рич Каруана, «Многозадачное обучение», Машинное обучение, 41–76, 1997 г.

[verhoef-3] Дж. Вер Хоф и Р. Барри, « Построение и подбор моделей для кокригинга и многомерного пространственного прогнозирования». ^{[ мертвая ссылка ]}», «Журнал статистического планирования и выводов», 69: 275–294, 1998 г.

[goovaerts-4] П. Гувертс, «Геостатистика для оценки природных ресурсов», Oxford University Press, США, 1997 г.

[cressie-5] Н. Кресси «Статистика пространственных данных», John Wiley & Sons Inc. (пересмотренное издание), США, 1993 г.

[micchelli-6] CA Микелли и М. Понтил, « Об изучении векторных функций », Neural Computation, 17:177–204, 2005 г.

[carmeli-7] К. Кармели и др., « Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера », Anal. Прил. (Сингап.), 4

[review_paper-8] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час ^я ^дж ^к Маурисио А. Альварес, Лоренцо Росаско и Нил Д. Лоуренс, «Ядра векторных функций: обзор», Основы и тенденции в машинном обучении 4, вып. 3 (2012): 195–266. doi: 10.1561/2200000036 arXiv:1106.6251

[ref104-9] Jump up to: Перейти обратно: ^а ^б Ганс Вакернагель. Многомерная геостатистика. Springer-Verlag Heidelberg, Нью-Йорк, 2003 г.

[ref65-10] Jump up to: Перейти обратно: ^а ^б К. А. Миккелли и М. Понтиль. Об изучении векторных функций. Нейронные вычисления, 17:177–204, 2005.

[ref19-11] К.Кармели, Э.ДеВито и А.Тойго. Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера. Анальный. Прил. (Сингап), 4(4):377–408, 2006.

[ref64-12] CA Микелли и М. Понтиль. Ядра для многозадачного обучения. В достижениях в области нейронных систем обработки информации (NIPS). МИТ Пресс, 2004.

[ref27-13] Т.Евгениу, КАМикчелли и М.Понтиль. Изучение нескольких задач с помощью методов ядра . Журнал исследований машинного обучения, 6:615–637, 2005.

[ref7-14] Jump up to: Перейти обратно: ^а ^б Л. Бальдасарре, Л. Росаско, А. Барла и А. Верри. Многовыходное обучение посредством спектральной фильтрации . Технический отчет, Массачусетский технологический институт, 2011 г. MIT-CSAIL-TR-2011-004, CBCL-296.

[ref48-15] Лоран Жакоб, Фрэнсис Бах и Жан-Филипп Верт. Кластерное многозадачное обучение: выпуклая формулировка . В NIPS 21, страницы 745–752, 2008 г.

[ref4-16] Андреас Аргириу, Теодорос Евгениу и Массимилиано Понтил. Выпуклое многозадачное обучение. Машинное обучение, 73(3):243–272, 2008.

[ref5-17] Андреас Аргириу, Андреас Маурер и Массимилиано Понтил. Алгоритм трансферного обучения в гетерогенной среде. В ECML/PKDD (1), стр. 71–85, 2008 г.

[ref60-18] И. Маседо и Р. Кастро. Изучение векторных полей без дивергенций и роторов с матричными ядрами. Технический отчет, Instituto Nacional de Matematica Pura e Aplicada, 2008 г.

[ref18-19] А. Капоннетто, К. А. Миккелли, М. Понтил и Ю. Ин. Универсальные ядра для многозадачного обучения. Журнал исследований машинного обучения, 9:1615–1646, 2008.

[higdon-20] Д. Хигдон, «Моделирование пространства и пространства-времени с использованием сверток процессов», Количественные методы решения текущих экологических проблем, 37–56, 2002 г.

[boyle-21] П. Бойл и М. Фрин, « Зависимые гауссовы процессы » , Достижения в области нейронных систем обработки информации, 17: 217–224, MIT Press, 2005.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]