Множественное обучение ядра

Множественное обучение ядер относится к набору методов машинного обучения, которые используют заранее определенный набор ядер и изучают оптимальную линейную или нелинейную комбинацию ядер как часть алгоритма. Причины использования множественного обучения ядра включают в себя: а) возможность выбора оптимального ядра и параметров из большего набора ядер, уменьшение систематической ошибки из-за выбора ядра, одновременно позволяя использовать более автоматизированные методы машинного обучения, и б) объединение данных из разных источников ( например, звук и изображения из видео), которые имеют разные представления о сходстве и, следовательно, требуют разных ядер. Вместо создания нового ядра можно использовать несколько алгоритмов ядра для объединения уже установленных ядер для каждого отдельного источника данных.

Несколько подходов к обучению ядра использовались во многих приложениях, таких как распознавание событий в видео, ^{[ 1 ]} распознавание объектов на изображениях, ^{[ 2 ]} и объединение биомедицинских данных. ^{[ 3 ]}

Алгоритмы

Было разработано несколько алгоритмов обучения ядра для контролируемого, полуконтролируемого и неконтролируемого обучения. Большая часть работы была проделана в случае контролируемого обучения с линейными комбинациями ядер, однако было разработано множество алгоритмов. Основная идея алгоритмов обучения с несколькими ядрами заключается в добавлении дополнительного параметра к задаче минимизации алгоритма обучения. В качестве примера рассмотрим случай контролируемого обучения линейной комбинации набора $n$ ядра $K$ . Представляем новое ядро $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ , где $\beta$ — вектор коэффициентов для каждого ядра. Поскольку ядра аддитивны (из-за свойств воспроизведения ядерных гильбертовых пространств ), эта новая функция по-прежнему остается ядром. Для набора данных $X$ с этикетками $Y$ тогда задачу минимизации можно записать как

\min _{\beta ,c}\mathrm {E} (Y,K'c)+R(K,c)

где $\mathrm {E}$ является функцией ошибок и $R$ является термином регуляризации. $\mathrm {E}$ обычно это функция квадратичных потерь ( регуляризация Тихонова ) или функция шарнирных потерь (для SVM ), и алгоритмов $R$ обычно является $\ell _{n}$ норма или некоторая комбинация норм (т.е. эластичная сетчатая регуляризация ). Эту задачу оптимизации затем можно решить стандартными методами оптимизации. Адаптации существующих методов, таких как последовательная минимальная оптимизация, также были разработаны для методов на основе SVM с несколькими ядрами. ^{[ 4 ]}

Обучение под присмотром

Для обучения с учителем существует множество других алгоритмов, которые используют разные методы для изучения формы ядра. Следующая классификация была предложена Гоненом и Алпайдином (2011). ^{[ 5 ]}

Подходы с фиксированными правилами

Подходы с фиксированными правилами, такие как описанный выше алгоритм линейной комбинации, используют правила для установки комбинации ядер. Они не требуют параметризации и используют такие правила, как суммирование и умножение, для объединения ядер. Вес изучается в алгоритме. Другие примеры фиксированных правил включают попарные ядра, которые имеют вид

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

.

Эти парные подходы использовались для прогнозирования белок-белковых взаимодействий. ^{[ 6 ]}

Эвристические подходы

Эти алгоритмы используют параметризованную комбинированную функцию. Параметры обычно определяются для каждого отдельного ядра на основе производительности одного ядра или некоторых вычислений из матрицы ядра. Примеры их включают ядро от Tenabe et al. (2008). ^{[ 7 ]} Сдача в аренду $\pi _{m}$ быть точностью, полученной с использованием только $K_{m}$ и позволяя $\delta$ быть порогом меньшим, чем минимум одноядерной точности, мы можем определить

\beta _{m}={\frac {\pi _{m}-\delta }{\sum _{h=1}^{n}(\pi _{h}-\delta )}}

Другие подходы используют определение сходства ядра, например

A(K_{1},K_{2})={\frac {\langle K_{1},K_{2}\rangle }{\sqrt {\langle K_{1},K_{1}\rangle \langle K_{2},K_{2}\rangle }}}

Используя эту меру, Куи и Лейн (2009) ^{[ 8 ]} использовал следующую эвристику для определения

\beta _{m}={\frac {A(K_{m},YY^{T})}{\sum _{h=1}^{n}A(K_{h},YY^{T})}}

Подходы к оптимизации

Эти подходы решают задачу оптимизации для определения параметров функции объединения ядер. Это было сделано с помощью мер сходства и подходов к минимизации структурных рисков. Для мер сходства, таких как определенная выше, проблему можно сформулировать следующим образом: ^{[ 9 ]}

\max _{\beta ,\operatorname {tr} (K'_{tra})=1,K'\geq 0}A(K'_{tra},YY^{T}).

где $K'_{tra}$ является ядром обучающего набора.

к минимизации структурного риска Используемые подходы включают линейные подходы, например, использованный Lanckriet et al. (2002). ^{[ 10 ]} Мы можем определить неправдоподобность ядра $\omega (K)$ быть значением целевой функции после решения канонической задачи SVM. Тогда мы можем решить следующую задачу минимизации:

\min _{\operatorname {tr} (K'_{tra})=c}\omega (K'_{tra})

где $c$ является положительной константой. Существует множество других вариаций той же идеи с разными методами уточнения и решения проблемы, например, с неотрицательными весами для отдельных ядер и использованием нелинейных комбинаций ядер.

Байесовский подход

Байесовские подходы помещают априорные значения в параметры ядра и изучают значения параметров из априорных значений и базового алгоритма. Например, функцию решения можно записать как

f(x)=\sum _{i=0}^{n}\alpha _{i}\sum _{m=1}^{p}\eta _{m}K_{m}(x_{i}^{m},x^{m})

$\eta$ можно смоделировать с помощью априора Дирихле и $\alpha$ может быть смоделировано с помощью гауссианы с нулевым средним и априорной обратной гамма-дисперсией. Затем эта модель оптимизируется с использованием индивидуального полиномиального пробит -подхода с сэмплером Гиббса .

^{[ 11 ]} Эти методы успешно использовались в таких приложениях, как распознавание складок белков и проблемы гомологии белков. ^{[ 12 ]}^{[ 13 ]}

Усиление подходов

Подходы к ускорению добавляют новые ядра итеративно до тех пор, пока не будет достигнут некоторый критерий остановки, который является функцией производительности. Примером этого является модель MARK, разработанная Беннеттом и др. (2002) ^{[ 14 ]}

f(x)=\sum _{i=1}^{N}\sum _{m=1}^{P}\alpha _{i}^{m}K_{m}(x_{i}^{m},x^{m})+b

Параметры $\alpha _{i}^{m}$ и $b$ изучаются методом градиентного спуска на координатной основе. Таким образом, каждая итерация алгоритма спуска определяет лучший столбец ядра, который следует выбрать на каждой конкретной итерации, и добавляет его к объединенному ядру. Затем модель перезапускается для генерации оптимальных весов. $\alpha _{i}$ и $b$ .

Полуконтролируемое обучение

Подходы полуконтролируемого обучения к обучению с несколькими ядрами аналогичны другим расширениям подходов контролируемого обучения. Была разработана индуктивная процедура, которая использует эмпирические потери логарифмического правдоподобия и групповую регуляризацию LASSO с консенсусом по условным ожиданиям для немаркированных данных для категоризации изображений. Мы можем определить проблему следующим образом. Позволять $L={(x_{i},y_{i})}$ быть помеченными данными, и пусть $U={x_{i}}$ быть набором непомеченных данных. Тогда мы можем записать функцию решения следующим образом.

f(x)=\alpha _{0}+\sum _{i=1}^{|L|}\alpha _{i}K_{i}(x)

Задачу можно записать так

\min _{f}L(f)+\lambda R(f)+\gamma \Theta (f)

где $L$ - функция потерь (в данном случае взвешенное отрицательное логарифмическое правдоподобие), $R$ — параметр регуляризации ( в данном случае Group LASSO ), а $\Theta$ — это штраф за консенсус условного ожидания (CEC) для немаркированных данных. Наказание ЦИК определяется следующим образом. Пусть предельная плотность ядра для всех данных равна

g_{m}^{\pi }(x)=\langle \phi _{m}^{\pi },\psi _{m}(x)\rangle

где $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ (расстояние ядра между помеченными данными и всеми помеченными и неразмеченными данными) и $\phi _{m}^{\pi }$ представляет собой неотрицательный случайный вектор с 2-нормой, равной 1. Значение $\Pi$ — сколько раз проецируется каждое ядро. Затем на MKD выполняется регуляризация ожиданий, в результате чего получается эталонное ожидание. $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ и модельное ожидание $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ . Затем мы определяем

\Theta ={\frac {1}{\Pi }}\sum _{\pi =1}^{\Pi }\sum _{m=1}^{M}D(q_{m}^{pi}(y|g_{m}^{\pi }(x))||p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x)))

где $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ — расхождение Кульбака-Лейблера . Комбинированная задача минимизации оптимизируется с использованием модифицированного алгоритма блочного градиентного спуска. Для получения дополнительной информации см. Wang et al. ^{[ 15 ]}

Обучение без присмотра

Алгоритмы обучения с несколькими ядрами без присмотра также были предложены Zhuang et al. Проблема определяется следующим образом. Позволять $U={x_{i}}$ быть набором немаркированных данных. Определение ядра — линейное комбинированное ядро. $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ . В этой задаче данные необходимо «кластеризовать» в группы на основе расстояний ядра. Позволять $B_{i}$ быть группой или кластером, в котором $x_{i}$ является членом. Определим функцию потерь как $\sum _{i=1}^{n}\left\Vert x_{i}-\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})x_{j}\right\Vert ^{2}$ . Кроме того, мы минимизируем искажения, минимизируя $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ . Наконец, мы добавляем термин регуляризации, чтобы избежать переобучения. Объединив эти члены, мы можем записать задачу минимизации следующим образом.

\min _{\beta ,B}\sum _{i=1}^{n}\left\Vert x_{i}-\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})x_{j}\right\Vert ^{2}+\gamma _{1}\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}+\gamma _{2}\sum _{i}|B_{i}|

где . Одна из формулировок этого определяется следующим образом. Позволять $D\in {0,1}^{n\times n}$ быть такой матрицей, что $D_{ij}=1$ означает, что $x_{i}$ и $x_{j}$ являются соседями. Затем, $B_{i}={x_{j}:D_{ij}=1}$ . Обратите внимание, что эти группы также необходимо выучить. Чжуанг и др. решить эту задачу попеременным методом минимизации для $K$ и группы $B_{i}$ . Для получения дополнительной информации см. Zhuang et al. ^{[ 16 ]}

Библиотеки

Доступные библиотеки MKL включают в себя

SPG-GMKL : масштабируемая библиотека C++ MKL SVM, способная обрабатывать миллион ядер. ^{[ 17 ]}
GMKL : Обобщенный код множественного обучения в MATLAB . $\ell _{1}$ и $\ell _{2}$ регуляризация для контролируемого обучения. ^{[ 18 ]}
(Другой) GMKL : другой код MATLAB MKL, который также может выполнять регуляризацию эластичной сети. ^{[ 19 ]}
SMO-MKL : исходный код C++ для алгоритма последовательной минимальной оптимизации MKL. Делает $p$ -n или регуляризация. ^{[ 20 ]}
SimpleMKL : код MATLAB, основанный на алгоритме SimpleMKL для MKL SVM. ^{[ 21 ]}
MKLPy : среда Python для машин MKL и ядра, совместимая с scikit и различными алгоритмами, например EasyMKL. ^{[ 22 ]} и другие.

Ссылки

^ Линь Чен, Ликсин Дуань и Донг Сюй, «Распознавание событий в видео путем обучения из гетерогенных веб-источников», на Международной конференции IEEE по компьютерному зрению и распознаванию образов (CVPR), 2013, стр. 2666-2673.
^ Серхат С. Букак, Ронг Джин и Анил К. Джайн, Многоядерное обучение для визуального распознавания объектов: обзор. Т-ПАМИ, 2013.
^ Ю и др. Многоядерное обучение по норме L2 и его применение для объединения биомедицинских данных . БМЦ Биоинформатика 2010, 11:309
^ Фрэнсис Р. Бах, Герт Р.Г. Ланкриет и Майкл И. Джордан. 2004. Множественное обучение ядра, коническая двойственность и алгоритм SMO . В материалах двадцать первой международной конференции по машинному обучению (ICML '04). ACM, Нью-Йорк, штат Нью-Йорк, США
^ Мехмет Генен, Этем Алпайдин. Журнал «Множественные алгоритмы обучения ядра» . Мах. Учиться. Рис. 12 июля: 2211–2268 гг., 2011 г.
^ Бен-Гур, А. и Нобл В.С. Методы ядра для прогнозирования белок-белковых взаимодействий. Биоинформатика. 2005 июня; 21 Приложение 1: i38-46.
^ Хироаки Танабэ, Ту Бао Хо, Кань Хао Нгуен и Саори Кавасаки. Простые, но эффективные методы для объединения ядер в вычислительной биологии. В материалах международной конференции IEEE по исследованиям, инновациям и видению будущего, 2008 г.
^ Шибин Цю и Терран Лейн. Фреймворк для множественной векторной регрессии ядра и его приложения для прогнозирования эффективности siRNA. Транзакции IEEE/ACM по вычислительной биологии и биоинформатика, 6(2):190–199, 2009 г.
^ Герт Р.Г. Ланкриет, Нелло Кристианини, Питер Бартлетт, Лоран Эль Гауи и Майкл И. Джордан. Изучение матрицы ядра с помощью полуопределенного программирования. Журнал исследований машинного обучения, 5:27–72, 2004а
^ Герт Р.Г. Ланкриет, Нелло Кристианини, Питер Бартлетт, Лоран Эль Гауи и Майкл И. Джордан. Изучение матрицы ядра с помощью полуопределенного программирования. В материалах XIX Интернационала Конференция по машинному обучению, 2002 г.
^ Марк Джиролами и Саймон Роджерс. Иерархические байесовские модели для обучения ядра. В материалах 22-й Международной конференции по машинному обучению, 2005 г.
^ Теодорос Дамулас и Марк А. Джиролами. Объединение пространств признаков для классификации. Шаблон Признание, 42(11):2671–2683, 2009 г.
^ Теодорос Дамулас и Марк А. Джиролами. Вероятностное многоклассовое многоядерное обучение: Вкл. Распознавание складок белка и обнаружение удаленной гомологии. Биоинформатика, 24(10):1264–1270, 2008 год
^ Кристин П. Беннетт, Мичинари Мама и Марк Дж. Эмбрехтс. МАРК: Алгоритм повышения гетерогенные модели ядра. В материалах 8-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2002 г.
^ Ван, Шухуэй и др. S3MKL: масштабируемое полуконтролируемое множественное обучение для реальных приложений с изображениями . ТРАНЗАКЦИИ IEEE ПО МУЛЬТИМЕДИИ, ТОМ. 14, НЕТ. 4 АВГУСТА 2012 ГОДА
^ Дж. Чжуан, Дж. Ван, SCH Hoi и X. Lan. Неконтролируемое множественное обучение ядра . Жур. Мах. Учиться. Рез. 20:129–144, 2011 г.
^ Ашеш Джайн, SVN Вишванатан и Маник Варма. SPG-GMKL: обобщенное множественное обучение с миллионом ядер. В материалах конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, Пекин, Китай, август 2012 г.
^ М. Варма и Б. Р. Бабу. Больше общности в эффективном обучении с несколькими ядрами. В материалах Международной конференции по машинному обучению, Монреаль, Канада, июнь 2009 г.
^ Ян, Х., Сюй, З., Йе, Дж., Кинг, И. и Лю, MR (2011). Эффективное разреженное обобщенное множественное обучение. Транзакции IEEE в нейронных сетях, 22 (3), 433-446.
^ СВН Вишванатан, З. Сан, Н. Тира-Ампорнпунт и М. Варма. Множественное обучение ядра и алгоритм SMO. В журнале «Достижения в области нейронных систем обработки информации», Ванкувер, Британская Колумбия, Канада, декабрь 2010 г.
^ Ален Ракотомамонжи, Фрэнсис Бах, Стефан Каню, Ив Гранвале. ПростойMKL. Журнал исследований машинного обучения, Microtome Publishing, 2008, 9, стр. 2491-2521.
^ Фабио Айолли, Микеле Донини. EasyMKL: масштабируемый алгоритм обучения с несколькими ядрами . Нейрокомпьютинг, 169, стр. 215-224.

[1] Линь Чен, Ликсин Дуань и Донг Сюй, «Распознавание событий в видео путем обучения из гетерогенных веб-источников», на Международной конференции IEEE по компьютерному зрению и распознаванию образов (CVPR), 2013, стр. 2666-2673.

[2] Серхат С. Букак, Ронг Джин и Анил К. Джайн, Многоядерное обучение для визуального распознавания объектов: обзор. Т-ПАМИ, 2013.

[3] Ю и др. Многоядерное обучение по норме L2 и его применение для объединения биомедицинских данных . БМЦ Биоинформатика 2010, 11:309

[conic-4] Фрэнсис Р. Бах, Герт Р.Г. Ланкриет и Майкл И. Джордан. 2004. Множественное обучение ядра, коническая двойственность и алгоритм SMO . В материалах двадцать первой международной конференции по машинному обучению (ICML '04). ACM, Нью-Йорк, штат Нью-Йорк, США

[supervised_review-5] Мехмет Генен, Этем Алпайдин. Журнал «Множественные алгоритмы обучения ядра» . Мах. Учиться. Рис. 12 июля: 2211–2268 гг., 2011 г.

[6] Бен-Гур, А. и Нобл В.С. Методы ядра для прогнозирования белок-белковых взаимодействий. Биоинформатика. 2005 июня; 21 Приложение 1: i38-46.

[7] Хироаки Танабэ, Ту Бао Хо, Кань Хао Нгуен и Саори Кавасаки. Простые, но эффективные методы для объединения ядер в вычислительной биологии. В материалах международной конференции IEEE по исследованиям, инновациям и видению будущего, 2008 г.

[8] Шибин Цю и Терран Лейн. Фреймворк для множественной векторной регрессии ядра и его приложения для прогнозирования эффективности siRNA. Транзакции IEEE/ACM по вычислительной биологии и биоинформатика, 6(2):190–199, 2009 г.

[9] Герт Р.Г. Ланкриет, Нелло Кристианини, Питер Бартлетт, Лоран Эль Гауи и Майкл И. Джордан. Изучение матрицы ядра с помощью полуопределенного программирования. Журнал исследований машинного обучения, 5:27–72, 2004а

[10] Герт Р.Г. Ланкриет, Нелло Кристианини, Питер Бартлетт, Лоран Эль Гауи и Майкл И. Джордан. Изучение матрицы ядра с помощью полуопределенного программирования. В материалах XIX Интернационала Конференция по машинному обучению, 2002 г.

[11] Марк Джиролами и Саймон Роджерс. Иерархические байесовские модели для обучения ядра. В материалах 22-й Международной конференции по машинному обучению, 2005 г.

[12] Теодорос Дамулас и Марк А. Джиролами. Объединение пространств признаков для классификации. Шаблон Признание, 42(11):2671–2683, 2009 г.

[13] Теодорос Дамулас и Марк А. Джиролами. Вероятностное многоклассовое многоядерное обучение: Вкл. Распознавание складок белка и обнаружение удаленной гомологии. Биоинформатика, 24(10):1264–1270, 2008 год

[14] Кристин П. Беннетт, Мичинари Мама и Марк Дж. Эмбрехтс. МАРК: Алгоритм повышения гетерогенные модели ядра. В материалах 8-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2002 г.

[15] Ван, Шухуэй и др. S3MKL: масштабируемое полуконтролируемое множественное обучение для реальных приложений с изображениями . ТРАНЗАКЦИИ IEEE ПО МУЛЬТИМЕДИИ, ТОМ. 14, НЕТ. 4 АВГУСТА 2012 ГОДА

[16] Дж. Чжуан, Дж. Ван, SCH Hoi и X. Lan. Неконтролируемое множественное обучение ядра . Жур. Мах. Учиться. Рез. 20:129–144, 2011 г.

[17] Ашеш Джайн, SVN Вишванатан и Маник Варма. SPG-GMKL: обобщенное множественное обучение с миллионом ядер. В материалах конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, Пекин, Китай, август 2012 г.

[18] М. Варма и Б. Р. Бабу. Больше общности в эффективном обучении с несколькими ядрами. В материалах Международной конференции по машинному обучению, Монреаль, Канада, июнь 2009 г.

[19] Ян, Х., Сюй, З., Йе, Дж., Кинг, И. и Лю, MR (2011). Эффективное разреженное обобщенное множественное обучение. Транзакции IEEE в нейронных сетях, 22 (3), 433-446.

[20] СВН Вишванатан, З. Сан, Н. Тира-Ампорнпунт и М. Варма. Множественное обучение ядра и алгоритм SMO. В журнале «Достижения в области нейронных систем обработки информации», Ванкувер, Британская Колумбия, Канада, декабрь 2010 г.

[21] Ален Ракотомамонжи, Фрэнсис Бах, Стефан Каню, Ив Гранвале. ПростойMKL. Журнал исследований машинного обучения, Microtome Publishing, 2008, 9, стр. 2491-2521.

[22] Фабио Айолли, Микеле Донини. EasyMKL: масштабируемый алгоритм обучения с несколькими ядрами . Нейрокомпьютинг, 169, стр. 215-224.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]