Jump to content

Методы ядра для векторного вывода

Методы ядра — это хорошо зарекомендовавший себя инструмент для анализа взаимосвязи между входными данными и соответствующим выходом функции. Ядра инкапсулируют свойства функций эффективным с точки зрения вычислений способом и позволяют алгоритмам легко заменять функции различной сложности.

В типичных алгоритмах машинного обучения эти функции выдают скалярный результат. Недавнее развитие методов ядра для функций с векторным выводом обусловлено, по крайней мере частично, интересом к одновременному решению связанных задач. Ядра, которые фиксируют взаимосвязь между проблемами, позволяют им заимствовать силы друг у друга. Алгоритмы этого типа включают многозадачное обучение (также называемое многовыходным обучением или векторно-значным обучением), трансферное обучение и кокригинг . Классификацию по нескольким меткам можно интерпретировать как сопоставление входных данных с (двоичными) векторами кодирования длиной, равной количеству классов.

В гауссовских процессах ядра называются ковариационными функциями . Функции с несколькими выходами соответствуют рассмотрению нескольких процессов. См. Байесовскую интерпретацию регуляризации, чтобы узнать о связи между двумя точками зрения.

История [ править ]

История изучения векторных функций тесно связана с трансферным обучением — сохранением знаний, полученных при решении одной задачи, и применением их к другой, но связанной задаче. Фундаментальная мотивация трансферного обучения в области машинного обучения обсуждалась на семинаре NIPS-95 «Обучение обучению», в котором основное внимание уделялось необходимости в методах машинного обучения на протяжении всей жизни, которые сохраняют и повторно используют ранее полученные знания. Исследования трансферного обучения привлекли большое внимание с 1995 года под разными названиями: обучение обучению, обучение на протяжении всей жизни, передача знаний, индуктивная передача, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, индуктивное смещение, основанное на знаниях, метаобучение и поэтапное/кумулятивное обучение . обучение . [1] Интерес к изучению векторных функций был особенно вызван многозадачным обучением — структурой, которая пытается одновременно изучать несколько, возможно, разных задач.

Большая часть первоначальных исследований в области многозадачного обучения в сообществе машинного обучения носила алгоритмический характер и применялась к таким методам, как нейронные сети, деревья решений и k -ближайшие соседи в 1990-х годах. [2] Использование вероятностных моделей и гауссовских процессов было впервые и широко развито в контексте геостатистики, где прогнозирование на основе векторных выходных данных известно как кокригинг. [3] [4] [5] Геостатистические подходы к многомерному моделированию в основном сформулированы вокруг линейной модели сорегионализации (LMC), генеративного подхода для разработки действительных ковариационных функций, который использовался для многомерной регрессии и в статистике для компьютерной эмуляции дорогостоящих многомерных компьютерных кодов. Литература по регуляризации и теории ядра для векторных функций появилась в 2000-х годах. [6] [7] Хотя подходы Байеса и регуляризации были разработаны независимо, на самом деле они тесно связаны. [8]

Обозначения [ править ]

В этом контексте задача обучения с учителем заключается в изучении функции который лучше всего предсказывает векторные выходные данные заданные входные данные (данные) .

для
, пространство ввода (например, )

В общем случае каждый компонент ( ), могут иметь разные входные данные ( ) с разной мощностью ( ) и даже разные входные пространства ( ). [8] В литературе по геостатистике этот случай называется гетеротопным и использует изотопный , чтобы указать, что каждый компонент выходного вектора имеет одинаковый набор входных данных. [9]

Здесь для простоты обозначений мы предполагаем, что количество и пространство выборки данных для каждого выхода одинаковы.

Перспектива регуляризации [8] [10] [11] [ редактировать ]

С точки зрения регуляризации проблема состоит в том, чтобы научиться принадлежащее воспроизводящему ядру гильбертова пространства вектор-функций ( ). Это похоже на скалярный случай тихоновской регуляризации , но с некоторой осторожностью в обозначениях.

Векторный случай Скалярный случай
Воспроизводящее ядро
Проблема обучения
Решение

(получено на основе теоремы о представителе )

с ,
где - это коэффициенты и выходные векторы, объединенные в форму векторы и матрица блоки:

Решите для взяв производную задачи обучения, приравняв ее нулю и подставив в приведенное выше выражение :

где

Можно, хотя и нетривиально, показать, что теорема о представителе справедлива и для тихоновской регуляризации в векторной ситуации. [8]

Заметим, что матричное ядро также может быть определено скалярным ядром на пространстве . : изометрия Между гильбертовыми пространствами, связанными с этими двумя ядрами, существует

процесса Перспектива гауссовского

Оценщик векторнозначной структуры регуляризации также может быть получен с байесовской точки зрения с использованием методов гауссовского процесса в случае конечномерного гильбертова пространства с воспроизводящим ядром . в скалярном случае Вывод аналогичен байесовской интерпретации регуляризации . Вектор-функция , состоящий из результаты , предполагается, что он подчиняется гауссовскому процессу:

где теперь является вектором средних функций для выходов и — положительно определенная матрица-функция с элементом соответствующий ковариации между выходными данными и .

Для набора входов , априорное распределение по вектору дается , где - это вектор, который объединяет средние векторы, связанные с выходными данными и представляет собой блочную матрицу. Распределение выходных данных считается гауссовым:

где представляет собой диагональную матрицу с элементами определение шума для каждого выхода. Используя эту форму для определения вероятности, прогнозируемое распределение для нового вектора является:

где это данные обучения, и представляет собой набор гиперпараметров для и .

Уравнения для и тогда можно получить:

где есть записи для и . Обратите внимание, что предсказатель идентичен предиктору, полученному в рамках регуляризации. Для негауссовых вероятностей для аппроксимации оценок необходимы различные методы, такие как аппроксимация Лапласа и вариационные методы.

Примеры ядер [ править ]

Разделяемый [ править ]

Простой, но широко применимый класс ядер с несколькими выходами можно разделить на произведение ядра во входном пространстве и ядро, представляющее корреляции между выходами: [8]

: скалярное ядро ​​включено
: скалярное ядро ​​включено

В матричной форме:   где это симметричная и положительная полуопределенная матрица. Обратите внимание, настройка к единичной матрице рассматривает выходные данные как несвязанные и эквивалентно решению задач скалярного выходного сигнала отдельно.

В несколько более общей форме добавление нескольких таких ядер дает сумму разделимых ядер (ядер SoS).

Из литературы по регуляризации [8] [10] [12] [13] [14] [ редактировать ]

Получено из регуляризатора [ править ]

Один из способов получения заключается в том, чтобы указать регуляризатор , который ограничивает сложность желаемым образом, а затем получить соответствующее ядро. Для некоторых регуляризаторов это ядро ​​окажется сепарабельным.

Регуляризатор смешанного эффекта

где:

где матрица, все элементы которой равны 1.

Этот регуляризатор представляет собой комбинацию ограничения сложности каждого компонента оценки ( ) и заставляя каждый компонент средства оценки быть близким к среднему значению всех компонентов. Параметр рассматривает все компоненты как независимые и аналогично решению скалярных задач по отдельности. Параметр предполагает, что все компоненты объясняются одной и той же функцией.

Регуляризатор на основе кластеров

где:

  • это набор индексов компонентов, принадлежащих кластеру
  • мощность кластера
  • если и оба принадлежат кластеру  ( в противном случае

где

Этот регуляризатор делит компоненты на кластеры и заставляет компоненты в каждом кластере быть похожими.

Регуляризатор графа

где матрица весов, кодирующая сходство между компонентами

где ,  

Примечание, является графом лапласиана . См. также: ядро ​​графа .

Узнано на основе данных [ править ]

Несколько подходов к обучению на основе данных были предложены. [8] К ним относятся: выполнение предварительного этапа вывода для оценки из данных обучения, [9] предложение научиться и вместе на основе регуляризатора кластера, [15] и необходимы подходы, основанные на разреженности, которые предполагают лишь некоторые из функций. [16] [17]

Из байесовской литературы [ править ]

Линейная модель сорегионализации (LMC) [ править ]

В LMC выходные данные выражаются как линейные комбинации независимых случайных функций, так что результирующая ковариационная функция (по всем входным и выходным данным) является допустимой положительной полуопределенной функцией. Предполагая результаты с , каждый выражается как:

где — скалярные коэффициенты и независимые функции иметь нулевое среднее значение и ковариацию cov если и 0 в противном случае. Перекрестная ковариация между любыми двумя функциями и тогда можно записать как:

где функции , с и иметь нулевое среднее значение и ковариацию cov если и . Но дается . Таким образом, ядро теперь можно выразить как

где каждый известна как матрица сорегионализации. Следовательно, ядро, полученное из LMC, представляет собой сумму произведений двух ковариационных функций, одна из которых моделирует зависимость между выходными данными независимо от входного вектора. (матрица сорегионализации ), и тот, который моделирует входную зависимость независимо от (ковариационная функция ).

модель сорегионализации ( Внутренняя ) ICM

ICM — это упрощенная версия LMC, с . ICM предполагает, что элементы матрицы сорегионализации можно записать как , для некоторых подходящих коэффициентов . С помощью этой формы для :

где

В этом случае коэффициенты

и матрица ядра для нескольких выходов становится . ICM гораздо более ограничителен, чем LMC, поскольку предполагает, что каждая базовая ковариация в равной степени способствует построению автоковариаций и перекрестных ковариаций для выходных данных. Однако вычисления, необходимые для вывода, значительно упрощаются.

модель латентного фактора ( Полупараметрическая ) SLFM

Другой упрощенной версией LMC является полупараметрическая модель латентного фактора (SLFM), которая соответствует настройке (вместо как в ICM). Таким образом, каждая скрытая функция имеет свою ковариацию.

Неразделимый [ править ]

Несмотря на свою простоту, структура разделимых ядер может оказаться слишком ограничивающей для решения некоторых задач.

Яркие примеры неразделимых ядер в литературе по регуляризации включают:

С байесовской точки зрения LMC создает разделимое ядро, поскольку выходные функции оцениваются в определенной точке. зависят только от значений скрытых функций при . Нетривиальный способ смешивания скрытых функций — это свертка базового процесса со сглаживающим ядром. Если базовый процесс является гауссовским процессом, свернутый процесс также является гауссовским. Поэтому мы можем использовать свертки для построения ковариационных функций. [20] Этот метод получения неразделимых ядер известен как свертка процесса. Свертки процессов были представлены в сообществе машинного обучения для нескольких результатов как «зависимые гауссовы процессы». [21]

Реализация [ править ]

При реализации алгоритма с использованием любого из приведенных выше ядер необходимо учитывать практические соображения по настройке параметров и обеспечению разумного времени вычислений.

Перспектива регуляризации

С точки зрения регуляризации настройка параметров аналогична случаю со скалярными значениями и обычно может быть выполнена с помощью перекрестной проверки . Решение требуемой линейной системы обычно требует больших затрат памяти и времени. Если ядро ​​сепарабельно, преобразование координат может преобразовать к блочно-диагональной матрице , что значительно снижает вычислительную нагрузку за счет решения D независимых подзадач (плюс собственное разложение ). В частности, для функции потерь по методу наименьших квадратов (регуляризация Тихонова) существует решение в замкнутом виде для : [8] [14]

Байесовский подход [ править ]

Существует множество работ, связанных с оценкой параметров гауссовских процессов. Некоторые методы, такие как максимизация предельного правдоподобия (также известная как аппроксимация доказательств, максимальное правдоподобие типа II, эмпирический байесовский метод) и метод наименьших квадратов, дают точечные оценки вектора параметров. . Есть также работы, использующие полный байесовский вывод путем присвоения априорных значений и вычисление апостериорного распределения посредством процедуры выборки. Для негауссовых вероятностей не существует решения в замкнутой форме для апостериорного распределения или предельного правдоподобия. Однако предельное правдоподобие можно аппроксимировать с помощью аппроксимации Лапласа, вариационного Байеса или аппроксимации распространения ожидания (EP) для классификации множественных выходных данных и использовать для поиска оценок гиперпараметров.

Основная вычислительная проблема с байесовской точки зрения такая же, как и в теории регуляризации обращения матрицы

Этот шаг необходим для расчета предельного правдоподобия и прогнозируемого распределения. Для большинства предлагаемых методов аппроксимации для сокращения вычислений получаемая вычислительная эффективность не зависит от конкретного используемого метода (например, LMC, свертки процесса), используемого для вычисления ковариационной матрицы с несколькими выходами. Краткое изложение различных методов снижения вычислительной сложности в гауссовских процессах с несколькими выходами представлено в статье. [8]

Ссылки [ править ]

  1. ^ С. Дж. Пан и К. Ян, «Опрос по трансферному обучению», IEEE Transactions on Knowledge and Data Engineering, 22, 2010 г.
  2. ^ Рич Каруана, «Многозадачное обучение», Машинное обучение, 41–76, 1997 г.
  3. ^ Дж. Вер Хоф и Р. Барри, « Построение и подбор моделей для кокригинга и многомерного пространственного прогнозирования». [ мертвая ссылка ] », «Журнал статистического планирования и выводов», 69: 275–294, 1998 г.
  4. ^ П. Гувертс, «Геостатистика для оценки природных ресурсов», Oxford University Press, США, 1997 г.
  5. ^ Н. Кресси «Статистика пространственных данных», John Wiley & Sons Inc. (пересмотренное издание), США, 1993 г.
  6. ^ CA Микелли и М. Понтил, « Об изучении векторных функций », Neural Computation, 17:177–204, 2005 г.
  7. ^ К. Кармели и др., « Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера », Anal. Прил. (Сингап.), 4
  8. ^ Jump up to: Перейти обратно: а б с д и ж г час я дж к Маурисио А. Альварес, Лоренцо Росаско и Нил Д. Лоуренс, «Ядра векторных функций: обзор», Основы и тенденции в машинном обучении 4, вып. 3 (2012): 195–266. doi: 10.1561/2200000036 arXiv:1106.6251
  9. ^ Jump up to: Перейти обратно: а б Ганс Вакернагель. Многомерная геостатистика. Springer-Verlag Heidelberg, Нью-Йорк, 2003 г.
  10. ^ Jump up to: Перейти обратно: а б К. А. Миккелли и М. Понтиль. Об изучении векторных функций. Нейронные вычисления, 17:177–204, 2005.
  11. ^ К.Кармели, Э.ДеВито и А.Тойго. Векторнозначное воспроизведение ядерных гильбертовых пространств интегрируемых функций и теорема Мерсера. Анальный. Прил. (Сингап), 4(4):377–408, 2006.
  12. ^ CA Микелли и М. Понтиль. Ядра для многозадачного обучения. В достижениях в области нейронных систем обработки информации (NIPS). МИТ Пресс, 2004.
  13. ^ Т.Евгениу, КАМикчелли и М.Понтиль. Изучение нескольких задач с помощью методов ядра . Журнал исследований машинного обучения, 6:615–637, 2005.
  14. ^ Jump up to: Перейти обратно: а б Л. Бальдасарре, Л. Росаско, А. Барла и А. Верри. Многовыходное обучение посредством спектральной фильтрации . Технический отчет, Массачусетский технологический институт, 2011 г. MIT-CSAIL-TR-2011-004, CBCL-296.
  15. ^ Лоран Жакоб, Фрэнсис Бах и Жан-Филипп Верт. Кластерное многозадачное обучение: выпуклая формулировка . В NIPS 21, страницы 745–752, 2008 г.
  16. ^ Андреас Аргириу, Теодорос Евгениу и Массимилиано Понтил. Выпуклое многозадачное обучение. Машинное обучение, 73(3):243–272, 2008.
  17. ^ Андреас Аргириу, Андреас Маурер и Массимилиано Понтил. Алгоритм трансферного обучения в гетерогенной среде. В ECML/PKDD (1), стр. 71–85, 2008 г.
  18. ^ И. Маседо и Р. Кастро. Изучение векторных полей без дивергенций и роторов с матричными ядрами. Технический отчет, Instituto Nacional de Matematica Pura e Aplicada, 2008 г.
  19. ^ А. Капоннетто, К. А. Миккелли, М. Понтил и Ю. Ин. Универсальные ядра для многозадачного обучения. Журнал исследований машинного обучения, 9:1615–1646, 2008.
  20. ^ Д. Хигдон, «Моделирование пространства и пространства-времени с использованием сверток процессов», Количественные методы решения текущих экологических проблем, 37–56, 2002 г.
  21. ^ П. Бойл и М. Фрин, « Зависимые гауссовы процессы » , Достижения в области нейронных систем обработки информации, 17: 217–224, MIT Press, 2005.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8fd4732f840606cd7cc8f5b65f846bc1__1711323720
URL1:https://arc.ask3.ru/arc/aa/8f/c1/8fd4732f840606cd7cc8f5b65f846bc1.html
Заголовок, (Title) документа по адресу, URL1:
Kernel methods for vector output - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)