Jump to content

Метод ядра

(Перенаправлено из трюка с ядром )

В машинном обучении машины ядра — это класс алгоритмов анализа шаблонов , наиболее известным представителем которого является машина опорных векторов (SVM). Эти методы предполагают использование линейных классификаторов для решения нелинейных задач. [1] Общая задача анализа шаблонов — найти и изучить общие типы отношений (например, кластеры , рейтинги , главные компоненты , корреляции , классификации ) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные в необработанном представлении должны быть явно преобразованы в представления вектора признаков с помощью заданной пользователем карты признаков : напротив, методы ядра требуют только заданного пользователем ядра , т. е. функции подобия по всем пары точек данных, вычисленные с использованием внутренних продуктов . требуется только конечномерная матрица, введенная пользователем Карта признаков в машинах с ядром является бесконечномерной, но согласно теореме о представителе . Машины ядра медленно вычисляют наборы данных размером более пары тысяч примеров без параллельной обработки.

Методы ядра обязаны своим названием использованию функций ядра , которые позволяют им работать в многомерном, неявном пространстве признаков, даже не вычисляя координаты данных в этом пространстве, а, скорее, просто вычисляя продукты между изображениями внутренние все пары данных в пространстве признаков. Эта операция часто вычислительно дешевле, чем явное вычисление координат. Этот подход называется « трюком ядра ». [2] Функции ядра были введены для данных последовательности, графиков , текста, изображений, а также векторов.

Алгоритмы, способные работать с ядрами, включают перцептрон ядра , машины опорных векторов (SVM), гауссовы процессы , анализ главных компонент (PCA), канонический корреляционный анализ , гребневую регрессию , спектральную кластеризацию , линейные адаптивные фильтры и многие другие.

Большинство алгоритмов ядра основаны на выпуклой оптимизации или собственных задачах и статистически обоснованы. Обычно их статистические свойства анализируются с помощью статистической теории обучения (например, с использованием сложности Радемахера ).

Мотивация неформальное объяснение и

Методы ядра можно рассматривать как методы обучения на основе экземпляров : вместо изучения некоторого фиксированного набора параметров, соответствующих характеристикам их входных данных, они вместо этого «запоминают» -й обучающий пример и узнаем для него соответствующий вес . Прогноз для немаркированных входных данных, т. е. тех, которые не входят в обучающий набор, обрабатывается применением функции подобия. , называемое ядром , между немаркированным входом и каждый из входных данных обучения . Например, ядерный двоичный классификатор обычно вычисляет взвешенную сумму сходств.

где

  • - это прогнозируемая метка ядерного двоичного классификатора для немаркированного входа. чей скрытый истинный ярлык представляет интерес;
  • это функция ядра, которая измеряет сходство между любой парой входных данных ;
  • сумма варьируется по n помеченным примерам в обучающем наборе классификатора, с ;
  • тот – веса обучающих примеров, определенные алгоритмом обучения;
  • знаковая функция определяет, будет ли прогнозируемая классификация выходит положительным или отрицательным.

Ядерные классификаторы были описаны еще в 1960-х годах, с изобретением ядерного перцептрона . [3] Они приобрели большую известность благодаря популярности машины опорных векторов (SVM) в 1990-х годах, когда выяснилось, что SVM конкурирует с нейронными сетями в таких задачах, как распознавание рукописного текста .

Математика: трюк с ядром [ править ]

SVM с ядром, заданным и таким образом . Точки обучения отображаются в трехмерном пространстве, где можно легко найти разделяющую гиперплоскость.

Трюк с ядром позволяет избежать явного отображения, которое необходимо, чтобы заставить алгоритмы линейного обучения изучать нелинейную функцию или границу решения . Для всех и во входном пространстве , определенные функции может быть выражено как внутренний продукт в другом пространстве . Функция часто называют ядром или функцией ядра . Слово «ядро» используется в математике для обозначения весовой функции для взвешенной суммы или интеграла .

Некоторые задачи машинного обучения имеют больше структуры, чем произвольная весовая функция. . Вычисления становятся намного проще, если ядро ​​можно записать в виде «карты функций». который удовлетворяет

Ключевое ограничение состоит в том, что должен быть правильным внутренним продуктом.С другой стороны, явное представление для не обязательно, пока — это внутреннее пространство продукта . Альтернатива следует из теоремы Мерсера : неявно определенная функция существует всякий раз, когда пространство может быть оснащен подходящей мерой, обеспечивающей функцию удовлетворяет условию Мерсера .

Теорема Мерсера похожа на обобщение результата линейной алгебры, которое сопоставляет скалярное произведение любой положительно определенной матрице . Фактически, условие Мерсера можно свести к этому более простому случаю. Если мы выберем в качестве меры счетную меру для всех , который подсчитывает количество точек внутри набора , то интеграл в теореме Мерсера сводится к суммированию

Если это суммирование справедливо для всех конечных последовательностей точек в и все варианты действительные коэффициенты (ср. положительно определенное ядро ), то функция удовлетворяет условию Мерсера.

Некоторые алгоритмы, зависящие от произвольных отношений в собственном пространстве на самом деле имело бы линейную интерпретацию в другом контексте: в пространстве диапазонов . Линейная интерпретация дает нам представление об алгоритме. Кроме того, часто нет необходимости вычислять непосредственно во время вычислений, как в случае с машинами опорных векторов . Некоторые называют это сокращение времени работы основным преимуществом. Исследователи также используют его для обоснования значений и свойств существующих алгоритмов.

Теоретически матрица Грама относительно (иногда также называемая «матрицей ядра» [4] ), где , должен быть положительно полуопределенным (PSD) . [5] Эмпирически для эвристики машинного обучения выбор функции которые не удовлетворяют условию Мерсера, все равно могут работать разумно, если по крайней мере, приближается к интуитивному представлению о сходстве. [6] Независимо от того, это ядро ​​Мерсера, все еще может называться «ядром».

Если функция ядра также является ковариационной функцией , используемой в гауссовских процессах , то матрица Грама также можно назвать ковариационной матрицей . [7]

Приложения [ править ]

Области применения ядерных методов разнообразны и включают в себя геостатистику , [8] кригинг , обратное дистанционное взвешивание , 3D реконструкция , биоинформатика , хемоинформатика , извлечение информации и распознавание рукописного текста .

Популярные ядра [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ «Метод ядра» . Энгати . Проверено 4 апреля 2023 г.
  2. ^ Теодоридис, Сергиос (2008). Распознавание образов . Эльзевир Б.В. с. 203. ИСБН  9780080949123 .
  3. ^ Айзерман, Массачусетс; Браверман, Эммануэль М.; Розоноер, Л.И. (1964). «Теоретические основы метода потенциальных функций в обучении распознаванию образов». Автоматизация и дистанционное управление . 25 : 821–837. Цитируется в Гийон, Изабель; Бозер, Б.; Вапник, Владимир (1993). Автоматическая настройка производительности очень больших классификаторов VC-размерности . Достижения в области нейронных систем обработки информации. CiteSeerX   10.1.1.17.7215 .
  4. ^ Хофманн, Томас; Шолькопф, Бернхард; Смола, Александр Дж. (2008). «Методы ядра в машинном обучении» . Анналы статистики . 36 (3). arXiv : математика/0701907 . дои : 10.1214/009053607000000677 . S2CID   88516979 .
  5. ^ Мори, Мехриар ; Ростамизаде, Афшин; Талвалкар, Амит (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN  9780262018258 .
  6. ^ Сьюэлл, Мартин. «Машины опорных векторов: состояние Мерсера» . Машины опорных векторов. Архивировано из оригинала 15 октября 2018 г. Проверено 30 мая 2014 г.
  7. ^ Расмуссен, Карл Эдвард; Уильямс, Кристофер К.И. (2006). Гауссовы процессы для машинного обучения . МТИ Пресс. ISBN  0-262-18253-Х . [ нужна страница ]
  8. ^ Хонарха, М.; Каерс, Дж. (2010). «Стохастическое моделирование закономерностей с использованием дистанционного моделирования закономерностей». Математические науки о Земле . 42 (5): 487–517. Бибкод : 2010MaGeo..42..487H . дои : 10.1007/s11004-010-9276-7 . S2CID   73657847 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8509fe397e6382a54ccb11ad206bf026__1711875780
URL1:https://arc.ask3.ru/arc/aa/85/26/8509fe397e6382a54ccb11ad206bf026.html
Заголовок, (Title) документа по адресу, URL1:
Kernel method - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)