Полиномиальное ядро
В машинном обучении полиномиальное ядро — это функция ядра , обычно используемая с машинами опорных векторов (SVM) и другими моделями с ядром , которая представляет подобие векторов (обучающих выборок) в пространстве признаков по полиномам исходных переменных, позволяя изучать не -линейные модели.
Интуитивно понятно, что полиномиальное ядро рассматривает не только заданные характеристики входных выборок для определения их сходства, но и их комбинации. В контексте регрессионного анализа такие комбинации известны как признаки взаимодействия. (Неявное) пространство признаков полиномиального ядра эквивалентно пространству полиномиальной регрессии , но без комбинаторного увеличения количества изучаемых параметров. Когда входные объекты имеют двоичное значение (логические значения), тогда эти объекты соответствуют логическим соединениям входных объектов. [1]
Определение
[ редактировать ]Для полиномов степени d ядро полинома определяется как [2]
где x и y — векторы размера n во входном пространстве , т. е. векторы признаков, вычисленные на основе обучающих или тестовых выборок, а c ≥ 0 — свободный параметр, учитывающий влияние членов более высокого и низшего порядка в полиноме. Когда c = 0 , ядро называется однородным. [3] (Еще одно обобщенное полиядро делит x Т y заданным пользователем скалярным параметром a . [4] )
Как ядро K соответствует скалярному произведению в пространстве признаков, основанном на некотором отображении φ :
Природу φ можно увидеть на примере. Пусть d = 2 , и мы получаем частный случай квадратичного ядра. После использования полиномиальной теоремы (дважды — самым внешним применением является биномиальная теорема ) и перегруппировки,
Отсюда следует, что карта признаков имеет вид:
обобщая для , где , и применив полиномиальную теорему :
Последнее суммирование имеет элементы, так что:
где ,
Практическое использование
[ редактировать ]Хотя ядро RBF более популярно в классификации SVM, чем полиномиальное ядро, последнее довольно популярно в обработке естественного языка (NLP). [1] [5] Наиболее распространенной степенью является d = 2 (квадратичная), поскольку более высокие степени имеют тенденцию к переобучению в задачах НЛП.
В качестве альтернативы обычным нелинейным алгоритмам обучения SVM были разработаны различные способы вычисления полиномиального ядра (как точные, так и приближенные), в том числе:
- полное расширение ядра перед обучением/тестированием с помощью линейной SVM, [5] т.е. полное вычисление отображения φ, как в полиномиальной регрессии;
- интеллектуальный анализ корзины (с использованием варианта априорного алгоритма ) для наиболее часто встречающихся сочетаний признаков в обучающем наборе для получения приблизительного расширения; [6]
- инвертированная индексация опорных векторов. [6] [1]
Одна из проблем с полиномиальным ядром заключается в том, что оно может страдать от числовой нестабильности : когда x Т y + c < 1 , K ( Икс , y ) знак равно ( Икс Т у + с ) д стремится к нулю с увеличением d , тогда как при x Т y + c > 1 , K ( x , y ) стремится к бесконечности. [4]
Ссылки
[ редактировать ]- ^ Jump up to: а б с Йоав Голдберг и Майкл Эльхадад (2008). SplitSVM: быстрые, экономичные, неэвристические полиномиальные вычисления ядра для приложений НЛП. Учеб. ACL-08: HLT.
- ^ «Архивная копия» (PDF) . Архивировано из оригинала (PDF) 15 апреля 2013 г. Проверено 12 ноября 2012 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Шашуа, Амнон (2009). «Введение в машинное обучение: классные заметки 67577». arXiv : 0904.3664v1 [ cs.LG ].
- ^ Jump up to: а б Линь, Чи-Джен (2012). Программное обеспечение для машинного обучения: разработка и практическое использование (PDF) . Летняя школа машинного обучения. Киото.
- ^ Jump up to: а б Чанг, Инь-Вэнь; Се, Чо-Джуи; Чанг, Кай-Вэй; Ринггаард, Майкл; Линь, Чи-Джен (2010). «Обучение и тестирование отображений полиномиальных данных низкой степени с помощью линейного SVM» . Журнал исследований машинного обучения . 11 : 1471–1490.
- ^ Jump up to: а б Кудо, Т.; Мацумото, Ю. (2003). Быстрые методы анализа текста на основе ядра . Учеб. ACL.