Приближения матрицы низкого ранга
Матричные аппроксимации низкого ранга являются важными инструментами применения методов ядра для решения крупномасштабных задач обучения. [1]
Методы ядра (например, машины опорных векторов или гауссовы процессы). [2] ) проецируйте точки данных в многомерное или бесконечномерное пространство признаков и находите оптимальную гиперплоскость разделения. В методе ядра данные представлены в виде матрицы ядра (или матрицы Грамма ). Многие алгоритмы могут решать задачи машинного обучения, используя матрицу ядра . Основной проблемой метода ядра является его высокая вычислительная стоимость , связанная с матрицами ядра . Стоимость как минимум квадратична по количеству точек обучающих данных, но большинство методов ядра включают в себя вычисление инверсии матрицы или разложение по собственным значениям , и стоимость становится кубической по количеству обучающих данных. Большие обучающие наборы приводят к большим затратам на хранение и вычисления . Хотя методы декомпозиции низкого ранга ( разложение Холецкого ) снижают эти затраты, они все равно требуют вычисления матрицы ядра . Одним из подходов к решению этой проблемы являются матричные аппроксимации низкого ранга. Наиболее популярными примерами из них являются метод Нистрема и случайные признаки. Оба они были успешно применены для эффективного обучения ядра.
Приближение Нистрема
[ редактировать ]Методы ядра становятся невозможными, когда количество точек настолько велико, что матрица ядра невозможно сохранить в памяти.
Если количество обучающих примеров, затраты на хранение и вычисления, необходимые для поиска решения задачи с использованием общего метода ядра, равны и соответственно. Приближение Нистрема может позволить существенно ускорить вычисления. [2] [3] Такое ускорение достигается за счет использования вместо матрицы ядра ее аппроксимации ранга . Преимущество метода в том, что нет необходимости вычислять или хранить всю матрицу ядра, а только подматрицу размера .
Это снижает требования к хранению и сложности до и соответственно.
Метод назван «приближением Нистрема», потому что его можно интерпретировать как случай метода Нистрема из теории интегральных уравнений . [3]
Теорема о ядерной аппроксимации
[ редактировать ]является матрицей ядра для некоторого метода ядра . Рассмотрим первый точек в обучающем наборе. Тогда существует матрица ранга :
, где
,
обратимая матрица
и
Доказательство
[ редактировать ]Приложение для разложения по сингулярным значениям
[ редактировать ]Применение разложения по сингулярным значениям (SVD) к матрице с размерами производит сингулярную систему, состоящую из сингулярных значений векторы и такие, что они образуют ортонормированные базисы и соответственно:
Если и являются матрицами с 'песок в столбцах и это диагональ матрица, имеющая сингулярные значения на первом -элементы по диагонали (все остальные элементы матрицы — нули):
тогда матрица можно переписать как: [4]
Еще одно доказательство
[ редактировать ]- является матрица данных
Применение разложения по сингулярным значениям к этим матрицам:
- это -мерная матрица, состоящая из первого строки матрицы
Применение разложения по сингулярным значениям к этим матрицам:
С являются ортогональными матрицами ,
Замена к и , приближение для можно получить:
( не обязательно ортогональная матрица ).
Однако определение , его можно вычислить следующим образом:
По характеризации ортогональной матрицы : равенство держит. Затем, используя формулу, обратную матричному умножению для обратимых матриц и , выражение в фигурных скобках можно переписать так:
Тогда выражение для :
Определение , доказательство закончено.
Общая теорема для аппроксимации ядра карты объектов
[ редактировать ]Для карты объектов с соответствующим ядром : равенство также следует путем замены оператором такой, что , , , и оператором такой, что , , . И снова простая проверка показывает, что карта признаков нужна только для доказательства, а конечный результат зависит только от вычисления функции ядра.
Применение регуляризованного метода наименьших квадратов
[ редактировать ]В векторных и ядерных обозначениях задачу регуляризованных наименьших квадратов можно переписать как: Вычислив градиент и установив значение 0, можно получить минимум: Обратная матрица может быть вычислено с использованием матричного тождества Вудбери :
Он имеет желаемые требования к объему памяти и сложности.
Аппроксимация рандомизированных карт объектов
[ редактировать ]Позволять – образцы данных, – рандомизированная карта признаков (сопоставляет один вектор с вектором более высокой размерности), так что внутренний продукт между парой преобразованных точек аппроксимирует их ядра оценку :
где — это отображение, встроенное в ядро RBF .
С является низкоразмерным, входные данные можно легко преобразовать с помощью , после этого можно применять различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты признаков для вычисления приближений к ядрам RBF. Например, случайные функции Фурье и функции случайного группирования .
Случайные функции Фурье
[ редактировать ]Карта случайных объектов Фурье создает Монте-Карло аппроксимацию карты объектов методом . Метод Монте-Карло считается рандомизированным. Эти случайные особенности состоят из синусоидов. случайно полученное из Фурье где преобразования аппроксимируемого ядра, и являются случайными величинами . Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью отображений. Результирующий скаляр пропускается через синусоиду. Произведение преобразованных точек будет аппроксимировать ядро, инвариантное к сдвигу. Поскольку карта гладкая, случайные функции Фурье хорошо работают в задачах интерполяции.
Функции случайного группирования
[ редактировать ]Карта случайного биннинга разделяет входное пространство с использованием случайно сдвинутых сеток со случайно выбранным разрешением и назначает входной точке двоичную битовую строку, соответствующую интервалам, в которые она попадает. Сетки построены так, что вероятность того, что две точки присваиваются одному и тому же контейнеру, пропорционально . Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и, следовательно, является несмещенной оценкой . Поскольку это отображение не является гладким и использует близость между входными точками, функции случайного группирования хорошо работают для аппроксимации ядер, которые зависят только от расстояние между точками данных.
Сравнение методов аппроксимации
[ редактировать ]Подходы к крупномасштабному обучению ядра ( метод Нистрема и случайные признаки) отличаются тем, что метод Нистрема использует базисные функции, зависящие от данных, тогда как в подходе со случайными признаками базисные функции выбираются из распределения, независимого от обучающих данных. Эта разница приводит к улучшению анализа подходов к обучению ядра, основанных на методе Нистрема. Когда существует большой разрыв в собственном спектре матрицы ядра , подходы, основанные на методе Нистрема, могут достичь лучших результатов, чем подход, основанный на случайных признаках . [5]
См. также
[ редактировать ]- Метод Нистрема
- Машина опорных векторов
- Ядро радиальной базисной функции
- Регуляризованные наименьшие квадраты
Внешние ссылки
[ редактировать ]- Андреас Мюллер (2012). Приближения ядра для эффективных SVM (и другие методы извлечения признаков) .
Ссылки
[ редактировать ]- ^ Фрэнсис Р. Бах и Майкл И. Джордан (2005). «Прогнозирующая низкоранговая декомпозиция для методов ядра» . ИКМЛ .
- ^ Jump up to: а б Уильямс, CKI; Сигер, М. (2001). «Использование метода Нистрема для ускорения работы машин с ядром» . Достижения в области нейронных систем обработки информации . 13 .
- ^ Jump up to: а б Петрос Дринеас и Майкл В. Махони (2005). «О методе Нистрема для аппроксимации матрицы Грамма для улучшения обучения на основе ядра». Журнал исследований машинного обучения 6 , стр. 2153–2175.
- ^ К. Эккарт, Г. Янг, Приближение одной матрицы другой более низкого ранга. Психометрика, том 1, 1936, страницы 211–8. дои : 10.1007/BF02288367
- ^ Тяньбао Ян, Ю-Фэн Ли, Мехрдад Махдави, Ронг Цзинь и Чжи-Хуа Чжоу (2012). «Метод Нистрема против случайных функций Фурье: теоретическое и эмпирическое сравнение». Достижения в области нейронных систем обработки информации 25 (NIPS) .