Jump to content

Приближения матрицы низкого ранга

Матричные аппроксимации низкого ранга являются важными инструментами применения методов ядра для решения крупномасштабных задач обучения. [1]

Методы ядра (например, машины опорных векторов или гауссовы процессы). [2] ) проецируйте точки данных в многомерное или бесконечномерное пространство признаков и находите оптимальную гиперплоскость разделения. В методе ядра данные представлены в виде матрицы ядра (или матрицы Грамма ). Многие алгоритмы могут решать задачи машинного обучения, используя матрицу ядра . Основной проблемой метода ядра является его высокая вычислительная стоимость , связанная с матрицами ядра . Стоимость как минимум квадратична по количеству точек обучающих данных, но большинство методов ядра включают в себя вычисление инверсии матрицы или разложение по собственным значениям , и стоимость становится кубической по количеству обучающих данных. Большие обучающие наборы приводят к большим затратам на хранение и вычисления . Хотя методы декомпозиции низкого ранга ( разложение Холецкого ) снижают эти затраты, они все равно требуют вычисления матрицы ядра . Одним из подходов к решению этой проблемы являются матричные аппроксимации низкого ранга. Наиболее популярными примерами из них являются метод Нистрема и случайные признаки. Оба они были успешно применены для эффективного обучения ядра.

Приближение Нистрема

[ редактировать ]

Методы ядра становятся невозможными, когда количество точек настолько велико, что матрица ядра невозможно сохранить в памяти.

Если количество обучающих примеров, затраты на хранение и вычисления, необходимые для поиска решения задачи с использованием общего метода ядра, равны и соответственно. Приближение Нистрема может позволить существенно ускорить вычисления. [2] [3] Такое ускорение достигается за счет использования вместо матрицы ядра ее аппроксимации ранга . Преимущество метода в том, что нет необходимости вычислять или хранить всю матрицу ядра, а только подматрицу размера .

Это снижает требования к хранению и сложности до и соответственно.

Метод назван «приближением Нистрема», потому что его можно интерпретировать как случай метода Нистрема из теории интегральных уравнений . [3]

Теорема о ядерной аппроксимации

[ редактировать ]

является матрицей ядра для некоторого метода ядра . Рассмотрим первый точек в обучающем наборе. Тогда существует матрица ранга :

, где

,

обратимая матрица

и

Доказательство

[ редактировать ]
Приложение для разложения по сингулярным значениям
[ редактировать ]

Применение разложения по сингулярным значениям (SVD) к матрице с размерами производит сингулярную систему, состоящую из сингулярных значений векторы и такие, что они образуют ортонормированные базисы и соответственно:

Если и являются матрицами с 'песок в столбцах и это диагональ матрица, имеющая сингулярные значения на первом -элементы по диагонали (все остальные элементы матрицы — нули):

тогда матрица можно переписать как: [4]

Еще одно доказательство
[ редактировать ]
  • является матрица данных

Применение разложения по сингулярным значениям к этим матрицам:

  • это -мерная матрица, состоящая из первого строки матрицы

Применение разложения по сингулярным значениям к этим матрицам:

С являются ортогональными матрицами ,

Замена к и , приближение для можно получить:

( не обязательно ортогональная матрица ).

Однако определение , его можно вычислить следующим образом:

По характеризации ортогональной матрицы : равенство держит. Затем, используя формулу, обратную матричному умножению для обратимых матриц и , выражение в фигурных скобках можно переписать так:

Тогда выражение для :

Определение , доказательство закончено.

Общая теорема для аппроксимации ядра карты объектов

[ редактировать ]

Для карты объектов с соответствующим ядром : равенство также следует путем замены оператором такой, что , , , и оператором такой, что , , . И снова простая проверка показывает, что карта признаков нужна только для доказательства, а конечный результат зависит только от вычисления функции ядра.

Применение регуляризованного метода наименьших квадратов

[ редактировать ]

В векторных и ядерных обозначениях задачу регуляризованных наименьших квадратов можно переписать как: Вычислив градиент и установив значение 0, можно получить минимум: Обратная матрица может быть вычислено с использованием матричного тождества Вудбери :

Он имеет желаемые требования к объему памяти и сложности.

Аппроксимация рандомизированных карт объектов

[ редактировать ]

Позволять – образцы данных, – рандомизированная карта признаков (сопоставляет один вектор с вектором более высокой размерности), так что внутренний продукт между парой преобразованных точек аппроксимирует их ядра оценку :

где — это отображение, встроенное в ядро ​​RBF .

С является низкоразмерным, входные данные можно легко преобразовать с помощью , после этого можно применять различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты признаков для вычисления приближений к ядрам RBF. Например, случайные функции Фурье и функции случайного группирования .

Случайные функции Фурье

[ редактировать ]

Карта случайных объектов Фурье создает Монте-Карло аппроксимацию карты объектов методом . Метод Монте-Карло считается рандомизированным. Эти случайные особенности состоят из синусоидов. случайно полученное из Фурье где преобразования аппроксимируемого ядра, и являются случайными величинами . Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью отображений. Результирующий скаляр пропускается через синусоиду. Произведение преобразованных точек будет аппроксимировать ядро, инвариантное к сдвигу. Поскольку карта гладкая, случайные функции Фурье хорошо работают в задачах интерполяции.

Функции случайного группирования

[ редактировать ]

Карта случайного биннинга разделяет входное пространство с использованием случайно сдвинутых сеток со случайно выбранным разрешением и назначает входной точке двоичную битовую строку, соответствующую интервалам, в которые она попадает. Сетки построены так, что вероятность того, что две точки присваиваются одному и тому же контейнеру, пропорционально . Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и, следовательно, является несмещенной оценкой . Поскольку это отображение не является гладким и использует близость между входными точками, функции случайного группирования хорошо работают для аппроксимации ядер, которые зависят только от расстояние между точками данных.

Сравнение методов аппроксимации

[ редактировать ]

Подходы к крупномасштабному обучению ядра ( метод Нистрема и случайные признаки) отличаются тем, что метод Нистрема использует базисные функции, зависящие от данных, тогда как в подходе со случайными признаками базисные функции выбираются из распределения, независимого от обучающих данных. Эта разница приводит к улучшению анализа подходов к обучению ядра, основанных на методе Нистрема. Когда существует большой разрыв в собственном спектре матрицы ядра , подходы, основанные на методе Нистрема, могут достичь лучших результатов, чем подход, основанный на случайных признаках . [5]

См. также

[ редактировать ]
[ редактировать ]
  1. ^ Фрэнсис Р. Бах и Майкл И. Джордан (2005). «Прогнозирующая низкоранговая декомпозиция для методов ядра» . ИКМЛ .
  2. ^ Jump up to: а б Уильямс, CKI; Сигер, М. (2001). «Использование метода Нистрема для ускорения работы машин с ядром» . Достижения в области нейронных систем обработки информации . 13 .
  3. ^ Jump up to: а б Петрос Дринеас и Майкл В. Махони (2005). «О методе Нистрема для аппроксимации матрицы Грамма для улучшения обучения на основе ядра». Журнал исследований машинного обучения 6 , стр. 2153–2175.
  4. ^ К. Эккарт, Г. Янг, Приближение одной матрицы другой более низкого ранга. Психометрика, том 1, 1936, страницы 211–8. дои : 10.1007/BF02288367
  5. ^ Тяньбао Ян, Ю-Фэн ​​Ли, Мехрдад Махдави, Ронг Цзинь и Чжи-Хуа Чжоу (2012). «Метод Нистрема против случайных функций Фурье: теоретическое и эмпирическое сравнение». Достижения в области нейронных систем обработки информации 25 (NIPS) .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 613d5736c8ebf9302b13a6b582c87ed8__1701350400
URL1:https://arc.ask3.ru/arc/aa/61/d8/613d5736c8ebf9302b13a6b582c87ed8.html
Заголовок, (Title) документа по адресу, URL1:
Low-rank matrix approximations - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)