Тензорный эскиз
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
В статистике , машинном обучении и алгоритмах тензорный эскиз — это тип уменьшения размерности , который особенно эффективен при применении к векторам , имеющим тензорную структуру. [ 1 ] [ 2 ] Такой эскиз может использоваться для ускорения явных методов ядра , билинейного пулинга в нейронных сетях и является краеугольным камнем во многих алгоритмах численной линейной алгебры . [ 3 ]
Математическое определение
[ редактировать ]Математически матрица уменьшения размерности или эскиза представляет собой матрицу , где , такой, что для любого вектора
с высокой вероятностью. Другими словами, сохраняет норму векторов с точностью до небольшой ошибки.
Тензорный эскиз обладает дополнительным свойством: если для некоторых векторов такой, что , преобразование можно вычислить более эффективно. Здесь обозначает произведение Кронекера , а не внешнее произведение , хотя они связаны сглаживанием .
Ускорение достигается предварительной перезаписью , где обозначает поэлементное ( Адамара ) произведение. Каждый из и можно вычислить во времени и , соответственно; включая произведение Адамара, дает общее время . В большинстве случаев использования этот метод значительно быстрее, чем полный требующий время.
Для тензоров более высокого порядка, таких как , экономия еще более впечатляющая.
История
[ редактировать ]Термин «тензорный эскиз» был придуман в 2013 году. [ 4 ] описание техники Расмуса Пага [ 5 ] с того же года. Первоначально предполагалось использовать быстрое преобразование Фурье для быстрой свертки эскизов подсчета . Более поздние исследовательские работы обобщили его на гораздо более широкий класс уменьшений размерности с помощью случайных вложений тензора.
Тензорные случайные вложения были представлены в 2010 году в статье [ 6 ] на дифференциальную конфиденциальность и впервые были проанализированы Rudelson et al. в 2012 году в условиях редкого восстановления. [ 7 ]
Аврон и др. [ 8 ] были первыми, кто изучил свойства встраивания тензорных эскизов в подпространство, уделяя особое внимание приложениям к полиномиальным ядрам . В этом контексте от скетча требуется не только сохранять норму каждого отдельного вектора с определенной вероятностью, но и сохранять норму всех векторов в каждом отдельном линейном подпространстве . Это гораздо более сильное свойство, требующее больших размеров эскиза, но оно позволяет использовать методы ядра очень широко, как это описано в книге Дэвида Вудраффа. [ 3 ]
Тензорные случайные проекции
[ редактировать ]Произведение граневого расщепления определяется как тензорное произведение строк (предложено В. Слюсарем [ 9 ] в 1996 году [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ] для радаров и цифровых антенных решеток ). Более прямо, пусть и быть две матрицы. Тогда продукт, расщепляющий лицо является [ 10 ] [ 11 ] [ 12 ] [ 13 ] Причина полезности этого продукта заключается в следующем:
где является поэлементным произведением ( Адамара ). Поскольку эту операцию можно вычислить за линейное время, можно умножить на векторы с тензорной структурой гораздо быстрее, чем на обычные матрицы.
Построение с быстрым преобразованием Фурье
[ редактировать ]Тензорный эскиз Фама и Пага [ 4 ] вычисляет , где и являются независимыми матрицами эскизов счета и векторная свертка . Они показывают, что, как ни удивительно, это равно – счетный эскиз тензорного произведения!
Оказывается, это соотношение можно рассматривать в терминах произведения разделения граней как
- , где – матрица преобразования Фурье .
С является ортонормированной матрицей, не влияет на норму и его можно игнорировать. Осталось только это .
С другой стороны,
- .
Приложение к общим матрицам
[ редактировать ]Проблема с первоначальным алгоритмом тензорного эскиза заключалась в том, что он использовал матрицы эскизов с количеством элементов , которые не всегда обеспечивают хорошее уменьшение размерности.
В 2020 году [ 15 ] было показано, что для создания тензорного эскиза достаточно любых матриц со случайными независимыми строками. Это позволяет использовать матрицы с более сильными гарантиями, такие как настоящие гауссовские матрицы Джонсона-Линденштрауса .
В частности, мы получаем следующую теорему
- Рассмотрим матрицу с iid строками , такой, что и . Позволять быть независимым, состоящим из и .
- Затем с вероятностью для любого вектора если
- .
В частности, если записи являются мы получаем что соответствует нормальной Джонсона Линденштрауса теореме когда мал.
Бумага [ 15 ] также показывает, что зависимость от необходим для конструкций, использующих тензорные рандомизированные проекции с гауссовыми элементами.
Вариации
[ редактировать ]Рекурсивная конструкция
[ редактировать ]Из-за экспоненциальной зависимости от в тензорных скетчах на основе произведения разбиения граней в 2020 году был разработан другой подход [ 15 ] что применимо
Мы можем добиться такого позволяя
- .
С помощью этого метода мы применяем общий метод тензорного эскиза только к тензорам второго порядка, что позволяет избежать экспоненциальной зависимости количества строк.
Это можно доказать [ 15 ] это объединение подобные уменьшения размерности только увеличиваются по фактору .
Быстрые конструкции
[ редактировать ]Быстрое преобразование Джонсона – Линденштрауса представляет собой матрицу уменьшения размерности.
Дана матрица , вычисление матричного векторного произведения берет время. Быстрое преобразование Джонсона-Линденштрауса (FJLT), [ 16 ] был представлен Эйлоном и Шазель в 2006 году.
Версия этого метода принимает где
- представляет собой диагональную матрицу , где каждый диагональный элемент является независимо.
Умножение матрицы на вектор можно вычислить в время.
- — матрица Адамара , допускающая умножение матрицы на вектор во времени
- это матрица выборки , состоящая из всех нулей, за исключением одной единицы в каждой строке.
Если заменить диагональную матрицу на матрицу, имеющую тензорное произведение значения на диагонали, вместо того, чтобы быть полностью независимыми, можно вычислить быстрый.
В качестве примера позвольте быть двумя независимыми векторы и пусть быть диагональной матрицей с по диагонали. Тогда мы можем расстаться следующее:
Другими словами, , распадается на два быстрых преобразования Джонсона–Линденштрауса, и полное приведение требует времени скорее, чем как и при прямом подходе.
Тот же подход можно распространить на вычисление произведений более высокой степени, таких как
Ахле и др. [ 15 ] показывает, что если имеет ряды, затем для любого вектора с вероятностью , позволяя при этом быстро умножать со степенью тензоры.
Джин и др., [ 17 ] в том же году показал аналогичный результат для более общего класса матриц под названием RIP , который включает в себя субдискретные матрицы Адамара. Они показали, что эти матрицы допускают разбиение на тензоры при условии, что количество строк равно . В случае это соответствует предыдущему результату.
Эти быстрые конструкции можно снова объединить с упомянутым выше рекурсивным подходом, чтобы получить самый быстрый общий тензорный эскиз.
Создание эскизов с учетом данных
[ редактировать ]Также возможно создавать так называемые тензорные эскизы с учетом данных. Вместо умножения случайной матрицы на данные точки данных выбираются независимо с определенной вероятностью, зависящей от нормы точки. [ 18 ]
Приложения
[ редактировать ]Явные полиномиальные ядра
[ редактировать ]Методы ядра популярны в машинном обучении , поскольку они дают разработанному алгоритму свободу создавать «пространство признаков», в котором можно измерять сходство точек данных. Простой двоичный классификатор на основе ядра основан на следующих вычислениях:
где являются точками данных, это этикетка -я точка (либо -1, либо +1), и это предсказание класса . Функция это ядро. Типичными примерами являются ядро радиальной базисной функции , и полиномиальные ядра , такие как .
При таком использовании метод ядра называется «неявным». Иногда быстрее сделать «явный» метод ядра, в котором пара функций находятся такие, что . Это позволяет выразить приведенные выше вычисления как
где значение можно рассчитать заранее.
Проблема этого метода в том, что пространство признаков может быть очень большим. То есть . Например, для полиномиального ядра мы получаем и , где – тензорное произведение и где . Если уже большой, может быть намного больше, чем количество точек данных ( ), поэтому явный метод неэффективен.
Идея тензорного эскиза заключается в том, что мы можем вычислять приближенные функции где может быть даже меньше, чем , и которые все еще обладают свойством, .
Этот метод был показан в 2020 году [ 15 ] работать даже с полиномами высокой степени и ядрами радиальных базисных функций.
Умножение сжатой матрицы
[ редактировать ]Предположим, у нас есть два больших набора данных, представленных в виде матриц. , и мы хотим найти строки с крупнейшими внутренними продуктами . Мы могли бы вычислить и просто посмотри на все возможности. Однако для этого потребуется как минимум времени и, вероятно, ближе к используя стандартные методы матричного умножения.
Идея умножения сжатых матриц — это общее тождество.
где – тензорное произведение . Поскольку мы можем вычислить ( линейное ) приближение к эффективно, мы можем суммировать их, чтобы получить приближение для полного продукта.
Компактное многолинейное объединение
[ редактировать ]
Билинейное объединение — это метод получения двух входных векторов. из разных источников и используя тензорное произведение в качестве входного слоя нейронной сети.
В [ 19 ] авторы рассматривали возможность использования тензорного эскиза, чтобы уменьшить количество необходимых переменных.
В 2017 году еще одна статья [ 20 ] выполняет БПФ входных объектов перед их объединением с использованием поэлементного произведения. Это снова соответствует исходному эскизу тензора.
Ссылки
[ редактировать ]- ^ «Разложение больших тензоров по Такеру низкого ранга с использованием: Tensor Sketch» (PDF) . amath.colorado.edu . Боулдер, Колорадо: Университет Колорадо в Боулдере .
- ^ Але, Томас; Кнудсен, Якоб (3 сентября 2019 г.). «Почти оптимальный тензорный эскиз» . Исследовательские ворота . Проверено 11 июля 2020 г.
- ^ Jump up to: а б Вудрафф, Дэвид П. « Зарисовки как инструмент числовой линейной алгебры. Архивировано 22 октября 2022 г. в Wayback Machine ». Теоретическая информатика 10.1-2 (2014): 1–157.
- ^ Jump up to: а б Нинь, Фам; Паг, Расмус (2013). Быстрые и масштабируемые полиномиальные ядра с помощью явных карт признаков . Международная конференция SIGKDD по открытию знаний и интеллектуальному анализу данных. Ассоциация вычислительной техники. дои : 10.1145/2487575.2487591 .
- ^ Паг, Расмус (2013). «Умножение сжатых матриц». Транзакции ACM по теории вычислений . 5 (3). Ассоциация вычислительной техники: 1–17. arXiv : 1108.1320 . дои : 10.1145/2493252.2493254 . S2CID 47560654 .
- ^ Касивишванатан, Шива Прасад и др. « Цена частной публикации таблиц непредвиденных обстоятельств и спектров случайных матриц с коррелированными строками . Архивировано 22 октября 2022 г. в Wayback Machine ». Труды сорок второго симпозиума ACM по теории вычислений. 2010.
- ^ Рудельсон, Марк и Шухэн Чжоу. « Реконструкция на основе анизотропных случайных измерений. Архивировано 17 октября 2022 г. в Wayback Machine ». Конференция по теории обучения. 2012.
- ^ Аврон, Хаим; Нгуен, Хай; Вудрафф, Дэвид (2014). «Вложения подпространства для полиномиального ядра» (PDF) . Достижения в области нейронных систем обработки информации . S2CID 16658740 .
- ^ Анна Эстев, Ева Бой и Хосеп Фортиана (2009): Условия взаимодействия в дистанционной регрессии, Коммуникации в статистике - теория и методы, 38:19, стр. 3501 [1]. Архивировано 26 апреля 2021 г. в Wayback Machine.
- ^ Jump up to: а б Слюсарь, В.И. (1998). «Конечные продукты в матрицах радиолокационных приложений» (PDF) . Радиоэлектроника и системы связи . 41 (3): 50–53.
- ^ Jump up to: а б Слюсарь, В.И. (20 мая 1997 г.). «Аналитическая модель цифровой антенной решетки на основе изделий из матриц с разделением граней» (PDF) . Учеб. ICATT-97, Киев : 108–109.
- ^ Jump up to: а б Слюсарь, В.И. (15 сентября 1997 г.). «Новые операции с матрицами для применения в радарах» (PDF) . Учеб. Прямые и обратные задачи теории электромагнитных и акустических волн (ДИПЕД-97), Львов. : 73–74.
- ^ Jump up to: а б Слюсарь В.И. (13 марта 1998 г.). «Семейство лицевых продуктов матриц и его свойства» (PDF) . Кибернетика и системный анализ ПК Кибернетика и Системный анализ. – 1999 . 35 (3): 379–384. дои : 10.1007/BF02733426 . S2CID 119661450 .
- ^ Слюсарь, В.И. (2003). «Обобщенные грани-произведения матриц в моделях цифровых антенных решеток с неидентичными каналами» (PDF) . Радиоэлектроника и системы связи . 46 (10): 9–17.
- ^ Jump up to: а б с д и ж Але, Томас; Капралов, Михаил; Кнудсен, Якоб; Паг, Расмус ; Велинкер, Амейя; Вудрафф, Дэвид; Зандие, Амир (2020). Забывчивое рисование ядер полиномов высокой степени . Симпозиум ACM-SIAM по дискретным алгоритмам. Ассоциация вычислительной техники. arXiv : 1909.01410 . дои : 10.1137/1.9781611975994.9 .
- ^ Эйлон, Нир; Шазель, Бернар (2006). «Приблизительные ближайшие соседи и быстрое преобразование Джонсона – Линденштрауса». Материалы 38-го ежегодного симпозиума ACM по теории вычислений . Нью-Йорк: ACM Press. стр. 557–563. дои : 10.1145/1132516.1132597 . ISBN 1-59593-134-1 . МР 2277181 . S2CID 490517 .
- ^ Джин, Рухуи, Тамара Г. Колда и Рэйчел Уорд. «Более быстрое преобразование Джонсона-Линденштрауса с помощью продуктов Кронекера». Препринт arXiv arXiv:1909.04801 (2019).
- ^ Ван, Инин; Дун, Сяо-Ю; Смола, Александр; Анандкумар, Анима. Быстрое и гарантированное разложение тензора посредством эскизов . Достижения в области нейронных систем обработки информации 28 (NIPS 2015). arXiv : 1506.04448 .
- ^ Гао, Ян и др. « Компактное билинейное объединение. Архивировано 20 января 2022 г. в Wayback Machine ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2016.
- ^ Альгашаам, Фейсал М. и др. « Мультиспектральная периокулярная классификация с мультимодальным компактным многолинейным объединением ». IEEE Access 5 (2017): 14572–14578.
Дальнейшее чтение
[ редактировать ]- Але, Томас; Кнудсен, Якоб (3 сентября 2019 г.). «Почти оптимальный тензорный эскиз» . Исследовательские ворота . Проверено 11 июля 2020 г.
- Слюсарь, В.И. (1998). «Конечные продукты в матрицах радиолокационных приложений» (PDF) . Радиоэлектроника и системы связи . 41 (3): 50–53.
- Слюсарь, В.И. (20 мая 1997 г.). «Аналитическая модель цифровой антенной решетки на основе изделий из матриц с разделением граней» (PDF) . Учеб. ICATT-97, Киев : 108–109.
- Слюсарь, В.И. (15 сентября 1997 г.). «Новые операции с матрицами для применения в радарах» (PDF) . Учеб. Прямые и обратные задачи теории электромагнитных и акустических волн (ДИПЕД-97), Львов. : 73–74.
- Слюсарь В.И. (13 марта 1998 г.). «Семейство лицевых продуктов матриц и его свойства» (PDF) . Кибернетика и системный анализ К/С Кибернетика и Системный Анализ.- 1999 . 35 (3): 379–384. дои : 10.1007/BF02733426 . S2CID 119661450 .