Граф эскиз
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Эскиз подсчета — это тип уменьшения размерности , который особенно эффективен в статистике , машинном обучении и алгоритмах . [1] [2] Его изобрели Моисей Чарикар, Кевин Чен и Мартин Фарах-Колтон. [3] в попытке ускорить работу AMS Sketch Алона, Матиаса и Сегеди для аппроксимации частотных моментов потоков [4] (эти вычисления требуют подсчета количества вхождений отдельных элементов потока).
Эскиз почти идентичен [ нужна ссылка ] к алгоритму хеширования функций Джона Муди, [5] но отличается использованием хеш-функций с низкой зависимостью, что делает его более практичным.Чтобы сохранить высокую вероятность успеха, медианный прием для агрегирования эскизов с несколькими подсчетами используется , а не среднее значение.
Эти свойства позволяют использовать явные методы ядра , билинейное объединение в нейронных сетях и являются краеугольным камнем во многих алгоритмах численной линейной алгебры. [6]
Интуитивное объяснение [ править ]
Изобретатели этой структуры данных предлагают следующее итеративное объяснение ее работы: [3]
- На простейшем уровне выходные данные одной хеш-функции , отображающей элементы потока q подаются на один счетчик прямого/обратного преобразования C. в {+1, -1} , После одного прохода по данным частота элемента потока q может быть, хотя и крайне плохо, аппроксимировано ожидаемым значением ;
- простой способ улучшить дисперсию предыдущей оценки — использовать массив различных хеш-функций , каждый из которых подключен к своему счетчику . Для каждого q элемента по-прежнему сохраняется, поэтому усреднение по диапазону i приведет к ужесточению аппроксимации;
- предыдущая конструкция по-прежнему имеет серьезный недостаток: если низкочастотный, но все же важный выходной элемент a демонстрирует хеш-коллизию с высокочастотным элементом, оценка может существенно измениться. Чтобы избежать этого, необходимо уменьшить частоту обновления счетчика коллизий между любыми двумя отдельными элементами. Это достигается за счет замены каждого в предыдущей конструкции с массивом из m счетчиков (преобразование счетчика в двумерную матрицу ), с индексом j конкретного счетчика, который нужно увеличить/уменьшить, выбранным с помощью другого набора хэш-функций это отображает элемент q в диапазон {1.. m }. С , будет работать усреднение по всем значениям i .
Математическое определение [ править ]
1. Для констант и (будет определено позже) самостоятельно выбрать случайные хэш-функции и такой, что и .Необходимо, чтобы хеш-семейства, из которых и выбраны попарно независимыми.
2. Для каждого предмета в потоке добавьте к ведро этот хеш.
В конце этого процесса человек имеет суммы где
Чтобы оценить количество Вычисляется следующее значение:
Ценности являются несмещенными оценками того, во сколько раз появился в потоке.
Оценка имеет дисперсию , где длина потока и является . [7]
Более того, гарантированно никогда не будет больше, чем от истинного значения с вероятностью .
формулировка Векторная
В качестве альтернативы Count-Sketch можно рассматривать как линейное отображение с функцией нелинейной реконструкции.Позволять , быть совокупностью матрицы, определяемые
для и 0 везде.
Тогда вектор набросан .Реконструировать мы берем .Это дает те же гарантии, что и указано выше, если принять и .
Связь с эскизом Tensor [ править ]
Проекция эскиза подсчета внешнего произведения двух векторов эквивалентна свертке эскизов подсчета двух компонентов.
Эскиз подсчета вычисляет векторную свертку
, где и являются независимыми графическими матрицами эскизов.
Фам и Паг [8] покажите, что это равно - счетный эскиз внешнего произведения векторов, где обозначает произведение Кронекера .
Быстрое преобразование Фурье можно использовать для быстрой свертки эскизов подсчета.Используя продукт для разделения лица [9] [10] [11] такие структуры можно вычислить намного быстрее, чем обычные матрицы.
См. также [ править ]
- Скетч Count-min — это версия алгоритма с меньшими требованиями к памяти (и более слабыми гарантиями ошибок в качестве компромисса).
- Тензорскетч
Ссылки [ править ]
- ^ Фейсал М. Альгашаам; Киен Нгуен; Мохамед Алканхал; Винод Чандран; Ваги Болес. «Мультиспектральная периокулярная классификация с мультимодальным компактным многолинейным пулом» [1]. Доступ IEEE , Том. 5. 2017.
- ^ Але, Томас; Кнудсен, Якоб (3 сентября 2019 г.). «Почти оптимальный тензорный эскиз» . Исследовательские ворота . Проверено 11 июля 2020 г.
- ^ Jump up to: Перейти обратно: а б Чарикар, Чен и Фарах-Колтон, 2004 г.
- ^ Алон, Нога, Йоси Матиас и Марио Сегеди. «Пространственная сложность аппроксимации частотных моментов». Журнал компьютерных и системных наук 58.1 (1999): 137–147.
- ^ Муди, Джон. «Быстрое обучение в иерархиях с несколькими разрешениями». Достижения в области нейронных систем обработки информации. 1989.
- ^ Вудрафф, Дэвид П. «Эскиз как инструмент числовой линейной алгебры». Теоретическая информатика 10.1-2 (2014): 1–157.
- ^ Ларсен, Каспер Грин, Расмус Паг и Якуб Тетек. «CountSketches, хеширование функций и медиана трех». Международная конференция по машинному обучению. ПМЛР, 2021.
- ^ Нинь, Фам; Паг, Расмус (2013). Быстрые и масштабируемые полиномиальные ядра с помощью явных карт признаков . Международная конференция SIGKDD по открытию знаний и интеллектуальному анализу данных. Ассоциация вычислительной техники. дои : 10.1145/2487575.2487591 .
- ^ Слюсарь, В.И. (1998). «Конечные продукты в матрицах радиолокационных приложений» (PDF) . Радиоэлектроника и системы связи . 41 (3): 50–53.
- ^ Слюсарь, В.И. (20 мая 1997 г.). «Аналитическая модель цифровой антенной решетки на основе изделий с гранеразделительной матрицей» (PDF) . Учеб. ICATT-97, Киев : 108–109.
- ^ Слюсарь В.И. (13 марта 1998 г.). «Семейство лицевых продуктов матриц и его свойства» (PDF) . Кибернетика и системный анализ К/С Кибернетика и Системный Анализ.- 1999 . 35 (3): 379–384. дои : 10.1007/BF02733426 . S2CID 119661450 .
Дальнейшее чтение [ править ]
- Чарикар, Моисей; Чен, Кевин; Фарах-Колтон, Мартин (2004). «Поиск часто встречающихся элементов в потоках данных» (PDF) . Теоретическая информатика . 312 (1). Эльзевир Б.В.: 3–15. дои : 10.1016/s0304-3975(03)00400-6 . ISSN 0304-3975 .
- Фейсал М. Альгашаам; Киен Нгуен; Мохамед Алканхал; Винод Чандран; Ваги Болес. «Мультиспектральная периокулярная классификация с мультимодальным компактным многолинейным объединением» [1] . Доступ IEEE , Том. 5. 2017.
- Але, Томас; Кнудсен, Якоб (3 сентября 2019 г.). «Почти оптимальный тензорный эскиз» . Исследовательские ворота . Проверено 11 июля 2020 г.