Jump to content

Граф эскиз

Эскиз подсчета — это тип уменьшения размерности , который особенно эффективен в статистике , машинном обучении и алгоритмах . [1] [2] Его изобрели Моисей Чарикар, Кевин Чен и Мартин Фарах-Колтон. [3] в попытке ускорить работу AMS Sketch Алона, Матиаса и Сегеди для аппроксимации частотных моментов потоков [4] (эти вычисления требуют подсчета количества вхождений отдельных элементов потока).

Эскиз почти идентичен [ нужна ссылка ] к алгоритму хеширования функций Джона Муди, [5] но отличается использованием хеш-функций с низкой зависимостью, что делает его более практичным.Чтобы сохранить высокую вероятность успеха, медианный прием для агрегирования эскизов с несколькими подсчетами используется , а не среднее значение.

Эти свойства позволяют использовать явные методы ядра , билинейное объединение в нейронных сетях и являются краеугольным камнем во многих алгоритмах численной линейной алгебры. [6]

Интуитивное объяснение [ править ]

Изобретатели этой структуры данных предлагают следующее итеративное объяснение ее работы: [3]

  • На простейшем уровне выходные данные одной хеш-функции , отображающей элементы потока q подаются на один счетчик прямого/обратного преобразования C. в {+1, -1} , После одного прохода по данным частота элемента потока q может быть, хотя и крайне плохо, аппроксимировано ожидаемым значением ;
  • простой способ улучшить дисперсию предыдущей оценки — использовать массив различных хеш-функций , каждый из которых подключен к своему счетчику . Для каждого q элемента по-прежнему сохраняется, поэтому усреднение по диапазону i приведет к ужесточению аппроксимации;
  • предыдущая конструкция по-прежнему имеет серьезный недостаток: если низкочастотный, но все же важный выходной элемент a демонстрирует хеш-коллизию с высокочастотным элементом, оценка может существенно измениться. Чтобы избежать этого, необходимо уменьшить частоту обновления счетчика коллизий между любыми двумя отдельными элементами. Это достигается за счет замены каждого в предыдущей конструкции с массивом из m счетчиков (преобразование счетчика в двумерную матрицу ), с индексом j конкретного счетчика, который нужно увеличить/уменьшить, выбранным с помощью другого набора хэш-функций это отображает элемент q в диапазон {1.. m }. С , будет работать усреднение по всем значениям i .

Математическое определение [ править ]

1. Для констант и (будет определено позже) самостоятельно выбрать случайные хэш-функции и такой, что и .Необходимо, чтобы хеш-семейства, из которых и выбраны попарно независимыми.

2. Для каждого предмета в потоке добавьте к ведро этот хеш.

В конце этого процесса человек имеет суммы где

Чтобы оценить количество Вычисляется следующее значение:

Ценности являются несмещенными оценками того, во сколько раз появился в потоке.

Оценка имеет дисперсию , где длина потока и является . [7]

Более того, гарантированно никогда не будет больше, чем от истинного значения с вероятностью .

формулировка Векторная

В качестве альтернативы Count-Sketch можно рассматривать как линейное отображение с функцией нелинейной реконструкции.Позволять , быть совокупностью матрицы, определяемые

для и 0 везде.

Тогда вектор набросан .Реконструировать мы берем .Это дает те же гарантии, что и указано выше, если принять и .

Связь с эскизом Tensor [ править ]

Проекция эскиза подсчета внешнего произведения двух векторов эквивалентна свертке эскизов подсчета двух компонентов.

Эскиз подсчета вычисляет векторную свертку

, где и являются независимыми графическими матрицами эскизов.

Фам и Паг [8] покажите, что это равно - счетный эскиз внешнего произведения векторов, где обозначает произведение Кронекера .

Быстрое преобразование Фурье можно использовать для быстрой свертки эскизов подсчета.Используя продукт для разделения лица [9] [10] [11] такие структуры можно вычислить намного быстрее, чем обычные матрицы.

См. также [ править ]

  • Скетч Count-min — это версия алгоритма с меньшими требованиями к памяти (и более слабыми гарантиями ошибок в качестве компромисса).
  • Тензорскетч

Ссылки [ править ]

  1. ^ Фейсал М. Альгашаам; Киен Нгуен; Мохамед Алканхал; Винод Чандран; Ваги Болес. «Мультиспектральная периокулярная классификация с мультимодальным компактным многолинейным пулом» [1]. Доступ IEEE , Том. 5. 2017.
  2. ^ Але, Томас; Кнудсен, Якоб (3 сентября 2019 г.). «Почти оптимальный тензорный эскиз» . Исследовательские ворота . Проверено 11 июля 2020 г.
  3. ^ Jump up to: Перейти обратно: а б Чарикар, Чен и Фарах-Колтон, 2004 г.
  4. ^ Алон, Нога, Йоси Матиас и Марио Сегеди. «Пространственная сложность аппроксимации частотных моментов». Журнал компьютерных и системных наук 58.1 (1999): 137–147.
  5. ^ Муди, Джон. «Быстрое обучение в иерархиях с несколькими разрешениями». Достижения в области нейронных систем обработки информации. 1989.
  6. ^ Вудрафф, Дэвид П. «Эскиз как инструмент числовой линейной алгебры». Теоретическая информатика 10.1-2 (2014): 1–157.
  7. ^ Ларсен, Каспер Грин, Расмус Паг и Якуб Тетек. «CountSketches, хеширование функций и медиана трех». Международная конференция по машинному обучению. ПМЛР, 2021.
  8. ^ Нинь, Фам; Паг, Расмус (2013). Быстрые и масштабируемые полиномиальные ядра с помощью явных карт признаков . Международная конференция SIGKDD по открытию знаний и интеллектуальному анализу данных. Ассоциация вычислительной техники. дои : 10.1145/2487575.2487591 .
  9. ^ Слюсарь, В.И. (1998). «Конечные продукты в матрицах радиолокационных приложений» (PDF) . Радиоэлектроника и системы связи . 41 (3): 50–53.
  10. ^ Слюсарь, В.И. (20 мая 1997 г.). «Аналитическая модель цифровой антенной решетки на основе изделий с гранеразделительной матрицей» (PDF) . Учеб. ICATT-97, Киев : 108–109.
  11. ^ Слюсарь В.И. (13 марта 1998 г.). «Семейство лицевых продуктов матриц и его свойства» (PDF) . Кибернетика и системный анализ К/С Кибернетика и Системный Анализ.- 1999 . 35 (3): 379–384. дои : 10.1007/BF02733426 . S2CID   119661450 .

Дальнейшее чтение [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: aea26e377a9fa6404fc95f21be8ab066__1694886900
URL1:https://arc.ask3.ru/arc/aa/ae/66/aea26e377a9fa6404fc95f21be8ab066.html
Заголовок, (Title) документа по адресу, URL1:
Count sketch - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)