Jump to content

Карта диффузии

Учитывая неравномерно выбранные точки данных на тороидальной спирали (вверху), наносятся первые две координаты карты диффузии с нормализацией Лапласа – Бельтрами (внизу). Карта диффузии распутывает тороидальную спираль, восстанавливая внутреннюю круговую геометрию данных.

Карты диффузии — это алгоритм уменьшения размерности или выделения признаков, предложенный Койфманом и Лафоном. [1] [2] [3] [4] который вычисляет семейство вложений набора данных в евклидово пространство (часто низкоразмерное), координаты которого можно вычислить на основе собственных векторов и собственных значений оператора диффузии данных. Евклидово расстояние между точками во встроенном пространстве равно «диффузионному расстоянию» между распределениями вероятностей с центрами в этих точках. В отличие от методов линейного уменьшения размерности, таких как анализ главных компонентов (PCA), диффузионные карты являются частью семейства нелинейных методов уменьшения размерности , которые направлены на обнаружение основного многообразия , из которого были выбраны данные. Объединяя локальные сходства в разных масштабах, карты диффузии дают глобальное описание набора данных. По сравнению с другими методами алгоритм карты диффузии устойчив к шумовым возмущениям и не требует больших вычислительных затрат.

Определение карт диффузии

[ редактировать ]

Следующий [3] и, [5] Карты диффузии могут быть определены в четыре этапа.

Возможности подключения

[ редактировать ]

Карты диффузии используют взаимосвязь между диффузией тепла и случайного блуждания цепью Маркова . Основное наблюдение заключается в том, что если мы совершаем случайное блуждание по данным, переход к ближайшей точке данных более вероятен, чем переход к другой, которая находится далеко. Позволять пространство с мерой , где это набор данных и представляет собой распределение очков на .

На основании этого связь между двумя точками данных, и , можно определить как вероятность перехода от к за один шаг случайного блуждания. Обычно эта вероятность определяется через ядерную функцию двух точек: . Например, популярное ядро ​​Гаусса:

В более общем смысле функция ядра имеет следующие свойства:

( симметричен)

( сохраняет позитив).

Ядро представляет собой предварительное определение локальной геометрии набора данных. Поскольку данное ядро ​​будет фиксировать определенную особенность набора данных, его выбор должен определяться предполагаемым приложением. В этом заключается главное отличие от таких методов, как анализ главных компонент , где корреляции между всеми точками данных учитываются одновременно.

Данный , мы можем затем построить обратимую цепь Маркова с дискретным временем на (процесс, известный как конструкция Лапласа нормализованного графа):

и определим:

Хотя новое нормализованное ядро ​​не наследует свойства симметричности, оно наследует свойство сохранения положительности и приобретает свойство сохранения:

Процесс диффузии

[ редактировать ]

От мы можем построить матрицу перехода цепи Маркова ( ) на . Другими словами, представляет собой вероятность одношагового перехода от к , и дает матрицу перехода t-шага.

Определим матрицу диффузии (это также версия графической матрицы Лапласа )

Затем мы определяем новое ядро

или эквивалентно,

где D — диагональная матрица и

Мы применяем нормализацию Лапласа графа к этому новому ядру:

где является диагональной матрицей и

Одна из основных идей диффузионной модели заключается в том, что продвижение цепочки вперед во времени (принимая все большие и большие степени ) раскрывает геометрическую структуру во все больших и больших масштабах (процесс диффузии). В частности, понятие кластера в наборе данных количественно определяется как область, в которой вероятность выхода из этой области мала (в течение определенного времени t). Следовательно, t не только служит параметром времени, но также играет двойную роль параметра масштаба.

Собственное разложение матрицы урожайность

где есть последовательность собственных значений и и — биортогональные правый и левый собственные векторы соответственно. Из-за затухания спектра собственных значений для достижения заданной относительной точности в этой сумме необходимо всего несколько членов.

Параметр α и оператор диффузии

[ редактировать ]

Причина введения шага нормализации, включающего заключается в настройке влияния плотности точек данных на бесконечно малый переход диффузии. В некоторых приложениях выборка данных обычно не связана с геометрией многообразия, которое мы хотим описать. В этом случае мы можем установить а оператор диффузии аппроксимирует оператор Лапласа–Бельтрами. Затем мы восстанавливаем риманову геометрию набора данных независимо от распределения точек. Для описания долговременного поведения распределения точек системы стохастических дифференциальных уравнений мы можем использовать и полученная цепь Маркова аппроксимирует диффузию Фоккера – Планка . С , оно сводится к классической нормализации графа по Лапласу.

Диффузионное расстояние

[ редактировать ]

Диффузионное расстояние во времени Между двумя точками можно измерить как сходство двух точек в пространстве наблюдения со связностью между ними. Это дано

где — стационарное распределение цепи Маркова, заданное первым левым собственным вектором . Явно:

Интуитивно, мал, если имеется большое количество коротких путей, соединяющих и . Судя по нашему предыдущему обсуждению, с диффузионным расстоянием связано несколько интересных особенностей. также служит параметром масштаба:

  1. Точки ближе в данном масштабе (как указано в ), если они сильно связаны в графе, что подчеркивает концепцию кластера.
  2. Это расстояние устойчиво к шуму, поскольку расстояние между двумя точками зависит от всех возможных путей длины. между точками.
  3. С точки зрения машинного обучения, расстояние учитывает все доказательства, связывающие к , что позволяет нам заключить, что это расстояние подходит для разработки алгоритмов вывода, основанных на преобладании большинства. [3]

Процесс диффузии и низкоразмерное встраивание

[ редактировать ]

Диффузионное расстояние можно рассчитать с использованием собственных векторов по формуле

Таким образом, собственные векторы можно использовать в качестве нового набора координат для данных. Карта диффузии определяется как:

Из-за затухания спектра достаточно использовать только первые k собственных векторов и собственных значений. Таким образом, мы получаем карту диффузии исходных данных в k -мерное пространство, вложенное в исходное пространство.

В [6] доказано, что

поэтому евклидово расстояние в диффузионных координатах аппроксимирует диффузионное расстояние.

Алгоритм

[ редактировать ]

Базовая структура алгоритма карты диффузии выглядит следующим образом:

Шаг 1. Учитывая матрицу подобия L .

Шаг 2. Нормализовать матрицу по параметру : .

Шаг 3. Формируем нормализованную матрицу .

Шаг 4. Вычислить k наибольших собственных значений и соответствующие собственные векторы.

Шаг 5. Используйте карту диффузии, чтобы получить вложение .

Приложение

[ редактировать ]

В газете [6] Надлер и др. показал, как спроектировать ядро, воспроизводящее диффузию, вызванную уравнением Фоккера-Планка . Они также объяснили, что, когда данные аппроксимируют многообразие, можно восстановить геометрию этого многообразия, вычислив аппроксимацию оператора Лапласа-Бельтрами . Это вычисление совершенно нечувствительно распределению точек и, следовательно, обеспечивает разделение статистики и геометрии данные. Поскольку карты диффузии дают глобальное описание набора данных, они могут измерять расстояния между парами точек выборки в многообразии, в которое встроены данные. Приложения, основанные на картах диффузии, включают распознавание лиц , [7] спектральная кластеризация , низкоразмерное представление изображений, сегментация изображений, [8] 3D model segmentation, [9] проверка динамика [10] и идентификация, [11] отбор проб на коллекторах, обнаружение аномалий, [12] [13] роспись изображений, [14] разоблачение организации государственных сетей, обеспечивающих отдых мозга [15] и так далее.

Более того, структура карт диффузии была продуктивно расширена до сложных сетей . [16] выявление функциональной организации сетей, отличной от чисто топологической или структурной.

См. также

[ редактировать ]
  1. ^ Койфман, Р.Р.; Лафон, С; Ли, AB; Маджиони, М; Надлер, Б; Уорнер, Ф; Цукер, SW (2005). «Геометрические диффузии как инструмент гармонического анализа и определения структуры данных: карты диффузии» . ПНАС . 102 (21): 7426–7431. Бибкод : 2005PNAS..102.7426C . дои : 10.1073/pnas.0500334102 . ПМК   1140422 . ПМИД   15899970 .
  2. ^ Койфман, Р.Р.; Лафон, С; Ли, AB; Маджиони, М; Надлер, Б; Уорнер, Ф; Цукер, SW (2005). «Геометрические диффузии как инструмент гармонического анализа и определения структуры данных: многомасштабные методы» . ПНАС . 102 (21): 7432–7437. Бибкод : 2005PNAS..102.7432C . дои : 10.1073/pnas.0500896102 . ПМК   1140426 . ПМИД   15899969 .
  3. ^ Jump up to: а б с Койфман, Р.Р.; С. Лафон. (2006). «Диффузионные карты». Прикладной и вычислительный гармонический анализ . 21 :5–30. дои : 10.1016/j.acha.2006.04.006 . S2CID   17160669 .
  4. ^ Лафон, СС (2004). Карты диффузии и геометрические гармоники (PDF) (доктор философии). Йельский университет.
  5. ^ Де ла Порт, Дж.; Хербст, Б.М.; Хереман, В; Ван дер Уолт, SJ (2008). «Введение в диффузионные карты». Материалы девятнадцатого ежегодного симпозиума Южно-Африканской ассоциации распознавания образов (PRASA) . CiteSeerX   10.1.1.309.674 .
  6. ^ Jump up to: а б Надлер, Боаз; Стефан Лафон; Рональд Р. Койфман; Иоаннис Г. Кеврекидис (2005). «Диффузионные карты, спектральная кластеризация и собственные функции операторов Фоккера – Планка» (PDF) . Достижения в области нейронных систем обработки информации . 18 . arXiv : math/0506090 . Бибкод : 2005math......6090N .
  7. ^ Баркан, Орен; Вейль, Джонатан; Вольф, Лиор; Ароновиц, Хагай. «Быстрое распознавание лиц с многомерным векторным умножением» (PDF) . Материалы Международной конференции IEEE по компьютерному зрению, 2013 : 1960–1967.
  8. ^ Зеев, Фарбман; Фаттал Раанан; Лищинский Дани (2010). «Карты диффузии для редактирования изображений с учетом краев». АКМ Транс. График . 29 (6): 145:1–145:10. дои : 10.1145/1882261.1866171 .
  9. ^ Оана, Сиди; ван Кайк, Оливер; Клейман, Янир; Чжан, Хао; Коэн-Ор, Дэниел (2011). Неконтролируемая совместная сегментация набора фигур посредством спектральной кластеризации в пространстве дескриптора (PDF) . Транзакции ACM с графикой .
  10. ^ Баркан, Орен; Ароновиц, Хагай (2013). «Карты диффузии для проверки динамиков на основе PLDA» (PDF) . Материалы Международной конференции IEEE по акустике, речи и обработке сигналов : 7639–7643.
  11. ^ Михалевский, Ян; Талмон, Ронен; Коэн, Израиль (2011). Идентификация говорящего с использованием карт диффузии (PDF) . Европейская конференция по обработке сигналов 2011.
  12. ^ Мишне, Гал; Коэн, Израиль (2013). «Многомасштабное обнаружение аномалий с использованием карт диффузии». IEEE Отдельные темы обработки сигналов . 7 (1): 111–123. Бибкод : 2013ИССП...7..111М . дои : 10.1109/jstsp.2012.2232279 . S2CID   1954466 .
  13. ^ Шабат, Гил; Сегев, Дэвид; Авербух, Амир (07.01.2018). «Обнаружение неизвестных неизвестных в больших данных финансовых услуг с помощью неконтролируемых методологий: настоящие и будущие тенденции» . Семинар KDD 2017 по обнаружению аномалий в финансах . 71 : 8–19.
  14. ^ Гепштейн, Шай; Келлер, Йоси (2013). «Завершение изображения с помощью карт диффузии и спектральной релаксации». Транзакции IEEE при обработке изображений . 22 (8): 2983–2994. Бибкод : 2013ITIP...22.2983G . дои : 10.1109/tip.2013.2237916 . ПМИД   23322762 . S2CID   14375333 .
  15. ^ Маргулис, Дэниел С.; Гош, Сатраджит С.; Гулас, Александрос; Фалькевич, Марсель; Хунтенбург, Джулия М.; Лангс, Георг; Безгин, Глеб; Эйкхофф, Саймон Б.; Кастелланос, Ф. Ксавьер; Петридес, Майкл; Джеффрис, Элизабет; Смоллвуд, Джонатан (2016). «Расположение сети режима по умолчанию вдоль основного градиента макромасштабной кортикальной организации» . Труды Национальной академии наук . 113 (44): 12574–12579. Бибкод : 2016PNAS..11312574M . дои : 10.1073/pnas.1608282113 . ПМК   5098630 . ПМИД   27791099 .
  16. ^ Де Доменико, Манлио (2017). «Геометрия диффузии раскрывает возникновение функциональных кластеров в коллективных явлениях» . Письма о физических отзывах . 118 (16): 168301. arXiv : 1704.07068 . Бибкод : 2017PhRvL.118p8301D . doi : 10.1103/PhysRevLett.118.168301 . ПМИД   28474920 . S2CID   2638868 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f2a3d03d0579099d9b9a00f82a250c51__1711140660
URL1:https://arc.ask3.ru/arc/aa/f2/51/f2a3d03d0579099d9b9a00f82a250c51.html
Заголовок, (Title) документа по адресу, URL1:
Diffusion map - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)