Карта диффузии
Карты диффузии — это алгоритм уменьшения размерности или выделения признаков, предложенный Койфманом и Лафоном. [1] [2] [3] [4] который вычисляет семейство вложений набора данных в евклидово пространство (часто низкоразмерное), координаты которого можно вычислить на основе собственных векторов и собственных значений оператора диффузии данных. Евклидово расстояние между точками во встроенном пространстве равно «диффузионному расстоянию» между распределениями вероятностей с центрами в этих точках. В отличие от методов линейного уменьшения размерности, таких как анализ главных компонентов (PCA), диффузионные карты являются частью семейства нелинейных методов уменьшения размерности , которые направлены на обнаружение основного многообразия , из которого были выбраны данные. Объединяя локальные сходства в разных масштабах, карты диффузии дают глобальное описание набора данных. По сравнению с другими методами алгоритм карты диффузии устойчив к шумовым возмущениям и не требует больших вычислительных затрат.
Определение карт диффузии
[ редактировать ]Следующий [3] и, [5] Карты диффузии могут быть определены в четыре этапа.
Возможности подключения
[ редактировать ]Карты диффузии используют взаимосвязь между диффузией тепла и случайного блуждания цепью Маркова . Основное наблюдение заключается в том, что если мы совершаем случайное блуждание по данным, переход к ближайшей точке данных более вероятен, чем переход к другой, которая находится далеко. Позволять — пространство с мерой , где это набор данных и представляет собой распределение очков на .
На основании этого связь между двумя точками данных, и , можно определить как вероятность перехода от к за один шаг случайного блуждания. Обычно эта вероятность определяется через ядерную функцию двух точек: . Например, популярное ядро Гаусса:
В более общем смысле функция ядра имеет следующие свойства:
( симметричен)
( сохраняет позитив).
Ядро представляет собой предварительное определение локальной геометрии набора данных. Поскольку данное ядро будет фиксировать определенную особенность набора данных, его выбор должен определяться предполагаемым приложением. В этом заключается главное отличие от таких методов, как анализ главных компонент , где корреляции между всеми точками данных учитываются одновременно.
Данный , мы можем затем построить обратимую цепь Маркова с дискретным временем на (процесс, известный как конструкция Лапласа нормализованного графа):
и определим:
Хотя новое нормализованное ядро не наследует свойства симметричности, оно наследует свойство сохранения положительности и приобретает свойство сохранения:
Процесс диффузии
[ редактировать ]От мы можем построить матрицу перехода цепи Маркова ( ) на . Другими словами, представляет собой вероятность одношагового перехода от к , и дает матрицу перехода t-шага.
Определим матрицу диффузии (это также версия графической матрицы Лапласа )
Затем мы определяем новое ядро
или эквивалентно,
где D — диагональная матрица и
Мы применяем нормализацию Лапласа графа к этому новому ядру:
где является диагональной матрицей и
Одна из основных идей диффузионной модели заключается в том, что продвижение цепочки вперед во времени (принимая все большие и большие степени ) раскрывает геометрическую структуру во все больших и больших масштабах (процесс диффузии). В частности, понятие кластера в наборе данных количественно определяется как область, в которой вероятность выхода из этой области мала (в течение определенного времени t). Следовательно, t не только служит параметром времени, но также играет двойную роль параметра масштаба.
Собственное разложение матрицы урожайность
где есть последовательность собственных значений и и — биортогональные правый и левый собственные векторы соответственно. Из-за затухания спектра собственных значений для достижения заданной относительной точности в этой сумме необходимо всего несколько членов.
Параметр α и оператор диффузии
[ редактировать ]Причина введения шага нормализации, включающего заключается в настройке влияния плотности точек данных на бесконечно малый переход диффузии. В некоторых приложениях выборка данных обычно не связана с геометрией многообразия, которое мы хотим описать. В этом случае мы можем установить а оператор диффузии аппроксимирует оператор Лапласа–Бельтрами. Затем мы восстанавливаем риманову геометрию набора данных независимо от распределения точек. Для описания долговременного поведения распределения точек системы стохастических дифференциальных уравнений мы можем использовать и полученная цепь Маркова аппроксимирует диффузию Фоккера – Планка . С , оно сводится к классической нормализации графа по Лапласу.
Диффузионное расстояние
[ редактировать ]Диффузионное расстояние во времени Между двумя точками можно измерить как сходство двух точек в пространстве наблюдения со связностью между ними. Это дано
где — стационарное распределение цепи Маркова, заданное первым левым собственным вектором . Явно:
Интуитивно, мал, если имеется большое количество коротких путей, соединяющих и . Судя по нашему предыдущему обсуждению, с диффузионным расстоянием связано несколько интересных особенностей. также служит параметром масштаба:
- Точки ближе в данном масштабе (как указано в ), если они сильно связаны в графе, что подчеркивает концепцию кластера.
- Это расстояние устойчиво к шуму, поскольку расстояние между двумя точками зависит от всех возможных путей длины. между точками.
- С точки зрения машинного обучения, расстояние учитывает все доказательства, связывающие к , что позволяет нам заключить, что это расстояние подходит для разработки алгоритмов вывода, основанных на преобладании большинства. [3]
Процесс диффузии и низкоразмерное встраивание
[ редактировать ]Диффузионное расстояние можно рассчитать с использованием собственных векторов по формуле
Таким образом, собственные векторы можно использовать в качестве нового набора координат для данных. Карта диффузии определяется как:
Из-за затухания спектра достаточно использовать только первые k собственных векторов и собственных значений. Таким образом, мы получаем карту диффузии исходных данных в k -мерное пространство, вложенное в исходное пространство.
В [6] доказано, что
поэтому евклидово расстояние в диффузионных координатах аппроксимирует диффузионное расстояние.
Алгоритм
[ редактировать ]Базовая структура алгоритма карты диффузии выглядит следующим образом:
Шаг 1. Учитывая матрицу подобия L .
Шаг 2. Нормализовать матрицу по параметру : .
Шаг 3. Формируем нормализованную матрицу .
Шаг 4. Вычислить k наибольших собственных значений и соответствующие собственные векторы.
Шаг 5. Используйте карту диффузии, чтобы получить вложение .
Приложение
[ редактировать ]В газете [6] Надлер и др. показал, как спроектировать ядро, воспроизводящее диффузию, вызванную уравнением Фоккера-Планка . Они также объяснили, что, когда данные аппроксимируют многообразие, можно восстановить геометрию этого многообразия, вычислив аппроксимацию оператора Лапласа-Бельтрами . Это вычисление совершенно нечувствительно распределению точек и, следовательно, обеспечивает разделение статистики и геометрии данные. Поскольку карты диффузии дают глобальное описание набора данных, они могут измерять расстояния между парами точек выборки в многообразии, в которое встроены данные. Приложения, основанные на картах диффузии, включают распознавание лиц , [7] спектральная кластеризация , низкоразмерное представление изображений, сегментация изображений, [8] 3D model segmentation, [9] проверка динамика [10] и идентификация, [11] отбор проб на коллекторах, обнаружение аномалий, [12] [13] роспись изображений, [14] разоблачение организации государственных сетей, обеспечивающих отдых мозга [15] и так далее.
Более того, структура карт диффузии была продуктивно расширена до сложных сетей . [16] выявление функциональной организации сетей, отличной от чисто топологической или структурной.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Койфман, Р.Р.; Лафон, С; Ли, AB; Маджиони, М; Надлер, Б; Уорнер, Ф; Цукер, SW (2005). «Геометрические диффузии как инструмент гармонического анализа и определения структуры данных: карты диффузии» . ПНАС . 102 (21): 7426–7431. Бибкод : 2005PNAS..102.7426C . дои : 10.1073/pnas.0500334102 . ПМК 1140422 . ПМИД 15899970 .
- ^ Койфман, Р.Р.; Лафон, С; Ли, AB; Маджиони, М; Надлер, Б; Уорнер, Ф; Цукер, SW (2005). «Геометрические диффузии как инструмент гармонического анализа и определения структуры данных: многомасштабные методы» . ПНАС . 102 (21): 7432–7437. Бибкод : 2005PNAS..102.7432C . дои : 10.1073/pnas.0500896102 . ПМК 1140426 . ПМИД 15899969 .
- ^ Jump up to: а б с Койфман, Р.Р.; С. Лафон. (2006). «Диффузионные карты». Прикладной и вычислительный гармонический анализ . 21 :5–30. дои : 10.1016/j.acha.2006.04.006 . S2CID 17160669 .
- ^ Лафон, СС (2004). Карты диффузии и геометрические гармоники (PDF) (доктор философии). Йельский университет.
- ^ Де ла Порт, Дж.; Хербст, Б.М.; Хереман, В; Ван дер Уолт, SJ (2008). «Введение в диффузионные карты». Материалы девятнадцатого ежегодного симпозиума Южно-Африканской ассоциации распознавания образов (PRASA) . CiteSeerX 10.1.1.309.674 .
- ^ Jump up to: а б Надлер, Боаз; Стефан Лафон; Рональд Р. Койфман; Иоаннис Г. Кеврекидис (2005). «Диффузионные карты, спектральная кластеризация и собственные функции операторов Фоккера – Планка» (PDF) . Достижения в области нейронных систем обработки информации . 18 . arXiv : math/0506090 . Бибкод : 2005math......6090N .
- ^ Баркан, Орен; Вейль, Джонатан; Вольф, Лиор; Ароновиц, Хагай. «Быстрое распознавание лиц с многомерным векторным умножением» (PDF) . Материалы Международной конференции IEEE по компьютерному зрению, 2013 : 1960–1967.
- ^ Зеев, Фарбман; Фаттал Раанан; Лищинский Дани (2010). «Карты диффузии для редактирования изображений с учетом краев». АКМ Транс. График . 29 (6): 145:1–145:10. дои : 10.1145/1882261.1866171 .
- ^ Оана, Сиди; ван Кайк, Оливер; Клейман, Янир; Чжан, Хао; Коэн-Ор, Дэниел (2011). Неконтролируемая совместная сегментация набора фигур посредством спектральной кластеризации в пространстве дескриптора (PDF) . Транзакции ACM с графикой .
- ^ Баркан, Орен; Ароновиц, Хагай (2013). «Карты диффузии для проверки динамиков на основе PLDA» (PDF) . Материалы Международной конференции IEEE по акустике, речи и обработке сигналов : 7639–7643.
- ^ Михалевский, Ян; Талмон, Ронен; Коэн, Израиль (2011). Идентификация говорящего с использованием карт диффузии (PDF) . Европейская конференция по обработке сигналов 2011.
- ^ Мишне, Гал; Коэн, Израиль (2013). «Многомасштабное обнаружение аномалий с использованием карт диффузии». IEEE Отдельные темы обработки сигналов . 7 (1): 111–123. Бибкод : 2013ИССП...7..111М . дои : 10.1109/jstsp.2012.2232279 . S2CID 1954466 .
- ^ Шабат, Гил; Сегев, Дэвид; Авербух, Амир (07.01.2018). «Обнаружение неизвестных неизвестных в больших данных финансовых услуг с помощью неконтролируемых методологий: настоящие и будущие тенденции» . Семинар KDD 2017 по обнаружению аномалий в финансах . 71 : 8–19.
- ^ Гепштейн, Шай; Келлер, Йоси (2013). «Завершение изображения с помощью карт диффузии и спектральной релаксации». Транзакции IEEE при обработке изображений . 22 (8): 2983–2994. Бибкод : 2013ITIP...22.2983G . дои : 10.1109/tip.2013.2237916 . ПМИД 23322762 . S2CID 14375333 .
- ^ Маргулис, Дэниел С.; Гош, Сатраджит С.; Гулас, Александрос; Фалькевич, Марсель; Хунтенбург, Джулия М.; Лангс, Георг; Безгин, Глеб; Эйкхофф, Саймон Б.; Кастелланос, Ф. Ксавьер; Петридес, Майкл; Джеффрис, Элизабет; Смоллвуд, Джонатан (2016). «Расположение сети режима по умолчанию вдоль основного градиента макромасштабной кортикальной организации» . Труды Национальной академии наук . 113 (44): 12574–12579. Бибкод : 2016PNAS..11312574M . дои : 10.1073/pnas.1608282113 . ПМК 5098630 . ПМИД 27791099 .
- ^ Де Доменико, Манлио (2017). «Геометрия диффузии раскрывает возникновение функциональных кластеров в коллективных явлениях» . Письма о физических отзывах . 118 (16): 168301. arXiv : 1704.07068 . Бибкод : 2017PhRvL.118p8301D . doi : 10.1103/PhysRevLett.118.168301 . ПМИД 28474920 . S2CID 2638868 .