СУБКЛУ
Эта статья в значительной степени или полностью опирается на один источник . ( февраль 2010 г. ) |
SUBCLU — это алгоритм кластеризации многомерных данных, разработанный Карин Кайлинг, Хансом-Петером Кригелем и Пером Крёгером. [1] Это алгоритм кластеризации подпространства , основанный на алгоритме кластеризации на основе плотности DBSCAN . SUBCLU может находить кластеры в подпространствах , параллельных осям , и использует стратегию «снизу вверх» , жадную чтобы оставаться эффективным.
Подход
[ редактировать ]SUBCLU использует критерии монотонности : если кластер найден в подпространстве , то каждое подпространство также содержит кластер. Однако кластер в подпространстве не обязательно является кластером в , поскольку кластеры должны быть максимальными, и в кластере может содержаться больше объектов в который содержит . Однако связное по плотности множество в подпространстве также является связным по плотности множеством в .
Это свойство закрытия вниз используется SUBCLU аналогично алгоритму Априори : сначала все одномерные подпространства кластеризуются. Все кластеры в подпространстве более высокой размерности будут подмножествами кластеров, обнаруженных в ходе этой первой кластеризации. Таким образом, SUBCLU рекурсивно производит -мерные подпространства-кандидаты путем объединения -мерные подпространства с общими кластерами атрибуты. После отсечения ненужных кандидатов к подпространству кандидатов применяется DBSCAN , чтобы выяснить, содержит ли оно еще кластеры. Если да, то подпространство-кандидат используется для следующей комбинации подпространств. Чтобы улучшить время выполнения DBSCAN , только те точки, которые, как известно, принадлежат кластерам в одном Рассматривается -мерное подпространство (которое выбирается так, чтобы оно содержало как можно меньше кластеров). Из-за свойства замыкания вниз другая точка не может быть частью в любом случае -мерный кластер.
Псевдокод
[ редактировать ]SUBCLU принимает два параметра: и , которые выполняют ту же роль, что и DBSCAN . На первом этапе DBSCAN используется для поиска 1D-кластеров в каждом подпространстве, охватываемом одним атрибутом:
- // На втором этапе -мерные кластеры строятся из -мерные:
Набор содержит все -мерные подпространства, которые, как известно, содержат кластеры. Набор содержит наборы кластеров, найденных в подпространствах. выбирается для минимизации прогонов DBSCAN (и количества точек, которые необходимо учитывать в каждом прогоне) для поиска кластеров в подпространствах-кандидатах.
Подпространства-кандидаты генерируются так же, как алгоритм Apriori генерирует частые кандидаты в наборы элементов: пары -мерные подпространства сравниваются, и если они отличаются только по одному признаку, они образуют -мерный кандидат. Однако обнаруживается и ряд неподходящих кандидатов; они содержат -мерное подпространство, не содержащее кластера. Следовательно, эти кандидаты удаляются на втором этапе:
- // Удаление нерелевантных подпространств-кандидатов
Доступность
[ редактировать ]Пример реализации SUBCLU доступен в рамках ELKI .
Ссылки
[ редактировать ]- ^ Карин Кайлинг, Ханс-Петер Кригель и Пер Крёгер. Кластеризация подпространств, связанных по плотности, для многомерных данных . В: Учеб. СИАМ Междунар. Конф. по интеллектуальному анализу данных (SDM'04) , стр. 246–257, 2004 г.