Jump to content

СУБКЛУ

SUBCLU — это алгоритм кластеризации многомерных данных, разработанный Карин Кайлинг, Хансом-Петером Кригелем и Пером Крёгером. [1] Это алгоритм кластеризации подпространства , основанный на алгоритме кластеризации на основе плотности DBSCAN . SUBCLU может находить кластеры в подпространствах , параллельных осям , и использует стратегию «снизу вверх» , жадную чтобы оставаться эффективным.

SUBCLU использует критерии монотонности : если кластер найден в подпространстве , то каждое подпространство также содержит кластер. Однако кластер в подпространстве не обязательно является кластером в , поскольку кластеры должны быть максимальными, и в кластере может содержаться больше объектов в который содержит . Однако связное по плотности множество в подпространстве также является связным по плотности множеством в .

Это свойство закрытия вниз используется SUBCLU аналогично алгоритму Априори : сначала все одномерные подпространства кластеризуются. Все кластеры в подпространстве более высокой размерности будут подмножествами кластеров, обнаруженных в ходе этой первой кластеризации. Таким образом, SUBCLU рекурсивно производит -мерные подпространства-кандидаты путем объединения -мерные подпространства с общими кластерами атрибуты. После отсечения ненужных кандидатов к подпространству кандидатов применяется DBSCAN , чтобы выяснить, содержит ли оно еще кластеры. Если да, то подпространство-кандидат используется для следующей комбинации подпространств. Чтобы улучшить время выполнения DBSCAN , только те точки, которые, как известно, принадлежат кластерам в одном Рассматривается -мерное подпространство (которое выбирается так, чтобы оно содержало как можно меньше кластеров). Из-за свойства замыкания вниз другая точка не может быть частью в любом случае -мерный кластер.

Псевдокод

[ редактировать ]

SUBCLU принимает два параметра: и , которые выполняют ту же роль, что и DBSCAN . На первом этапе DBSCAN используется для поиска 1D-кластеров в каждом подпространстве, охватываемом одним атрибутом:

// На втором этапе -мерные кластеры строятся из -мерные:

Набор содержит все -мерные подпространства, которые, как известно, содержат кластеры. Набор содержит наборы кластеров, найденных в подпространствах. выбирается для минимизации прогонов DBSCAN (и количества точек, которые необходимо учитывать в каждом прогоне) для поиска кластеров в подпространствах-кандидатах.

Подпространства-кандидаты генерируются так же, как алгоритм Apriori генерирует частые кандидаты в наборы элементов: пары -мерные подпространства сравниваются, и если они отличаются только по одному признаку, они образуют -мерный кандидат. Однако обнаруживается и ряд неподходящих кандидатов; они содержат -мерное подпространство, не содержащее кластера. Следовательно, эти кандидаты удаляются на втором этапе:

// Удаление нерелевантных подпространств-кандидатов

Доступность

[ редактировать ]

Пример реализации SUBCLU доступен в рамках ELKI .

  1. ^ Карин Кайлинг, Ханс-Петер Кригель и Пер Крёгер. Кластеризация подпространств, связанных по плотности, для многомерных данных . В: Учеб. СИАМ Междунар. Конф. по интеллектуальному анализу данных (SDM'04) , стр. 246–257, 2004 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e9a6b932c02a9d9bd590c643fe47fb10__1670440500
URL1:https://arc.ask3.ru/arc/aa/e9/10/e9a6b932c02a9d9bd590c643fe47fb10.html
Заголовок, (Title) документа по адресу, URL1:
SUBCLU - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)