Jump to content

Алгоритм кластеризации Canopy

Алгоритм кластеризации купола — это неконтролируемый алгоритм предварительной кластеризации , предложенный Эндрю МакКаллумом , Камалем Нигамом и Лайлом Унгаром в 2000 году. [1] Он часто используется в качестве этапа предварительной обработки для алгоритма K-средних или алгоритма иерархической кластеризации . Он предназначен для ускорения операций кластеризации на больших наборах данных , где непосредственное использование другого алгоритма может оказаться нецелесообразным из-за размера набора данных.

Описание

[ редактировать ]

Алгоритм работает следующим образом, используя два порога (свободное расстояние) и (небольшое расстояние), где . [1] [2]

  1. Начните с набора точек данных, которые необходимо кластеризовать.
  2. Удалите точку из набора, начав новый «навес», содержащий эту точку.
  3. Для каждой точки, оставшейся в наборе, назначьте ее новому куполу, если ее расстояние до первой точки купола меньше свободного расстояния. .
  4. Если расстояние до точки дополнительно меньше минимального расстояния , удалите его из исходного набора.
  5. Повторяйте, начиная с шага 2, пока в наборе для кластеризации больше не останется точек данных.
  6. Эти относительно дешевые сгруппированные купола можно разделить на подкластеры, используя более дорогой, но точный алгоритм.

Важно отметить, что отдельные точки данных могут быть частью нескольких навесов. В качестве дополнительного ускорения для шага 3 можно использовать приблизительную и быструю метрику расстояния, а для шага 4 можно использовать более точную и медленную метрику расстояния.

Применимость

[ редактировать ]

Поскольку алгоритм использует функции расстояния и требует указания порогов расстояния, его применимость для многомерных данных ограничена проклятием размерности . Только когда доступна дешевая и аппроксимативная – малоразмерная – функция расстояния, полученные навесы сохранят кластеры, созданные с помощью K-средних.

Его преимущества включают в себя:

  • Уменьшается количество экземпляров обучающих данных, которые необходимо сравнивать на каждом этапе.
  • Есть некоторые свидетельства того, что полученные кластеры улучшаются. [3]
  1. ^ Jump up to: а б МакКаллум, А.; Нигам, К.; и Унгар Л.Х. (2000) «Эффективная кластеризация наборов данных большой размерности с применением сопоставления ссылок» , Труды шестой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 169-178. дои : 10.1145/347090.347123
  2. ^ «Алгоритм навесов» . курсы.cs.washington.edu . Проверено 6 сентября 2014 г.
  3. ^ Описание Mahout Canopy-Clustering Проверено 02 июля 2022 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f81e7026378e5274b9dff8ece28f4c7a__1662193500
URL1:https://arc.ask3.ru/arc/aa/f8/7a/f81e7026378e5274b9dff8ece28f4c7a.html
Заголовок, (Title) документа по адресу, URL1:
Canopy clustering algorithm - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)