Jump to content

Индекс Дэвиса-Булдина

Индекс Дэвиса-Булдина (DBI) , введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 году, является метрикой для оценки алгоритмов кластеризации . [ 1 ] Это схема внутренней оценки, в которой проверка того, насколько хорошо была выполнена кластеризация, осуществляется с использованием величин и функций, присущих набору данных. У этого метода есть недостаток: хорошее значение, полученное с помощью этого метода, не означает наилучшего извлечения информации. [ нужна ссылка ]

Предварительные сведения

[ редактировать ]

Учитывая n мерных точек, пусть C i будет кластером точек данных. Пусть X j будет n -мерным вектором признаков, присвоенным кластеру C i .

Здесь центр тяжести C i , а Ti размер кластера i . корень q -го момента из q -го момента точек в кластере i относительно среднего значения. Если затем — среднее расстояние между векторами признаков в кластере i и центроидом кластера. Обычно значение p равно 2, что делает расстояние евклидовой функцией расстояния . В случае многообразий и данных более высокой размерности можно использовать многие другие метрики расстояния, где евклидово расстояние может быть не лучшей мерой для определения кластеров. Важно отметить, что для получения значимых результатов эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации.

является мерой разделения между кластерами и кластер .
является k- м элементом , и таких элементов в A n , поскольку это n-мерный центроид. [ непоследовательный ]

Здесь k индексирует особенности данных, и это, по сути, евклидово расстояние между центрами кластеров i и j , когда p равно 2.

Определение

[ редактировать ]

Пусть R i,j будет мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать Mi ,j разделение между i й и Дж й кластер, который в идеале должен быть как можно большим, и Si , разброс внутри кластера для кластера i, который должен быть как можно меньшим. Следовательно, индекс Дэвиса-Булдина определяется как отношение Si такое , и Mi ,j что эти свойства сохраняются:

  1. .
  2. .
  3. Когда и затем .
  4. Когда и затем .

При такой формулировке, чем ниже значение, тем лучше разделение кластеров и «плотность» внутри кластеров.

Решение, удовлетворяющее этим свойствам:

Это используется для определения D i :

Если N — количество кластеров:

DB называется индексом Дэвиса-Булдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i,j для кластера, наиболее похожего на кластер i . У этой формулировки может быть множество вариаций, например, выбор среднего значения сходства кластера, средневзвешенного значения и т. д.

Объяснение

[ редактировать ]

Более низкие значения индекса указывают на лучший результат кластеризации. Индекс улучшается (понижается) за счет увеличения разделения между кластерами и уменьшения вариаций внутри кластеров.

Эти условия ограничивают определенный таким образом индекс симметричным и неотрицательным. Из-за того, как оно определяется как функция отношения разброса внутри кластера к разделению между кластерами, более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим, усредненное по всем кластерам, где сходство определяется как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса-Булдина. Определенный таким образом индекс представляет собой среднее значение по всем i кластерам, и, следовательно, хорошей мерой определения того, сколько кластеров на самом деле существует в данных, является отображение его в зависимости от количества кластеров, по которым он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, на которые в идеале можно классифицировать данные. Это имеет применение при определении значения k в алгоритме kmeans , где значение k неизвестно априори.

Мягкая версия индекса Дэвиса-Булдина

[ редактировать ]

Недавно индекс Дэвиса-Булдина был распространен на область категорий мягкой кластеризации. [ 2 ] Это расширение основано на подходе кластеризации категорий в соответствии с рамками нечеткой логики . Отправной точкой для этой новой версии индекса проверки является результат данного алгоритма мягкой кластеризации (например, нечетких c-средних ), сформированный с помощью вычисленных разделов кластеризации и значений членства, связывающих элементы с кластерами. В мягкой области каждый элемент системы принадлежит каждому классу с учетом значений членства. Таким образом, эта мягкая версия индекса Дэвиса–Булдина способна учитывать, помимо стандартных мер проверки, таких как компактность и разделение кластеров, степень принадлежности элементов к классам.

Реализации

[ редактировать ]

scikit -learn Библиотека Python с открытым исходным кодом предоставляет реализацию этой метрики в модуле sklearn.metrics. [ 3 ]

R предоставляет аналогичную реализацию в своем пакете ClusterSim . [ 4 ]

Реализация Java находится в ELKI , и ее можно сравнить со многими другими индексами качества кластеризации.

См. также

[ редактировать ]

Примечания и ссылки

[ редактировать ]
  1. ^ Дэвис, Дэвид Л.; Боулдин, Дональд В. (1979). «Мера разделения кластера». Транзакции IEEE по анализу шаблонов и машинному интеллекту . ПАМИ-1 (2): 224–227. дои : 10.1109/TPAMI.1979.4766909 . S2CID   13254783 .
  2. ^ Вергани, Альберто А.; Бинаги, Элизабетта (июль 2018 г.). «Мягкая мера разделения Дэвиса-Булдина» . IEEE: 1–8. doi : 10.1109/FUZZ-IEEE.2018.8491581 . ISBN  978-1-5090-6020-7 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  3. ^ "sklearn.metrics.davies_bouldin_score" . scikit-учиться . Проверено 22 ноября 2023 г.
  4. ^ «R: Индекс Дэвиса-Булдина» . search.r-project.org . Проверено 22 ноября 2023 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2e87cf55908fd6ef48c465aca93cca31__1700676420
URL1:https://arc.ask3.ru/arc/aa/2e/31/2e87cf55908fd6ef48c465aca93cca31.html
Заголовок, (Title) документа по адресу, URL1:
Davies–Bouldin index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)