Индекс Дэвиса-Булдина
Индекс Дэвиса-Булдина (DBI) , введенный Дэвидом Л. Дэвисом и Дональдом В. Боулдином в 1979 году, является метрикой для оценки алгоритмов кластеризации . [ 1 ] Это схема внутренней оценки, в которой проверка того, насколько хорошо была выполнена кластеризация, осуществляется с использованием величин и функций, присущих набору данных. У этого метода есть недостаток: хорошее значение, полученное с помощью этого метода, не означает наилучшего извлечения информации. [ нужна ссылка ]
Предварительные сведения
[ редактировать ]Учитывая n мерных точек, пусть C i будет кластером точек данных. Пусть X j будет n -мерным вектором признаков, присвоенным кластеру C i .
Здесь — центр тяжести C i , а Ti — размер кластера i . — корень q -го момента из q -го момента точек в кластере i относительно среднего значения. Если затем — среднее расстояние между векторами признаков в кластере i и центроидом кластера. Обычно значение p равно 2, что делает расстояние евклидовой функцией расстояния . В случае многообразий и данных более высокой размерности можно использовать многие другие метрики расстояния, где евклидово расстояние может быть не лучшей мерой для определения кластеров. Важно отметить, что для получения значимых результатов эта метрика расстояния должна совпадать с метрикой, используемой в самой схеме кластеризации.
- является мерой разделения между кластерами и кластер .
- является k- м элементом , и таких элементов в A n , поскольку это n-мерный центроид. [ непоследовательный ]
Здесь k индексирует особенности данных, и это, по сути, евклидово расстояние между центрами кластеров i и j , когда p равно 2.
Определение
[ редактировать ]Пусть R i,j будет мерой того, насколько хороша схема кластеризации. Эта мера по определению должна учитывать Mi ,j разделение между i й и Дж й кластер, который в идеале должен быть как можно большим, и Si , разброс внутри кластера для кластера i, который должен быть как можно меньшим. Следовательно, индекс Дэвиса-Булдина определяется как отношение Si такое , и Mi ,j что эти свойства сохраняются:
- .
- .
- Когда и затем .
- Когда и затем .
При такой формулировке, чем ниже значение, тем лучше разделение кластеров и «плотность» внутри кластеров.
Решение, удовлетворяющее этим свойствам:
Это используется для определения D i :
Если N — количество кластеров:
DB называется индексом Дэвиса-Булдина. Это зависит как от данных, так и от алгоритма. D i выбирает наихудший сценарий, и это значение равно R i,j для кластера, наиболее похожего на кластер i . У этой формулировки может быть множество вариаций, например, выбор среднего значения сходства кластера, средневзвешенного значения и т. д.
Объяснение
[ редактировать ]Более низкие значения индекса указывают на лучший результат кластеризации. Индекс улучшается (понижается) за счет увеличения разделения между кластерами и уменьшения вариаций внутри кластеров.
Эти условия ограничивают определенный таким образом индекс симметричным и неотрицательным. Из-за того, как оно определяется как функция отношения разброса внутри кластера к разделению между кластерами, более низкое значение будет означать, что кластеризация лучше. Это среднее сходство между каждым кластером и его наиболее похожим, усредненное по всем кластерам, где сходство определяется как S i выше. Это подтверждает идею о том, что ни один кластер не должен быть похож на другой, и, следовательно, лучшая схема кластеризации по существу минимизирует индекс Дэвиса-Булдина. Определенный таким образом индекс представляет собой среднее значение по всем i кластерам, и, следовательно, хорошей мерой определения того, сколько кластеров на самом деле существует в данных, является отображение его в зависимости от количества кластеров, по которым он рассчитывается. Число i, для которого это значение является наименьшим, является хорошей мерой количества кластеров, на которые в идеале можно классифицировать данные. Это имеет применение при определении значения k в алгоритме kmeans , где значение k неизвестно априори.
Мягкая версия индекса Дэвиса-Булдина
[ редактировать ]Недавно индекс Дэвиса-Булдина был распространен на область категорий мягкой кластеризации. [ 2 ] Это расширение основано на подходе кластеризации категорий в соответствии с рамками нечеткой логики . Отправной точкой для этой новой версии индекса проверки является результат данного алгоритма мягкой кластеризации (например, нечетких c-средних ), сформированный с помощью вычисленных разделов кластеризации и значений членства, связывающих элементы с кластерами. В мягкой области каждый элемент системы принадлежит каждому классу с учетом значений членства. Таким образом, эта мягкая версия индекса Дэвиса–Булдина способна учитывать, помимо стандартных мер проверки, таких как компактность и разделение кластеров, степень принадлежности элементов к классам.
Реализации
[ редактировать ]scikit -learn Библиотека Python с открытым исходным кодом предоставляет реализацию этой метрики в модуле sklearn.metrics. [ 3 ]
R предоставляет аналогичную реализацию в своем пакете ClusterSim . [ 4 ]
Реализация Java находится в ELKI , и ее можно сравнить со многими другими индексами качества кластеризации.
См. также
[ редактировать ]- Оценка силуэта
- Индекс Данна
- Кластерный анализ
- Индекс Калинского-Харабаша
- Определение количества кластеров в наборе данных
Примечания и ссылки
[ редактировать ]- ^ Дэвис, Дэвид Л.; Боулдин, Дональд В. (1979). «Мера разделения кластера». Транзакции IEEE по анализу шаблонов и машинному интеллекту . ПАМИ-1 (2): 224–227. дои : 10.1109/TPAMI.1979.4766909 . S2CID 13254783 .
- ^ Вергани, Альберто А.; Бинаги, Элизабетта (июль 2018 г.). «Мягкая мера разделения Дэвиса-Булдина» . IEEE: 1–8. doi : 10.1109/FUZZ-IEEE.2018.8491581 . ISBN 978-1-5090-6020-7 .
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ "sklearn.metrics.davies_bouldin_score" . scikit-учиться . Проверено 22 ноября 2023 г.
- ^ «R: Индекс Дэвиса-Булдина» . search.r-project.org . Проверено 22 ноября 2023 г.