Индекс Данна
Индекс Данна (DI) (введенный Дж. К. Данном в 1974 году) — это метрика для оценки алгоритмов кластеризации . [1] [2] Это часть группы индексов достоверности, включая индекс Дэвиса-Булдина или индекс Силуэта , поскольку это внутренняя схема оценки, где результат основан на самих кластеризованных данных. Как и все другие подобные индексы, цель состоит в том, чтобы идентифицировать наборы кластеров, которые являются компактными, с небольшой дисперсией между членами кластера и хорошо разделены, где средние значения разных кластеров достаточно далеко друг от друга по сравнению с внутри кластера. дисперсия. Для данного назначения кластеров более высокий индекс Данна указывает на лучшую кластеризацию. Одним из недостатков использования этого метода являются вычислительные затраты по мере увеличения количества кластеров и размерности данных.
Предварительные сведения
[ редактировать ]Существует много способов определить размер или диаметр кластера. Это может быть расстояние между двумя самыми дальними точками внутри кластера, это может быть среднее значение всех попарных расстояний между точками данных внутри кластера или это также может быть расстояние каждой точки данных от центроида кластера. Каждая из этих формул математически показана ниже:
Пусть C i — кластер векторов. Пусть x и y будут любыми двумя n-мерными векторами признаков, присвоенными одному и тому же кластеру C i .
- , который вычисляет максимальное расстояние (версия, предложенная Данном).
- , который вычисляет среднее расстояние между всеми парами.
- , вычисляет расстояние всех точек от среднего значения.
То же самое можно сказать и о расстоянии между кластерами, где аналогичные формулировки могут быть сделаны с использованием либо двух ближайших точек данных (используемых Данном), по одной в каждом кластере, либо двух самых дальних, либо расстояния между центроидами и так далее. Определение индекса включает любую такую формулировку, а семейство индексов, сформированных таким образом, называется индексами типа Данна. Позволять быть этой метрикой межкластерного расстояния между кластерами C i и C j .
Определение
[ редактировать ]Если использовать приведенные выше обозначения, если имеется m кластеров, то индекс Данна для набора определяется как:
- .
Объяснение
[ редактировать ]Будучи определенным таким образом, DI зависит от m , количества кластеров в наборе. Если количество кластеров заранее неизвестно, m , для которого DI в качестве количества кластеров можно выбрать является наибольшим. Существует также некоторая гибкость, когда дело доходит до определения d(x,y) , где можно использовать любую из хорошо известных метрик, таких как Манхэттенское расстояние или Евклидово расстояние, основанное на геометрии задачи кластеризации. У этой формулировки есть своеобразная проблема: если один из кластеров ведет себя плохо, а остальные плотно упакованы, поскольку знаменатель содержит «максимальный» член вместо среднего, индекс Данна для этого набора кластеров будет равен нехарактерно низкий. Таким образом, это худший показатель, и его следует иметь в виду. Существуют готовые реализации индекса Данна в некоторых векторных языках программирования, таких как MATLAB , R и Apache Mahout . [3] [4] [5]
Примечания и ссылки
[ редактировать ]- ^ Данн, Джей Си (17 сентября 1973 г.). «Нечеткий родственник процесса ISODATA и его использование для обнаружения компактных хорошо разделенных кластеров». Журнал кибернетики . 3 (3): 32–57. дои : 10.1080/01969727308546046 . S2CID 120919314 .
- ^ Данн, Джей Си (1 сентября 1973 г.). «Хорошо разделенные кластеры и оптимальные нечеткие перегородки». Журнал кибернетики . 4 (1) (опубликовано в 1974 г.): 95–104. дои : 10.1080/01969727408546059 . ISSN 0022-0280 .
- ^ «Реализация MATLAB индекса Данна» . Проверено 5 декабря 2011 г.
- ^ Лукаш, Невегловский. «Пакет CLV» ( PDF) . Р-проект . КРАН . Проверено 2 апреля 2013 г.
- ^ «Апач Махаут» . Фонд программного обеспечения Apache . Проверено 9 мая 2013 г.
Внешние ссылки
[ редактировать ]- Пахира, Малайский К.; Бандйопадхьяй, Сангамитра; Маулик, Уджвал (2004). «Индекс достоверности четких и нечетких кластеров». Распознавание образов . 37 (3): 487–501. Бибкод : 2004PatRe..37..487P . дои : 10.1016/j.patcog.2003.06.005 .
- Бездек, Дж. К.; Пал, НР (1995). «Кластерная проверка с использованием обобщенных индексов Данна». Материалы 1995 г. Вторая новозеландская международная двухпотоковая конференция по искусственным нейронным сетям и экспертным системам . IEEE Эксплор. стр. 190–193. дои : 10.1109/ANNES.1995.499469 . ISBN 0-8186-7174-2 . S2CID 7816379 .