Jump to content

Индекс Данна

Индекс Данна (DI) (введенный Дж. К. Данном в 1974 году) — это метрика для оценки алгоритмов кластеризации . [1] [2] Это часть группы индексов достоверности, включая индекс Дэвиса-Булдина или индекс Силуэта , поскольку это внутренняя схема оценки, где результат основан на самих кластеризованных данных. Как и все другие подобные индексы, цель состоит в том, чтобы идентифицировать наборы кластеров, которые являются компактными, с небольшой дисперсией между членами кластера и хорошо разделены, где средние значения разных кластеров достаточно далеко друг от друга по сравнению с внутри кластера. дисперсия. Для данного назначения кластеров более высокий индекс Данна указывает на лучшую кластеризацию. Одним из недостатков использования этого метода являются вычислительные затраты по мере увеличения количества кластеров и размерности данных.

Предварительные сведения

[ редактировать ]

Существует много способов определить размер или диаметр кластера. Это может быть расстояние между двумя самыми дальними точками внутри кластера, это может быть среднее значение всех попарных расстояний между точками данных внутри кластера или это также может быть расстояние каждой точки данных от центроида кластера. Каждая из этих формул математически показана ниже:

Пусть C i — кластер векторов. Пусть x и y будут любыми двумя n-мерными векторами признаков, присвоенными одному и тому же кластеру C i .

, который вычисляет максимальное расстояние (версия, предложенная Данном).
, который вычисляет среднее расстояние между всеми парами.
, вычисляет расстояние всех точек от среднего значения.

То же самое можно сказать и о расстоянии между кластерами, где аналогичные формулировки могут быть сделаны с использованием либо двух ближайших точек данных (используемых Данном), по одной в каждом кластере, либо двух самых дальних, либо расстояния между центроидами и так далее. Определение индекса включает любую такую ​​формулировку, а семейство индексов, сформированных таким образом, называется индексами типа Данна. Позволять быть этой метрикой межкластерного расстояния между кластерами C i и C j .

Определение

[ редактировать ]

Если использовать приведенные выше обозначения, если имеется m кластеров, то индекс Данна для набора определяется как:

.

Объяснение

[ редактировать ]

Будучи определенным таким образом, DI зависит от m , количества кластеров в наборе. Если количество кластеров заранее неизвестно, m , для которого DI в качестве количества кластеров можно выбрать является наибольшим. Существует также некоторая гибкость, когда дело доходит до определения d(x,y) , где можно использовать любую из хорошо известных метрик, таких как Манхэттенское расстояние или Евклидово расстояние, основанное на геометрии задачи кластеризации. У этой формулировки есть своеобразная проблема: если один из кластеров ведет себя плохо, а остальные плотно упакованы, поскольку знаменатель содержит «максимальный» член вместо среднего, индекс Данна для этого набора кластеров будет равен нехарактерно низкий. Таким образом, это худший показатель, и его следует иметь в виду. Существуют готовые реализации индекса Данна в некоторых векторных языках программирования, таких как MATLAB , R и Apache Mahout . [3] [4] [5]

Примечания и ссылки

[ редактировать ]
  1. ^ Данн, Джей Си (17 сентября 1973 г.). «Нечеткий родственник процесса ISODATA и его использование для обнаружения компактных хорошо разделенных кластеров». Журнал кибернетики . 3 (3): 32–57. дои : 10.1080/01969727308546046 . S2CID   120919314 .
  2. ^ Данн, Джей Си (1 сентября 1973 г.). «Хорошо разделенные кластеры и оптимальные нечеткие перегородки». Журнал кибернетики . 4 (1) (опубликовано в 1974 г.): 95–104. дои : 10.1080/01969727408546059 . ISSN   0022-0280 .
  3. ^ «Реализация MATLAB индекса Данна» . Проверено 5 декабря 2011 г.
  4. ^ Лукаш, Невегловский. «Пакет CLV» ( PDF) . Р-проект . КРАН . Проверено 2 апреля 2013 г.
  5. ^ «Апач Махаут» . Фонд программного обеспечения Apache . Проверено 9 мая 2013 г.
[ редактировать ]
  • Пахира, Малайский К.; Бандйопадхьяй, Сангамитра; Маулик, Уджвал (2004). «Индекс достоверности четких и нечетких кластеров». Распознавание образов . 37 (3): 487–501. Бибкод : 2004PatRe..37..487P . дои : 10.1016/j.patcog.2003.06.005 .
  • Бездек, Дж. К.; Пал, НР (1995). «Кластерная проверка с использованием обобщенных индексов Данна». Материалы 1995 г. Вторая новозеландская международная двухпотоковая конференция по искусственным нейронным сетям и экспертным системам . IEEE Эксплор. стр. 190–193. дои : 10.1109/ANNES.1995.499469 . ISBN  0-8186-7174-2 . S2CID   7816379 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ac5f4aa84711289fa9934c661b51f851__1690097220
URL1:https://arc.ask3.ru/arc/aa/ac/51/ac5f4aa84711289fa9934c661b51f851.html
Заголовок, (Title) документа по адресу, URL1:
Dunn index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)