Силуэт (кластеризация)

Силуэт относится к методу интерпретации и проверки согласованности кластеров данных . Этот метод обеспечивает краткое графическое представление того, насколько хорошо был классифицирован каждый объект. ^[1] Его предложил бельгийский статистик Питер Русси в 1987 году.

Значение силуэта — это мера того, насколько объект похож на собственный кластер (сплоченность) по сравнению с другими кластерами (разделение). Силуэт находится в диапазоне от -1 до +1, где высокое значение указывает на то, что объект хорошо соответствует собственному кластеру и плохо соответствует соседним кластерам. Если большинство объектов имеют высокое значение, то конфигурация кластеризации подходит. Если многие точки имеют низкое или отрицательное значение, возможно, в конфигурации кластеризации слишком много или слишком мало кластеров. Кластеризация со средней шириной силуэта более 0,7 считается «сильной», значение более 0,5 — «разумной», а более 0,25 — «слабой», но с увеличением размерности данных становится затруднительно достичь столь высоких значений из-за проклятие размерности , поскольку расстояния становятся более похожими. Оценка силуэта предназначена для измерения качества кластеров, когда кластеры имеют выпуклую форму, и может не работать должным образом, если кластеры данных имеют неправильную форму или разные размеры. ^[2] Силуэт можно рассчитать с помощью любой метрики расстояния , например евклидова расстояния или манхэттенского расстояния .

Определение

График, показывающий оценки силуэтов трех типов животных из набора данных Zoo, полученные с помощью пакета интеллектуального анализа данных Orange . В нижней части графика силуэт идентифицирует дельфинов и морских свиней как выпадающие из группы млекопитающих.

Предположим, что данные были кластеризованы с помощью любого метода, такого как k-medoids или k-means , в $k$ кластеры.

Для точки данных $i\in C_{I}$ (точка данных $i$ в кластере $C_{I}$ ), позволять

a(i)={\frac {1}{|C_{I}|-1}}\sum _{j\in C_{I},i\neq j}d(i,j)

быть средним расстоянием между $i$ и все остальные точки данных в том же кластере, где $|C_{I}|$ количество точек, принадлежащих кластеру $C_{I}$ , и $d(i,j)$ расстояние между точками данных $i$ и $j$ в кластере $C_{I}$ (делим на $|C_{I}|-1$ потому что мы не учитываем расстояние $d(i,i)$ в сумме). Мы можем интерпретировать $a(i)$ как мера того, насколько хорошо $i$ присваивается его кластеру (чем меньше значение, тем лучше назначение).

Затем мы определяем среднее различие точек $i$ в какой-то кластер $C_{J}$ как среднее расстояние от $i$ во все точки в $C_{J}$ (где $C_{J}\neq C_{I}$ ).

Для каждой точки данных $i\in C_{I}$ , мы теперь определим

b(i)=\min _{J\neq I}{\frac {1}{|C_{J}|}}\sum _{j\in C_{J}}d(i,j)

быть наименьшим (отсюда и $\min$ оператор в формуле) среднее расстояние $i$ ко всем точкам любого другого кластера (т. е. любого кластера, в котором $i$ не является членом). Кластер с наименьшим средним различием называется «соседним кластером» $i$ потому что это следующий наиболее подходящий кластер для точки $i$ .

Теперь мы определяем силуэт (значение) одной точки данных. $i$

s(i)={\frac {b(i)-a(i)}{\max\{a(i),b(i)\}}}

, если

|C_{I}|>1

и

s(i)=0

, если

|C_{I}|=1

Что также можно записать как:

s(i)={\begin{cases}1-a(i)/b(i),&{\mbox{if }}a(i)<b(i)\\0,&{\mbox{if }}a(i)=b(i)\\b(i)/a(i)-1,&{\mbox{if }}a(i)>b(i)\\\end{cases}}

Из приведенного выше определения ясно, что

-1\leq s(i)\leq 1

Обратите внимание, что $a(i)$ не определено четко для кластеров с размером = 1, и в этом случае мы устанавливаем $s(i)=0$ . Этот выбор произволен, но нейтрален в том смысле, что он находится в середине границ -1 и 1. ^[1]

Для $s(i)$ чтобы быть близким к 1, нам нужно $a(i)\ll b(i)$ . Как $a(i)$ является мерой того, насколько различны $i$ относится к своему кластеру, небольшое значение означает, что он хорошо согласован. Кроме того, большое $b(i)$ подразумевает, что $i$ плохо согласован с соседним кластером. Таким образом, $s(i)$ близкое к 1 означает, что данные правильно кластеризованы. Если $s(i)$ близко к -1, то по той же логике мы видим, что $i$ было бы более подходящим, если бы он был сгруппирован в соседнем кластере. Ан $s(i)$ близкое к нулю означает, что данные находятся на границе двух естественных кластеров.

Среднее $s(i)$ по всем точкам кластера — это мера того, насколько плотно сгруппированы все точки в кластере. Таким образом, среднее значение $s(i)$ по всем данным всего набора данных является мерой того, насколько правильно данные были кластеризованы. Если кластеров слишком много или слишком мало, что может произойти при неудачном выборе $k$ используется в алгоритме кластеризации (например, k-means ), некоторые кластеры обычно отображают гораздо более узкие силуэты, чем остальные. Таким образом, силуэтные графики и средства можно использовать для определения натурального числа кластеров в наборе данных. Можно также повысить вероятность максимизации силуэта при правильном количестве кластеров, повторно масштабируя данные с использованием весов признаков, специфичных для кластера. ^[3]

Кауфман и др. ввел термин «коэффициент силуэта» для максимального значения среднего значения. $s(i)$ по всем данным всего набора данных, ^[4] то есть,

SC=\max _{k}{\tilde {s}}\left(k\right),

где ${\tilde {s}}\left(k\right)$ представляет собой среднее значение $s(i)$ по всем данным всего набора данных для определенного количества кластеров $k$ .

Упрощенный силуэт и медоидный силуэт

Для расчета коэффициента силуэта нужны все ${\mathcal {O}}(N^{2})$ попарные расстояния, что делает эту оценку намного более дорогостоящей, чем кластеризация с помощью k-средних. Для кластеризации с центрами $\mu _{C_{I}}$ для каждого кластера $C_{I}$ , мы можем использовать следующий упрощенный силуэт для каждой точки $i\in C_{I}$ вместо этого, который можно вычислить, используя только ${\mathcal {O}}(Nk)$ расстояния:

a'(i)=d(i,\mu _{C_{I}})

и

b'(i)=\min _{C_{J}\neq C_{I}}d(i,\mu _{C_{J}})

,

что имеет дополнительное преимущество, заключающееся в том, что $a'(i)$ всегда определен, затем определите соответственно упрощенный силуэт и коэффициент упрощенного силуэта. ^[5]

s'(i)={\frac {b'(i)-a'(i)}{\max\{a'(i),b'(i)\}}}

SC'=\max _{k}{\frac {1}{N}}\sum _{i}s'\left(i\right)

.

Если центрами кластеров являются медоиды (как при кластеризации k-медоидов), а не средние арифметические значения (как при кластеризации k-средних), это также называется силуэтом на основе медоидов. ^[6] или медоидный силуэт. ^[7]

Если каждый объект присвоен ближайшему медоиду (как при кластеризации k-медоидов), мы знаем, что $a'(i)\leq b'(i)$ , и, следовательно, $s'(i)={\frac {b'(i)-a'(i)}{b'(i)}}=1-{\frac {a'(i)}{b'(i)}}$ . ^[7]

Кластеризация силуэтов

Вместо использования среднего силуэта для оценки кластеризации, полученной, например, из k-медоидов или k-средних, мы можем попытаться напрямую найти решение, которое максимизирует силуэт. У нас нет решения в замкнутой форме, позволяющего максимизировать это, но обычно лучше всего назначать точки ближайшему кластеру, как это делается с помощью этих методов. Ван дер Лаан и др. ^[6] предложил адаптировать для этой цели стандартный алгоритм для k-медоидов PAM и назвать этот алгоритм PAMSIL:

Выберите начальные медоиды с помощью PAM.
Вычислите средний силуэт этого первоначального решения.
Для каждой пары медоида m и немедоида x
1. поменять местами $м$ и $х$
2. вычислить средний силуэт полученного решения
3. вспомни лучший обмен
4. поменяйте местами $m$ и $x$ для следующей итерации
Выполните лучший обмен и вернитесь к пункту 3, в противном случае остановитесь, если улучшения не обнаружено.

Цикл на шаге 3 выполняется в течение ${\mathcal {O}}(Nk)$ пар и включает в себя вычисление силуэта в ${\mathcal {O}}(N^{2})$ , следовательно, этот алгоритм нуждается ${\mathcal {O}}(N^{3}ki)$ время, где $i$ — количество итераций.

Поскольку это достаточно дорогостоящая операция, авторы предлагают также использовать силуэт на основе медоида и называть полученный алгоритм PAMMEDSIL. ^[6] Это требует ${\mathcal {O}}(N^{2}k^{2}i)$ время.

Батул и др. предложите аналогичный алгоритм под названием OSil и предложите стратегию выборки, подобную CLARA, для больших наборов данных, которая решает проблему только для подвыборки. ^[8]

Приняв последние улучшения алгоритма PAM, FastMSC сокращает время выполнения с использованием медоидного силуэта до всего ${\mathcal {O}}(N^{2}i)$ . ^[7]

Начав с максимального количества кластеров $k max$ и итеративно удаляя худший центр (с точки зрения изменения силуэта) и повторно оптимизируя, можно автоматически определить лучшую кластеризацию (самый высокий медоидный силуэт). Поскольку структуры данных можно использовать повторно, это существенно снижает затраты на вычисления при многократном запуске алгоритма для различного количества кластеров. ^[9]Этот алгоритм требует попарных расстояний и обычно реализуется с помощью матрицы попарных расстояний. ${\mathcal {O}}(N^{2})$ Требования к памяти являются основным ограничивающим фактором для применения этого метода к очень большим наборам данных.

См. также

Ссылки

^ Jump up to: Перейти обратно: ^а ^б Питер Дж. Руссиу (1987). «Силуэты: графическое пособие для интерпретации и проверки кластерного анализа» . Вычислительная и прикладная математика . 20 : 53–65. дои : 10.1016/0377-0427(87)90125-7 .
^ Моншизаде, Мехрнуш; Кхатри, Викрамаджит; Кантола, Раймо; Ян, Чжэн (01 ноября 2022 г.). «Подход к самоопределяющейся кластеризации на основе глубокой плотности для маркировки неизвестного трафика» . Журнал сетевых и компьютерных приложений . 207 : 103513. doi : 10.1016/j.jnca.2022.103513 . ISSN 1084-8045 . Однако обе меры [коэффициент силуэта и краевая корреляция] предпочитают кластеры выпуклой формы и не могут адаптироваться ко всем формам кластеров, создаваемым DBSCAN.
^ Р. К. де Аморим, К. Хенниг (2015). «Восстановление количества кластеров в наборах данных с шумовыми признаками с использованием коэффициентов масштабирования признаков». Информационные науки . 324 : 126–145. arXiv : 1602.06989 . дои : 10.1016/j.ins.2015.06.039 . S2CID 315803 .
^ Леонард Кауфман; Питер Дж. Руссиу (1990). Поиск групп в данных: введение в кластерный анализ . Хобокен, Нью-Джерси: Wiley-Interscience. п. 87 . дои : 10.1002/9780470316801 . ISBN 9780471878766 .
^ Грушка, ЕР; де Кастро, Л.Н.; Кампелло, RJGB (2004). Эволюционные алгоритмы кластеризации данных об экспрессии генов . Четвертая Международная конференция IEEE по интеллектуальному анализу данных (ICDM'04). IEEE. стр. 403–406. дои : 10.1109/ICDM.2004.10073 .
^ Jump up to: Перейти обратно: ^а ^б ^с Ван дер Лаан, Марк; Поллард, Кэтрин; Брайан, Дженнифер (2003). «Новое разбиение на основе алгоритма медоидов» . Журнал статистических вычислений и моделирования . 73 (8): 575–584. дои : 10.1080/0094965031000136012 . ISSN 0094-9655 . S2CID 17437463 .
^ Jump up to: Перейти обратно: ^а ^б ^с Ленссен, Ларс; Шуберт, Эрих (2022). Кластеризация путем прямой оптимизации медоидного силуэта . Международная конференция по поиску и приложениям по сходству. стр. 190–204. arXiv : 2209.12553 . дои : 10.1007/978-3-031-17849-8_15 . Проверено 20 октября 2022 г.
^ Батул, Фатима; Хенниг, Кристиан (2021). «Кластеризация со средней шириной силуэта» . Вычислительная статистика и анализ данных . 158 : 107190. arXiv : 1910.11339 . дои : 10.1016/j.csda.2021.107190 . S2CID 219260336 .
^ Ленссен, Ларс; Шуберт, Эрих (1 февраля 2024 г.). «Кластеризация Medoid Silhouette с автоматическим выбором номера кластера» . Информационные системы . 120 : 102290. arXiv : 2309.03751 . дои : 10.1016/j.is.2023.102290 . ISSN 0306-4379 .

[Rousseeuw_1987-1] Jump up to: Перейти обратно: ^а ^б Питер Дж. Руссиу (1987). «Силуэты: графическое пособие для интерпретации и проверки кластерного анализа» . Вычислительная и прикладная математика . 20 : 53–65. дои : 10.1016/0377-0427(87)90125-7 .

[2] Моншизаде, Мехрнуш; Кхатри, Викрамаджит; Кантола, Раймо; Ян, Чжэн (01 ноября 2022 г.). «Подход к самоопределяющейся кластеризации на основе глубокой плотности для маркировки неизвестного трафика» . Журнал сетевых и компьютерных приложений . 207 : 103513. doi : 10.1016/j.jnca.2022.103513 . ISSN 1084-8045 . Однако обе меры [коэффициент силуэта и краевая корреляция] предпочитают кластеры выпуклой формы и не могут адаптироваться ко всем формам кластеров, создаваемым DBSCAN.

[3] Р. К. де Аморим, К. Хенниг (2015). «Восстановление количества кластеров в наборах данных с шумовыми признаками с использованием коэффициентов масштабирования признаков». Информационные науки . 324 : 126–145. arXiv : 1602.06989 . дои : 10.1016/j.ins.2015.06.039 . S2CID 315803 .

[4] Леонард Кауфман; Питер Дж. Руссиу (1990). Поиск групп в данных: введение в кластерный анализ . Хобокен, Нью-Джерси: Wiley-Interscience. п. 87 . дои : 10.1002/9780470316801 . ISBN 9780471878766 .

[5] Грушка, ЕР; де Кастро, Л.Н.; Кампелло, RJGB (2004). Эволюционные алгоритмы кластеризации данных об экспрессии генов . Четвертая Международная конференция IEEE по интеллектуальному анализу данных (ICDM'04). IEEE. стр. 403–406. дои : 10.1109/ICDM.2004.10073 .

[:1-6] Jump up to: Перейти обратно: ^а ^б ^с Ван дер Лаан, Марк; Поллард, Кэтрин; Брайан, Дженнифер (2003). «Новое разбиение на основе алгоритма медоидов» . Журнал статистических вычислений и моделирования . 73 (8): 575–584. дои : 10.1080/0094965031000136012 . ISSN 0094-9655 . S2CID 17437463 .

[:0-7] Jump up to: Перейти обратно: ^а ^б ^с Ленссен, Ларс; Шуберт, Эрих (2022). Кластеризация путем прямой оптимизации медоидного силуэта . Международная конференция по поиску и приложениям по сходству. стр. 190–204. arXiv : 2209.12553 . дои : 10.1007/978-3-031-17849-8_15 . Проверено 20 октября 2022 г.

[8] Батул, Фатима; Хенниг, Кристиан (2021). «Кластеризация со средней шириной силуэта» . Вычислительная статистика и анализ данных . 158 : 107190. arXiv : 1910.11339 . дои : 10.1016/j.csda.2021.107190 . S2CID 219260336 .

[9] Ленссен, Ларс; Шуберт, Эрих (1 февраля 2024 г.). «Кластеризация Medoid Silhouette с автоматическим выбором номера кластера» . Информационные системы . 120 : 102290. arXiv : 2309.03751 . дои : 10.1016/j.is.2023.102290 . ISSN 0306-4379 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

v т и машинного обучения Метрики оценки
Регрессия	МШЭ ЕСТЬ СМАПЕ КАРТА МАССЫ MSPE среднеквадратичное значение RMSE/RMSD Р ² МДА БЕЗУМНЫЙ
Классификация	F-оценка П4 Точность Точность Отзывать Каппа МСС АУК РПЦ Чувствительность и специфичность Логарифмическая потеря
Кластеризация	Силуэт Индекс Калинского-Харабаша Дэвис-Булден Индекс Данна Статистика Хопкинса Индекс Жаккара Индекс Рэнда Мера сходства СМК СимХэш
Рейтинг	МРР НДЦГ АП
Компьютерное зрение	ПСНР ДА долг
НЛП	Растерянность СИНИЙ
Метрики, связанные с глубоким обучением	Начальный счет ДОВЕРЯТЬ
Рекомендательная система	Покрытие Внутрисписочное сходство
Сходство	Косинусное подобие Евклидово расстояние Коэффициент корреляции Пирсона
Матрица путаницы