Локоть метод (кластеризация)
В кластерном анализе метод локтя представляет собой эвристический метод, используемый для определения количества кластеров в наборе данных . Метод состоит в построении графика объясненной вариации в зависимости от количества кластеров и выборе изгиба кривой в качестве количества используемых кластеров. Тот же метод можно использовать для выбора количества параметров в других моделях, управляемых данными, например количества основных компонентов для описания набора данных.
Этот метод можно отнести к предположениям Роберта Л. Торндайка в 1953 году. [1]
Интуиция
[ редактировать ]Использование «колена» или « перегиба кривой » в качестве точки отсечения — распространенная эвристика в математической оптимизации, позволяющая выбрать точку, в которой убывающая доходность больше не стоит дополнительных затрат. При кластеризации это означает, что следует выбрать несколько кластеров, чтобы добавление еще одного кластера не давало лучшего моделирования данных.
Интуиция заключается в том, что увеличение количества кластеров естественным образом улучшит подгонку (объясните больше вариаций), поскольку нужно использовать больше параметров (больше кластеров), но в какой-то момент это переподгонка , и колено отражает это . Например, при наличии данных, которые на самом деле состоят из k помеченных групп (например, k точек, выбранных с шумом), кластеризация с более чем k кластерами «объяснит» большую часть вариаций (поскольку она может использовать меньшие и более плотные кластеры), но это переобучение, поскольку оно подразделяет помеченные группы на несколько кластеров. Идея состоит в том, что первые кластеры добавят много информации (объяснят множество вариаций), поскольку данные на самом деле состоят из такого-то количества групп (поэтому эти кластеры необходимы), но как только количество кластеров превысит фактическое количество групп в данных, добавленная информация резко упадет, потому что она просто подразделяет фактические группы. Если предположить, что это произойдет, на графике объясненной вариации в зависимости от кластеров появится резкий изгиб: быстро возрастающий до k ( область недостаточного подбора ), а затем медленно увеличивается после k (область переподбора).
Критика
[ редактировать ]Локтевой метод считается одновременно субъективным и ненадежным. Во многих практических приложениях выбор «локтя» весьма неоднозначен, поскольку на участке нет острого локтя. [2] Это может быть справедливо даже в тех случаях, когда все другие методы определения количества кластеров в наборе данных (как упоминалось в этой статье) совпадают по количеству кластеров.
Даже на однородных случайных данных (без значимых кластеров) кривая соответствует примерно соотношению 1/k , где k — параметр количества кластеров, из-за чего пользователи видят «локоть» и ошибочно выбирают некоторое «оптимальное» количество кластеров. [3]
Поскольку две оси (количество кластеров и оставшаяся дисперсия) не имеют семантической связи, различные попытки захватить изгиб по «наклону» являются нечеткими и чувствительными к диапазону параметров. [3] Увеличение максимального количества кластеров может изменить расположение воспринимаемого «локтя», и во многих случаях альтернативные эвристики, такие как критерий отношения дисперсии или средняя ширина силуэта , считаются более надежными. [3] Но даже при таких мерах результаты могут во многом зависеть от предварительной обработки данных (выбора функций и масштабирования), и пользователи могут прийти к очень разным результатам кластеризации одних и тех же данных.
Меры вариации
[ редактировать ]различные меры « объясненной вариации В локтевом методе используются ». Чаще всего вариацию количественно определяют с помощью дисперсии , а используемое соотношение представляет собой отношение дисперсии между группами к общей дисперсии. В качестве альтернативы можно использовать отношение дисперсии между группами к дисперсии внутри группы, которое представляет собой однофакторную ANOVA F статистику -критерия . [4]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Роберт Л. Торндайк (декабрь 1953 г.). «Кто принадлежит семье?». Психометрика . 18 (4): 267–276. дои : 10.1007/BF02289263 . S2CID 120467216 .
- ^ См., например, Кетчен-младший, Дэвид Дж.; Шук, Кристофер Л. (1996). «Применение кластерного анализа в исследованиях стратегического управления: анализ и критика» . Журнал стратегического менеджмента . 17 (6): 441–458. doi : 10.1002/(SICI)1097-0266(199606)17:6<441::AID-SMJ819>3.0.CO;2-G . [ мертвая ссылка ]
- ^ Перейти обратно: а б с Шуберт, Эрих (5 июля 2023 г.). «Перестаньте использовать локтевой критерий для k-средних и узнайте, как вместо этого выбрать количество кластеров» . Информационный бюллетень об исследованиях ACM SIGKDD . 25 (1): 36–42. arXiv : 2212.12189 . дои : 10.1145/3606274.3606278 . ISSN 1931-0145 .
- ^ См., например, рисунок 6 в
- Гутте, Кирилл; Тофт, Питер; Роструп, Эгилл; Нильсен, Финн Аруп; Хансен, Ларс Кай (март 1999 г.). «О кластеризации временных рядов фМРТ». НейроИмидж . 9 (3): 298–310. CiteSeerX 10.1.1.29.2679 . дои : 10.1006/нимг.1998.0391 . ПМИД 10075900 . S2CID 14147564 .