Jump to content

Локоть метод (кластеризация)

Объясненное отклонение. «Локоть» обозначен красным кружком. Таким образом, количество выбранных кластеров должно быть 4.

В кластерном анализе метод локтя представляет собой эвристический метод, используемый для определения количества кластеров в наборе данных . Метод состоит в построении графика объясненной вариации в зависимости от количества кластеров и выборе изгиба кривой в качестве количества используемых кластеров. Тот же метод можно использовать для выбора количества параметров в других моделях, управляемых данными, например количества основных компонентов для описания набора данных.

Этот метод можно отнести к предположениям Роберта Л. Торндайка в 1953 году. [1]

Интуиция

[ редактировать ]

Использование «колена» или « перегиба кривой » в качестве точки отсечения — распространенная эвристика в математической оптимизации, позволяющая выбрать точку, в которой убывающая доходность больше не стоит дополнительных затрат. При кластеризации это означает, что следует выбрать несколько кластеров, чтобы добавление еще одного кластера не давало лучшего моделирования данных.

Интуиция заключается в том, что увеличение количества кластеров естественным образом улучшит подгонку (объясните больше вариаций), поскольку нужно использовать больше параметров (больше кластеров), но в какой-то момент это переподгонка , и колено отражает это . Например, при наличии данных, которые на самом деле состоят из k помеченных групп (например, k точек, выбранных с шумом), кластеризация с более чем k кластерами «объяснит» большую часть вариаций (поскольку она может использовать меньшие и более плотные кластеры), но это переобучение, поскольку оно подразделяет помеченные группы на несколько кластеров. Идея состоит в том, что первые кластеры добавят много информации (объяснят множество вариаций), поскольку данные на самом деле состоят из такого-то количества групп (поэтому эти кластеры необходимы), но как только количество кластеров превысит фактическое количество групп в данных, добавленная информация резко упадет, потому что она просто подразделяет фактические группы. Если предположить, что это произойдет, на графике объясненной вариации в зависимости от кластеров появится резкий изгиб: быстро возрастающий до k ( область недостаточного подбора ), а затем медленно увеличивается после k (область переподбора).

Локтевой метод считается одновременно субъективным и ненадежным. Во многих практических приложениях выбор «локтя» весьма неоднозначен, поскольку на участке нет острого локтя. [2] Это может быть справедливо даже в тех случаях, когда все другие методы определения количества кластеров в наборе данных (как упоминалось в этой статье) совпадают по количеству кластеров.

График суммы квадратов ошибок (SSE) по мере увеличения k, следующий типичной форме 1/k.
Пример типичного шаблона «колено», используемого для выбора количества кластеров, даже возникающих на однородных данных.

Даже на однородных случайных данных (без значимых кластеров) кривая соответствует примерно соотношению 1/k , где k — параметр количества кластеров, из-за чего пользователи видят «локоть» и ошибочно выбирают некоторое «оптимальное» количество кластеров. [3]

Поскольку две оси (количество кластеров и оставшаяся дисперсия) не имеют семантической связи, различные попытки захватить изгиб по «наклону» являются нечеткими и чувствительными к диапазону параметров. [3] Увеличение максимального количества кластеров может изменить расположение воспринимаемого «локтя», и во многих случаях альтернативные эвристики, такие как критерий отношения дисперсии или средняя ширина силуэта , считаются более надежными. [3] Но даже при таких мерах результаты могут во многом зависеть от предварительной обработки данных (выбора функций и масштабирования), и пользователи могут прийти к очень разным результатам кластеризации одних и тех же данных.

Меры вариации

[ редактировать ]

различные меры « объясненной вариации В локтевом методе используются ». Чаще всего вариацию количественно определяют с помощью дисперсии , а используемое соотношение представляет собой отношение дисперсии между группами к общей дисперсии. В качестве альтернативы можно использовать отношение дисперсии между группами к дисперсии внутри группы, которое представляет собой однофакторную ANOVA F статистику -критерия . [4]

См. также

[ редактировать ]
  1. ^ Роберт Л. Торндайк (декабрь 1953 г.). «Кто принадлежит семье?». Психометрика . 18 (4): 267–276. дои : 10.1007/BF02289263 . S2CID   120467216 .
  2. ^ См., например, Кетчен-младший, Дэвид Дж.; Шук, Кристофер Л. (1996). «Применение кластерного анализа в исследованиях стратегического управления: анализ и критика» . Журнал стратегического менеджмента . 17 (6): 441–458. doi : 10.1002/(SICI)1097-0266(199606)17:6<441::AID-SMJ819>3.0.CO;2-G . [ мертвая ссылка ]
  3. ^ Перейти обратно: а б с Шуберт, Эрих (5 июля 2023 г.). «Перестаньте использовать локтевой критерий для k-средних и узнайте, как вместо этого выбрать количество кластеров» . Информационный бюллетень об исследованиях ACM SIGKDD . 25 (1): 36–42. arXiv : 2212.12189 . дои : 10.1145/3606274.3606278 . ISSN   1931-0145 .
  4. ^ См., например, рисунок 6 в
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 73a168771930a5fadfaf4a6ffda319af__1708863180
URL1:https://arc.ask3.ru/arc/aa/73/af/73a168771930a5fadfaf4a6ffda319af.html
Заголовок, (Title) документа по адресу, URL1:
Elbow method (clustering) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)