Jump to content

k -медиан кластеризация

В статистике - медиан k кластеризация [1] [2] алгоритм кластерного анализа . Это разновидность k кластеризации -средних , при которой вместо вычисления среднего значения для каждого кластера для определения его центроида вычисляется медиана . Это приводит к минимизации ошибки во всех кластерах по отношению к метрике расстояния 2- нормы , в отличие от метрики расстояния в квадрате 2-нормы (что делает k -means ).

Это имеет прямое отношение к k проблеме -медианы , которая представляет собой задачу нахождения k центров таких, чтобы образуемые ими кластеры были наиболее компактными по отношению к 2-норме. Формально, учитывая набор точек данных x , k центров c i должны быть выбраны так, чтобы минимизировать сумму расстояний от каждого x до ближайшего c i .

Сформулированная таким образом целевая функция иногда является лучшим критерием, чем критерий, используемый в k алгоритме кластеризации -средних , в котором используется сумма квадратов расстояний. Сумма расстояний широко используется в таких приложениях, как задача определения местоположения объекта .

Предложенный алгоритм использует итерацию в стиле Ллойда, которая чередует этап ожидания (E) и шаг максимизации (M), что делает его алгоритмом ожидания-максимизации . На этапе E всем объектам присваивается ближайшая медиана. На этапе M медианы пересчитываются с использованием медианы в каждом отдельном измерении.

Медианы и медоиды

[ редактировать ]

Медиана вычисляется в каждом отдельном измерении в -медиан с использованием манхэттенского расстояния формулировке проблемы k , поэтому отдельные атрибуты будут взяты из набора данных (или будут средними из двух значений из набора данных). Это делает алгоритм более надежным для дискретных или даже двоичных наборов данных. Напротив, использование средних значений или медиан евклидова расстояния не обязательно приведет к получению отдельных атрибутов из набора данных. Даже при использовании формулировки манхэттенского расстояния отдельные атрибуты могут происходить из разных экземпляров набора данных; таким образом, результирующая медиана может не быть членом входного набора данных.

Этот алгоритм часто путают с алгоритмом k -medoids . Однако медоид должен быть реальным экземпляром из набора данных, в то время как для многомерной медианы Манхэттенского расстояния это справедливо только для значений одного атрибута. Таким образом, фактическая медиана может представлять собой комбинацию нескольких экземпляров. Например, для векторов (0,1), (1,0) и (2,2) медиана манхэттенского расстояния равна (1,1), которая не существует в исходных данных и, следовательно, не может быть медоид.

Программное обеспечение

[ редактировать ]

См. также

[ редактировать ]
  1. ^ AK Jain и RC Dubes, Алгоритмы кластеризации данных . Прентис-Холл, 1988.
  2. ^ PS Брэдли, О.Л. Мангасарян и У.Н. Стрит, «Кластеризация посредством вогнутой минимизации», в «Достижениях в области нейронных систем обработки информации», том. 9, М. К. Мозер, М. И. Джордан и Т. Петше, ред. Кембридж, Массачусетс: MIT Press, 1997, стр. 368–374.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fec0b7928a8ce70f79c29c478e80f7b9__1717818420
URL1:https://arc.ask3.ru/arc/aa/fe/b9/fec0b7928a8ce70f79c29c478e80f7b9.html
Заголовок, (Title) документа по адресу, URL1:
k-medians clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)