Jump to content

Кластеризация с полной связью

(Перенаправлено из Полная кластеризация связей )

Кластеризация с полной связью — один из нескольких методов агломеративной иерархической кластеризации . В начале процесса каждый элемент находится в своем кластере. Затем кластеры последовательно объединяются в более крупные кластеры, пока все элементы не окажутся в одном кластере. Этот метод также известен как кластеризация дальних соседей . Результат кластеризации можно визуализировать в виде дендрограммы , которая показывает последовательность слияния кластеров и расстояние, на котором происходило каждое слияние. [1] [2] [3]

Процедура кластеризации

[ редактировать ]

На каждом шаге объединяются два кластера, разделенные кратчайшим расстоянием. Определение «кратчайшего расстояния» — это то, что отличает различные методы агломерационной кластеризации. При кластеризации с полной связью связь между двумя кластерами содержит все пары элементов, а расстояние между кластерами равно расстоянию между теми двумя элементами (по одному в каждом кластере), которые находятся дальше всего друг от друга. Самое короткое из этих звеньев, остающееся на любом шаге, вызывает слияние двух кластеров, элементы которых задействованы.

Математически полная функция связи — расстояние между кластерами и — описывается следующим выражением:

где

  • расстояние между элементами и  ;
  • и представляют собой два набора элементов (кластеров).

Алгоритмы

[ редактировать ]

Наивная схема

[ редактировать ]

Следующий алгоритм представляет собой агломеративную схему, которая стирает строки и столбцы в матрице близости по мере объединения старых кластеров в новые. Матрица близости D содержит все расстояния d ( i , j ). Кластеризациям присвоены порядковые номера 0,1,......, ( n − 1), а L ( k ) — уровень k-й кластеризации. Кластер с порядковым номером m обозначается ( m ), а близость между кластерами ( r ) и ( s ) обозначается d [( r ),( s )].

Полный алгоритм кластеризации связей состоит из следующих шагов:

  1. Начнем с несвязной кластеризации, имеющей уровень и порядковый номер .
  2. Найдите наиболее похожую пару кластеров в текущей кластеризации, скажем, пару , в соответствии с где максимум приходится на все пары кластеров в текущей кластеризации.
  3. Увеличьте порядковый номер: . Объединение кластеров и в один кластер для формирования следующей кластеризации . Установите уровень этой кластеризации на
  4. Обновите матрицу близости, , удалив строки и столбцы, соответствующие кластерам и и добавление строки и столбца, соответствующих вновь сформированному кластеру. Близость между новым кластером, обозначаемая и старый кластер определяется как .
  5. Если все объекты находятся в одном кластере, остановитесь. В противном случае перейдите к шагу 2.

Оптимально эффективная схема

[ редактировать ]

Алгоритм, описанный выше, прост для понимания, но сложен. . В мае 1976 г. Д. Дефайс предложил оптимально эффективный алгоритм, сложность которого составляет всего лишь известный как CLINK (опубликовано в 1977 г.) [4] вдохновлен аналогичным алгоритмом SLINK для кластеризации с одной связью .

Рабочий пример

[ редактировать ]

Рабочий пример основан на JC69, матрице генетических расстояний рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Ахолеплазма хоть ( ) и Micrococcus luteus ( ). [5] [6]

Первый шаг

[ редактировать ]
  • Первая кластеризация

Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:

а б с д и
а 0 17 21 31 23
б 17 0 30 34 21
с 21 30 0 28 39
д 31 34 28 0 43
и 23 21 39 43 0

В этом примере это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины первой ветки

Позволять обозначаем узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданию гипотезы ультраметричности .Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Первое обновление матрицы расстояний

Затем мы приступаем к обновлению исходной матрицы близости. в новую матрицу близости (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с .Жирные значения в соответствуют новым расстояниям, рассчитанным путем сохранения максимального расстояния между каждым элементом первого кластера и каждый из оставшихся элементов:

Значения, выделенные курсивом на них не влияет обновление матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.

Второй шаг

[ редактировать ]
  • Вторая кластеризация

Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.  :

(а, б) с д и
(а, б) 0 30 34 23
с 30 0 28 39
д 34 28 0 43
и 23 39 43 0

Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру с элементом .

  • Оценка длины второй ветви

Позволять обозначаем узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или к , и к , равны и имеют следующую общую длину:

Выводим недостающую длину ветки: ( см. окончательную дендрограмму )

  • Обновление матрицы второго расстояния

Затем мы приступаем к обновлению матрицу в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с  :

Третий шаг

[ редактировать ]
  • Третья кластеризация

Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .

((а,б),д) с д
((а,б),д) 0 39 43
с 39 0 28
д 43 28 0

Здесь, это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины третьей ветви

Позволять обозначаем узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Обновление матрицы третьего расстояния

Есть одна запись для обновления:

Последний шаг

[ редактировать ]

Финал матрица:

((а,б),д) (в, г)
((а,б),д) 0 43
(в, г) 43 0

Итак, мы объединяем кластеры и .

Позволять обозначают (корневой) узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда имейте длину:

Выводим две оставшиеся длины ветвей:

Дендрограмма полной связи

[ редактировать ]

Данные WPGMA Дендрограммы 5S
WPGMA Dendrogram 5S data

Дендрограмма готова. Он ультраметрический, потому что все кончики ( к ) равноудалены от  :

Таким образом, дендрограмма имеет корни , его самый глубокий узел.

Сравнение с другими связями

[ редактировать ]

Альтернативные схемы связей включают кластеризацию с одной связью и кластеризацию со средней связью . Реализация другой связи в простом алгоритме — это просто вопрос использования другой формулы для расчета расстояний между кластерами при первоначальном вычислении матрицы близости и на этапе 4 из вышеизложенного. алгоритм. Однако для произвольных связей оптимально эффективный алгоритм недоступен. Формула, которую следует скорректировать, выделена жирным шрифтом.

Кластеризация с полной связью позволяет избежать недостатка альтернативного метода с одной связью - так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом кластере могут быть очень далеки друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [7]

Сравнение дендрограмм, полученных разными методами кластеризации из одной и той же матрицы расстояний .
Кластеризация с одной связью . Кластеризация с полной связью. Кластеризация средней связи: WPGMA . Кластеризация средней связи: UPGMA .

См. также

[ редактировать ]
  1. ^ Соренсен Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Биологический Скрифтер . 5 : 1–34.
  2. ^ Лежандр П., Лежандр Л. (1998). Численная экология (второе английское изд.). п. 853.
  3. ^ Эверитт Б.С., Ландау С. , Лиз М. (2001). Кластерный анализ (Четвертое изд.). Лондон: Арнольд. ISBN  0-340-76119-9 .
  4. ^ Дефайс Д. (1977). «Эффективный алгоритм для метода полной ссылки». Компьютерный журнал . 20 (4). Британское компьютерное общество: 364–366. дои : 10.1093/comjnl/20.4.364 .
  5. ^ Эрдманн В.А., Уолтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S» . Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1-59. дои : 10.1093/nar/14.suppl.r1 . ПМК   341310 . ПМИД   2422630 .
  6. ^ Олсен Дж.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5 . ISBN  978-0-12-182065-7 . ПМИД   3241556 .
  7. ^ Эверитт, Ландау и Лиз (2001), стр. 62-64.

Дальнейшее чтение

[ редактировать ]
  • Спет Х (1980). Алгоритмы кластерного анализа . Чичестер: Эллис Хорвуд.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 03c9168a23ec2bc21117b8fd47f88302__1719006000
URL1:https://arc.ask3.ru/arc/aa/03/02/03c9168a23ec2bc21117b8fd47f88302.html
Заголовок, (Title) документа по адресу, URL1:
Complete-linkage clustering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)