Кластеризация с полной связью
Эта статья нуждается в дополнительных цитатах для проверки . ( сентябрь 2010 г. ) |
Кластеризация с полной связью — один из нескольких методов агломеративной иерархической кластеризации . В начале процесса каждый элемент находится в своем кластере. Затем кластеры последовательно объединяются в более крупные кластеры, пока все элементы не окажутся в одном кластере. Этот метод также известен как кластеризация дальних соседей . Результат кластеризации можно визуализировать в виде дендрограммы , которая показывает последовательность слияния кластеров и расстояние, на котором происходило каждое слияние. [1] [2] [3]
Процедура кластеризации
[ редактировать ]На каждом шаге объединяются два кластера, разделенные кратчайшим расстоянием. Определение «кратчайшего расстояния» — это то, что отличает различные методы агломерационной кластеризации. При кластеризации с полной связью связь между двумя кластерами содержит все пары элементов, а расстояние между кластерами равно расстоянию между теми двумя элементами (по одному в каждом кластере), которые находятся дальше всего друг от друга. Самое короткое из этих звеньев, остающееся на любом шаге, вызывает слияние двух кластеров, элементы которых задействованы.
Математически полная функция связи — расстояние между кластерами и — описывается следующим выражением:
где
- расстояние между элементами и ;
- и представляют собой два набора элементов (кластеров).
Алгоритмы
[ редактировать ]Наивная схема
[ редактировать ]Следующий алгоритм представляет собой агломеративную схему, которая стирает строки и столбцы в матрице близости по мере объединения старых кластеров в новые. Матрица близости D содержит все расстояния d ( i , j ). Кластеризациям присвоены порядковые номера 0,1,......, ( n − 1), а L ( k ) — уровень k-й кластеризации. Кластер с порядковым номером m обозначается ( m ), а близость между кластерами ( r ) и ( s ) обозначается d [( r ),( s )].
Полный алгоритм кластеризации связей состоит из следующих шагов:
- Начнем с несвязной кластеризации, имеющей уровень и порядковый номер .
- Найдите наиболее похожую пару кластеров в текущей кластеризации, скажем, пару , в соответствии с где максимум приходится на все пары кластеров в текущей кластеризации.
- Увеличьте порядковый номер: . Объединение кластеров и в один кластер для формирования следующей кластеризации . Установите уровень этой кластеризации на
- Обновите матрицу близости, , удалив строки и столбцы, соответствующие кластерам и и добавление строки и столбца, соответствующих вновь сформированному кластеру. Близость между новым кластером, обозначаемая и старый кластер определяется как .
- Если все объекты находятся в одном кластере, остановитесь. В противном случае перейдите к шагу 2.
Оптимально эффективная схема
[ редактировать ]Алгоритм, описанный выше, прост для понимания, но сложен. . В мае 1976 г. Д. Дефайс предложил оптимально эффективный алгоритм, сложность которого составляет всего лишь известный как CLINK (опубликовано в 1977 г.) [4] вдохновлен аналогичным алгоритмом SLINK для кластеризации с одной связью .
Этот раздел нуждается в расширении . Вы можете помочь, добавив к нему . ( октябрь 2011 г. ) |
Рабочий пример
[ редактировать ]Рабочий пример основан на JC69, матрице генетических расстояний рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Ахолеплазма хоть ( ) и Micrococcus luteus ( ). [5] [6]
Первый шаг
[ редактировать ]- Первая кластеризация
Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:
а | б | с | д | и | |
---|---|---|---|---|---|
а | 0 | 17 | 21 | 31 | 23 |
б | 17 | 0 | 30 | 34 | 21 |
с | 21 | 30 | 0 | 28 | 39 |
д | 31 | 34 | 28 | 0 | 43 |
и | 23 | 21 | 39 | 43 | 0 |
В этом примере это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины первой ветки
Позволять обозначаем узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданию гипотезы ультраметричности .Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )
- Первое обновление матрицы расстояний
Затем мы приступаем к обновлению исходной матрицы близости. в новую матрицу близости (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с .Жирные значения в соответствуют новым расстояниям, рассчитанным путем сохранения максимального расстояния между каждым элементом первого кластера и каждый из оставшихся элементов:
Значения, выделенные курсивом на них не влияет обновление матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.
Второй шаг
[ редактировать ]- Вторая кластеризация
Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний. :
(а, б) | с | д | и | |
---|---|---|---|---|
(а, б) | 0 | 30 | 34 | 23 |
с | 30 | 0 | 28 | 39 |
д | 34 | 28 | 0 | 43 |
и | 23 | 39 | 43 | 0 |
Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру с элементом .
- Оценка длины второй ветви
Позволять обозначаем узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или к , и к , равны и имеют следующую общую длину:
Выводим недостающую длину ветки: ( см. окончательную дендрограмму )
- Обновление матрицы второго расстояния
Затем мы приступаем к обновлению матрицу в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с :
Третий шаг
[ редактировать ]- Третья кластеризация
Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .
((а,б),д) | с | д | |
---|---|---|---|
((а,б),д) | 0 | 39 | 43 |
с | 39 | 0 | 28 |
д | 43 | 28 | 0 |
Здесь, это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины третьей ветви
Позволять обозначаем узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )
- Обновление матрицы третьего расстояния
Есть одна запись для обновления:
Последний шаг
[ редактировать ]Финал матрица:
((а,б),д) | (в, г) | |
---|---|---|
((а,б),д) | 0 | 43 |
(в, г) | 43 | 0 |
Итак, мы объединяем кластеры и .
Позволять обозначают (корневой) узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда имейте длину:
Выводим две оставшиеся длины ветвей:
Дендрограмма полной связи
[ редактировать ]Дендрограмма готова. Он ультраметрический, потому что все кончики ( к ) равноудалены от :
Таким образом, дендрограмма имеет корни , его самый глубокий узел.
Сравнение с другими связями
[ редактировать ]Альтернативные схемы связей включают кластеризацию с одной связью и кластеризацию со средней связью . Реализация другой связи в простом алгоритме — это просто вопрос использования другой формулы для расчета расстояний между кластерами при первоначальном вычислении матрицы близости и на этапе 4 из вышеизложенного. алгоритм. Однако для произвольных связей оптимально эффективный алгоритм недоступен. Формула, которую следует скорректировать, выделена жирным шрифтом.
Кластеризация с полной связью позволяет избежать недостатка альтернативного метода с одной связью - так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом кластере могут быть очень далеки друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [7]
Кластеризация с одной связью . | Кластеризация с полной связью. | Кластеризация средней связи: WPGMA . | Кластеризация средней связи: UPGMA . |
См. также
[ редактировать ]- Кластерный анализ
- Иерархическая кластеризация
- Молекулярные часы
- Присоединение к соседям
- Кластеризация с одной связью
- УПГМА
- ВПГМА
Ссылки
[ редактировать ]- ^ Соренсен Т. (1948). «Метод установления групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Биологический Скрифтер . 5 : 1–34.
- ^ Лежандр П., Лежандр Л. (1998). Численная экология (второе английское изд.). п. 853.
- ^ Эверитт Б.С., Ландау С. , Лиз М. (2001). Кластерный анализ (Четвертое изд.). Лондон: Арнольд. ISBN 0-340-76119-9 .
- ^ Дефайс Д. (1977). «Эффективный алгоритм для метода полной ссылки». Компьютерный журнал . 20 (4). Британское компьютерное общество: 364–366. дои : 10.1093/comjnl/20.4.364 .
- ^ Эрдманн В.А., Уолтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S» . Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1-59. дои : 10.1093/nar/14.suppl.r1 . ПМК 341310 . ПМИД 2422630 .
- ^ Олсен Дж.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5 . ISBN 978-0-12-182065-7 . ПМИД 3241556 .
- ^ Эверитт, Ландау и Лиз (2001), стр. 62-64.
Дальнейшее чтение
[ редактировать ]- Спет Х (1980). Алгоритмы кластерного анализа . Чичестер: Эллис Хорвуд.