УПГМА
UPGMA ( метод невзвешенных парных групп со средним арифметическим ) — это простой агломеративный (восходящий) метод иерархической кластеризации . У него также есть взвешенный вариант, WPGMA , и их обычно приписывают Сокалю и Миченеру . [1]
Обратите внимание, что невзвешенный термин указывает, что все расстояния в равной степени вносят вклад в каждое вычисляемое среднее значение, и не относится к математическим расчетам, с помощью которых оно достигается. Таким образом, простое усреднение в WPGMA дает взвешенный результат, а пропорциональное усреднение в UPGMA дает невзвешенный результат ( см. рабочий пример ). [2]
Алгоритм
[ редактировать ]Алгоритм UPGMA строит корневое дерево ( дендрограмму ), которое отражает структуру, присутствующую в матрице попарного сходства (или матрице несходства ).На каждом шаге два ближайших кластера объединяются в кластер более высокого уровня. Расстояние между любыми двумя кластерами и , каждый из размеров ( т. е . мощности ) и , принимается как среднее всех расстояний между парами объектов в и в , то есть среднее расстояние между элементами каждого кластера:
Другими словами, на каждом этапе кластеризации обновляемое расстояние между объединенными кластерами и новый кластер определяется пропорциональным усреднением и расстояния:
Алгоритм UPGMA создает корневые дендрограммы и требует допущения о постоянной скорости, то есть предполагает ультраметрическое дерево, в котором расстояния от корня до каждой вершины ветвей равны. Когда кончики представляют собой молекулярные данные ( ДНК т.е. , РНК и белок ) , отобранные одновременно, предположение об ультраметричности становится эквивалентным предположению о молекулярных часах .
Рабочий пример
[ редактировать ]Этот рабочий пример основан на JC69 матрице генетических расстояний , рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Ахолеплазма хоть ( ) и Micrococcus luteus ( ). [3] [4]
Первый шаг
[ редактировать ]- Первая кластеризация
Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:
а | б | с | д | и | |
---|---|---|---|---|---|
а | 0 | 17 | 21 | 31 | 23 |
б | 17 | 0 | 30 | 34 | 21 |
с | 21 | 30 | 0 | 28 | 39 |
д | 31 | 34 | 28 | 0 | 43 |
и | 23 | 21 | 39 | 43 | 0 |
В этом примере это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины первой ветки
Позволять обозначаем узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданию гипотезы ультраметричности .Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )
- Первое обновление матрицы расстояний
Затем мы приступаем к обновлению исходной матрицы расстояний. в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с .Жирные значения в соответствуют новым расстояниям, рассчитанным путем усреднения расстояний между каждым элементом первого кластера и каждый из оставшихся элементов:
Значения, выделенные курсивом на них не влияет обновление матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.
Второй шаг
[ редактировать ]- Вторая кластеризация
Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.
(а, б) | с | д | и | |
---|---|---|---|---|
(а, б) | 0 | 25.5 | 32.5 | 22 |
с | 25.5 | 0 | 28 | 39 |
д | 32.5 | 28 | 0 | 43 |
и | 22 | 39 | 43 | 0 |
Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру и элемент .
- Оценка длины второй ветви
Позволять обозначаем узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или к , и к равны и имеют следующую длину:
Выводим недостающую длину ветки: ( см. окончательную дендрограмму )
- Обновление матрицы второго расстояния
Затем приступаем к обновлению в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с . Жирные значения в соответствуют новым расстояниям, рассчитанным пропорциональным усреднением :
Благодаря этому пропорциональному среднему при расчете этого нового расстояния учитывается больший размер кластер (два элемента) по отношению к (один элемент). Сходным образом:
Таким образом, пропорциональное усреднение придает равный вес начальным расстояниям матрицы. . По этой причине метод является невзвешенным не по отношению к математической процедуре, а по отношению к начальным расстояниям.
Третий шаг
[ редактировать ]- Третья кластеризация
Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .
((а,б),д) | с | д | |
---|---|---|---|
((а,б),д) | 0 | 30 | 36 |
с | 30 | 0 | 28 |
д | 36 | 28 | 0 |
Здесь, это наименьшее значение , поэтому мы соединяем элементы и .
- Оценка длины третьей ветви
Позволять обозначаем узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )
- Обновление матрицы третьего расстояния
Для обновления требуется одна запись, учитывая, что два элемента и каждый имеет вклад в среднем расчете :
Последний шаг
[ редактировать ]Финал матрица:
((а,б),д) | (в, г) | |
---|---|---|
((а,б),д) | 0 | 33 |
(в, г) | 33 | 0 |
Итак, мы объединяем кластеры и .
Позволять обозначают (корневой) узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда имейте длину:
Выводим две оставшиеся длины ветвей:
Дендрограмма UPGMA
[ редактировать ]
Дендрограмма готова. [5] Он ультраметрический, потому что все кончики ( к ) равноудалены от :
Таким образом, дендрограмма имеет корни , его самый глубокий узел.
Сравнение с другими связями
[ редактировать ]Альтернативные схемы связи включают кластеризацию с одной связью , полную кластеризацию связи и кластеризацию средней связи WPGMA . Реализация другой связи — это просто вопрос использования другой формулы для расчета расстояний между кластерами на этапах обновления матрицы расстояний вышеуказанного алгоритма. Кластеризация с полной связью позволяет избежать недостатка альтернативного метода кластеризации с одной связью - так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом из них кластеры могут находиться очень далеко друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [6]
![]() | ![]() | ![]() | ![]() |
Кластеризация с одной связью | Кластеризация с полной связью | Кластеризация средних связей: WPGMA | Кластеризация средних связей: UPGMA. |
Использование
[ редактировать ]- В экологии это один из самых популярных методов классификации единиц выборки (например, участков растительности) на основе их попарного сходства по соответствующим переменным дескриптора (например, видовому составу). [7] Например, его использовали для понимания трофического взаимодействия между морскими бактериями и протистами. [8]
- В биоинформатике UPGMA используется для создания фенетических деревьев (фенограмм). UPGMA изначально был разработан для использования в исследованиях электрофореза белков , но в настоящее время чаще всего используется для создания направляющих деревьев для более сложных алгоритмов. Этот алгоритм, например, используется в процедурах выравнивания последовательностей , поскольку он предлагает один порядок, в котором последовательности будут выравниваться. Действительно, направляющее дерево направлено на группировку наиболее похожих последовательностей, независимо от скорости их эволюции или филогенетического сходства, и это именно цель UPGMA. [9]
- В филогенетике UPGMA предполагает постоянную скорость эволюции ( гипотеза молекулярных часов ) и то, что все последовательности были отобраны в одно и то же время, и не является общепризнанным методом вывода взаимосвязей, если это предположение не было проверено и обосновано для используемого набора данных. использовал. Обратите внимание, что даже при «строгих часах» последовательности, выбранные в разное время, не должны приводить к ультраметрическому дереву.
Временная сложность
[ редактировать ]Тривиальная реализация алгоритма построения дерева UPGMA имеет временная сложность, а использование кучи для каждого кластера для сохранения его расстояний от другого кластера сокращает время . Фионн Мурта представил алгоритм времени и пространства. [10]
См. также
[ редактировать ]- Присоединение к соседям
- Кластерный анализ
- Кластеризация с одной связью
- Кластеризация с полной связью
- Иерархическая кластеризация
- Модели эволюции ДНК
- Молекулярные часы
Ссылки
[ редактировать ]- ^ Сокаль , Миченер (1958). «Статистический метод оценки систематических связей» . Научный бюллетень Канзасского университета . 38 : 1409–1438.
- ^ Гарсия С., Пуигбо П. «DendroUPGMA: утилита для построения дендрограмм» (PDF) . п. 4.
- ^ Эрдманн В.А., Уолтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S» . Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1–59. дои : 10.1093/nar/14.suppl.r1 . ПМК 341310 . ПМИД 2422630 .
- ^ Олсен Дж.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5 . ISBN 978-0-12-182065-7 . ПМИД 3241556 .
- ^ Суоффорд Д.Л., Олсен Г.Дж., Уодделл П.Дж., Хиллис Д.М. (1996). «Филогенетический вывод». В Hillis DM, Moritz C, Mable BK (ред.). Молекулярная систематика, 2-е издание . Сандерленд, Массачусетс: Синауэр. стр. 407–514. ISBN 9780878932825 .
- ^ Эверитт, бакалавр наук; Ландау, С.; Лиз, М. (2001). Кластерный анализ. 4-е издание . Лондон: Арнольд. стр. 62–64.
- ^ Лежандр П., Лежандр Л. (1998). Численная экология . Развитие экологического моделирования. Том. 20 (Второе английское изд.). Амстердам: Эльзевир.
- ^ Васкес-Домингес Э., Касамайор Э.О., Катала П., Лебарон П. (апрель 2005 г.). «Различные морские гетеротрофные нанофлагелляты по-разному влияют на состав обогащенных бактериальных сообществ». Микробная экология . 49 (3): 474–85. Бибкод : 2005MicEc..49..474V . дои : 10.1007/s00248-004-0035-5 . JSTOR 25153200 . ПМИД 16003474 . S2CID 22300174 .
- ^ Уилер Т.Дж., Кечечиоглу Дж.Д. (июль 2007 г.). «Множественное выравнивание путем выравнивания выравниваний» . Биоинформатика . 23 (13): i559–68. doi : 10.1093/биоинформатика/btm226 . ПМИД 17646343 .
- ^ Мурта Ф (1984). «Сложности алгоритмов иерархической кластеризации: современное состояние». Вычислительная статистика Ежеквартальный . 1 : 101–113.