Jump to content

УПГМА

UPGMA ( метод невзвешенных парных групп со средним арифметическим ) — это простой агломеративный (восходящий) метод иерархической кластеризации . У него также есть взвешенный вариант, WPGMA , и их обычно приписывают Сокалю и Миченеру . [1]

Обратите внимание, что невзвешенный термин указывает, что все расстояния в равной степени вносят вклад в каждое вычисляемое среднее значение, и не относится к математическим расчетам, с помощью которых оно достигается. Таким образом, простое усреднение в WPGMA дает взвешенный результат, а пропорциональное усреднение в UPGMA дает невзвешенный результат ( см. рабочий пример ). [2]

Алгоритм

[ редактировать ]

Алгоритм UPGMA строит корневое дерево ( дендрограмму ), которое отражает структуру, присутствующую в матрице попарного сходства (или матрице несходства ).На каждом шаге два ближайших кластера объединяются в кластер более высокого уровня. Расстояние между любыми двумя кластерами и , каждый из размеров ( т. е . мощности ) и , принимается как среднее всех расстояний между парами объектов в и в , то есть среднее расстояние между элементами каждого кластера:

Другими словами, на каждом этапе кластеризации обновляемое расстояние между объединенными кластерами и новый кластер определяется пропорциональным усреднением и расстояния:

Алгоритм UPGMA создает корневые дендрограммы и требует допущения о постоянной скорости, то есть предполагает ультраметрическое дерево, в котором расстояния от корня до каждой вершины ветвей равны. Когда кончики представляют собой молекулярные данные ( ДНК т.е. , РНК и белок ) , отобранные одновременно, предположение об ультраметричности становится эквивалентным предположению о молекулярных часах .

Рабочий пример

[ редактировать ]

Этот рабочий пример основан на JC69 матрице генетических расстояний , рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Ахолеплазма хоть ( ) и Micrococcus luteus ( ). [3] [4]

Первый шаг

[ редактировать ]
  • Первая кластеризация

Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:

а б с д и
а 0 17 21 31 23
б 17 0 30 34 21
с 21 30 0 28 39
д 31 34 28 0 43
и 23 21 39 43 0

В этом примере это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины первой ветки

Позволять обозначаем узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданию гипотезы ультраметричности .Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Первое обновление матрицы расстояний

Затем мы приступаем к обновлению исходной матрицы расстояний. в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с .Жирные значения в соответствуют новым расстояниям, рассчитанным путем усреднения расстояний между каждым элементом первого кластера и каждый из оставшихся элементов:

Значения, выделенные курсивом на них не влияет обновление матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.

Второй шаг

[ редактировать ]
  • Вторая кластеризация

Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.

(а, б) с д и
(а, б) 0 25.5 32.5 22
с 25.5 0 28 39
д 32.5 28 0 43
и 22 39 43 0

Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру и элемент .

  • Оценка длины второй ветви

Позволять обозначаем узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или к , и к равны и имеют следующую длину:

Выводим недостающую длину ветки: ( см. окончательную дендрограмму )

  • Обновление матрицы второго расстояния

Затем приступаем к обновлению в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с . Жирные значения в соответствуют новым расстояниям, рассчитанным пропорциональным усреднением :

Благодаря этому пропорциональному среднему при расчете этого нового расстояния учитывается больший размер кластер (два элемента) по отношению к (один элемент). Сходным образом:

Таким образом, пропорциональное усреднение придает равный вес начальным расстояниям матрицы. . По этой причине метод является невзвешенным не по отношению к математической процедуре, а по отношению к начальным расстояниям.

Третий шаг

[ редактировать ]
  • Третья кластеризация

Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .

((а,б),д) с д
((а,б),д) 0 30 36
с 30 0 28
д 36 28 0

Здесь, это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины третьей ветви

Позволять обозначаем узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Обновление матрицы третьего расстояния

Для обновления требуется одна запись, учитывая, что два элемента и каждый имеет вклад в среднем расчете :

Последний шаг

[ редактировать ]

Финал матрица:

((а,б),д) (в, г)
((а,б),д) 0 33
(в, г) 33 0

Итак, мы объединяем кластеры и .

Позволять обозначают (корневой) узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда имейте длину:

Выводим две оставшиеся длины ветвей:

Дендрограмма UPGMA

[ редактировать ]

Дендрограмма готова. [5] Он ультраметрический, потому что все кончики ( к ) равноудалены от  :

Таким образом, дендрограмма имеет корни , его самый глубокий узел.

Сравнение с другими связями

[ редактировать ]

Альтернативные схемы связи включают кластеризацию с одной связью , полную кластеризацию связи и кластеризацию средней связи WPGMA . Реализация другой связи — это просто вопрос использования другой формулы для расчета расстояний между кластерами на этапах обновления матрицы расстояний вышеуказанного алгоритма. Кластеризация с полной связью позволяет избежать недостатка альтернативного метода кластеризации с одной связью - так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом из них кластеры могут находиться очень далеко друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [6]

Сравнение дендрограмм, полученных разными методами кластеризации из одной и той же матрицы расстояний .
Кластеризация с одной связью Кластеризация с полной связью Кластеризация средних связей: WPGMA Кластеризация средних связей: UPGMA.

Использование

[ редактировать ]
  • В экологии это один из самых популярных методов классификации единиц выборки (например, участков растительности) на основе их попарного сходства по соответствующим переменным дескриптора (например, видовому составу). [7] Например, его использовали для понимания трофического взаимодействия между морскими бактериями и протистами. [8]
  • В биоинформатике UPGMA используется для создания фенетических деревьев (фенограмм). UPGMA изначально был разработан для использования в исследованиях электрофореза белков , но в настоящее время чаще всего используется для создания направляющих деревьев для более сложных алгоритмов. Этот алгоритм, например, используется в процедурах выравнивания последовательностей , поскольку он предлагает один порядок, в котором последовательности будут выравниваться. Действительно, направляющее дерево направлено на группировку наиболее похожих последовательностей, независимо от скорости их эволюции или филогенетического сходства, и это именно цель UPGMA. [9]
  • В филогенетике UPGMA предполагает постоянную скорость эволюции ( гипотеза молекулярных часов ) и то, что все последовательности были отобраны в одно и то же время, и не является общепризнанным методом вывода взаимосвязей, если это предположение не было проверено и обосновано для используемого набора данных. использовал. Обратите внимание, что даже при «строгих часах» последовательности, выбранные в разное время, не должны приводить к ультраметрическому дереву.

Временная сложность

[ редактировать ]

Тривиальная реализация алгоритма построения дерева UPGMA имеет временная сложность, а использование кучи для каждого кластера для сохранения его расстояний от другого кластера сокращает время . Фионн Мурта представил алгоритм времени и пространства. [10]

См. также

[ редактировать ]
  1. ^ Сокаль , Миченер (1958). «Статистический метод оценки систематических связей» . Научный бюллетень Канзасского университета . 38 : 1409–1438.
  2. ^ Гарсия С., Пуигбо П. «DendroUPGMA: утилита для построения дендрограмм» (PDF) . п. 4.
  3. ^ Эрдманн В.А., Уолтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S» . Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1–59. дои : 10.1093/nar/14.suppl.r1 . ПМК   341310 . ПМИД   2422630 .
  4. ^ Олсен Дж.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5 . ISBN  978-0-12-182065-7 . ПМИД   3241556 .
  5. ^ Суоффорд Д.Л., Олсен Г.Дж., Уодделл П.Дж., Хиллис Д.М. (1996). «Филогенетический вывод». В Hillis DM, Moritz C, Mable BK (ред.). Молекулярная систематика, 2-е издание . Сандерленд, Массачусетс: Синауэр. стр. 407–514. ISBN  9780878932825 .
  6. ^ Эверитт, бакалавр наук; Ландау, С.; Лиз, М. (2001). Кластерный анализ. 4-е издание . Лондон: Арнольд. стр. 62–64.
  7. ^ Лежандр П., Лежандр Л. (1998). Численная экология . Развитие экологического моделирования. Том. 20 (Второе английское изд.). Амстердам: Эльзевир.
  8. ^ Васкес-Домингес Э., Касамайор Э.О., Катала П., Лебарон П. (апрель 2005 г.). «Различные морские гетеротрофные нанофлагелляты по-разному влияют на состав обогащенных бактериальных сообществ». Микробная экология . 49 (3): 474–85. Бибкод : 2005MicEc..49..474V . дои : 10.1007/s00248-004-0035-5 . JSTOR   25153200 . ПМИД   16003474 . S2CID   22300174 .
  9. ^ Уилер Т.Дж., Кечечиоглу Дж.Д. (июль 2007 г.). «Множественное выравнивание путем выравнивания выравниваний» . Биоинформатика . 23 (13): i559–68. doi : 10.1093/биоинформатика/btm226 . ПМИД   17646343 .
  10. ^ Мурта Ф (1984). «Сложности алгоритмов иерархической кластеризации: современное состояние». Вычислительная статистика Ежеквартальный . 1 : 101–113.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 699dc6aaea4c24ae8d542745647fc723__1720508940
URL1:https://arc.ask3.ru/arc/aa/69/23/699dc6aaea4c24ae8d542745647fc723.html
Заголовок, (Title) документа по адресу, URL1:
UPGMA - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)