Jump to content

ВПГМА

WPGMA ( взвешенной группы пар метод метод Сокалу арифметическим со средним это простой агломеративный (восходящий) иерархической кластеризации , обычно приписываемый ) — и Миченеру . [1]

Метод WPGMA аналогичен своему невзвешенному варианту — методу UPGMA .

Алгоритм

[ редактировать ]

Алгоритм WPGMA строит корневое дерево ( дендрограмму ), которое отражает структуру, присутствующую в матрице попарных расстояний (или матрице подобия ). На каждом шаге ближайшие два кластера, скажем и , объединяются в кластер более высокого уровня . Тогда его расстояние до другого кластера это просто среднее арифметическое средних расстояний между членами и и и  :

Алгоритм WPGMA создает корневые дендрограммы и требует предположения о постоянной скорости: он создает ультраметрическое дерево, в котором расстояния от корня до каждой вершины ветвей равны. Это предположение об ультраметричности называется молекулярными часами , когда кончики включают ДНК , РНК и белка данные .

Рабочий пример

[ редактировать ]

Этот рабочий пример основан на JC69 матрице генетических расстояний , рассчитанной на основе выравнивания последовательностей 5S рибосомальной РНК пяти бактерий: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Ахолеплазма хоть ( ) и Micrococcus luteus ( ). [2] [3]

Первый шаг

[ редактировать ]
  • Первая кластеризация

Предположим, что у нас есть пять элементов и следующая матрица попарных расстояний между ними:

а б с д и
а 0 17 21 31 23
б 17 0 30 34 21
с 21 30 0 28 39
д 31 34 28 0 43
и 23 21 39 43 0

В этом примере это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины первой ветки

Позволять обозначаем узел, к которому и теперь подключены. Параметр гарантирует, что элементы и равноудалены от . Это соответствует ожиданию гипотезы ультраметричности .Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Первое обновление матрицы расстояний

Затем мы приступаем к обновлению исходной матрицы расстояний. в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с .Жирные значения в соответствуют новым расстояниям, рассчитанным путем усреднения расстояний между каждым элементом первого кластера и каждый из оставшихся элементов:

Значения, выделенные курсивом на них не влияет обновление матрицы, поскольку они соответствуют расстояниям между элементами, не участвующими в первом кластере.

Второй шаг

[ редактировать ]
  • Вторая кластеризация

Теперь мы повторяем три предыдущих шага, начиная с новой матрицы расстояний.  :

(а, б) с д и
(а, б) 0 25.5 32.5 22
с 25.5 0 28 39
д 32.5 28 0 43
и 22 39 43 0

Здесь, это наименьшее значение , поэтому мы присоединяемся к кластеру и элемент .

  • Оценка длины второй ветви

Позволять обозначаем узел, к которому и теперь подключены. Из-за ограничения ультраметричности ветви, соединяющиеся или к , и к равны и имеют следующую длину:

Выводим недостающую длину ветки: ( см. окончательную дендрограмму )

  • Обновление матрицы второго расстояния

Затем мы приступаем к обновлению матрицу в новую матрицу расстояний (см. ниже), уменьшенный в размере на одну строку и один столбец из-за кластеризации с  :

Следует отметить, что этот средний расчет нового расстояния не учитывает больший размер кластер (два элемента) по отношению к (один элемент). Сходным образом:

Таким образом, процедура усреднения придает дифференциальный вес начальным расстояниям матрицы . По этой причине метод взвешивается не по отношению к математической процедуре, а по отношению к начальным расстояниям.

Третий шаг

[ редактировать ]
  • Третья кластеризация

Мы снова повторяем три предыдущих шага, начиная с обновленной матрицы расстояний. .

((а,б),д) с д
((а,б),д) 0 32.25 37.75
с 32.25 0 28
д 37.75 28 0

Здесь, это наименьшее значение , поэтому мы соединяем элементы и .

  • Оценка длины третьей ветви

Позволять обозначаем узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда есть длины ( см. окончательную дендрограмму )

  • Обновление матрицы третьего расстояния

Есть одна запись для обновления:

Последний шаг

[ редактировать ]

Финал матрица:

((а,б),д) (в, г)
((а,б),д) 0 35
(в, г) 35 0

Итак, мы объединяем кластеры и .

Позволять обозначают (корневой) узел, к которому и теперь подключены.Ветви, соединяющиеся и к тогда имейте длину:

Выводим две оставшиеся длины ветвей:

Дендрограмма WPGMA

[ редактировать ]

Данные WPGMA Дендрограммы 5S
WPGMA Dendrogram 5S data

Дендрограмма готова. Он ультраметрический, потому что все кончики ( к ) равноудалены от  :

Таким образом, дендрограмма имеет корни , его самый глубокий узел.

Сравнение с другими связями

[ редактировать ]

Альтернативные схемы связей включают кластеризацию с одной связью , кластеризацию с полной связью и кластеризацию со средней связью UPGMA . Реализация другой связи — это просто вопрос использования другой формулы для расчета расстояний между кластерами на этапах обновления матрицы расстояний вышеуказанного алгоритма. Полная кластеризация позволяет избежать недостатка альтернативного метода кластеризации с одной связью — так называемого явления цепочки , при котором кластеры, сформированные с помощью кластеризации с одной связью, могут быть объединены вместе из-за того, что отдельные элементы находятся близко друг к другу, даже если многие элементы в каждом из них кластеры могут находиться очень далеко друг от друга. Полная связь имеет тенденцию находить компактные кластеры примерно одинакового диаметра. [4]

Сравнение дендрограмм, полученных разными методами кластеризации из одной и той же матрицы расстояний .
Кластеризация с одной связью Кластеризация с полной связью Кластеризация средних связей: WPGMA. Кластеризация средней связи: UPGMA

См. также

[ редактировать ]
  1. ^ Сокаль , Миченер (1958). «Статистический метод оценки систематических связей» . Научный бюллетень Канзасского университета . 38 : 1409–1438.
  2. ^ Эрдманн В.А., Уолтерс Дж. (1986). «Коллекция опубликованных последовательностей рибосомальных РНК 5S, 5,8S и 4,5S» . Исследования нуклеиновых кислот . 14 Дополнение (Suppl): r1–59. дои : 10.1093/nar/14.suppl.r1 . ПМК   341310 . ПМИД   2422630 .
  3. ^ Олсен Дж.Дж. (1988). «Филогенетический анализ с использованием рибосомальной РНК». Рибосомы . Методы энзимологии. Том. 164. стр. 793–812. дои : 10.1016/s0076-6879(88)64084-5 . ISBN  978-0-12-182065-7 . ПМИД   3241556 .
  4. ^ Эверитт, бакалавр наук; Ландау, С.; Лиз, М. (2001). Кластерный анализ. 4-е издание . Лондон: Арнольд. стр. 62–64.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 299864092f5e64984412218e17878977__1720509420
URL1:https://arc.ask3.ru/arc/aa/29/77/299864092f5e64984412218e17878977.html
Заголовок, (Title) документа по адресу, URL1:
WPGMA - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)