Алгоритм обрезки деревьев Фельзенштейна
В статистической генетике алгоритм обрезки деревьев Фельзенштейна (или алгоритм очистки деревьев Фельзенштейна ), приписываемый Джозефу Фельзенштейну , представляет собой алгоритм для эффективного расчета вероятности эволюционного дерева на основе данных о последовательностях нуклеиновых кислот . [ 1 ] [ 2 ]
Алгоритм часто используется как подпрограмма при поиске оценки максимального правдоподобия для эволюционного дерева. Кроме того, его можно использовать при проверке гипотезы о постоянстве темпов эволюции (с помощью тестов отношения правдоподобия ). Его также можно использовать для оценки ошибок параметров, описывающих эволюционное дерево.
Подробности
[ редактировать ]
Вероятность появления дерева по определению, это вероятность наблюдения определенных данных ( например, выравнивание нуклеотидных последовательностей, т.е. последовательность сайт ДНК ) с учетом дерева. Часто пишут: .
Вот пример эволюционного дерева на данных произвольной последовательности. :
Это ключевое значение, и его часто довольно сложно вычислить. Чтобы облегчить вычисления, Фельзенштейн и его коллеги использовали несколько предположений, которые широко используются и сегодня. Основное предположение состоит в том, что мутации между участками ДНК независимы друг от друга. Это позволяет вычислить вероятность как простое произведение вероятностей. Теперь вы можете разделить данные между несколькими для каждого нуклеотидного сайта внутри . Глобальная вероятность дерева будет произведением вероятностей каждого сайта:

Если я повторно использую приведенный выше пример, дерево будет:
Второе предположение касается моделей эволюции последовательностей ДНК . Для расчета вероятности необходимы частоты нуклеотидов, а также вероятности перехода (при возникновении мутации вероятность перехода от одного нуклеотида к другому). Простейшей моделью является модель Джукса-Кантора , предполагающая равные частоты нуклеотидов. и равные вероятности перехода от к ( и ) и то же самое для других оснований. Здесь — глобальная скорость мутаций модели.
Фельзенштейн предложил еще больше разложить вычисления, используя «частичные правдоподобия» при вычислении . Вот как это работает.
Предположим, мы находимся на узле на дереве . имеет два дочерних узла и и для каждого основания ДНК присутствовать на , мы можем определить частичную вероятность такой как:
где и также являются основаниями ДНК. - вероятность перехода от нуклеотида в нуклеотид (то же самое для ). это частичная вероятность дочернего узла , оцененный по нуклеотиду (то же самое для ).
Используя эту формулу, нужно начинать с кончиков дерева. , затем двигаемся к корню и вычисляем частичные вероятности каждого необходимого узла на пути (4 частичных правдоподобия на узел). После завершения поиска в корне дерева вероятность дерева (для этого конкретного сайта) равна сумме частичных правдоподобий корня, умноженных на соответствующую частоту нуклеотидов.
После этого для каждого сайта , наконец, можно получить вероятность глобального эволюционного дерева, умножив каждую «субправдоподобие».
Алгоритм
[ редактировать ]Простой пример
[ редактировать ]Ссылки
[ редактировать ]- ^ Фельзенштейн, Дж. (1973). «Методы максимального правдоподобия и минимального шага для оценки эволюционных деревьев на основе данных о дискретных признаках». Систематическая биология . 22 (3): 240–249. дои : 10.1093/sysbio/22.3.240 .
- ^ Фельзенштейн, Дж. (1981). «Эволюционные деревья на основе последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–376. Бибкод : 1981JMolE..17..368F . дои : 10.1007/BF01734359 . ПМИД 7288891 . S2CID 8024924 .