Модели эволюции ДНК
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Ноябрь 2010 г. ) |
ряд различных марковских моделей эволюции последовательностей ДНК . Был предложен [1] Эти модели замещения различаются параметрами, используемыми для описания скорости, с которой один нуклеотид заменяет другой в ходе эволюции. Эти модели часто используются в молекулярно-филогенетическом анализе . В частности, они используются при расчете правдоподобия дерева (в байесовском подходе и подходе максимального правдоподобия к оценке дерева) и для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.
Введение [ править ]
Эти модели представляют собой феноменологическое описание эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не отражают ни механизм мутации, ни действие естественного отбора. Скорее они описывают относительные скорости различных изменений. Например, мутационные предвзятости и очищающий отбор в пользу консервативных изменений, вероятно, ответственны за относительно высокую частоту переходов по сравнению с трансверсиями в развивающихся последовательностях. Однако описанная ниже модель Кимуры (К80) лишь пытается уловить влияние обеих сил в параметре, который отражает относительную скорость перехода к трансверсиям.
Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать через мгновенные скорости изменения между различными состояниями ( матрицы Q ниже). модели Если нам даны начальное (предковое) состояние в одной позиции, матрица Q и длина ветви, выражающая ожидаемое количество изменений, которые произошли со времени предка, то мы можем вывести вероятность того, что последовательность-потомок будет иметь каждый из четырех государства. Математические детали этого преобразования из матрицы ставок в матрицу вероятностей описаны в разделе математики моделей замещения на странице модели замещения . Выражая модели в терминах мгновенных скоростей изменений, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает в себя множество парных сравнений последовательностей).
Модели, описанные на этой странице, описывают эволюцию одного сайта в наборе последовательностей. Их часто используют для анализа эволюции целого локуса , делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены . Это предположение может быть оправданным, если можно предположить, что сайты развиваются нейтрально . Если основным эффектом естественного отбора на эволюцию последовательностей является ограничение некоторых сайтов, то можно использовать модели гетерогенности скорости между сайтами. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.
непрерывная Маркова цепь Эволюция ДНК как
Цепи Маркова временем непрерывным с
с непрерывным временем Цепи Маркова имеют обычные матрицы перехода. которые, кроме того, параметризуются временем, . В частности, если являются состояниями, то матрица перехода
- где каждая отдельная запись, относится к вероятности того, что состояние изменится на состояние вовремя .
Пример: Мы хотели бы смоделировать процесс замещения в последовательностях ДНК ( например , Джукса-Кантора , Кимуры и т. д. ) в непрерывном режиме. Соответствующие матрицы перехода будут иметь вид:
где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятностям перехода , а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятностям трансверсии .
Предположение: если в какой-то момент , цепь Маркова находится в состоянии , то вероятность того, что в момент времени , он будет в состоянии зависит только от , и . Это позволяет нам записать эту вероятность как .
Теорема: Матрицы перехода с непрерывным временем удовлетворяют:
Примечание. Здесь возможна путаница между двумя значениями слова «переход» . (i) В контексте цепей Маркова переход — это общий термин, обозначающий переход между двумя состояниями. (ii) В контексте нуклеотидных изменений в последовательностях ДНК переход — это особый термин, обозначающий обмен либо между двумя пуринами (A ↔ G), либо двумя пиримидинами (C ↔ T) (дополнительную информацию см. в статье о переходах). по генетике ). Напротив, обмен между одним пуриновым и одним пиримидиновым называется трансверсией .
Вывод динамики замещения [ править ]
Рассмотрим последовательность ДНК фиксированной длины m, эволюционирующую во времени за счет замены оснований. Предположим, что процессы, сопровождаемые m узлами, независимы по марковски, одинаково распределены и что процесс постоянен во времени. Для конкретного сайта пусть
быть набором возможных состояний сайта, и
их соответствующие вероятности в момент времени . Для двух различных , позволять быть скоростью перехода из состояния заявить . Аналогично для любого , пусть общая скорость изменения от быть
Изменения в распределении вероятностей за небольшие промежутки времени даны
Другими словами (говоря частотным языком), частота вовремя равна частоте в момент времени минус частота потерянных плюс частота вновь созданных х.
Аналогично для вероятностей , и . Эти уравнения можно компактно записать в виде
где
известна как матрица ставок . Обратите внимание, что по определению сумма записей в каждой строке равен нулю. Отсюда следует, что
Для стационарного процесса , где не зависит от времени t , это дифференциальное уравнение можно решить. Первый,
где обозначает экспоненту матрицы . Как результат,
Эргодичность [ править ]
Если цепь Маркова неприводима [ сломанный якорь ] , т.е. если всегда можно выйти из состояния в состояние (возможно, в несколько шагов), то оно также эргодично . В результате он имеет уникальное стационарное распределение , где соответствует доле времени, проведенного в состоянии после того, как цепь Маркова проработала бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты соответствуют равновесным базовым составам. Действительно, заметим, что поскольку стационарное распределение удовлетворяет , мы видим, что когда текущее распределение это стационарное распределение у нас есть
Другими словами, частоты не меняйте.
Обратимость времени [ править ]
Определение : Стационарный марковский процесс обратим во времени, если (в установившемся состоянии) величина изменения состояния к равен сумме изменения от к , (хотя эти два состояния могут возникать с разной частотой). Это означает, что:
Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.
В предположении обратимости времени пусть , то легко увидеть, что:
Определение. Симметричный термин. называется обменностью между состояниями и . Другими словами, - это доля частоты состояния это результат переходов из состояния заявить .
Следствие. 12 недиагональных элементов матрицы ставок, (обратите внимание, что недиагональные записи определяют диагональные записи, поскольку строки сумма до нуля) полностью определяется 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты. , (поскольку сумма стационарных частот равна 1).
Масштабирование длины ветвей [ править ]
Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий ( расстояние Хэмминга ) между последовательностями часто приводит к недооценке количества замен из-за множественных совпадений (см. гомоплазия ). Попытка оценить точное количество произошедших изменений сложна, и обычно в этом нет необходимости. Вместо этого длины ветвей (и длины путей) в филогенетическом анализе обычно выражаются в ожидаемом количестве изменений на сайт. Длина пути — это произведение продолжительности пути во времени и средней скорости замен. Хотя их произведение можно оценить, скорость и время невозможно определить по расхождению последовательностей.
Описания матриц скоростей на этой странице точно отражают относительную величину различных замен, но эти матрицы скоростей не масштабируются таким образом, чтобы длина ветви, равная 1, давала одно ожидаемое изменение. Это масштабирование может быть достигнуто путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения коэффициента масштабирования, а ν для обозначения длины ветви, измеряемой в ожидаемом количестве замен на сайт, тогда βν используется в формулах вероятности перехода ниже вместо µ t . Обратите внимание, что ν — это параметр, который необходимо оценить на основе данных, и он называется длиной ветки, а β — это просто число, которое можно вычислить из матрицы скоростей (это не отдельный свободный параметр).
Значение β можно найти, придав ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скоростей ( матрицы Q ) представляют -1-кратную скорость выхода из каждого состояния. Для обратимых во времени моделей мы знаем частоты состояний равновесия (это просто значение параметра π i для состояния i ). Таким образом, мы можем найти ожидаемую скорость изменений, рассчитав сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут принадлежать к этому классу. Установка β как обратной величины этой суммы будет гарантировать, что масштабированный процесс будет иметь ожидаемый поток, равный 1:
Например, в алгоритме Джукса-Кантора масштабный коэффициент будет равен 4/(3μ), поскольку скорость выхода из каждого состояния равна 3μ/4 .
эволюции ДНК распространенные Наиболее модели
Модель JC69 (Jukes and Cantor, 1969 г. )
JC69, модель Jukes and Cantor 1969 года выпуска, [2] Это простейшая модель замещения . Есть несколько предположений. Предполагается равные базовые частоты и равные скорости мутаций . Таким образом, единственным параметром этой модели является , общий коэффициент замещения. Как упоминалось ранее, эта переменная становится константой, когда мы нормализуем среднюю скорость до 1.
При длине ветки , измеряется ожидаемым количеством изменений на сайт, тогда:
Стоит отметить, что что означает сумма любого столбца (или строки) матрицы умножается на время и, таким образом, означает ожидаемое количество замен во времени. (длительность ветвления) для каждого конкретного сайта (на сайт), когда скорость замещения равна .
Учитывая пропорцию сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями определяется выражением
The в этой формуле часто называют -расстояние. Это достаточная статистика для расчета поправки на расстояние Джукса – Кантора, но недостаточна для расчета эволюционного расстояния в рамках более сложных моделей, которые следуют ниже (также обратите внимание, что используемый в последующих формулах, не идентичен " -расстояние").
Модель К80 (Кимура 1980 г.) [ править ]
К80, Кимура модели 1980 года, [3] часто называемая двухпараметрической моделью Кимуры (или моделью K2P ), различает переходы ( , т.е. от пурина к пурину, или , т.е. из пиримидина в пиримидин) и трансверсии (из пурина в пиримидин или наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более распространено устанавливать скорость трансверсий равной 1 и использовать κ для обозначения соотношения скоростей перехода/трансверсии (как сделано ниже). Модель К80 предполагает, что все основания одинаково часты ( ).
Матрица ставок со столбцами, соответствующими , , , и , соответственно.
Двухпараметрическое расстояние Кимуры определяется выражением:
где p — доля сайтов, демонстрирующих переходные различия и q — доля сайтов, демонстрирующих трансверсионные различия.
Модель К81 (Кимура 1981 г.) [ править ]
К81, Кимура модели 1981 года, [4] Часто называемая трехпараметрической моделью Кимуры (модель K3P) или моделью трех типов замещения Кимуры (K3ST), имеет разные скорости переходов и два разных типа трансверсий . Два типа трансверсии – это те, которые сохраняют слабые/сильные свойства нуклеотидов (т.е. и , обозначается символом [4] ) и те, которые сохраняют амино/кето-свойства нуклеотидов (т.е. и , обозначается символом [4] ). Модель K81 предполагает, что все равновесные базовые частоты равны (т.е. ).
Матрица ставок со столбцами, соответствующими , , , и , соответственно.
Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояний, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжает изучаться в контексте математической филогенетики. [5] [6] [7] Одним из важных свойств является способность выполнять преобразование Адамара при условии, что шаблоны сайтов были созданы на дереве с нуклеотидами, развивающимися в соответствии с моделью K81. [8] [9] [10]
При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантный и полностью обратимый способ расчета ожидаемых частот шаблонов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих расчетов максимального правдоподобия, относительные значения для , , и могут варьироваться в зависимости от ветви, а преобразование Адамара может даже свидетельствовать о том, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для учета неоднородности скорости между сайтами. [11] использование непрерывных распределений, а не дискретных приближений, обычно используемых в филогенетике максимального правдоподобия [12] (хотя нужно пожертвовать обратимостью преобразования Адамара, чтобы использовать определенные распределения неоднородности скорости между сайтами [11] ).
Модель F81 (Фельзенштейн, 1981 г. )
F81, модель Felsenstein 1981 года выпуска. [13] является расширением модели JC69, в которой базовые частоты могут варьироваться от 0,25 ( )
Матрица тарифов:
Когда длина ветки ν измеряется ожидаемым количеством изменений на сайт, тогда:
, Кишино и Яно, 1985 Модель HKY85 ( Хасэгава г. )
HKY85, модель Хасэгава, Кишино и Яно 1985 года, [14] можно рассматривать как объединение расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, он различает скорость переходов и трансверсий (с использованием параметра κ) и допускает неравные базовые частоты ( ). [ Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию; [15] эта последняя модель называется моделью F84. [16] ]
Матрица ставок
Если мы выразим длину ветки ν через ожидаемое количество изменений на сайт, то:
а формулу для других комбинаций состояний можно получить, подставив соответствующие базовые частоты.
Модель Т92 (Тамура 1992 г.) [ править ]
Т92, Тамура образца 1992 года, [17] представляет собой математический метод, разработанный для оценки количества нуклеотидных замен на сайт между двумя последовательностями ДНК путем расширения двухпараметрического метода Кимуры (1980) на случай, когда существует систематическая ошибка в содержании G+C . Этот метод будет полезен, когда есть сильные смещения переход-трансверсия и содержание G + C, как в случае с митохондриальной ДНК дрозофилы . [17]
T92 включает в себя один составной параметр базовой частоты. (также отмечено )
Поскольку T92 повторяет второе правило четности Чаргаффа — спаривающиеся нуклеотиды имеют одинаковую частоту в одной цепи ДНК, G и C с одной стороны, а A и T с другой — из этого следует, что четыре основные частоты могут быть выражены как функция
и
Матрица ставок
Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением
где и — это контент G+C ( ).
Модель TN93 (Тамура и Ней, 1993 г.) [ править ]
ТН93, модель Тамура и Ней 1993 года выпуска, [18] различает два разных типа перехода ; то есть ( ) может иметь скорость, отличную от ( ). Предполагается, что все трансверсии происходят с одинаковой скоростью, но эта скорость может отличаться от обеих скоростей переходов.
TN93 также допускает неравные базовые частоты ( ).
Матрица ставок
Модель GTR (Таваре, 1986 ) г.
ОТО, обобщенная обратимая во времени модель Таваре 1986 г., [19] является наиболее общей нейтральной, независимой, обратимой во времени моделью с конечными узлами. Впервые в общей форме он был описан Симоном Таваре в 1986 году. [19]
Параметры GTR состоят из вектора равновесной базовой частоты, , определяющий частоту, с которой каждое основание встречается на каждом сайте, и матрицу скоростей
Где
– параметры скорости перехода.
Следовательно, ГТР (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 равновесных параметров базовой частоты. Однако обычно это исключается до 9 параметров плюс , общее количество замен в единицу времени. При измерении времени в заменах ( =1) осталось всего 8 свободных параметров.
В общем, чтобы вычислить количество параметров, необходимо подсчитать количество записей над диагональю в матрице, т.е. для n значений признаков на сайт. , а затем прибавьте n для равновесных базовых частот и вычтите 1, потому что фиксировано. Получаешь
Например, для аминокислотной последовательности (есть 20 «стандартных» аминокислот, составляющих белки ) можно обнаружить 209 параметров. Однако при изучении кодирующих участков генома чаще работают с моделью замены кодонов (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть кодонов, но скорость переходов между кодонами, отличающимися более чем на одно основание, считается равной нулю. Следовательно, существуют параметры.
См. также [ править ]
Ссылки [ править ]
- ^ Аренас, Мигель (2015). «Тенденции в моделях замещения молекулярной эволюции» . Границы генетики . 6 : 319. дои : 10.3389/fgene.2015.00319 . ISSN 1664-8021 . ПМЦ 4620419 . ПМИД 26579193 .
- ^ Джукс Т.Х., Кантор Ч.Р. (1969). Эволюция белковых молекул . Нью-Йорк: Академическая пресса. стр. 21–132.
- ^ Кимура М. (декабрь 1980 г.). «Простой метод оценки скорости эволюции оснований посредством сравнительных исследований нуклеотидных последовательностей». Журнал молекулярной эволюции . 16 (2): 111–20. Бибкод : 1980JMolE..16..111K . дои : 10.1007/BF01731581 . ПМИД 7463489 . S2CID 19528200 .
- ^ Jump up to: Перейти обратно: а б с Кимура М. (январь 1981 г.). «Оценка эволюционных расстояний между гомологичными нуклеотидными последовательностями» . Труды Национальной академии наук Соединенных Штатов Америки . 78 (1): 454–8. Бибкод : 1981PNAS...78..454K . дои : 10.1073/pnas.78.1.454 . ПМК 319072 . ПМИД 6165991 .
- ^ Бэшфорд Дж.Д., Джарвис П.Д., Самнер Дж.Г., Стил Массачусетс (25 февраля 2004 г.). «U (1) × U (1) × U (1) симметрия модели Кимуры 3ST и процессы филогенетического ветвления». Журнал физики A: Математический и общий . 37 (8): Л81–Л89. arXiv : q-bio/0310037 . дои : 10.1088/0305-4470/37/8/L01 . S2CID 7845860 .
- ^ Самнер Дж.Г., Чарльстон М.А., Джермин Л.С., Джарвис П.Д. (август 2008 г.). «Марковские инварианты, плетизмы и филогенетика». Журнал теоретической биологии . 253 (3): 601–15. arXiv : 0711.3503 . Бибкод : 2008JThBi.253..601S . дои : 10.1016/j.jtbi.2008.04.001 . ПМИД 18513747 . S2CID 6851591 .
- ^ Самнер Дж.Г., Джарвис П.Д., Холланд Б.Р. (декабрь 2014 г.). «Тензорный подход к инверсии групповых филогенетических моделей» . Эволюционная биология BMC . 14 (1): 236. дои : 10.1186/s12862-014-0236-6 . ПМК 4268818 . ПМИД 25472897 .
- ^ Хенди, доктор медицинских наук, Пенни Д., Стил, Массачусетс (апрель 1994 г.). «Дискретный анализ Фурье эволюционных деревьев» . Труды Национальной академии наук Соединенных Штатов Америки . 91 (8): 3339–43. Бибкод : 1994PNAS...91.3339H . дои : 10.1073/pnas.91.8.3339 . ПМК 43572 . ПМИД 8159749 .
- ^ Хенди, доктор медицины (2005). «Спряжение Адамара: аналитический инструмент филогенетики» . В Гаскуэле О (ред.). Математика эволюции и филогении . Издательство Оксфордского университета. стр. 143–177. ISBN 978-0198566106 .
- ^ Хенди, доктор медицинских наук, Снир С. (июль 2008 г.). «Сопряжение Адамара для модели Кимуры 3ST: комбинаторное доказательство с использованием наборов путей». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 5 (3): 461–71. arXiv : q-bio/0505055 . дои : 10.1109/TCBB.2007.70227 . ПМИД 18670048 . S2CID 20633916 .
- ^ Jump up to: Перейти обратно: а б Уодделл П.Дж., Пенни Д., Мур Т. (август 1997 г.). «Конъюгации Адамара и моделирование эволюции последовательностей с неравной скоростью в разных сайтах». Молекулярная филогенетика и эволюция . 8 (1): 33–50. дои : 10.1006/mpev.1997.0405 . ПМИД 9242594 .
- ^ Ян Цзы (сентябрь 1994 г.). «Филогенетическая оценка максимального правдоподобия по последовательностям ДНК с переменной скоростью в разных сайтах: приближенные методы». Журнал молекулярной эволюции . 39 (3): 306–14. Бибкод : 1994JMolE..39..306Y . CiteSeerX 10.1.1.305.951 . дои : 10.1007/BF00160154 . ПМИД 7932792 . S2CID 17911050 .
- ^ Фельзенштейн Дж (1981). «Эволюционные деревья на основе последовательностей ДНК: подход максимального правдоподобия». Журнал молекулярной эволюции . 17 (6): 368–76. Бибкод : 1981JMolE..17..368F . дои : 10.1007/BF01734359 . ПМИД 7288891 . S2CID 8024924 .
- ^ Хасэгава М., Кишино Х., Яно Т. (1985). «Датировка расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК». Журнал молекулярной эволюции . 22 (2): 160–74. Бибкод : 1985JMolE..22..160H . дои : 10.1007/BF02101694 . ПМИД 3934395 . S2CID 25554168 .
- ^ Кишино Х., Хасэгава М. (август 1989 г.). «Оценка максимального правдоподобия топологий эволюционного дерева на основе данных о последовательностях ДНК и порядка ветвления у гоминоидов». Журнал молекулярной эволюции . 29 (2): 170–9. Бибкод : 1989JMolE..29..170K . дои : 10.1007/BF02100115 . ПМИД 2509717 . S2CID 8045061 .
- ^ Фельзенштейн Дж., Черчилль Г.А. (январь 1996 г.). «Подход скрытой марковской модели к вариациям скорости эволюции между участками» . Молекулярная биология и эволюция . 13 (1): 93–104. doi : 10.1093/oxfordjournals.molbev.a025575 . hdl : 1813/31897 . ПМИД 8583911 .
- ^ Jump up to: Перейти обратно: а б Тамура К. (июль 1992 г.). «Оценка количества нуклеотидных замен при наличии сильных смещений переход-трансверсия и содержание G + C» . Молекулярная биология и эволюция . 9 (4): 678–87. doi : 10.1093/oxfordjournals.molbev.a040752 . ПМИД 1630306 .
- ^ Тамура К., Ней М. (май 1993 г.). «Оценка количества нуклеотидных замен в контрольной области митохондриальной ДНК человека и шимпанзе» . Молекулярная биология и эволюция . 10 (3): 512–26. doi : 10.1093/oxfordjournals.molbev.a040023 . ПМИД 8336541 .
- ^ Jump up to: Перейти обратно: а б Таваре С (1986). «Некоторые вероятностные и статистические проблемы анализа последовательностей ДНК» (PDF) . Лекции по математике в науках о жизни . 17 : 57–86.
Дальнейшее чтение [ править ]
- Гу X, Ли WH (сентябрь 1992 г.). «Более высокие показатели замены аминокислот у грызунов, чем у людей» . Молекулярная филогенетика и эволюция . 1 (3): 211–4. дои : 10.1016/1055-7903(92)90017-Б . ПМИД 1342937 .
- Ли В.Х., Эллсуорт Д.Л., Крушкал Дж., Чанг Б.Х., Хьюитт-Эмметт Д. (февраль 1996 г.). «Скорость замены нуклеотидов у приматов и грызунов и гипотеза эффекта времени генерации». Молекулярная филогенетика и эволюция . 5 (1): 182–7. дои : 10.1006/mpev.1996.0012 . ПМИД 8673286 .
Внешние ссылки [ править ]
- DAWG: DNA Assembly With Gaps — бесплатное программное обеспечение для моделирования эволюции последовательностей.