Jump to content

Филогенетические инварианты

Филогенетические инварианты [1] представляют собой полиномиальные отношения между частотами различных шаблонов сайтов в идеализированном выравнивании множественных последовательностей ДНК . Они получили существенное исследование в области биоматематики , и их можно использовать для выбора топологии филогенетического дерева в эмпирических условиях. Основное преимущество филогенетических инвариантов по сравнению с другими методами филогенетической оценки, такими как анализ максимального правдоподобия или байесовский анализ MCMC, заключается в том, что инварианты могут давать информацию о дереве, не требуя оценки длин ветвей параметров модели. Идея использования филогенетических инвариантов была независимо предложена Джеймсом Кавендером и Джозефом Фельзенштейном. [2] и Джеймс А. Лейк [3] в 1987 году.

На данный момент количество программ, позволяющих анализировать наборы эмпирических данных с использованием инвариантов, ограничено. Однако филогенетические инварианты могут обеспечить решения других проблем филогенетики, и по этой причине они представляют собой область активных исследований. Фельзенштейн [4] лучше всего выразил это, когда сказал: «Инварианты заслуживают внимания не из-за того, что они делают для нас сейчас, а из-за того, к чему они могут привести в будущем». (стр. 390)

Если мы рассмотрим множественное выравнивание последовательностей с таксонами t без пробелов или недостающих данных (т. е. идеализированное множественное выравнивание последовательностей ), то существует 4 т возможные шаблоны сайта. Например, существует 256 возможных шаблонов сайтов для четырех таксонов ( f AAAA , f AAAC , f AAAG ,… f TTTT ), которые можно записать в виде вектора. Этот вектор частоты шаблона сайта имеет 255 степеней свободы, поскольку сумма частот должна быть равна единице. Однако любой набор частот шаблонов сайтов, возникший в результате некоторого конкретного процесса эволюции последовательности на конкретном дереве, должен подчиняться множеству ограничений. и поэтому имеют гораздо меньше степеней свободы. Таким образом, должны существовать полиномы, включающие те частоты, которые принимают нулевое значение, если последовательности ДНК были сгенерированы на конкретном дереве с учетом конкретной модели замещения .

Инварианты — это формулы для ожидаемых частот шаблонов, а не наблюдаемых частот шаблонов. Когда они вычисляются с использованием наблюдаемых частот шаблонов, мы обычно обнаруживаем, что они не совсем равны нулю, даже если топология модели и дерева верна. Проверяя, являются ли такие полиномы для различных деревьев «почти нулевыми» при оценке наблюдаемых частот шаблонов в реальных последовательностях данных, можно сделать вывод, какое дерево лучше всего объясняет данные.

Некоторые инварианты являются прямым следствием симметрии в модели нуклеотидных замен и принимают нулевое значение независимо от базовой топологии дерева. Например, если мы предположим модель эволюции последовательностей Джукса-Кантора и дерево из четырех таксонов, мы ожидаем:

Это простое следствие того факта, что базовые частоты ограничены равными в соответствии с моделью Джукса-Кантора. Поэтому их называют инвариантами симметрии . Показанное выше уравнение является лишь одним из большого количества инвариантов симметрии модели Джукса-Кантора; на самом деле для этой модели существует 241 инвариант симметрии.

Инварианты симметрии для модели эволюции ДНК Джукса-Кантора (адаптировано из Felsenstein 2004). [4] )
Категория шаблона сайта Пример шаблона сайта Количество типов узоров Количество шаблонов Полные инварианты, которые приводят
4x xxxx (например, AAAA, CCCC, ...) 1 4 3
3x, 1г xxxy (например, AAAC, AACA, …) 4 12 44
2x, 2 года xxyy (например, AACC, ACCA, …) 3 12 33
2x, 1y, 1z xxyz (например, AACG, ACGA, ...) 6 24 138
1x, 1y, 1z, 1w xyzw (например, ACGT, CGTA, ...) 1 24 23
Итого = 15 241

Инварианты симметрии не имеют филогенетической природы; они принимают нулевое ожидаемое значение независимо от топологии дерева. Однако можно определить, соответствует ли конкретное множественное выравнивание последовательностей модели эволюции Джукса-Кантора (т.е. путем проверки того, присутствуют ли паттерны сайтов соответствующих типов в равных количествах). Также возможны более общие тесты на наиболее подходящую модель с использованием инвариантов. Например, Кедзерска и др. 2012 год [5] использовали инварианты для определения наиболее подходящей модели из определенного набора моделей.

Модели эволюции ДНК , которые можно проверить с помощью Kedzierska et al. (2012) [5] метод инвариантов
Аббревиатура модели Полное название модели
JC69* Джукс-Кантор
К80* Кимура двухпараметрический
К81* Кимура трехпараметрический
ССМ (CS05) Специализированная модель
ГММ Модель генерала Маркова

Звездочка после моделей JC69, K80 и K81 используется, чтобы подчеркнуть неоднородный характер моделей, которые можно исследовать с помощью инвариантов. Эти неоднородные модели включают в себя широко используемые модели JC69, K80 и K81 с непрерывным временем в качестве подмоделей. SSM (модель для конкретной нити) [6] ), также называемый CS05 [7] Модель представляет собой обобщенную неоднородную версию модели HKY (Хасэгава-Кисино-Яно). [8] ограничено равным распределением пар оснований A,T и C,G в каждом узле дерева и не предполагает никаких предположений относительно стабильного распределения оснований. Все перечисленные выше модели являются подмоделями общей модели Маркова. [9] (ГММ). Возможность выполнять тесты с использованием неоднородных моделей представляет собой главное преимущество методов инвариантов по сравнению с более часто используемыми методами максимального правдоподобия для тестирования филогенетических моделей.

Филогенетические инварианты , которые определяются как подмножество инвариантов, которые принимают нулевое значение только тогда, когда последовательности были (или не были) созданы в определенной топологии, вероятно, будут наиболее полезными инвариантами для филогенетических исследований. .

Линейные инварианты Лейка

[ редактировать ]

Инварианты Лейка (которые он назвал «эволюционной экономией») представляют собой прекрасный пример филогенетических инвариантов. Инварианты Лейка включают квартеты, два из которых (неверные топологии) дают значения, равные нулю, а один из которых дает значение, большее нуля. Это можно использовать для построения теста, основанного на следующем инвариантном отношении, которое справедливо для двух неправильных деревьев, когда сайты развиваются в соответствии с двухпараметрической моделью эволюции последовательности Кимуры:

Индексы частот этих шаблонов сайтов указывают на количество оснований, оцененных по отношению к основанию в первом таксоне (который мы называем таксоном А). Если основание 1 — пурин , то основание 2 — это другой пурин, а основания 3 и 4 — пиримидины . Если основание 1 — пиримидин, то основание 2 — другой пиримидин и. основания 3 и 4 являются пуринами. 

Мы назовем три возможных квартетных дерева T X [T X is ((A,B),(C,D)); в формате Ньюика ], TY [ TY is ((A,C),(B,D)); в формате Ньюика] и T Z [T Z равно ((A,D),(B,C)); в формате Ньюика]. Мы можем вычислить три значения на основе данных, чтобы определить лучшую топологию с учетом данных:

Лейк разбил эти ценности на «экономный термин» ( для T X ) «фоновый термин» ( для T X ) и предлагает проверить отклонение от нуля путем расчета и выполнение χ 2 тест с одной степенью свободы . Подобные χ 2 тесты могут быть выполнены для Y и Z. Если одно из трех значений значительно отличается от нуля, соответствующая топология является лучшей оценкой филогении. Преимущество использования инвариантов Лейка относительно максимального правдоподобия или объединения соседей двухпараметрических расстояний Кимуры заключается в том, что инварианты должны соблюдаться независимо от параметров модели, длин ветвей или закономерностей неоднородности скорости между сайтами.

Классическое исследование Джона Хюльзенбека и Дэвида Хиллиса. [10] обнаружили, что инварианты Лейка сходятся к истинному дереву во всем исследованном ими пространстве длин ветвей, когда базовой моделью эволюции является двухпараметрическая модель Кимуры. Однако они также обнаружили, что инварианты Лейка очень неэффективны (для сходимости к правильному дереву необходимы большие объемы данных). Эта неэффективность заставила большинство эмпириков отказаться от использования инвариантов Лейка. Кроме того, поскольку инварианты Лейка основаны на филогенетической оценке двухпараметрической модели Кимуры, использование инвариантов Лейка может не дать истинного дерева, если модель, сгенерировавшая данные, сильно нарушает эту модель.

Современные подходы с использованием филогенетических инвариантов

[ редактировать ]

Низкая эффективность инвариантов Лейка отражает тот факт, что он использовал ограниченный набор генераторов филогенетических инвариантов. Казанеллас и др. [11] представили методы для получения гораздо большего набора генераторов данных ДНК, и это привело к разработке методов инвариантов, которые столь же эффективны, как и методы максимального правдоподобия. [12] Некоторые из этих методов имеют реализации, которые практичны для анализа наборов эмпирических данных.

Эрикссон [13] предложил метод инвариантов для общей модели Маркова, основанный на разложении по сингулярным значениям (SVD) матриц, сгенерированных путем «сглаживания» нуклеотидов, связанных с каждым из листьев (т.е. частотного спектра шаблона сайта). Для каждой топологии создаются разные матрицы выравнивания. Однако сравнения исходного метода SVD Эрикссона (ErikSVD) с объединением соседей и подходом максимального правдоподобия, реализованным в dnaml программы PHYLIP, были неоднозначными; ErikSVD уступал двум другим методам при использовании смоделированных данных, но, похоже, он работал лучше, чем dnaml, при применении к эмпирическому набору данных о млекопитающих, основанному на раннем выпуске данных проекта ENCODE . Первоначальный метод ErikSVD был улучшен Фернандесом-Санчесом и Казанелласом. [14] те, кто предложил нормализацию, назвали Эрик+2. Исходный метод ErikSVD является статистически последовательным (он сходится к истинному дереву по мере того, как эмпирическое распределение приближается к теоретическому распределению); нормализация Erik+2 повышает производительность метода с учетом конечных наборов данных. Он реализован в программном комплексе PAUP* как опция метода SVDquartets.

Квадраты» случайный квартет углов ( « [15] ) представляет собой еще один пример метода инвариантов [16] Эта программа была реализована в программном пакете, который удобно использовать с наборами эмпирических данных. Сканглы позволяют сделать выбор между тремя возможными квартетами, предполагая, что последовательности ДНК развивались в соответствии с общей марковской моделью ; затем квартеты можно собрать с помощью метода супердерева. Есть три квадрата, которые полезны для различения квартетов, которые можно обозначить как q 1 (f), q 2 (f) и q 3 (f) (f — вектор из 256 элементов, содержащий частотный спектр сайта). Каждое q имеет 66744 члена и вместе они удовлетворяют линейному соотношению q 1 + q 2 + q 3 = 0 (т.е. с точностью до линейной зависимости существует только два q значения ). Каждый возможный квартет имеет разные ожидаемые значения для q 1 , q 2 и q 3 :

Ожидаемые значения для q 1 , q 2 и q 3 (адаптировано из Holland et al. 2013). [16] )
Топология дерева

(формат Ньюик)

Квартет Е ( q 1 ) Е ( q 2 ) Е ( q 3 )
((А,В),(С,D)); AB|CD (или 12|34) 0 - в в
((А,С),(В,D)); AC|BD (или 13|24) v 0 - v
((А,D),(В,С)); AD|BC (или 14|23) - В В 0

Ожидаемые значения q 1 , q 2 и q 3 равны нулю в топологии звезды (квартет с нулевой длиной внутренней ветви). Для практичности Холланд и др. [16] использовал метод наименьших квадратов для определения значений q . Эмпирические испытания метода сквотлов были ограничены. [16] [17] но они кажутся многообещающими.

  1. ^ Оллман, Э.С. и. Роудс, Дж. А., «Филогенетические инварианты», в книге «Реконструкция эволюции: новые математические и вычислительные достижения» , под редакцией О. Гаскуэля и М. Стила, Oxford University Press, 2007, 108–147.
  2. ^ Кавендер, Джеймс А.; Фельзенштейн, Джозеф (март 1987 г.). «Инварианты филогений в простом случае с дискретными состояниями» . Журнал классификации . 4 (1): 57–71. дои : 10.1007/BF01890075 . ISSN   0176-4268 . S2CID   121832940 .
  3. ^ Лейк, JA (март 1987 г.). «Независимый от скорости метод анализа последовательностей нуклеиновых кислот: эволюционная экономия» . Молекулярная биология и эволюция . 4 (2): 167–191. doi : 10.1093/oxfordjournals.molbev.a040433 . ISSN   1537-1719 . ПМИД   3447007 .
  4. ^ Jump up to: а б Фельзенштейн, Йозеф. (2004). Выводы о филогениях . Сандерленд, Массачусетс: Sinauer Associates. ISBN  0-87893-177-5 . OCLC   52127769 .
  5. ^ Jump up to: а б Кедзерска, AM; Дртон, М.; Гиго, Р.; Казанеллас, М. (01 марта 2012 г.). «SPIn: выбор модели для филогенетических смесей с помощью линейных инвариантов» . Молекулярная биология и эволюция . 29 (3): 929–937. дои : 10.1093/molbev/msr259 . hdl : 2117/14907 . ISSN   0737-4038 . ПМИД   22009060 .
  6. ^ Казанеллас М., Салливант С. (2005) «Симметричная модель цепи», в «Алгебраической статистике для вычислительной биологии», изд. Пахтер Л., Штурмфельс Б., Издательство Кембриджского университета (глава 16, стр. 305–321)
  7. ^ Пахтер Л., Штурмфельс Б. (2005) «Биология», в «Алгебраической статистике для вычислительной биологии», изд. Пахтер Л., Штурмфельс Б., Издательство Кембриджского университета (глава 4, стр. 125–159)
  8. ^ Хасэгава, Масами; Кишино, Хирохиса; Яно, Така-аки (октябрь 1985 г.). «Датировка расщепления человека и обезьяны по молекулярным часам митохондриальной ДНК» . Журнал молекулярной эволюции . 22 (2): 160–174. дои : 10.1007/BF02101694 . ISSN   0022-2844 . ПМИД   3934395 . S2CID   25554168 .
  9. ^ Барри Д. и Хартиган Дж. А. (1987). Статистический анализ молекулярной эволюции гуманоидов. Статистическая наука , 2 (2), 191–207.
  10. ^ Хюльзенбек, JP; Хиллис, DM (1 сентября 1993 г.). «Успех филогенетических методов в случае четырех таксонов» . Систематическая биология . 42 (3): 247–264. дои : 10.1093/sysbio/42.3.247 . ISSN   1063-5157 .
  11. ^ Казанеллас М., Салливант С. Пахтер Л., Штурмфельс Б. (2005) Каталог малых деревьев, Алгебраическая статистика для вычислительной биологии. Глава 15, Кембридж (Великобритания) Издательство Кембриджского университета
  12. ^ Казанеллас, М; Фернандес-Санчес, Дж (январь 2007 г.). «Эффективность нового метода инвариантов на однородных и неоднородных квартетных деревьях» . Молекулярная биология и эволюция . 24 (1): 288–293. arXiv : q-bio/0610030 . дои : 10.1093/molbev/msl153 . ISSN   1537-1719 . ПМИД   17053050 .
  13. ^ Эрикссон Н. (2005) «Построение дерева с использованием разложения по сингулярным значениям», в «Алгебраической статистике для вычислительной биологии», изд. Пахтер Л., Штурмфельс Б., Издательство Кембриджского университета (глава 19, стр. 347–358)
  14. ^ Фернандес-Санчес, Хесус; Казанеллас, Марта (март 2016 г.). «Инвариантный и классический квартетный вывод, когда эволюция неоднородна в разных местах и ​​линиях» . Систематическая биология . 65 (2): 280–291. arXiv : 1405.6546 . дои : 10.1093/sysbio/syv086 . ISSN   1063-5157 . ПМИД   26559009 .
  15. ^ Самнер Дж.Г. Запутанность, инварианты и филогенетика, 2006 г. [к.т.н. диссертация] Университет Тасмании. Доступно по адресу: URL http://eprints.utas.edu.au/709/.
  16. ^ Jump up to: а б с д Холланд, Барбара Р.; Джарвис, Питер Д.; Самнер, Джереми Г. (1 января 2013 г.). «Низкопараметрический филогенетический вывод в рамках общей модели Маркова» . Систематическая биология . 62 (1): 78–92. дои : 10.1093/sysbio/sys072 . ISSN   1076-836X . ПМИД   22914976 .
  17. ^ Редди, Сушма; Кимбалл, Ребекка Т.; Пандей, Аканкша; Хоснер, Питер А.; Браун, Майкл Дж.; Хакетт, Шеннон Дж.; Хан, Кин-Лан; Харшман, Джон; Хаддлстон, Кристофер Дж.; Кингстон, Сара; Маркс, Бен Д. (сентябрь 2017 г.). «Почему наборы филогеномических данных дают противоречивые деревья? Тип данных влияет на птичье древо жизни больше, чем выборка таксонов» . Систематическая биология . 66 (5): 857–879. doi : 10.1093/sysbio/syx041 . ISSN   1063-5157 . ПМИД   28369655 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c3400fe5dd67adc60cbb1a29529f82e6__1704644340
URL1:https://arc.ask3.ru/arc/aa/c3/e6/c3400fe5dd67adc60cbb1a29529f82e6.html
Заголовок, (Title) документа по адресу, URL1:
Phylogenetic invariants - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)