Вычислительная филогенетика
Судя по всему, основной автор этой статьи тесно связан с ее предметом. ( февраль 2024 г. ) |
Вычислительная филогенетика , филогенетический вывод или филогенетический вывод фокусируются на вычислительных и оптимизационных алгоритмах , эвристике и подходах, используемых в филогенетическом анализе. Цель состоит в том, чтобы найти филогенетическое дерево, представляющее оптимальное эволюционное происхождение между набором генов , видов или таксонов . Максимальное правдоподобие , экономичность , байесианство и минимальная эволюция — типичные критерии оптимальности, используемые для оценки того, насколько хорошо топология филогенетического дерева описывает данные последовательности. [1] [2] Обмен ближайшим соседом (NNI), обрезка и пересадка поддерева (SPR) и разделение и пересоединение дерева (TBR), известные как перестановки деревьев , представляют собой детерминированные алгоритмы для поиска оптимального или лучшего филогенетического дерева. Пространство и ландшафт поиска оптимального филогенетического дерева известны как пространство поиска филогении.
Критерий оптимальности максимального правдоподобия (также правдоподобия) — это процесс поиска топологии дерева вместе с длинами его ветвей, который обеспечивает наибольшую вероятность наблюдения за данными последовательности, в то время как критерий оптимальности экономичности — это наименьшее количество эволюционно-состоятельных изменений, необходимых для того, чтобы филогенетическое дерево объясните данные последовательности. [1] [2]
Традиционная филогенетика опирается на морфологические данные, полученные путем измерения и количественной оценки фенотипических свойств репрезентативных организмов, в то время как более поздняя область молекулярной филогенетики использует нуклеотидные последовательности, кодирующие гены, или аминокислотные последовательности, кодирующие белки в качестве основы для классификации .
и широко используют его Многие формы молекулярной филогенетики тесно связаны с выравниванием последовательностей при построении и уточнении филогенетических деревьев, которые используются для классификации эволюционных отношений между гомологичными генами, представленными в геномах дивергентных видов. Филогенетические деревья, построенные с помощью вычислительных методов, вряд ли смогут идеально воспроизвести эволюционное дерево , отражающее исторические отношения между анализируемыми видами. [ нужна ссылка ] Историческое дерево видов также может отличаться от исторического дерева отдельного гомологичного гена, общего для этих видов.
Типы филогенетических деревьев и сетей
[ редактировать ]Филогенетические деревья, созданные с помощью компьютерной филогенетики, могут быть как корневыми , так и некорневыми, в зависимости от входных данных и используемого алгоритма. Корневое дерево — это ориентированный граф , который явно идентифицирует самого последнего общего предка (MRCA). [ нужна ссылка ] обычно входная последовательность, которая не представлена во входных данных. Меры генетического расстояния можно использовать для построения дерева с входными последовательностями в виде конечных узлов и их расстояниями от корня, пропорциональными их генетическому расстоянию от гипотетического MRCA. Идентификация корня обычно требует включения во входные данные по крайней мере одной «внешней группы», о которой известно, что она имеет лишь отдаленное отношение к интересующим последовательностям.
Напротив, некорневые деревья отображают расстояния и отношения между входными последовательностями, не делая предположений относительно их происхождения. Некорневое дерево всегда можно создать из корневого дерева, но корень обычно не может быть помещен в некорневое дерево без дополнительных данных о скорости расхождения, таких как предположение о гипотезе молекулярных часов . [3]
Набор всех возможных филогенетических деревьев для данной группы входных последовательностей можно представить как дискретно определенное многомерное «деревянное пространство», через которое алгоритмы оптимизации могут отслеживать пути поиска . Хотя подсчет общего количества деревьев для нетривиального числа входных последовательностей может быть затруднен из-за различий в определении топологии дерева, всегда верно, что для заданного количества входных данных и выбора параметров существует больше корневых деревьев, чем некорневых. [2]
Как укорененные, так и неукорененные филогенетические деревья могут быть далее обобщены до укорененных или неукорененных филогенетических сетей , которые позволяют моделировать эволюционные явления, такие как гибридизация или горизонтальный перенос генов .
Кодирование символов и определение гомологии
[ редактировать ]Морфологический анализ
[ редактировать ]Основная проблема морфологической филогенетики - это сборка матрицы, представляющей отображение каждого сравниваемого таксона с репрезентативными измерениями для каждой из фенотипических характеристик, используемых в качестве классификатора. Типы фенотипических данных, используемых для построения этой матрицы, зависят от сравниваемых таксонов; для отдельных видов они могут включать измерения среднего размера тела, длины или размеров отдельных костей или других физических особенностей или даже поведенческих проявлений. Конечно, поскольку не все возможные фенотипические характеристики можно измерить и закодировать для анализа, выбор признаков для измерения является основным препятствием для этого метода. Решение о том, какие признаки использовать в качестве основы для матрицы, обязательно представляет собой гипотезу о том, какие признаки вида или более высокого таксона являются эволюционно значимыми. [4] Морфологические исследования могут быть сбиты с толку примерами конвергентной эволюции фенотипов. [5] Основной проблемой при построении полезных классов является высокая вероятность межтаксонного перекрытия в распределении вариаций фенотипа. Включение вымерших таксонов в морфологический анализ часто затруднено из-за отсутствия или неполноты летописей окаменелостей, но было показано, что они оказывают значительное влияние на полученные деревья; в одном исследовании только включение вымерших видов обезьян привело к образованию дерева, морфологически производного, которое соответствовало дереву, полученному на основе молекулярных данных. [6]
Некоторые фенотипические классификации, особенно те, которые используются при анализе весьма разнообразных групп таксонов, дискретны и однозначны; Например, классифицировать организмы на наличие или отсутствие хвоста в большинстве случаев несложно, как и подсчет таких особенностей, как глаза или позвонки. Однако наиболее подходящее представление постоянно меняющихся фенотипических измерений является спорной проблемой, не имеющей общего решения. Обычный метод состоит в том, чтобы просто отсортировать интересующие измерения по двум или более классам, делая непрерывные наблюдаемые вариации дискретно классифицируемыми (например, все примеры с костями плечевой кости длиннее заданного порогового значения оцениваются как представители одного состояния, а все члены, чья плечевая кость кости короче минимального значения оцениваются как представители второго государства). В результате получается набор данных, которым легко манипулировать , но его критикуют за плохое представление основы для определений классов и за принесение в жертву информации по сравнению с методами, которые используют непрерывное взвешенное распределение измерений. [7]
Поскольку сбор морфологических данных, будь то из литературных источников или из полевых наблюдений, чрезвычайно трудоемкий, повторное использование ранее скомпилированных матриц данных не является редкостью, хотя это может привести к распространению недостатков в исходной матрице на несколько производных анализов. [8]
Молекулярный анализ
[ редактировать ]Проблема кодирования символов в молекулярном анализе сильно отличается, поскольку символы в данных биологических последовательностей являются непосредственными и дискретно определенными - отдельные нуклеотиды в последовательностях ДНК или РНК и отдельные аминокислоты в последовательностях белков . Однако определение гомологии может быть затруднено из-за трудностей, присущих множественному выравниванию последовательностей . Для данного MSA с пробелами можно построить несколько укорененных филогенетических деревьев, которые различаются по своей интерпретации того, какие изменения являются « мутациями » по сравнению с наследственными признаками, а какие события являются инсерционными мутациями или делеционными мутациями . Например, учитывая только парное выравнивание с областью пробела, невозможно определить, несет ли одна последовательность инсерционную мутацию или другая несет делецию. Проблема усугубляется в MSA с невыровненными и неперекрывающимися пробелами. На практике значительные области рассчитанного выравнивания могут не учитываться при построении филогенетического дерева, чтобы избежать интеграции зашумленных данных в расчет дерева.
Дистанционно-матричные методы
[ редактировать ]Методы филогенетического анализа с использованием матрицы расстояний явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и, следовательно, они требуют MSA в качестве входных данных. Расстояние часто определяется как доля несовпадений в совмещенных позициях, при этом пробелы либо игнорируются, либо считаются несовпадениями. [3] Методы расстояния пытаются построить матрицу «все ко всем» из набора запросов последовательностей, описывающую расстояние между каждой парой последовательностей. На основе этого строится филогенетическое дерево, которое помещает близкородственные последовательности в один и тот же внутренний узел и длина ветвей которого точно воспроизводит наблюдаемые расстояния между последовательностями. Методы матрицы расстояний могут создавать как корневые, так и некорневые деревья, в зависимости от алгоритма, используемого для их расчета. Они часто используются в качестве основы для прогрессивных и итеративных типов множественного выравнивания последовательностей . Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных регионах с высокой изменчивостью, которые появляются в нескольких поддеревьях. [2]
УПГМА и ВПГМА
[ редактировать ]Методы UPGMA ( метод группы невзвешенных пар со средним арифметическим ) и WPGMA ( метод группы взвешенных пар со средним арифметическим ) создают корневые деревья и требуют допущения о постоянной скорости, то есть предполагается ультраметрическое дерево, в котором расстояния от корня до кончики всех ветвей равны. [9]
Присоединение к соседям
[ редактировать ]Методы объединения соседей применяют общие методы кластерного анализа к анализу последовательностей с использованием генетического расстояния в качестве показателя кластеризации. Простой метод объединения соседей создает некорневые деревья, но он не предполагает постоянную скорость эволюции (т. е. молекулярные часы ) между линиями. [10]
Метод Фитча – Марголиаша
[ редактировать ]Метод Фитча-Марголиаша использует взвешенный метод наименьших квадратов для кластеризации на основе генетического расстояния. [11] Близкородственным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между отдаленно связанными последовательностями. Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы, чтобы предотвратить большие артефакты при вычислении отношений между тесно связанными и отдаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейными ; критерий линейности расстояний требует, чтобы ожидаемые значения длин ветвей для двух отдельных ветвей равнялись ожидаемому значению суммы двух расстояний ветвей - свойство, которое применимо к биологическим последовательностям только тогда, когда они скорректированы на возможность обратного пути. мутации в отдельных сайтах. Эта коррекция осуществляется за счет использования матрицы замещения , например, полученной на основе Джукса-Кантора модели эволюции ДНК . Коррекция расстояния необходима на практике только тогда, когда скорости развития разных ветвей различаются. [2] Другая модификация алгоритма может быть полезна, особенно в случае концентрированных расстояний (см. феномен концентрации меры и проклятие размерности ): эта модификация, описанная в [12] Было показано, что это повышает эффективность алгоритма и его надежность.
Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы соединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, возникающими из многих тесно связанных последовательностей в наборе данных, также может быть применено с увеличением вычислительных затрат. Поиск оптимального дерева наименьших квадратов с любым поправочным коэффициентом является NP-полным , [13] поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в древовидном пространстве.
Использование внешних групп
[ редактировать ]Независимая информация о взаимоотношениях между последовательностями или группами может использоваться, чтобы помочь уменьшить пространство поиска в дереве и укоренить некорневые деревья. Стандартное использование методов матрицы расстояний предполагает включение по крайней мере одной последовательности внешней группы, о которой известно, что она лишь отдаленно связана с интересующими последовательностями в наборе запросов. [3] Такое использование можно рассматривать как своего рода экспериментальный контроль . Если внешняя группа выбрана правильно, она будет иметь гораздо большую генетическую дистанцию и, следовательно, большую длину ветвей, чем любая другая последовательность, и она появится возле корня укорененного дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения противоречат целям внешней группы, а слишком отдаленные добавляют шума в анализ. [3] Следует также проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, являются отдаленными родственниками, но ген, кодируемый последовательностями, высоко консервативен в разных линиях. Горизонтальный перенос генов , особенно между расходящимися в других отношениях бактериями , также может затруднить использование чужих групп.
Максимальная экономия
[ редактировать ]Максимальная экономия (MP) - это метод идентификации потенциального филогенетического дерева, который требует наименьшего общего количества эволюционных событий для объяснения наблюдаемых данных о последовательностях. Некоторые способы оценки деревьев также включают «стоимость», связанную с определенными типами эволюционных событий, и пытаются найти дерево с наименьшей общей стоимостью. Это полезный подход в тех случаях, когда не все возможные типы событий одинаково вероятны — например, когда определенные нуклеотиды или аминокислоты известно, что более изменчивы, чем другие.
Самый наивный способ определить самое экономное дерево — это простое перебор — последовательное рассмотрение каждого возможного дерева и поиск дерева с наименьшим баллом. Однако это возможно только для относительно небольшого числа последовательностей или видов, поскольку известно, что проблема определения наиболее экономного дерева является NP-трудной ; [2] следовательно, был разработан ряд эвристических методов поиска для оптимизации, позволяющих найти очень экономное дерево, если не лучшее в наборе. Большинство таких методов включают в себя механизм минимизации в стиле наискорейшего спуска , работающий на критерии перестановки дерева .
Ветвь и граница
[ редактировать ]Алгоритм ветвей и границ — это общий метод, используемый для повышения эффективности поиска почти оптимальных решений NP-трудных задач, впервые примененный в филогенетике в начале 1980-х годов. [14] Метод ветвей и границ особенно хорошо подходит для построения филогенетического дерева, поскольку он по своей сути требует разделения проблемы на древовидную структуру , поскольку он подразделяет проблемное пространство на более мелкие области. Как следует из названия, он требует в качестве входных данных как правила ветвления (в случае филогенетики — добавление следующего вида или последовательности к дереву), так и границы (правило, которое исключает из рассмотрения определенные области пространства поиска, тем самым предполагая, что оптимальное решение не может занимать эту область). Идентификация хорошей границы — самый сложный аспект применения алгоритма в филогенетике. Простой способ определения границы — это максимальное количество предполагаемых эволюционных изменений, разрешенных для одного дерева. Набор критериев, известный как правила Жарких. [15] строго ограничить пространство поиска, определив характеристики, общие для всех «самых экономных» деревьев-кандидатов. Два самых основных правила требуют исключения всех избыточных последовательностей, кроме одной (для случаев, когда множественные наблюдения дали идентичные данные) и исключения признаковых участков, в которых два или более состояний не встречаются по крайней мере у двух видов. В идеальных условиях эти правила и связанный с ними алгоритм полностью определяли бы дерево.
Алгоритм Санкоффа-Мореля-Седергрена
[ редактировать ]Алгоритм Санкоффа-Мореля-Седергрена был одним из первых опубликованных методов одновременного создания MSA и филогенетического дерева для нуклеотидных последовательностей. [16] В этом методе используется расчет максимальной экономии в сочетании с функцией оценки, которая наказывает пробелы и несоответствия, тем самым отдавая предпочтение дереву, которое вводит минимальное количество таких событий (альтернативная точка зрения предполагает, что предпочтение следует отдавать деревьям, которые максимизируют количество последовательностей). сходство, которое можно интерпретировать как гомологию, точку зрения, которая может привести к разным оптимальным деревьям. [17] ). Вмененные последовательности во внутренних узлах дерева оцениваются и суммируются по всем узлам каждого возможного дерева. Сумма дерева с наименьшей оценкой обеспечивает как оптимальное дерево, так и оптимальный MSA с учетом оценочной функции. Поскольку этот метод требует больших вычислительных ресурсов, это приближенный метод, в котором первоначальные предположения о внутреннем выравнивании уточняются по одному узлу за раз. Как полная, так и приблизительная версия на практике рассчитываются методом динамического программирования. [2]
ЗЛО и ПОЙ
[ редактировать ]Более поздние методы филогенетического дерева / MSA используют эвристику для выделения деревьев с высокими показателями, но не обязательно оптимальных. Метод MALIGN использует метод максимальной экономии для вычисления множественного выравнивания путем максимизации оценки кладограммы , а его сопутствующий метод POY использует итерационный метод, который сочетает оптимизацию филогенетического дерева с улучшениями соответствующего MSA. [18] Однако использование этих методов при построении эволюционных гипотез подвергалось критике как предвзятое из-за преднамеренного построения деревьев, отражающих минимальные эволюционные события. [19] Этому, в свою очередь, противоречило мнение, что такие методы следует рассматривать как эвристические подходы к поиску деревьев, которые максимизируют степень сходства последовательностей, которое можно интерпретировать как гомологию. [17] [20]
Максимальная вероятность
[ редактировать ]Метод максимального правдоподобия использует стандартные статистические методы для вывода распределений вероятностей для присвоения вероятностей конкретным возможным филогенетическим деревьям. Для этого метода требуется модель замещения для оценки вероятности определенных мутаций ; Грубо говоря, дерево, которому требуется больше мутаций во внутренних узлах для объяснения наблюдаемой филогении, будет оценено как имеющее меньшую вероятность. Это во многом похоже на метод максимальной экономии, но максимальное правдоподобие обеспечивает дополнительную статистическую гибкость, позволяя варьировать скорость эволюции как в линиях, так и в участках. Фактически, метод требует, чтобы эволюция на разных участках и по разным линиям была статистически независимой . Таким образом, метод максимального правдоподобия хорошо подходит для анализа отдаленно связанных последовательностей, но считается, что его вычисления сложно вычислить из-за его NP-трудности. [21]
Алгоритм «обрезки» — вариант динамического программирования — часто используется для сокращения пространства поиска за счет эффективного расчета вероятности появления поддеревьев. [2] Метод вычисляет вероятность для каждого сайта «линейным» способом, начиная с узла, единственными потомками которого являются листья (то есть верхушки дерева), и двигаясь назад к «нижнему» узлу во вложенных наборах. Однако деревья, полученные с помощью этого метода, укореняются только в том случае, если модель замещения необратима, что обычно не относится к биологическим системам. Поиск дерева максимального правдоподобия также включает в себя компонент оптимизации длины ветвей, который трудно улучшить алгоритмически; общие инструменты глобальной оптимизации, такие как метод Ньютона-Рафсона Часто используются .
Некоторые инструменты, которые используют максимальную вероятность для построения филогенетических деревьев на основе данных о частоте вариантов аллелей (VAF), включают AncesTree и CITUP. [22] [23]
Байесовский вывод
[ редактировать ]Байесовский вывод можно использовать для создания филогенетических деревьев способом, тесно связанным с методами максимального правдоподобия. Байесовские методы предполагают априорное распределение вероятностей возможных деревьев, которое может быть просто вероятностью любого одного дерева среди всех возможных деревьев, которые могут быть созданы на основе данных, или может быть более сложной оценкой, полученной из предположения, что события расхождения, такие как Поскольку видообразование происходит как случайные процессы . Выбор априорного распределения является предметом разногласий среди пользователей методов филогенетики на основе байесовского вывода. [2]
Реализации байесовских методов обычно используют алгоритмы выборки Монте-Карло цепи Маркова , хотя выбор набора перемещений варьируется; выборки, используемые в байесовской филогенетике, включают круговую перестановку листовых узлов предлагаемого дерева на каждом этапе. [24] и замена поддеревьев-потомков случайного внутреннего узла между двумя связанными деревьями. [25] Использование байесовских методов в филогенетике вызывает споры, в основном из-за неполной спецификации выбора набора ходов, критериев приемлемости и предварительного распределения в опубликованных работах. [2] Обычно считается, что байесовские методы превосходят методы, основанные на экономии; они могут быть более склонны к притяжению длинных ветвей, чем методы максимального правдоподобия, [26] хотя они лучше способны восполнить недостающие данные. [27]
В то время как методы правдоподобия находят дерево, которое максимизирует вероятность данных, байесовский подход восстанавливает дерево, которое представляет наиболее вероятные клады, опираясь на апостериорное распределение. Однако оценки апостериорной вероятности клад (измерение их «поддержки») могут быть весьма ошибочными, особенно в кладах, вероятность которых не является абсолютно вероятной. Таким образом, были предложены другие методы для оценки апостериорной вероятности. [28]
Некоторые инструменты, которые используют байесовский вывод для построения филогенетических деревьев на основе данных частоты вариантов аллелей (VAF), включают Canopy, EXACT и PhyloWGS. [29] [30] [31]
Выбор модели
[ редактировать ]Методы молекулярной филогенетики основаны на определенной модели замещения , которая кодирует гипотезу об относительной скорости мутаций в различных сайтах изучаемого гена или аминокислотных последовательностей. В самом простом случае модели замещения направлены на корректировку различий в скорости переходов и трансверсий в нуклеотидных последовательностях. Использование моделей замещения обусловлено тем фактом, что генетическое расстояние между двумя последовательностями увеличивается линейно только в течение короткого времени после того, как две последовательности расходятся друг от друга (альтернативно, расстояние является линейным только незадолго до слияния ). Чем дольше проходит время после дивергенции, тем более вероятно, что две мутации происходят в одном и том же нуклеотидном сайте. Таким образом, простые расчеты генетических расстояний будут недооценивать количество событий мутаций, произошедших в истории эволюции. Степень этого недоучета увеличивается с увеличением времени с момента расхождения, что может привести к явлению притяжения длинных ветвей. или ошибочное отнесение двух отдаленно связанных, но конвергентно развивающихся последовательностей как близкородственных. [32] Метод максимальной экономии особенно подвержен этой проблеме из-за явного поиска дерева, представляющего минимальное количество различных эволюционных событий. [2]
Типы моделей
[ редактировать ]Все модели замещения присваивают набор весов каждому возможному изменению состояния, представленному в последовательности. Наиболее распространенные типы моделей неявно обратимы, поскольку они присваивают, например, мутации нуклеотида G>C тот же вес, что и мутации C>G. Самая простая возможная модель, модель Джукса-Кантора , приписывает равную вероятность каждому возможному изменению состояния данного нуклеотидного основания. Скорость изменения между любыми двумя различными нуклеотидами будет составлять одну треть от общей скорости замены. [2] Более продвинутые модели различают переходы и трансверсии . Самая общая возможная обратимая во времени модель, называемая моделью GTR, имеет шесть параметров скорости мутаций. Еще более обобщенная модель, известная как общая 12-параметрическая модель, нарушает обратимость во времени за счет значительной дополнительной сложности расчета генетических расстояний, которые согласуются между несколькими линиями. [2] Один из возможных вариантов этой темы регулирует скорости так, что общее содержание GC — важный показатель стабильности двойной спирали ДНК — меняется со временем. [33]
Модели также могут учитывать изменение ставок в зависимости от позиции во входной последовательности. Самый очевидный пример такой вариации следует из расположения нуклеотидов в генах, кодирующих белок, в трехосновные кодоны . Если известно расположение открытой рамки считывания (ORF), скорость мутаций можно скорректировать с учетом положения данного сайта внутри кодона, поскольку известно, что колебательное спаривание оснований может обеспечить более высокую частоту мутаций в третьем нуклеотиде кодона. данный кодон, не затрагивая значения кодона в генетическом коде . [32] Менее основанный на гипотезах пример, который не полагается на идентификацию ORF, просто присваивает каждому сайту скорость, случайно полученную из заранее определенного распределения, часто гамма-распределения или логарифмически нормального распределения . [2] Наконец, более консервативная оценка изменений скорости, известная как коварионный метод, позволяет автокоррелировать изменения в скорости, так что частота мутаций данного сайта коррелирует между сайтами и линиями. [34]
Выбор лучшей модели
[ редактировать ]Выбор подходящей модели имеет решающее значение для проведения хорошего филогенетического анализа, как потому, что недостаточно параметризованные или чрезмерно ограничительные модели могут привести к аберрантному поведению, когда их основные предположения нарушаются, так и потому, что слишком сложные или чрезмерно параметризованные модели требуют больших вычислительных затрат, а параметры могут быть переопределены. . [32] Наиболее распространенным методом выбора модели является тест отношения правдоподобия (LRT), который дает оценку правдоподобия, которую можно интерпретировать как меру « степени соответствия » между моделью и входными данными. [32] Однако при использовании этих результатов необходимо проявлять осторожность, поскольку более сложная модель с большим количеством параметров всегда будет иметь более высокую вероятность, чем упрощенная версия той же модели, что может привести к наивному выбору слишком сложных моделей. [2] По этой причине компьютерные программы выбора модели будут выбирать самую простую модель, которая не значительно хуже, чем более сложные модели замещения. Существенным недостатком ЛРТ является необходимость проведения серии попарных сравнений моделей; Было показано, что порядок сравнения моделей оказывает большое влияние на выбор той, которая в конечном итоге будет выбрана. [35]
Альтернативным методом выбора модели является информационный критерий Акаике (AIC), формально оценка расхождения Кульбака-Лейблера между истинной моделью и тестируемой моделью. Ее можно интерпретировать как оценку правдоподобия с поправочным коэффициентом для наказания чрезмерно параметризованных моделей. [32] AIC рассчитывается для отдельной модели, а не для пары, поэтому он не зависит от порядка оценки моделей. Сопутствующая альтернатива, байесовский информационный критерий (BIC), имеет аналогичную базовую интерпретацию, но более строго наказывает сложные модели. [32] Определение наиболее подходящей модели для реконструкции филогении представляет собой фундаментальный шаг в многочисленных эволюционных исследованиях. Однако различные критерии выбора модели приводят к спорам о том, какой критерий предпочтительнее. Недавно было показано, что, когда желаемым результатом являются топологии и реконструкция предковой последовательности, выбор одного критерия над другим не имеет решающего значения. Вместо этого использование наиболее сложной модели нуклеотидных замен, GTR+I+G, приводит к аналогичным результатам для вывода топологии дерева и наследственных последовательностей. [36]
Подробный пошаговый протокол построения филогенетических деревьев, включая сборку смежных последовательностей ДНК/аминокислот, множественное выравнивание последовательностей, модельное тестирование (тестирование наиболее подходящих моделей замещения) и реконструкцию филогении с использованием метода максимального правдоподобия и байесовского вывода, доступен по адресу: Протокол обмена [37]
Нетрадиционный способ оценки филогенетического дерева — сравнение его с результатом кластеризации. Можно использовать метод многомерного масштабирования, так называемое интерполяционное объединение, чтобы уменьшить размерность и визуализировать результат кластеризации последовательностей в 3D, а затем сопоставить филогенетическое дерево с результатом кластеризации. Лучшее дерево обычно имеет более высокую корреляцию с результатом кластеризации. [38]
Оценка поддержки дерева
[ редактировать ]Как и при любом статистическом анализе, оценка филогений на основе данных о характерах требует оценки достоверности. Существует ряд методов проверки степени поддержки филогенетического дерева: либо путем оценки поддержки каждого поддерева в филогении (узловая поддержка), либо путем оценки того, значительно ли филогения отличается от других возможных деревьев (проверка гипотез альтернативного дерева). ).
Узловая поддержка
[ редактировать ]Наиболее распространенным методом оценки поддержки дерева является оценка статистической поддержки каждого узла дерева. Обычно узел с очень низкой поддержкой не считается действительным при дальнейшем анализе и визуально может быть свернут в политомию, чтобы указать, что отношения внутри клады неразрешены.
Дерево консенсуса
[ редактировать ]Многие методы оценки узловой поддержки включают рассмотрение множественных филогений. Дерево консенсуса суммирует узлы, которые являются общими для набора деревьев. [39] При *строгом консенсусе* отображаются только узлы, найденные в каждом дереве, а остальные сворачиваются в неразрешенную политомию . Менее консервативные методы, такие как дерево *консенсусного правила*, рассматривают узлы, которые поддерживаются заданным процентом рассматриваемых деревьев (например, не менее 50%).
Например, при анализе максимальной экономии может быть много деревьев с одинаковым показателем экономии. Строгое консенсусное дерево покажет, какие узлы встречаются во всех одинаково экономных деревьях, а какие различаются. Деревья консенсуса также используются для оценки поддержки филогении, реконструированной с помощью байесовского вывода (см. Ниже).
Бутстрэппинг и складной нож
[ редактировать ]В статистике бутстрап — это метод определения изменчивости данных, распределение которых неизвестно, с использованием псевдорепликаций исходных данных. Например, для набора из 100 точек данных псевдорепликат представляет собой набор данных того же размера (100 точек), случайно выбранный из исходных данных с заменой. То есть каждая исходная точка данных может быть представлена в псевдорепликате более одного раза или не представлена вообще. Статистическая поддержка включает оценку того, имеют ли исходные данные свойства, аналогичные свойствам большого набора псевдорепликатов.
В филогенетике бутстрэппинг проводится с использованием столбцов матрицы символов. Каждый псевдорепликат содержит одинаковое количество видов (строк) и символов (столбцов), случайно выбранных из исходной матрицы с заменой. Филогения реконструируется по каждой псевдорепликации с использованием тех же методов, которые используются для реконструкции филогении по исходным данным. Для каждого узла филогении узловая поддержка представляет собой процент псевдорепликатов, содержащих этот узел. [40]
Статистическая строгость бутстреп-теста была эмпирически оценена с использованием вирусных популяций с известной историей эволюции. [41] обнаружение того, что 70% поддержка начальной загрузки соответствует 95% вероятности существования клада. Однако это было проверено в идеальных условиях (например, отсутствие изменений в скорости эволюции, симметричная филогения). На практике значения выше 70% обычно поддерживаются и оставляются на усмотрение исследователя или читателя, чтобы оценить достоверность. Узлы с поддержкой ниже 70% обычно считаются неразрешенными.
Складной нож в филогенетике представляет собой аналогичную процедуру, за исключением того, что образцы столбцов матрицы отбираются без замены. Псевдорепликаты генерируются путем случайной выборки данных - например, «складной нож 10%» будет включать многократную случайную выборку 10% матрицы для оценки узловой поддержки.
Апостериорная вероятность
[ редактировать ]Реконструкция филогений с использованием байесовского вывода генерирует апостериорное распределение высоковероятных деревьев с учетом данных и эволюционной модели, а не одно «лучшее» дерево. Деревья в апостериорном распределении обычно имеют много разных топологий. Когда входными данными являются данные о частоте вариантов аллелей (VAF), инструмент EXACT может точно вычислить вероятности деревьев для небольших, биологически значимых размеров деревьев, путем исчерпывающего поиска по всему древовидному пространству. [29]
Большинство методов байесовского вывода используют итерацию Монте-Карло цепи Маркова, и начальные шаги этой цепочки не считаются надежными реконструкциями филогении. Деревья, созданные на ранних этапах цепочки, обычно отбрасываются как выгорающие . Наиболее распространенный метод оценки узловой поддержки в байесовском филогенетическом анализе - это расчет процента деревьев в заднем распределении (после выгорания), которые содержат узел.
Ожидается, что статистическая поддержка узла в байесовском выводе будет отражать вероятность того, что клада действительно существует с учетом данных и эволюционной модели. [42] Поэтому порог принятия узла как поддерживаемого обычно выше, чем для начальной загрузки.
Методы подсчета шагов
[ редактировать ]Поддержка Бремера подсчитывает количество дополнительных шагов, необходимых для противоречия кладе.
Недостатки
[ редактировать ]Каждая из этих мер имеет свои слабые стороны. Например, меньшие или более крупные клады, как правило, привлекают большую поддержку, чем клады среднего размера, просто из-за количества таксонов в них. [43]
Поддержка начальной загрузки может обеспечить высокие оценки поддержки узлов в результате шума в данных, а не реального существования клада. [44]
Ограничения и обходные пути
[ редактировать ]В конечном счете, невозможно измерить, является ли конкретная филогенетическая гипотеза точной или нет, если уже не известны истинные взаимоотношения между исследуемыми таксонами (что может произойти с бактериями или вирусами в лабораторных условиях). Наилучший результат, на который может надеяться эмпирический филогенетик, — это дерево с ветвями, которые хорошо подтверждаются имеющимися данными. Было выявлено несколько потенциальных ловушек:
Гомоплазия
[ редактировать ]Некоторые персонажи с большей вероятностью будут развиваться конвергентно , чем другие; по логике вещей, таким символам следует придавать меньший вес при реконструкции дерева. [45] Веса в форме модели эволюции можно вывести из наборов молекулярных данных, чтобы максимального правдоподобия или байесовские для их анализа можно было использовать методы методы. Для молекулярных последовательностей эта проблема усугубляется, когда изучаемые таксоны существенно разошлись. По мере того, как время, прошедшее с момента расхождения двух таксонов, увеличивается, увеличивается и вероятность множественных замен в одном и том же сайте или обратных мутаций, все из которых приводят к гомоплазии. К сожалению, для морфологических данных единственный объективный способ определить сходимость — это построение дерева — несколько круговой метод. Несмотря на это, взвешивание гомоплазных персонажей [ как? ] действительно приводит к созданию более устойчивых деревьев. [45] Дальнейшее уточнение может быть достигнуто за счет изменения веса изменений в одном направлении выше, чем изменений в другом; например, наличие грудных крыльев почти гарантирует попадание в число крыловидных насекомых, поскольку, хотя крылья часто теряются вторично, нет никаких свидетельств того, что они приобретались более одного раза. [46]
Горизонтальный перенос генов
[ редактировать ]В целом организмы могут наследовать гены двумя способами: вертикальный перенос генов и горизонтальный перенос генов . Вертикальный перенос генов — это переход генов от родителя к потомству, а горизонтальный (также называемый латеральным) перенос генов происходит, когда гены переходят между несвязанными организмами, что является обычным явлением, особенно у прокариот ; Хорошим примером этого является приобретенная устойчивость к антибиотикам в результате обмена генами между различными бактериями, что приводит к появлению видов бактерий с множественной лекарственной устойчивостью. Также были хорошо задокументированы случаи горизонтального переноса генов между эукариотами .
Горизонтальный перенос генов усложнил определение филогении организмов, и сообщалось о несоответствиях в филогении между конкретными группами организмов в зависимости от генов, используемых для построения эволюционных деревьев. Единственный способ определить, какие гены были приобретены вертикально, а какие горизонтально, — это осторожно предположить, что самый большой набор генов, унаследованных вместе, унаследован вертикально; для этого требуется анализ большого количества генов.
Гибриды, видообразование, интрогрессия и неполная сортировка линий.
[ редактировать ]Основное предположение, лежащее в основе математической модели кладистики, — это ситуация, когда виды аккуратно разделяются, образуя раздвоение. Хотя такое предположение может быть справедливым в более широком масштабе (за исключением горизонтального переноса генов, см. выше), видообразование часто бывает гораздо менее упорядоченным. Исследования, проведенные с момента появления кладистического метода, показали, что гибридное видообразование , которое когда-то считалось редким, на самом деле довольно распространено, особенно у растений. [47] [48] Также распространено парафилетическое видообразование , что делает предположение о раздвоении непригодным, что приводит к филогенетическим сетям, а не к деревьям. [49] [50] Интрогрессия также может перемещать гены между разными видами, а иногда даже между родами. [51] усложняющий филогенетический анализ на основе генов. [52] Это явление может способствовать «неполной сортировке родословной» и считается обычным явлением для ряда групп. При анализе на уровне вида эту проблему можно решить путем увеличения выборки или более качественного анализа всего генома. [53] Часто этой проблемы можно избежать, ограничивая анализ меньшим количеством неродственных образцов.
Выборка таксонов
[ редактировать ]Благодаря развитию передовых методов секвенирования в молекулярной биологии стало возможным собирать большие объемы данных (последовательности ДНК или аминокислот) для вывода филогенетических гипотез. Например, нередко можно найти исследования с матрицами признаков, основанными на целых митохондриальных геномах (~ 16 000 нуклеотидов у многих животных). Однако моделирование показало, что более важно увеличить количество таксонов в матрице, чем увеличить количество признаков, поскольку чем больше таксонов, тем точнее и надежнее получаемое филогенетическое дерево. [54] [55] Частично это может быть связано с разрушением длинных ветвей .
Филогенетический сигнал
[ редактировать ]Еще одним важным фактором, влияющим на точность реконструкции дерева, является то, действительно ли анализируемые данные содержат полезный филогенетический сигнал. Этот термин обычно используется для обозначения того, развивается ли признак достаточно медленно, чтобы иметь одно и то же состояние в близкородственных таксонах, а не изменяться случайным образом. . Существуют тесты на филогенетический сигнал. [56]
Непрерывные символы
[ редактировать ]Морфологические символы, составляющие выборку континуума, могут содержать филогенетический сигнал, но их трудно закодировать как дискретные символы. Было использовано несколько методов, одним из которых является пробельное кодирование, и существуют варианты пробельного кодирования. [57] В исходном виде пробельного кодирования: [57]
Групповые средства для символа сначала упорядочиваются по размеру. Рассчитывается объединенное внутригрупповое стандартное отклонение... и различия между соседними средними значениями... сравниваются относительно этого стандартного отклонения. Любая пара смежных средних считается разной и получает разные целочисленные оценки... если средние значения разделены "промежутком", превышающим стандартное отклонение внутри группы... умноженное на некоторую произвольную константу.
Если к анализу добавить больше таксонов, разрывы между таксонами могут стать настолько малыми, что вся информация будет потеряна. Обобщенное кодирование пробелов решает эту проблему, сравнивая отдельные пары таксонов, а не рассматривая один набор, содержащий все таксоны. [57]
Отсутствующие данные
[ редактировать ]В общем, чем больше данных доступно при построении дерева, тем точнее и надежнее будет полученное дерево. Отсутствие данных не более вредно, чем простое отсутствие данных, хотя влияние является наибольшим, когда большая часть недостающих данных приходится на небольшое количество таксонов. Концентрация недостающих данных по небольшому количеству символов позволяет получить более надежное дерево. [58]
Роль окаменелостей
[ редактировать ]Поскольку многие признаки включают эмбриологические, мягкотканные или молекулярные признаки, которые (в лучшем случае) почти никогда не окаменевают, а интерпретация окаменелостей более неоднозначна, чем интерпретация живых таксонов , вымершие таксоны почти всегда имеют более высокую долю недостающих данных, чем живые. Однако, несмотря на эти ограничения, включение окаменелостей неоценимо, поскольку они могут предоставить информацию о редких участках деревьев, разбивая длинные ветви и ограничивая промежуточные состояния признаков; таким образом, ископаемые таксоны вносят такой же вклад в разрешение деревьев, как и современные таксоны. [59] Окаменелости также могут определить возраст линий и, таким образом, продемонстрировать, насколько дерево соответствует стратиграфическим данным; [1] стратокладистика включает информацию о возрасте в матрицы данных для филогенетического анализа.
См. также
[ редактировать ]- Байесовская сеть
- Биоинформатика
- кладистика
- Вычислительная биология
- Метод покрытия диска
- Эволюционная динамика
- Микробная филогенетика
- ФИЛИПП
- Филогенетические сравнительные методы
- Филогенетическое дерево
- Филогенетика
- Популяционная генетика
- Количественная сравнительная лингвистика
- Статистическая классификация
- Систематика
- Таксономия (биология)
Ссылки
[ редактировать ]- ^ Jump up to: а б с Халафванд, Тайлер (2015). «Поиск структуры в пространстве поиска филогении» . Университет Далхаузи .
- ^ Jump up to: а б с д и ж г час я дж к л м н тот Фельзенштейн Дж (2004). Выводы о филогениях . Сандерленд, Массачусетс: Sinauer Associates. ISBN 978-0-87893-177-4 .
- ^ Jump up to: а б с д Гора ДМ (2004). Биоинформатика: анализ последовательностей и генома (2-е изд.). Колд-Спринг-Харбор, Нью-Йорк: Лабораторное издательство Колд-Спринг-Харбор. ISBN 978-0-87969-712-9 .
- ^ Свидерски Д.Л., Зельдич М.Л., Финк В.Л. (сентябрь 1998 г.). «Почему морфометрия не является чем-то особенным: кодирование количественных данных для филогенетического анализа». Систематическая биология . 47 (3): 508–19. JSTOR 2585256 . ПМИД 12066691 .
- ^ Гобер П., Возенкрафт В.К., Кордейро-Эстрела П., Верон Г. (декабрь 2005 г.). «Мозаика конвергенций и шума в морфологической филогении: что находится в виверридоподобном хищнике?». Систематическая биология . 54 (6): 865–94. дои : 10.1080/10635150500232769 . ПМИД 16282167 .
- ^ Strait DS, Grine FE (декабрь 2004 г.). «Выводы о филогении гоминоидов и ранних гоминид с использованием краниодентальных признаков: роль ископаемых таксонов». Журнал эволюции человека . 47 (6): 399–452. Бибкод : 2004JHumE..47..399S . дои : 10.1016/j.jhevol.2004.08.008 . ПМИД 15566946 .
- ^ Винс Джей-Джей (2001). «Анализ признаков в морфологической филогенетике: проблемы и решения». Систематическая биология . 50 (5): 689–99. дои : 10.1080/106351501753328811 . ПМИД 12116939 .
- ^ Дженнер Р.А. (2001). «Двусторонняя филогения и некритическая переработка наборов морфологических данных» . Систематическая биология . 50 (5): 730–42. дои : 10.1080/106351501753328857 . ПМИД 12116943 .
- ^ Сокал Р., Миченер С. (1958). «Статистический метод оценки систематических связей» . Научный бюллетень Канзасского университета . 38 : 1409–1438.
- ^ Сайто Н., Ней М. (июль 1987 г.). «Метод объединения соседей: новый метод реконструкции филогенетических деревьев» . Молекулярная биология и эволюция . 4 (4): 406–25. doi : 10.1093/oxfordjournals.molbev.a040454 . ПМИД 3447015 .
- ^ Фитч В.М. , Марголиаш Э. (январь 1967 г.). «Построение филогенетических деревьев». Наука . 155 (3760): 279–84. Бибкод : 1967Sci...155..279F . дои : 10.1126/science.155.3760.279 . ПМИД 5334057 .
- ^ Леспинац С., Грандо Д., Марешаль Э., Хакими М.А., Тенайлон О., Бастьен О. (2011). «Какую пользу алгоритму Фитча-Марголиаша может принести многомерное масштабирование» . Эволюционная биоинформатика онлайн . 7 : 61–85. дои : 10.4137/EBO.S7048 . ПМЦ 3118699 . ПМИД 21697992 .
- ^ День БГ (1987). «Вычислительная сложность вывода филогении на основе матриц несходства». Бюллетень математической биологии . 49 (4): 461–7. дои : 10.1007/BF02458863 . ПМИД 3664032 . S2CID 189885258 .
- ^ Хенди, доктор медицины, Пенни Д. (1982). «Алгоритмы ветвей и границ для определения минимальных эволюционных деревьев». Математические биологические науки . 59 (2): 277–290. дои : 10.1016/0025-5564(82)90027-X .
- ^ Ratner VA, Zharkikh AA, Kolchanov N, Rodin S, Solovyov S, Antonov AS (1995). Molecular Evolution . Biomathematics Series. Vol. 24. New York: Springer-Verlag. ISBN 978-3-662-12530-4 .
- ^ Санкофф Д., Морель С., Седергрен Р.Дж. (октябрь 1973 г.). «Эволюция 5S РНК и неслучайность замены оснований». Природа . 245 (147): 232–4. дои : 10.1038/newbio245232a0 . ПМИД 4201431 .
- ^ Jump up to: а б Де Лаэт Дж (2005). «Экономность и проблема неприменимости данных о последовательностях». В Альберте В.А. (ред.). Экономия, филогения и геномика . Издательство Оксфордского университета. стр. 81–116. ISBN 978-0-19-856493-5 .
- ^ Уилер В.К., Гладштейн Д.С. (1994). «MALIGN: программа выравнивания последовательностей множественных нуклеиновых кислот». Журнал наследственности . 85 (5): 417–418. doi : 10.1093/oxfordjournals.jhered.a111492 .
- ^ Член парламента Симмонса (июнь 2004 г.). «Независимость выравнивания и поиска по дереву». Молекулярная филогенетика и эволюция . 31 (3): 874–9. Бибкод : 2004МОЛПЭ..31..874С . дои : 10.1016/j.ympev.2003.10.008 . ПМИД 15120385 .
- ^ Де Лаэт Дж (2015). «Экономный анализ данных о невыровненных последовательностях: максимизация гомологии и минимизация гомоплазии, а не минимизация оперативно определенной общей стоимости или минимизация равновзвешенных преобразований» . Кладистика . 31 (5): 550–567. дои : 10.1111/cla.12098 . ПМИД 34772278 . S2CID 221582410 .
- ^ Чор Б., Таллер Т. (июнь 2005 г.). «Максимальная вероятность эволюционных деревьев: твердость и аппроксимация» . Биоинформатика . 21 (Приложение 1): i97–106. doi : 10.1093/биоинформатика/bti1027 . ПМИД 15961504 .
- ^ Эль-Кебир М., Оспер Л., Ачесон-Филд Х., Рафаэль Б.Дж. (июнь 2015 г.). «Реконструкция клональных деревьев и состава опухолей на основе данных секвенирования нескольких образцов» . Биоинформатика . 31 (12): i62-70. doi : 10.1093/биоинформатика/btv261 . ПМЦ 4542783 . ПМИД 26072510 .
- ^ Маликич С., Макферсон А.В., Донмез Н., Сахинальп К.С. (май 2015 г.). «Вывод клональности в нескольких образцах опухолей с использованием филогении» . Биоинформатика . 31 (9): 1349–56. doi : 10.1093/биоинформатика/btv003 . ПМИД 25568283 .
- ^ Мау Б., Ньютон Массачусетс (1997). «Филогенетический вывод для бинарных данных на дендрограммах с использованием цепи Маркова Монте-Карло». Журнал вычислительной и графической статистики . 6 (1): 122–131. дои : 10.2307/1390728 . JSTOR 1390728 .
- ^ Ян З, Раннала Б (июль 1997 г.). «Байесовский филогенетический вывод с использованием последовательностей ДНК: метод Монте-Карло цепи Маркова» . Молекулярная биология и эволюция . 14 (7): 717–24. doi : 10.1093/oxfordjournals.molbev.a025811 . ПМИД 9214744 .
- ^ Колачковски Б., Торнтон Дж.В. (декабрь 2009 г.). Дельпорт В. (ред.). «Предвзятость притяжения длинных ветвей и непоследовательность в байесовской филогенетике» . ПЛОС ОДИН . 4 (12): е7891. Бибкод : 2009PLoSO...4.7891K . дои : 10.1371/journal.pone.0007891 . ПМЦ 2785476 . ПМИД 20011052 .
- ^ Член парламента Симмонса (2012). «Вводящие в заблуждение результаты филогенетического анализа, основанного на правдоподобии, при наличии недостающих данных» . Кладистика . 28 (2): 208–222. дои : 10.1111/j.1096-0031.2011.00375.x . ПМИД 34872185 . S2CID 53123024 .
- ^ Ларгет Б (июль 2013 г.). «Оценка апостериорных вероятностей дерева с использованием условных кладовых распределений вероятностей» . Систематическая биология . 62 (4): 501–11. дои : 10.1093/sysbio/syt014 . ПМЦ 3676676 . ПМИД 23479066 .
- ^ Jump up to: а б Рэй С., Цзя Б., Сафави С., Ван Опиньонс Т., Исберг Р., Рош Дж., Бенто Дж. (22 августа 2019 г.). «Точный вывод в рамках идеальной модели филогении» arXiv : 1908.08623 . Бибкод : 2019ArXiv190808623R
{{cite journal}}
: Для цитирования журнала требуется|journal=
( помощь ) - ^ Цзян Ю, Цю Ю, Минн А.Дж., Чжан Н.Р. (сентябрь 2016 г.). «Оценка внутриопухолевой гетерогенности и отслеживание продольной и пространственной истории клональной эволюции с помощью секвенирования следующего поколения» . Труды Национальной академии наук Соединенных Штатов Америки . 113 (37): E5528-37. Бибкод : 2016PNAS..113E5528J . дои : 10.1073/pnas.1522203113 . ПМК 5027458 . ПМИД 27573852 .
- ^ Дешвар А.Г., Вембу С., Юнг К.К., Джанг Г.Х., Стейн Л., Моррис К. (февраль 2015 г.). «PhyloWGS: реконструкция субклонального состава и эволюции на основе полногеномного секвенирования опухолей» . Геномная биология . 16 (1): 35. дои : 10.1186/s13059-015-0602-8 . ПМЦ 4359439 . ПМИД 25786235 .
- ^ Jump up to: а б с д и ж Салливан Дж., Джойс П. (2005). «Выбор модели в филогенетике» . Ежегодный обзор экологии, эволюции и систематики . 36 (1): 445–466. doi : 10.1146/annurev.ecolsys.36.102003.152633 . ПМК 3144157 . ПМИД 20671039 .
- ^ Галтье Н., Гуи М. (июль 1998 г.). «Вывод закономерности и процесса: реализация с максимальной вероятностью неоднородной модели эволюции последовательности ДНК для филогенетического анализа» . Молекулярная биология и эволюция . 15 (7): 871–9. doi : 10.1093/oxfordjournals.molbev.a025991 . ПМИД 9656487 .
- ^ Фитч В.М., Марковиц Э. (октябрь 1970 г.). «Улучшенный метод определения изменчивости кодонов в гене и его применение к скорости фиксации мутаций в эволюции». Биохимическая генетика . 4 (5): 579–93. дои : 10.1007/bf00486096 . ПМИД 5489762 . S2CID 26638948 .
- ^ Пол Д (декабрь 2004 г.). «Эмпирические проблемы иерархического теста отношения правдоподобия для выбора модели» . Систематическая биология . 53 (6): 949–62. дои : 10.1080/10635150490888868 . ПМИД 15764562 .
- ^ Абади С., Азури Д., Пупко Т., Мэйроуз И. (февраль 2019 г.). «Выбор модели не может быть обязательным шагом для реконструкции филогении» . Природные коммуникации . 10 (1): 934. Бибкод : 2019NatCo..10..934A . дои : 10.1038/s41467-019-08822-w . ПМК 6389923 . ПМИД 30804347 .
- ^ Баст Ф (2013). «Поиск сходства последовательностей, множественное выравнивание последовательностей, выбор модели, матрица расстояний и реконструкция филогении» . Протокол обмена . дои : 10.1038/protex.2013.065 .
- ^ Руан И., Хаус Г.Л., Эканаяке С., Шютте Ю., Бевер Дж.Д., Тан Х., Фокс Дж. (26 мая 2014 г.). «Интеграция кластеризации и многомерного масштабирования для определения филогенетических деревьев в виде сферических филограмм, визуализируемых в трех измерениях». 2014 г. 14-й Международный симпозиум IEEE/ACM по кластерным, облачным и грид-вычислениям . IEEE. стр. 720–729. дои : 10.1109/CCGrid.2014.126 . ISBN 978-1-4799-2784-5 . S2CID 9581901 .
- ^ Баум Д.А., Смит С.Д. (2013). Древовидное мышление: введение в филогенетическую биологию . Робертс. п. 442. ИСБН 978-1-936221-16-5 .
- ^ Фельзенштейн Дж. (июль 1985 г.). «Пределы доверия к филогениям: подход с использованием бутстрапа». Эволюция; Международный журнал органической эволюции . 39 (4): 783–791. дои : 10.2307/2408678 . JSTOR 2408678 . ПМИД 28561359 .
- ^ Хиллис Д.М., Булл Дж.Дж. (1993). «Эмпирический тест бутстрэппинга как метод оценки уверенности в филогенетическом анализе». Систематическая биология . 42 (2): 182–192. дои : 10.1093/sysbio/42.2.182 . ISSN 1063-5157 .
- ^ Хюльзенбек Дж., Раннала Б. (декабрь 2004 г.). «Частотные свойства байесовских апостериорных вероятностей филогенетических деревьев при простых и сложных моделях замещения» . Систематическая биология . 53 (6): 904–13. дои : 10.1080/10635150490522629 . ПМИД 15764559 .
- ^ Chemisquy MA, Prevosti FJ (2013). «Оценка эффекта размера клады в альтернативных мерах поддержки отрасли» . Журнал зоологической систематики и эволюционных исследований . 51 (4): 260–273. дои : 10.1111/jzs.12024 . hdl : 11336/4144 .
- ^ Филлипс М.Дж., Дельсук Ф., Пенни Д. (июль 2004 г.). «Филогения в масштабе генома и обнаружение систематических ошибок» (PDF) . Молекулярная биология и эволюция . 21 (7): 1455–8. дои : 10.1093/molbev/msh137 . ПМИД 15084674 .
- ^ Jump up to: а б Голобофф П.А., Карпентер Дж.М., Ариас Дж.С., Эскивель Д.Р. (2008). «Взвешивание по гомоплазии улучшает филогенетический анализ наборов морфологических данных» . Кладистика . 24 (5): 758–773. дои : 10.1111/j.1096-0031.2008.00209.x . hdl : 11336/82003 . S2CID 913161 .
- ^ Голобов П.А. (1997). «Самовзвешенная оптимизация: поиск в дереве и реконструкция состояния персонажа с учетом подразумеваемых затрат на преобразование». Кладистика . 13 (3): 225–245. дои : 10.1111/j.1096-0031.1997.tb00317.x . ПМИД 34911233 . S2CID 196595734 .
- ^ Арнольд М.Л. (1996). Естественная гибридизация и эволюция . Нью-Йорк: Издательство Оксфордского университета. п. 232. ИСБН 978-0-19-509975-1 .
- ^ Вендел Дж. Ф., Дойл Дж. Дж. (1998). «Секвенирование ДНК». В Soltis DE, Soltis PS , Doyle JJ (ред.). Молекулярная систематика растений II . Бостон: Клювер. стр. 265–296. ISBN 978-0-19-535668-7 .
- ^ Фанк-диджей, Omland KE (2003). «Парафилия и полифилия на видовом уровне: частота, причины и последствия, с учетом данных митохондриальной ДНК животных». Ежегодный обзор экологии, эволюции и систематики . 34 : 397–423. doi : 10.1146/annurev.ecolsys.34.011802.132421 . S2CID 33951905 .
- ^ «Генеалогия Жизни (GoLife)» . Национальный научный фонд . Проверено 5 мая 2015 г.
Программа GoLife основывается на программе AToL, учитывая сложность моделей диверсификации на протяжении всей истории жизни. Наши нынешние знания о таких процессах, как гибридизация, эндосимбиоз и латеральный перенос генов, ясно показывают, что эволюционную историю жизни на Земле нельзя точно изобразить – для каждой ветви дерева – как единое типологическое раздваивающееся дерево.
- ^ Кучера В.Е., Бидон Т., Хайлер Ф., Роди Дж., Файн С.Р., Янке А. (2014). «Медведи в лесу генных деревьев: филогенетический вывод осложняется неполной сортировкой линий и потоком генов» . Молекулярная биология и эволюция . 31 (8): 2004–2017. дои : 10.1093/molbev/msu186 . ПМК 4104321 . ПМИД 24903145 .
- ^ Цюй Ю, Чжан Р., Цюань Ц, Сун Г, Ли Ш, Лэй Ф (декабрь 2012 г.). «Неполная сортировка по линии или вторичная примесь: распутывание исторических расхождений от недавнего потока генов у попугая с винным горлом (Paradoxornis webbianus)». Молекулярная экология . 21 (24): 6117–33. Бибкод : 2012MolEc..21.6117Q . дои : 10.1111/mec.12080 . ПМИД 23095021 . S2CID 22635918 .
- ^ Поллард Д.А., Айер В.Н., Мозес А.М., Эйзен М.Б. (октябрь 2006 г.). «Широко распространенное несоответствие генных деревьев с видовым деревом у дрозофилы: свидетельства неполной сортировки линий» . ПЛОС Генетика . 2 (10): е173. дои : 10.1371/journal.pgen.0020173 . ПМК 1626107 . ПМИД 17132051 .
- ^ Zwickl DJ, Hillis DM (август 2002 г.). «Увеличение выборки таксонов значительно снижает филогенетическую ошибку» . Систематическая биология . 51 (4): 588–98. дои : 10.1080/10635150290102339 . ПМИД 12228001 .
- ^ Винс Джей-Джей (февраль 2006 г.). «Недостающие данные и дизайн филогенетического анализа» . Журнал биомедицинской информатики . 39 (1): 34–42. дои : 10.1016/j.jbi.2005.04.001 . ПМИД 15922672 .
- ^ Бломберг С.П., Гарланд Т., Айвс А.Р. (апрель 2003 г.). «Тестирование филогенетического сигнала в сравнительных данных: поведенческие черты более лабильны». Эволюция; Международный журнал органической эволюции . 57 (4): 717–45. дои : 10.1111/j.0014-3820.2003.tb00285.x . ПМИД 12778543 . S2CID 221735844 .
- ^ Jump up to: а б с Арчи Дж.В. (1985). «Методы кодирования переменных морфологических признаков для численного таксономического анализа». Систематическая зоология . 34 (3): 326–345. дои : 10.2307/2413151 . JSTOR 2413151 .
- ^ Превости Ф.Дж., Chemisquy MA (2009). «Влияние недостающих данных на реальную морфологическую филогению: влияние количества и распределения недостающих записей». Кладистика . 26 (3): 326–339. дои : 10.1111/j.1096-0031.2009.00289.x . hdl : 11336/69010 . PMID 34875786 . S2CID 86850694 .
- ^ Коббетт А., Уилкинсон М., Уиллс М.А. (октябрь 2007 г.). «Окаменелости оказывают такое же сильное воздействие, как и живые таксоны, при экономном морфологическом анализе» . Систематическая биология . 56 (5): 753–66. дои : 10.1080/10635150701627296 . ПМИД 17886145 .
Дальнейшее чтение
[ редактировать ]- Сэмпл С, Стил М (2003). Филогенетика . Издательство Оксфордского университета. ISBN 978-0-19-850942-4 .
- Ципра Б.А. (2007). «Алгебраические геометры видят идеальный подход к биологии» (PDF) . СИАМ Новости . 40 (6). Архивировано из оригинала (PDF) 3 марта 2016 года.
- Пресс WH, Теукольский С.А., Феттерлинг В.Т., Фланнери BP (2007). «Раздел 16.4. Иерархическая кластеризация филогенетическими деревьями» . Численные рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8 . Архивировано из оригинала 11 августа 2011 года . Проверено 17 августа 2011 г.
- Хьюсон Д.Х., Рупп Р., Скорнавакка К. (2010). Филогенетические сети: концепции, алгоритмы и приложения . Издательство Кембриджского университета. ISBN 978-1-139-49287-4 .
Внешние ссылки
[ редактировать ]- СМИ, связанные с вычислительной филогенетикой, на Викискладе?