Jump to content

Матрицы расстояний в филогении

Матрицы расстояний используются в филогении как непараметрические дистанционные методы и первоначально применялись к фенетическим данным с использованием матрицы парных расстояний. Эти расстояния затем согласовываются для получения дерева ( филограммы с информативными длинами ветвей). Матрица расстояний может быть получена из ряда различных источников, включая измеренное расстояние (например, из иммунологических исследований ) или морфометрический анализ , различные формулы парных расстояний (например, евклидово расстояние ), применяемые к дискретным морфологическим признакам, или генетическое расстояние от последовательности, фрагмента ограничения. , или данные аллозимов . Для филогенетических данных о персонажах необработанные значения расстояний можно рассчитать путем простого подсчета количества попарных различий в состояниях символов ( расстояние Хэмминга ).

Дистанционно-матричные методы

[ редактировать ]

Методы филогенетического анализа с использованием матрицы расстояний явно полагаются на меру «генетического расстояния» между классифицируемыми последовательностями, и поэтому они начинаются с множественного выравнивания последовательностей (MSA) в качестве входных данных. На основе нее они строят матрицу «все-все», описывающую расстояние между каждой парой последовательностей. Наконец, они строят филогенетическое дерево, которое помещает близкородственные последовательности в один и тот же внутренний узел и чьи длины ветвей точно воспроизводят наблюдаемые расстояния между последовательностями. Создаваемое дерево является либо корневым, либо неукорененным, в зависимости от используемого алгоритма.

Расстояние часто определяется как доля несовпадений в совмещенных позициях, при этом пробелы либо игнорируются, либо считаются несовпадениями. [1]

Методы матрицы расстояний часто используются в качестве основы для прогрессивных и итеративных типов множественного выравнивания последовательностей .

Основным недостатком методов матрицы расстояний является их неспособность эффективно использовать информацию о локальных регионах с высокой изменчивостью, которые появляются в нескольких поддеревьях. [2]

Присоединение к соседям

[ редактировать ]

Методы объединения соседей применяют общие методы кластеризации данных для анализа последовательностей с использованием генетического расстояния в качестве метрики кластеризации. Простой метод объединения соседей создает некорневые деревья, но он не предполагает постоянную скорость эволюции (т. е. молекулярные часы ) между линиями.

УПГМА и ВПГМА

[ редактировать ]

Методы UPGMA ( метод группы невзвешенных пар со средним арифметическим ) и WPGMA ( метод группы взвешенных пар со средним арифметическим ) создают корневые деревья и требуют допущения о постоянной скорости, то есть предполагается ультраметрическое дерево, в котором расстояния от корня до кончики всех ветвей равны.

Метод Фитча – Марголиаша

[ редактировать ]

Метод Фитча-Марголиаша использует взвешенный метод наименьших квадратов для кластеризации на основе генетического расстояния. [3] Близкородственным последовательностям придается больший вес в процессе построения дерева, чтобы исправить повышенную неточность измерения расстояний между отдаленно связанными последовательностями. На практике коррекция расстояния необходима только тогда, когда скорости развития разных ветвей различаются. [2] Расстояния, используемые в качестве входных данных для алгоритма, должны быть нормализованы, чтобы предотвратить большие артефакты при вычислении отношений между тесно связанными и отдаленно связанными группами. Расстояния, рассчитанные этим методом, должны быть линейными ; критерий линейности расстояний требует, чтобы ожидаемые значения длин ветвей для двух отдельных ветвей равнялись ожидаемому значению суммы двух расстояний ветвей – свойство, которое применимо к биологическим последовательностям только тогда, когда они скорректированы на возможность обратного пути. мутации в отдельных сайтах. Эта коррекция осуществляется за счет использования матрицы замещения , например, полученной на основе Джукса-Кантора модели эволюции ДНК .

Критерий наименьших квадратов, применяемый к этим расстояниям, более точен, но менее эффективен, чем методы соединения соседей. Дополнительное улучшение, которое корректирует корреляции между расстояниями, возникающими из многих тесно связанных последовательностей в наборе данных, также может быть применено с увеличением вычислительных затрат. Нахождение оптимального дерева наименьших квадратов с любым поправочным коэффициентом является NP-полным , [4] поэтому эвристические методы поиска, подобные тем, которые используются в анализе максимальной экономии, применяются к поиску в древовидном пространстве.

Использование внешних групп

[ редактировать ]

Независимая информация о взаимоотношениях между последовательностями или группами может использоваться, чтобы помочь уменьшить пространство поиска в дереве и укоренить некорневые деревья. Стандартное использование методов матрицы расстояний предполагает включение по крайней мере одной последовательности внешней группы, о которой известно, что она лишь отдаленно связана с интересующими последовательностями в наборе запросов. [1] Такое использование можно рассматривать как своего рода экспериментальный контроль . Если внешняя группа выбрана правильно, она будет иметь гораздо большее генетическое расстояние и, следовательно, большую длину ветвей, чем любая другая последовательность, и она появится возле корня укорененного дерева. Выбор подходящей внешней группы требует выбора последовательности, которая умеренно связана с интересующими последовательностями; слишком близкие отношения противоречат целям внешней группы, а слишком отдаленные добавляют шума в анализ. [1] Следует также проявлять осторожность, чтобы избежать ситуаций, в которых виды, от которых были взяты последовательности, имеют отдаленное родство, но ген, кодируемый последовательностями, высоко консервативен в разных линиях. Горизонтальный перенос генов , особенно между расходящимися в других отношениях бактериями , также может затруднить использование чужих групп.

Слабые стороны разных методов

[ редактировать ]

В целом данные о парных расстояниях занижают расстояние между таксонами на филограмме . Парные расстояния эффективно «срезают углы» аналогично географическому расстоянию: расстояние между двумя городами может составлять 100 миль «по прямой линии», но на самом деле путешественник может быть вынужден проехать 120 миль из-за расположения дорог, местность, остановки по пути и т. д. Между парами таксонов некоторые изменения признаков, произошедшие в предковых линиях, будут незаметными, поскольку более поздние изменения стерли доказательства (часто называемые множественными совпадениями и обратными мутациями в данных о последовательностях ). Эта проблема является общей для всех филогенетических оценок, но особенно остро она стоит для дистанционных методов, поскольку для каждого расчета расстояния используются только две выборки; другие методы выигрывают от доказательств этих скрытых изменений, обнаруженных в других таксонах, не учитываемых при парных сравнениях. Для данных о последовательностях нуклеотидов и аминокислот те же стохастические модели изменений нуклеотидов, которые используются в анализе максимального правдоподобия, можно использовать для «корректировки» расстояний, делая анализ «полупараметрическим».

Существует несколько простых алгоритмов для построения дерева непосредственно на основе парных расстояний, включая UPGMA и соединение соседей (NJ), но они не обязательно создают лучшее дерево для данных. Чтобы избежать потенциальных осложнений, отмеченных выше, и найти лучшее дерево для данных, дистанционный анализ может также включать протокол поиска по дереву, который стремится удовлетворить явному критерию оптимальности. К данным о расстоянии обычно применяются два критерия оптимальности: минимальная эволюция (ME) и вывод по методу наименьших квадратов . Метод наименьших квадратов является частью более широкого класса методов, основанных на регрессии, которые для простоты собраны здесь вместе. Эти формулы регрессии минимизируют остаточные различия между путями вдоль дерева и попарными расстояниями в матрице данных, эффективно «подгоняя» дерево к эмпирическим расстояниям. Напротив, ME принимает дерево с наименьшей суммой длин ветвей и, таким образом, минимизирует общий объем предполагаемой эволюции. ME очень похож на экономию, и при определенных условиях ME-анализ расстояний на основе набора дискретных символов будет отдавать предпочтение тому же дереву, что и обычный экономный анализ тех же данных.

Оценка филогении с использованием дистанционных методов вызвала ряд разногласий. UPGMA предполагает ультраметрическое дерево (дерево, в котором все длины путей от корня до вершин равны). Если скорость эволюции была одинаковой во всех отобранных линиях ( молекулярные часы ) и если дерево было полностью сбалансированным (равное количество таксонов по обе стороны от любого разделения, чтобы противостоять эффекту плотности узлов ), UPGMA не должна давать предвзятую оценку. результат. Эти ожидания не оправдываются большинством наборов данных, и хотя UPGMA в некоторой степени устойчив к их нарушениям, он обычно не используется для оценки филогении. Преимущество UPGMA в том, что он быстрый и может обрабатывать множество последовательностей.

Соединение соседей представляет собой форму звездообразного разложения и, как эвристический метод, обычно является наименее вычислительно интенсивным из этих методов. Он очень часто используется сам по себе, и на самом деле довольно часто дает хорошие деревья. Однако в нем отсутствует какой-либо поиск по дереву и критерий оптимальности, поэтому нет никакой гарантии, что восстановленное дерево является тем, которое лучше всего соответствует данным. Более подходящей аналитической процедурой было бы использовать NJ для создания исходного дерева, а затем использовать поиск по дереву с использованием критерия оптимальности, чтобы гарантировать восстановление лучшего дерева.

Многие ученые избегают дистанционных методов по разным причинам. Часто упоминаемая причина заключается в том, что расстояния по своей природе являются фенетическими, а не филогенетическими , поскольку они не различают наследственное сходство ( симплезиоморфия ) и производное сходство ( синапоморфия ). Эта критика не совсем справедлива: большинство современных реализаций экономности, правдоподобия и байесовского филогенетического вывода используют обратимые во времени модели персонажей и, таким образом, не придают особого статуса производным или наследственным состояниям признаков. Согласно этим моделям, дерево считается неукорененным; укоренение и, следовательно, определение полярности производится после анализа. Основное различие между этими методами и расстояниями заключается в том, что методы экономии, правдоподобия и байесовские методы подгоняют отдельные символы к дереву, тогда как методы расстояния подходят ко всем символам сразу. В этом подходе нет ничего менее филогенетического. [ нужна ссылка ]

На практике следует избегать методов расстояния, поскольку связь между отдельными символами и деревом теряется в процессе сведения символов к расстояниям. Эти методы не используют символьные данные напрямую, и информация, заблокированная в распределении состояний символов, может быть потеряна при парных сравнениях. Кроме того, некоторые сложные филогенетические отношения могут приводить к смещению расстояний. На любой филограмме длина ветвей будет недооценена, поскольку некоторые изменения вообще невозможно обнаружить из-за невозможности отбора образцов некоторых видов из-за либо плана эксперимента, либо вымирания (феномен, называемый эффектом плотности узлов). Однако даже если попарные расстояния от генетических данных «скорректированы» с использованием стохастических моделей эволюции, как упоминалось выше, их может быть легче суммировать с другим деревом, чем дерево, полученное в результате анализа тех же данных и модели с использованием максимального правдоподобия . Это связано с тем, что попарные расстояния не являются независимыми; каждая ветвь дерева представлена ​​в измерениях расстояний всех таксонов, которые она отделяет. Ошибка, возникающая из-за любой характеристики этой ветви, которая может исказить филогению (стохастическая изменчивость, изменение эволюционных параметров, аномально большая или короткая длина ветви), будет распространяться на все соответствующие измерения расстояний. Полученная матрица расстояний может лучше соответствовать альтернативному (предположительно менее оптимальному) дереву.

Несмотря на эти потенциальные проблемы, дистанционные методы чрезвычайно быстры и часто дают разумную оценку филогении. Они также имеют определенные преимущества перед методами, использующими символы напрямую. Примечательно, что дистанционные методы позволяют использовать данные, которые нелегко преобразовать в характерные данные, например, анализы гибридизации ДНК-ДНК . Они также позволяют проводить анализ, учитывающий возможность того, что скорость включения определенных нуклеотидов в последовательности может варьироваться в зависимости от дерева, используя LogDet расстояния . Для некоторых методов оценки сети (в частности, NeighborNet ) преимуществом является абстракция информации об отдельных символах в данных о расстоянии. При рассмотрении посимвольно конфликт между персонажем и деревом из-за ретикуляции нельзя отличить от конфликта, вызванного гомоплазией или ошибкой. Однако выраженный конфликт в данных о расстоянии, который представляет собой объединение многих символов, менее вероятен из-за ошибки или гомоплазии, если только данные не сильно смещены, и, следовательно, с большей вероятностью является результатом ретикуляции.

Дистанционные методы популярны среди молекулярных систематиков, значительная часть которых использует NJ почти исключительно без этапа оптимизации. С увеличением скорости анализа на основе символов некоторые преимущества дистанционных методов, вероятно, исчезнут. Однако почти мгновенная реализация NJ, возможность включения эволюционной модели в быстрый анализ, расстояния LogDet, методы оценки сети и периодическая необходимость суммировать отношения с помощью одного числа — все это означает, что методы расстояния, вероятно, останутся в основном потоке для еще долго ждать.

См. также

[ редактировать ]
  1. Перейти обратно: Перейти обратно: а б с Крепление ДМ. (2004). Биоинформатика: анализ последовательностей и генома 2-е изд. Лабораторное издательство Колд-Спринг-Харбор: Колд-Спринг-Харбор, Нью-Йорк.
  2. Перейти обратно: Перейти обратно: а б Фельзенштейн Дж. (2004). Вывод о филогении Sinauer Associates: Сандерленд, Массачусетс.
  3. ^ Фитч ВМ; Марголиаш Э (1967). «Построение филогенетических деревьев». Наука . 155 (3760): 279–284. Бибкод : 1967Sci...155..279F . дои : 10.1126/science.155.3760.279 . ПМИД   5334057 .
  4. ^ День, WHE (1986). «Вычислительная сложность вывода филогении на основе матриц несходства». Бюллетень математической биологии . 49 (4): 461–7. дои : 10.1016/s0092-8240(87)80007-1 . ПМИД   3664032 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: efd3c22e0a659210c9cd81f3471406da__1705609560
URL1:https://arc.ask3.ru/arc/aa/ef/da/efd3c22e0a659210c9cd81f3471406da.html
Заголовок, (Title) документа по адресу, URL1:
Distance matrices in phylogeny - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)