Jump to content

Метрика Робинсона – Фулдса

(Перенаправлено из метрики Робинсона-Фолдса )

Метрика Робинсона -Фоулдса или метрика симметричной разницы , часто сокращенно называемая RF-расстоянием , представляет собой простой способ расчета расстояния между филогенетическими деревьями . [ 1 ]

Оно определяется как ( A + B ), где A — количество разделов данных, подразумеваемых первым деревом, но не вторым деревом, а B — количество разделов данных, подразумеваемых вторым деревом, но не первым деревом (хотя некоторые программные реализации делят метрику RF на 2 [ 2 ] и другие масштабируют РЧ-расстояние так, чтобы оно имело максимальное значение 1). Разделы рассчитываются для каждого дерева путем удаления каждой ветки. Таким образом, количество подходящих разделов для каждого дерева равно количеству ветвей в этом дереве.

РЧ-расстояния подвергались критике как предвзятые, [ 3 ] но они представляют собой относительно интуитивную меру расстояний между филогенетическими деревьями и поэтому по-прежнему широко используются (оригинальная статья 1981 года, описывающая расстояния Робинсона-Фулдса). [ 1 ] к 2023 году цитировалось более 2700 раз по данным Google Scholar, ). Тем не менее, предвзятости, присущие радиочастотным расстояниям, позволяют предположить, что исследователям следует рассмотреть возможность использования «обобщенных» метрик Робинсона – Фулдса. [ 4 ] это может иметь лучшие теоретические и практические характеристики и избежать предвзятости и вводящих в заблуждение атрибутов исходной метрики.

Объяснение

[ редактировать ]

Учитывая два некорневых дерева узлов и набор меток (т. е. таксонов ) для каждого узла (который может быть пустым, но только узлы со степенью, большей или равной трем, могут быть помечены пустым набором), метрика Робинсона-Фоулдса находит количество и операции по преобразованию одного в другое. Количество операций определяет их расстояние. Деревья с корнем можно исследовать, прикрепив к корневому узлу фиктивный лист. [ 5 ]

Авторы определяют два дерева как одинаковые, если они изоморфны и изоморфизм сохраняет маркировку. Построение доказательства основано на функции, называемой , который сжимает ребро (объединяя узлы, создавая объединение их наборов). Наоборот, расширяет край (растягивание), при котором набор можно разделить любым способом.

The функция удаляет все ребра из которых нет в , создавая , а потом используется для добавления ребер, обнаруженных только в к дереву строить . Количество операций в каждой из этих процедур эквивалентно количеству ребер в которых нет в плюс количество ребер в которых нет в . Сумма операций эквивалентна преобразованию из к , или наоборот.

Характеристики

[ редактировать ]

Расстояние RF соответствует эквивалентной метрике сходства, которая отражает разрешение строгого консенсуса двух деревьев, впервые использованное для сравнения деревьев в 1980 году. [ 6 ]

В своей статье 1981 г. [ 1 ] Робинсон и Фулдс доказали, что расстояние на самом деле является метрикой .

Алгоритмы вычисления метрики

[ редактировать ]

В 1985 году Дэй предложил алгоритм, основанный на идеальном хешировании, который вычисляет это расстояние, сложность которого зависит только от количества узлов в деревьях. Было показано, что рандомизированный алгоритм, использующий хеш-таблицы, которые не обязательно идеальны, аппроксимирует расстояние Робинсона-Фулдса с ограниченной ошибкой за сублинейное время.

Конкретные приложения

[ редактировать ]

В филогенетике метрика часто используется для вычисления расстояния между двумя деревьями. Эту функцию предлагает программа Treedist из пакета PHYLIP , а также пакет RAxML_standard , библиотека Python DendroPy (под названием «метрика симметричной разницы») и пакеты R TreeDist (функция `RobinsonFoulds()`) и phangorn (`treedist( )` функция). Для сравнения групп деревьев самые быстрые реализации включают HashRF и MrsRF.

Метрика Робинсона-Фоулдса также использовалась в количественной сравнительной лингвистике для расчета расстояний между деревьями, которые показывают, как языки связаны друг с другом.

Сильные и слабые стороны

[ редактировать ]

Метрика RF по-прежнему широко используется, поскольку идея использования количества разбиений, различающихся между парой деревьев, является относительно интуитивным способом оценки различий между деревьями для многих систематиков. Это основная сила RF-расстояния и причина его постоянного использования в филогенетике. Конечно, количество разбиений, которые различаются между парой деревьев, зависит от количества таксонов в деревьях, поэтому можно возразить, что эта единица не имеет смысла. Однако нормализовать радиочастотные расстояния несложно, чтобы они находились в диапазоне от нуля до единицы.

Однако метрика RF также имеет ряд теоретических и практических недостатков: [ 7 ] [ 5 ]

  • По сравнению с другими показателями не обладает чувствительностью и, следовательно, является неточным; оно может принимать на два различных значения меньше, чем таксонов в дереве. [ 7 ] [ 5 ]
  • Он быстро насыщается; очень похожим деревьям можно выделить максимальное значение расстояния. [ 7 ]
  • Его значение может быть противоречивым. Одним из примеров является то, что перемещение кончика и его соседа в определенную точку дерева приводит к более низкому значению разницы, чем если бы только один из двух кончиков был перемещен в одно и то же место. [ 7 ]
  • Диапазон его значений может зависеть от формы дерева: деревья, которые содержат много неровных разделов, в среднем будут располагаться на относительно меньших расстояниях, чем деревья с множеством четных разделов. [ 7 ]
  • В практических условиях он работает хуже, чем многие альтернативные меры, основанные на моделированных деревьях. [ 5 ]

Еще одна проблема, которую следует учитывать при использовании RF-расстояний, заключается в том, что различия в одной кладе могут быть тривиальными (возможно, если клада по-разному разделяет три вида внутри рода) или могут быть фундаментальными (если клада находится глубоко в дереве и определяет две фундаментальные подгруппы, такие как как млекопитающие и птицы). Однако эта проблема не является проблемой радиочастотных расстояний как таковых, это более общая критика расстояний между деревьями. Независимо от поведения любого конкретного расстояния между деревьями, практикующий биолог-эволюционист может рассматривать некоторые перестановки деревьев как «важные», а другие перестановки как «тривиальные». Расстояния между деревьями — это инструменты; они наиболее полезны в контексте другой информации об организмах на деревьях.

Эти проблемы можно решить, используя менее консервативные показатели. «Обобщенные радиочастотные расстояния» признают сходство между похожими, но неидентичными разделениями; исходное расстояние Робинсона Фулдса не учитывает, насколько похожи две группы: если они не идентичны, они отбрасываются. [ 4 ]

Наиболее эффективные обобщенные расстояния Робинсона-Фулдса основаны на теории информации и измеряют расстояние между деревьями с точки зрения количества информации, которую содержат общие разбиения деревьев (измеряется в битах). [ 5 ] Информационное расстояние кластеризации (реализованное в пакете R TreeDist ) рекомендуется как наиболее подходящая альтернатива расстоянию Робинсона-Фоулдса. [ 5 ]

Альтернативный подход к расчету расстояния между деревьями — использовать расстояние квартета , а не разбиение, в качестве основы для сравнения деревьев. [ 7 ]

Реализации программного обеспечения

[ редактировать ]
Язык/Программа Функция Примечания
Р dist.dendlist(dendlist(x,y)) из дендекстенда См . [1]
Р RobinsonFoulds(x, y) из TreeDist Быстрее, чем реализация фангорна; см . [2]
Питон tree_1.robinson_foulds(tree_2) от ете3 См . [3]
Юлия hardwiredClusterDistance(tree1, tree2, true) от PhyloNetworks См . [4]
  1. ^ Перейти обратно: а б с Робинсон, DF; Фулдс, Л.Р. (февраль 1981 г.). «Сравнение филогенетических деревьев» . Математические биологические науки . 53 (1–2): 131–147. дои : 10.1016/0025-5564(81)90043-2 .
  2. ^ Кунер, Мэри К.; Ямато, Джон (01 марта 2015 г.). «Практическая эффективность показателей сравнения деревьев» . Систематическая биология . 64 (2): 205–214. дои : 10.1093/sysbio/syu085 . ISSN   1076-836X . ПМИД   25378436 .
  3. ^ Ю. Лин, В. Раджан, Б. М. Морет Метрика для филогенетических деревьев, основанная на сопоставлении IEEE/ACM Trans. Вычислить. Биол. Биоинформ., 9 (4) (2012), стр. 1014-1022.
  4. ^ Перейти обратно: а б *Бёккер С., Канзар С., Клау Г.В. 2013. Обобщенная метрика Робинсона-Фулдса. В: Дарлинг А., Стой Дж., редакторы. Алгоритмы в биоинформатике. WABI 2013. Конспекты лекций по информатике, том 8126. Берлин, Гейдельберг: Springer. п. 156–169.
    • Богданович Д., Джаро К. 2012. Сопоставление расстояния разделения для некорневых бинарных филогенетических деревьев. IEEE/ACM Транс. Вычислить. Биол. Биоинформа. 9:150–160.
    • Богданович Д., Джаро К. 2013. О расстоянии совпадения между корневыми филогенетическими деревьями. Межд. Дж. Прил. Математика. Вычислить. наук. 23:669–684.
    • Най ТМВ, Лио П., Гилкс В.Р. 2006. Новый алгоритм и веб-инструмент для сравнения двух альтернативных филогенетических деревьев. Биоинформатика. 22:117–119.
  5. ^ Перейти обратно: а б с д и ж Смит, Мартин Р. (2020). «Теоретико-информационные обобщенные метрики Робинсона-Фулдса для сравнения филогенетических деревьев» (PDF) . Биоинформатика . 36 (20): 5007–5013. doi : 10.1093/биоинформатика/btaa614 . ПМИД   32619004 .
  6. ^ Шух, RT и Полхемус, JT (1980). «Анализ таксономического соответствия наборов морфологических, экологических и биогеографических данных Leptopodomorpha (Hemiptera)». Систематическая биология . 29 (1): 1–26. дои : 10.1093/sysbio/29.1.1 . ISSN   1063-5157 .
  7. ^ Перейти обратно: а б с д и ж Смит, Мартин Р. (2019). «Байесовский подход и подход экономии восстанавливают информативные деревья на основе смоделированных наборов морфологических данных» (PDF) . Письма по биологии . 15 (2). 20180632. дои : 10.1098/rsbl.2018.0632 . ПМК   6405459 . ПМИД   30958126 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a6c71920690c771c90c6450179e9f382__1710705660
URL1:https://arc.ask3.ru/arc/aa/a6/82/a6c71920690c771c90c6450179e9f382.html
Заголовок, (Title) документа по адресу, URL1:
Robinson–Foulds metric - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)