Вывод наименьших квадратов в филогении
Вывод наименьших квадратов в филогении генерирует филогенетическое древо, основанное нанаблюдаемая матрица парных генетических расстояний иопционально весматрица. Цель состоит в том, чтобы найти дерево, которое удовлетворяет ограничениям на расстояние каккак можно лучше.
Обычные и взвешенные наименьшие квадраты
[ редактировать ]Расхождение между наблюдаемыми попарными расстояниями и расстояния над филогенетическим деревом (т.е. суммадлин ветвей на пути от листа листать ) измеряется
где веса зависит от используемого метода наименьших квадратов.Наименьшие квадратыПостроение дерева расстояний направлено на поиск дерева (топология и длина ветвей)с минимальным S. Это нетривиальная задача. Он предполагает поискдискретное пространство некорневых топологий двоичного дерева, размер которых экспоненциален поколичество листьев. Для n листьев существует1 • 3 • 5 • ... • (2н-3)разные топологии. Перечислить их невозможно уже для небольшогоколичество листьев. Эвристические методы поиска используются для нахождения разумногохорошая топология. Оценка S для данной топологии (которая включает в себявычисление длин ветвей) представляет собой линейную задачу наименьших квадратов .Существует несколько способов взвешивания квадратов ошибок. ,в зависимости от знаний и предположений об дисперсиях наблюдаемыхрасстояния. Когда об ошибках ничего не известно или предполагается, что онинезависимо распределены и равны для всех наблюдаемых расстояний, то всегири установлены на единицу. Это приводит к обычному наименьшемуоценка квадратов.В случае взвешенного метода наименьших квадратов ошибки предполагаются независимыми.(или их корреляции неизвестны). Учитывая независимые ошибки, конкретныйВ идеале вес должен быть установлен на величину, обратную отклонению соответствующего расстояния.оценивать. Иногда отклонения могут быть неизвестны, но ониможет быть смоделировано как функция оценок расстояния. В рейтинге Fitch иМетод Марголиаша [1] например, предполагается, что дисперсии пропорциональны квадратурасстояния.
Обобщенные наименьшие квадраты
[ редактировать ]Описанные выше обычные и взвешенные методы наименьших квадратов.предположим независимые оценки расстояния. Если расстояниявыводятся из геномных данных, их оценки коварны, поскольку эволюционныесобытия на внутреннихветки (настоящего дерева) могут подниматься или опускаться на несколько расстояний прив то же время. Полученные ковариации можно учесть с помощьюметод обобщенных наименьших квадратов, т.е. минимизация следующей величины
где являются элементами обратной ковариационной матрицы оценок расстояния.
Вычислительная сложность
[ редактировать ]Нахождение длин дерева и ветвей, минимизирующих невязку по методу наименьших квадратов, является NP-полной задачей. [2] Однако для данного дерева оптимальная длина ветвей может быть определена в время для обычных наименьших квадратов, время для взвешенных наименьших квадратов и время для обобщенного метода наименьших квадратов (с учетом обратной ковариационной матрицы ). [3]
Внешние ссылки
[ редактировать ]- PHYLIP , свободно распространяемый пакет филогенетического анализа, содержащий реализацию взвешенного метода наименьших квадратов.
- PAUP , аналогичный пакет доступен для покупки
- Darwin — среда программирования с библиотекой функций для статистики, числовых вычислений, анализа последовательностей и филогенетического анализа.
Ссылки
[ редактировать ]- ^ Fitch WM, Марголиаш Э. (1967). Построение филогенетических деревьев. Наука 155: 279-84.
- ^ Уильям Х. Э. Дэй, Вычислительная сложность вывода филогений на основе матриц несходства , Бюллетень математической биологии, том 49, выпуск 4, 1987, страницы 461-467, ISSN 0092-8240, дои : 10.1016/S0092-8240(87)80007-1 .
- ^ Дэвид Брайант, Питер Уодделл, Быстрая оценка критериев наименьших квадратов и минимальной эволюции на филогенетических деревьях [ мертвая ссылка ] , Мол Биол Эвол (1998) 15(10): 1346