Филогенетический вывод с использованием транскриптомных данных
В молекулярной филогенетике отношения между людьми определяются с использованием черт характера, таких как ДНК , РНК или белок , которые можно получить с помощью различных технологий секвенирования . Высокопроизводительное секвенирование нового поколения стало популярным методом транскриптомики , который представляет собой снимок экспрессии генов. У эукариотов филогенетические выводы с использованием РНК осложняются альтернативным сплайсингом , который приводит к образованию множества транскриптов из одного гена . Таким образом, для улучшения филогенетического вывода можно использовать различные подходы с использованием транскриптомных данных, полученных с помощью RNA-Seq и обработанных с помощью вычислительной филогенетики .
Получение последовательности
[ редактировать ]Было несколько технологий транскриптомики, используемых для сбора информации о последовательностях транскриптомов . Однако наиболее широко используется RNA-Seq .
РНК-Seq
[ редактировать ]Считывания РНК можно получить с использованием различных методов секвенирования РНК.
Публичные базы данных
[ редактировать ]Существует ряд общедоступных баз данных , которые содержат свободно доступные данные RNA-Seq.
Сборка
[ редактировать ]Последовательность сборки
[ редактировать ]Данные RNA-Seq могут быть напрямую собраны в транскрипты с использованием сборки последовательности . две основные категории сборки последовательностей Часто выделяют :
- de novo Сборка транскриптома — особенно важна, когда эталонный геном недоступен для данного вида .
- Сборка на основе генома (иногда картирование или сборка на основе ссылок) - позволяет использовать уже существующую ссылку для управления сборкой транскриптов.
Оба метода пытаются создать биологически репрезентативные конструкции уровня изоформы на основе данных секвенирования РНК и обычно пытаются связать изоформы с конструкцией уровня гена. Однако правильная идентификация конструкций генного уровня может быть осложнена недавними дупликациями , паралогами , альтернативным сплайсингом или слиянием генов . Эти осложнения могут также вызвать проблемы в дальнейшем во время вывода ортологов. При выборе или генерировании данных о последовательностях также важно учитывать тип ткани, стадию развития и условия окружающей среды организмов. Поскольку транскриптом представляет собой снимок экспрессии генов , незначительные изменения в этих условиях могут существенно повлиять на то, какие транскрипты экспрессируются. Это может отрицательно повлиять на обнаружение ортологов в нисходящем направлении. [1]
Публичные базы данных
[ редактировать ]РНК также можно получить из общедоступных баз данных, таких как GenBank , RefSeq , 1000 Plants (1KP) и 1KITE . Публичные базы данных потенциально предлагают курируемые последовательности, которые могут улучшить качество вывода и избежать вычислительных затрат, связанных со сборкой последовательностей .
Вывод об ортологии/паралогии пары генов
[ редактировать ]Подходы
[ редактировать ]Вывод ортологии или паралогии требует оценки гомологии последовательностей , обычно посредством выравнивания последовательностей . Филогенетический анализ и выравнивание последовательностей часто рассматриваются совместно, поскольку филогенетический анализ с использованием ДНК или РНК требует выравнивания последовательностей, а сами выравнивания часто представляют собой некоторую гипотезу гомологии . Поскольку правильная идентификация ортологов имеет решающее значение для филогенетического анализа, существует множество методов, позволяющих определить ортологи и паралоги . [2]
Эти методы обычно различают либо как алгоритмы на основе графов, либо как алгоритмы на основе деревьев. Некоторые примеры методов на основе графов включают InParanoid, [3] МультиПараноик, [4] ОртоМКЛ, [5] гомологен [6] и ОМА. [7] К древовидным алгоритмам относятся такие программы, как OrthologID или RIO. [8] [2]
Различные методы BLAST часто используются для обнаружения ортологов между видами как часть алгоритмов на основе графов, таких как MegaBLAST, BLASTALL или другие формы BLAST «все против всех», и могут представлять собой нуклеотидов или белков на основе выравнивания . [9] [10] РевТранс [11] будут даже использовать данные о белках для определения выравнивания ДНК, что может быть полезно для разрешения более отдаленных филогенетических связей. Эти подходы часто предполагают, что наилучшие взаимные совпадения, соответствующие некоторым пороговым метрикам, таким как идентичность, E-значение или процентное выравнивание, представляют собой ортологи и могут быть сбиты с толку неполной сортировкой по происхождению . [12] [13]
Базы данных и инструменты
[ редактировать ]Важно отметить, что отношения ортологии в общедоступных базах данных обычно представляют ортологию на уровне генов и не предоставляют информацию о консервативных альтернативных вариантах сплайсинга .
Базы данных, которые содержат и/или обнаруживают ортологические отношения, включают:
Поскольку эукариотическая транскрипция представляет собой сложный процесс, посредством которого можно генерировать несколько транскриптов из одного гена посредством альтернативного сплайсинга с переменной экспрессией , использование РНК более сложное, чем использование ДНК. Однако секвенировать транскриптомы дешевле, чем полные геномы, и их можно получить без использования уже существующего эталонного генома . [1]
Нередко транслируют при использовании транскриптомных данных последовательность РНК в последовательность белка, особенно при анализе сильно дивергентных таксонов. Это интуитивно понятный шаг, поскольку ожидается, что многие (но не все) транскрипты будут кодировать изоформы белка . Потенциальные преимущества включают уменьшение мутационной предвзятости и уменьшение количества символов, что может ускорить анализ. Однако такое сокращение количества символов может также привести к потере потенциально информативных символов. [1]
Существует ряд инструментов, доступных для множественного выравнивания последовательностей . Все они обладают своими сильными и слабыми сторонами и могут специализироваться на различных типах последовательностей (ДНК, РНК или белок). Таким образом, выравниватель, учитывающий сплайсинг, может быть идеальным для выравнивания последовательностей РНК, тогда как выравниватель, который учитывает структуру белка или скорость замены остатков, может быть предпочтительнее для данных о транслируемых последовательностях РНК.
Возможности и ограничения
[ редактировать ]Использование РНК для филогенетического анализа имеет свой уникальный набор сильных и слабых сторон.
Преимущества
[ редактировать ]- большой набор персонажей
- экономически эффективный
- не зависит от эталонного генома
Недостатки
[ редактировать ]- расходы на обширную выборку таксонов
- трудность в идентификации полноразмерных транскриптов и ортологов в одной копии
- потенциальная неправильная сборка транскриптов (особенно при наличии дубликатов)
- недостающие данные как продукт транскриптома, представляющий собой снимок экспрессии или неполную сортировку линий. [14]
См. также
[ редактировать ]- ВЗРЫВ
- Регион кодирования
- Вычислительная филогенетика
- Сборка транскриптома de novo
- Экзом
- Секвенирование экзома
- Тег выраженной последовательности
- Экспрессия генов
- Гомология
- Список программного обеспечения для филогенетики
- Филогенетика
- Филогенетическое дерево
- РНК
- РНК-Seq
- Выравнивание последовательности
- Синонимическая замена
- Систематика
- Транскриптом
- ЮниДжин
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Хёрандль, Эльвира; Аппельханс, Марк (2015). Секвенирование нового поколения в систематике растений . Научные книги Кельца. ISBN 9783874294928 .
- ^ Перейти обратно: а б Салич, Леонид; Рокас, Антонис; Фэрхед, Сесиль (13 апреля 2011 г.). «Оценка алгоритмов ортологического прогнозирования в кладе дрожжевых моделей» . ПЛОС ОДИН . 6 (4): e18755. дои : 10.1371/journal.pone.0018755 . ПМК 3076445 . ПМИД 21533202 .
- ^ Остлунд, Г.; Шмитт, Т.; Форслунд, К.; Костлер, Т.; Мессина, DN; Рупра, С.; Фрингс, О.; Зоннхаммер, ELL (5 ноября 2009 г.). «InParanoid 7: новые алгоритмы и инструменты для анализа ортологии эукариот» . Исследования нуклеиновых кислот . 38 (База данных): D196–D203. дои : 10.1093/нар/gkp931 . ПМЦ 2808972 . ПМИД 19892828 .
- ^ Алексеенко А.; Тамас, И.; Лю, Г.; Зоннхаммер, ELL (27 июля 2006 г.). «Автоматическая кластеризация ортологов и инпаралогов, общих для нескольких протеомов» . Биоинформатика . 22 (14): e9–e15. doi : 10.1093/биоинформатика/btl213 . ПМИД 16873526 .
- ^ Ли, Л. (1 сентября 2003 г.). «OrthoMCL: идентификация групп ортологов для геномов эукариот» . Геномные исследования . 13 (9): 2178–2189. дои : 10.1101/гр.1224503 . ПМК 403725 . ПМИД 12952885 .
- ^ Сэйерс, EW; Барретт, Т.; Бенсон, Д.А.; Болтон, Э.; Брайант, С.Х.; Канезе, К.; Четвернин В.; Черч, Д.М.; ДиКуччио, М.; Федерхен, С.; Феоло, М.; Фингерман, И.М.; Гир, Л.Ю.; Хелмберг, В.; Капустин Ю.; Ландсман, Д.; Липман, диджей; Лу, З.; Мэдден, ТЛ; Мадей, Т.; Маглотт, Д.Р. Марчлер-Бауэр, А.; Миллер, В.; Мизрахи, И.; Остелл, Дж.; Панченко А.; Фан, Л.; Прюитт, К.Д.; Шулер, Г.Д.; Секейра, Э.; Шерри, С.Т.; Шамуэй, М.; Сироткин К.; Слотта, Д.; Суворов А.; Старченко Г.; Татусова Т.А.; Вагнер, Л.; Ван, Ю.; Уилбур, WJ; Ященко Е.; Йе, Дж. (21 ноября 2010 г.). «Ресурсы базы данных Национального центра биотехнологической информации» . Исследования нуклеиновых кислот . 39 (База данных): D38–D51. дои : 10.1093/nar/gkq1172 . ПМК 3013733 . ПМИД 21097890 .
- ^ Альтенхофф, AM; кунча, Н.; Гловер, Н.; Поезд, К.-М.; Суэки, А.; Пили ота, И.; Гори, К.; Томичек, Б.; Мюллер, С.; Редестиг, Х.; Гонне, GH; Дессимоз, К. (15 ноября 2014 г.). «База данных ортологии OMA в 2015 году: прогнозирование функций, улучшенная поддержка объектов, представление Synteny и другие улучшения» . Исследования нуклеиновых кислот . 43 (Д1): Д240–Д249. дои : 10.1093/nar/gku1158 . ПМК 4383958 . ПМИД 25399418 .
- ^ Змасек, Кристиан М; Эдди, Шон Р. (2002). «RIO: Анализ протеомов с помощью автоматизированной филогеномики с использованием вывода ортологов с повторной выборкой» . БМК Биоинформатика . 3 (1): 14. дои : 10.1186/1471-2105-3-14 . ПМК 116988 . ПМИД 12028595 .
- ^ Баркер, М.С.; Фогель, Х.; Шранц, Мэн (5 октября 2009 г.). «Палеополиплоидия Brassicales: анализ транскриптома клеомы проясняет историю дупликации генома Arabidopsis и других Brassicales» . Геномная биология и эволюция . 1 : 391–399. дои : 10.1093/gbe/evp040 . ПМЦ 2817432 . ПМИД 20333207 .
- ^ Ян, Сюй; Ченг, Ю-Фу; Дэн, Цао; Ма, Ян; Ван, Чжи-Вэнь; Чен, Сюэ-Хао; Сюэ, Линь-Бао (2014). «Сравнительный транскриптомный анализ баклажанов (Solanum melongena L.) и индюшатины (Solanum torvum Sw.): филогеномика и анализ устойчивости к болезням» . БМК Геномика . 15 (1): 412. дои : 10.1186/1471-2164-15-412 . ПМК 4070557 . ПМИД 24885385 .
- ^ Вернерссон, Р. (1 июля 2003 г.). «RevTrans: множественное выравнивание кодирующей ДНК из выровненных аминокислотных последовательностей» . Исследования нуклеиновых кислот . 31 (13): 3537–3539. дои : 10.1093/нар/gkg609 . ПМК 169015 . ПМИД 12824361 .
- ^ Морено-Хагельзиб, Г.; Латимер, К. (26 ноября 2007 г.). «Выбор параметров BLAST для лучшего обнаружения ортологов как взаимных лучших совпадений» . Биоинформатика . 24 (3): 319–324. doi : 10.1093/биоинформатика/btm585 . ПМИД 18042555 .
- ^ Кастильо-Рамирес, Сантьяго; Гонсалес, Виктор (2008). «Факторы, влияющие на соответствие между ортологичными генными деревьями и древом видов у бактерий» . Эволюционная биология BMC . 8 (1): 300. дои : 10.1186/1471-2148-8-300 . ПМК 2614993 . ПМИД 18973688 .
- ^ Вэнь, Цзюнь; Сюн, Чжицян; Не, Зе-Лонг; Мао, Ликай; Чжу, Ябин; Кан, Сянь-Чжао; Икерт-Бонд, Стефани М.; Геррат, Жан; Циммер, Элизабет А.; Фан, Сяо-Дун; Кандела, Гектор (17 сентября 2013 г.). «Последовательности транскриптома раскрывают глубокие взаимоотношения семейства винограда» . ПЛОС ОДИН . 8 (9): e74394. дои : 10.1371/journal.pone.0074394 . ПМЦ 3775763 . ПМИД 24069307 .