de novo Сборка транскриптома
de novo Сборка транскриптома — это метод сборки последовательности de novo , позволяющий создать транскриптом без помощи эталонного генома .
Введение
[ редактировать ]В результате развития новых технологий секвенирования в период с 2008 по 2012 год произошло значительное снижение стоимости секвенирования. Стоимость за мегабазу и геном упала до 1/100 000 и 1/10 000 цены соответственно. [1] До этого секвенировались только транскриптомы организмов, которые представляли широкий интерес и были полезны для научных исследований; однако разработанные в 2010-х годах технологии высокопроизводительного секвенирования (также называемые секвенированием нового поколения) являются экономически и трудоэффективными, а круг организмов, изучаемых с помощью этих методов, расширяется. [2] Впоследствии были созданы транскриптомы для нута . [3] планарии , [4] Пархиале гавайский , [5] а также мозг нильского крокодила , кукурузной змеи , бородатого дракона и красноухого ползунка , и это лишь некоторые из них. [6]
Изучение немодельных организмов может дать новое понимание механизмов, лежащих в основе «разнообразия увлекательных морфологических инноваций», которые сделали возможным изобилие жизни на планете Земля. [7] У животных и растений «инновации», которые невозможно исследовать в обычных модельных организмах, включают мимикрию , мутуализм , паразитизм и бесполое размножение . Сборка транскриптома de novo часто является предпочтительным методом изучения немодельных организмов, поскольку она дешевле и проще, чем построение генома, а методы, основанные на эталонах, невозможны без существующего генома. Таким образом, транскриптомы этих организмов могут выявить новые белки и их изоформы, которые участвуют в таких уникальных биологических явлениях.
Сборка de novo и сборка по ссылке
[ редактировать ]Набор собранных транскриптов позволяет провести первоначальные исследования экспрессии генов. До разработки компьютерных программ сборки транскриптома данные транскриптома анализировались в основном путем сопоставления с эталонным геномом. Хотя выравнивание генома является надежным способом характеристики последовательностей транскриптов, этот метод имеет недостаток из-за его неспособности учитывать случаи структурных изменений транскриптов мРНК, таких как альтернативный сплайсинг . [8] Поскольку геном содержит сумму всех интронов и экзонов, которые могут присутствовать в транскрипте, сплайсированные варианты, которые не выстраиваются непрерывно вдоль генома, могут не учитываться как настоящие изоформы белка. Даже если доступен эталонный геном, следует выполнить сборку de novo , поскольку она может восстановить транскрипты, транскрибированные из сегментов генома, отсутствующих в сборке эталонного генома. [9]
Транскриптом против сборки генома
[ редактировать ]В отличие от уровней покрытия последовательностей генома, которые могут варьироваться случайным образом в результате содержания повторов в некодирующих интронных областях ДНК, уровни покрытия последовательностей транскриптома могут напрямую указывать на уровни экспрессии генов. Эти повторяющиеся последовательности также создают неоднозначность в формировании контигов при сборке генома, тогда как неоднозначности в сборке транскриптома обычно соответствуют сплайсированным изоформам или незначительным вариациям среди членов семейства генов. [8] Геномный ассемблер не может быть напрямую использован при сборке транскриптома по нескольким причинам. Во-первых, глубина секвенирования генома обычно одинакова для всего генома, но глубина транскриптов может различаться. Во-вторых, при секвенировании генома всегда секвенируются обе цепи, но секвенирование РНК может быть специфичным для цепи. В-третьих, сборка транскриптома более сложна, поскольку варианты транскриптов одного и того же гена могут иметь общие экзоны и их трудно определить однозначно. [9]
Метод
[ редактировать ]РНК-секвенирование
[ редактировать ]После того как РНК извлечена и очищена из клеток, ее отправляют в высокопроизводительный центр секвенирования, где она сначала подвергается обратной транскрипции для создания библиотеки кДНК. Эту кДНК затем можно фрагментировать на фрагменты различной длины в зависимости от платформы, используемой для секвенирования. Каждая из следующих платформ использует разные технологии для секвенирования миллионов коротких чтений: 454 Sequencing , Illumina и SOLiD .
Алгоритмы сборки
[ редактировать ]Считывания последовательности кДНК собираются в транскрипты с помощью программы сборки короткого считываемого транскрипта. Скорее всего, некоторые вариации аминокислот среди сходных в остальном транскриптов отражают разные изоформы белка. Также возможно, что они представляют собой разные гены в одном и том же семействе генов или даже гены, которые имеют только один консервативный домен, в зависимости от степени изменчивости.
Доступен ряд программ ассемблера (см. «Ассемблеры» ). Хотя эти программы в целом оказались успешными в сборке геномов, сборка транскриптома представляет собой ряд уникальных проблем. В то время как высокий охват последовательностей генома может указывать на наличие повторяющихся последовательностей (и, следовательно, быть замаскированными), для транскриптома они могут указывать на их обилие. Кроме того, в отличие от секвенирования генома, секвенирование транскриптома может быть специфичным для цепи из-за возможности наличия как смысловых, так и антисмысловых транскриптов. Наконец, может быть сложно реконструировать и разделить все изоформы сплайсинга. [9]
Ассемблеры короткого чтения обычно используют один из двух основных алгоритмов: графы перекрытия и графы де Брёйна. [10] Графы перекрытия используются в большинстве ассемблеров, предназначенных для последовательного чтения по Сэнгеру. Перекрытия между каждой парой чтений вычисляются и компилируются в граф, в котором каждый узел представляет одно считывание последовательности. Этот алгоритм требует больше вычислительных ресурсов, чем графы де Брёйна, и наиболее эффективен при сборе меньшего количества чтений с высокой степенью перекрытия. [10] Графики де Брёйна выравнивают k-меры (обычно 25-50 п.н.) на основе сохранения последовательности k-1 для создания контигов. K-меры короче длины чтения, что позволяет быстро хешировать, поэтому операции в графах де Брёйна обычно требуют меньше вычислительных затрат. [10]
Функциональная аннотация
[ редактировать ]Функциональная аннотация собранных транскриптов позволяет понять конкретные молекулярные функции, клеточные компоненты и биологические процессы, в которых участвуют предполагаемые белки. Blast2GO (B2G) позволяет осуществлять интеллектуальный анализ данных на основе онтологии генов для аннотирования данных последовательностей, для которых аннотация GO еще не доступна. Это исследовательский инструмент, который часто используется в исследованиях функциональной геномики немодельных видов. [11] Он работает путем сопоставления собранных контигов с неизбыточной базой данных белков (в NCBI), а затем аннотирования их на основе сходства последовательностей. GOanna — еще одна программа аннотаций GO, предназначенная для генных продуктов животных и сельскохозяйственных растений, которая работает аналогичным образом. Это часть базы данных AgBase, состоящей из курируемого общедоступного набора вычислительных инструментов для аннотирования и анализа GO. [12] После аннотации KEGG (Киотская энциклопедия генов и геномов) позволяет визуализировать метаболические пути и сети молекулярных взаимодействий, зафиксированные в транскриптоме. [13]
Помимо аннотации терминов GO, контиги также можно проверять на наличие открытых рамок считывания (ORF), чтобы предсказать аминокислотную последовательность белков, полученных из этих транскриптов. Другой подход заключается в аннотировании белковых доменов и определении наличия семейств генов, а не конкретных генов.
Проверка и контроль качества
[ редактировать ]Поскольку хорошо разрешенный эталонный геном редко доступен, качество собранных на компьютере контигов можно проверить либо путем сравнения собранных последовательностей с прочтениями, использованными для их создания (без ссылок), либо путем выравнивания последовательностей найденных консервативных генных доменов. в транскриптах мРНК транскриптомов или геномов близкородственных видов (на основе ссылок). Такие инструменты, как Transrate [14] и ВЗОРВАТЬ [15] позволяют провести статистический анализ качества сборки этими методами. Другой метод — разработать праймеры для ПЦР для предсказанных транскриптов, а затем попытаться амплифицировать их из библиотеки кДНК. Часто исключительно короткие чтения отфильтровываются. Короткие последовательности (<40 аминокислот) вряд ли представляют собой функциональные белки, поскольку они не способны сворачиваться независимо и образовывать гидрофобные ядра. [16]
В дополнение к этим показателям количественная оценка содержания генов может дать дополнительную информацию о качестве сборки. Для выполнения этого шага используются инструменты, моделирующие ожидаемое генное пространство на основе консервативных генов, такие как BUSCO. [17] можно использовать. Для эукариот CEGMA [18] также можно использовать, хотя официально он больше не поддерживается с 2015 года. [19]
Сборщики
[ редактировать ]Ниже приводится неполный сборник программного обеспечения для сборки, которое использовалось для создания транскриптомов и также цитировалось в научной литературе.
SeqMan NGen
[ редактировать ]SOAPденово-Транс
[ редактировать ]SOAPdenovo-Trans — это ассемблер транскриптома de novo , унаследованный от структуры SOAPdenovo2, предназначенный для сборки транскриптома с альтернативным сплайсингом и различным уровнем экспрессии. Ассемблер предоставляет более комплексный способ создания полноразмерных наборов транскриптов по сравнению с SOAPdenovo2.
Бархат/Оазисы
[ редактировать ]Алгоритм Velvet использует графы де Брейна для сборки транскриптов. В ходе моделирования Velvet может создавать контиги длиной до 50 КБ N50, используя данные прокариот, и 3 КБ N50 в бактериальных искусственных хромосомах млекопитающих (BAC). [20] Эти предварительные транскрипты передаются в Oases , который использует парную информацию конечного чтения и информацию длинного чтения для создания изоформ транскриптов. [21]
Транс-АБыСС
[ редактировать ]ABySS — это параллельный ассемблер парных последовательностей. Trans-ABySS (Assembly By Short Sequences) — это программный конвейер, написанный на Python и Perl для анализа контигов транскриптома, собранных с помощью ABySS. Этот конвейер можно применять к сборкам, созданным в широком диапазоне значений k. Сначала он разбивает набор данных на более мелкие наборы неизбыточных контигов и идентифицирует события сплайсинга, включая пропуск экзонов, новые экзоны, сохраненные интроны, новые интроны и альтернативный сплайсинг. Алгоритмы Trans-ABySS также способны оценивать уровни экспрессии генов, идентифицировать потенциальные сайты полиаденилирования , а также возможные события слияния генов. [22]
Троица
[ редактировать ]Троица [23] сначала делит данные последовательности на несколько графиков де Брейна , каждый из которых представляет транскрипционные вариации в одном гене или локусе. Затем он извлекает полноразмерные изоформы сплайсинга и различает транскрипты, полученные от паралогичных генов, из каждого графа отдельно. Trinity состоит из трех независимых программных модулей, которые последовательно используются для создания транскриптов:
- Inchworm собирает данные RNA-Seq в последовательности транскриптов, часто генерируя полноразмерные транскрипты для доминантной изоформы, но затем сообщает только об уникальных частях альтернативно сплайсированных транскриптов.
- Chrysalis кластеризует контиги Inchworm и строит для каждого кластера полные графы де Брёйна. Каждый кластер представляет полную сложность транскрипции данного гена (или семейства или набора генов, имеющих консервативную последовательность). Затем Chrysalis разделяет весь набор прочитанных данных между этими отдельными графами.
- Затем Баттерфляй параллельно обрабатывает отдельные графы, отслеживая пути чтения внутри графа, в конечном итоге сообщая о полноразмерных транскриптах для альтернативно сплайсированных изоформ и отделяя транскрипты, соответствующие паралогичным генам. [24]
См. также
[ редактировать ]- Транскриптом
- Транскриптомика
- База данных человеческих транскриптомов для альтернативного сплайсинга (H-DBAS)
- ЮниДжин
- Полные паразиты
- Секвенирование экзома
Ссылки
[ редактировать ]- ^ Веттерсранд, штат Калифорния. «Стоимость секвенирования генома человека» . Genome.gov . Проверено 6 мая 2021 г.
- ^ Сурджет-Гроба Ю., Монтойя-Бургос Дж.И. (2010). «Оптимизация сборки транскриптома de novo на основе данных секвенирования следующего поколения» . Геном Рез . 20 (10): 1432–1440. дои : 10.1101/гр.103846.109 . ПМК 2945192 . ПМИД 20693479 .
- ^ Гарг Р., Патель Р.К., Тьяги А.К., Джайн М. (2011). «Сборка транскриптома нута de novo с использованием коротких чтений для открытия генов и идентификации маркеров» . ДНК Рез . 18 (1): 53–63. дои : 10.1093/dnares/dsq028 . ПМК 3041503 . ПМИД 21217129 .
- ^ Адамиди С; и др. (2011). «Сборка de novo и проверка транскриптома планарии путем массового параллельного секвенирования и дробовой протеомики» . Геном Рез . 21 (7): 1193–1200. дои : 10.1101/гр.113779.110 . ПМК 3129261 . ПМИД 21536722 .
- ^ Цзэн V; и др. (2011). «Сборка de novo и характеристика материнского транскриптома и транскриптома развития новой модели ракообразного Parhyale hawaiensis» . БМК Геномика . 12 :581. дои : 10.1186/1471-2164-12-581 . ПМЦ 3282834 . ПМИД 22118449 .
- ^ Цика AC; и др. (2011). «Транскриптом рептилий v1.0, взгляд на транскриптом мозга пяти расходящихся линий Sauropsida и филогенетическое положение черепах» (PDF) . ЭвоДево . 2 (1): 19. дои : 10.1186/2041-9139-2-19 . ПМК 3192992 . ПМИД 21943375 .
- ^ Роуэн Б.А., Вайгель Д., Кениг Д. (2011). «Генетика развития и новые технологии секвенирования: появление немодельных организмов» . Развивающая клетка . 21 (1): 65–76. дои : 10.1016/j.devcel.2011.05.021 . ПМИД 21763609 .
- ^ Перейти обратно: а б Бирол I; и др. (2009). «Сборка транскриптома de novo с ABySS» . Биоинформатика . 25 (21): 2872–7. doi : 10.1093/биоинформатика/btp367 . ПМИД 19528083 .
- ^ Перейти обратно: а б с Мартин, Джеффри А.; Ван, Чжун (2011). «Сборка транскриптома нового поколения» . Обзоры природы Генетика . 12 (10): 671–682. дои : 10.1038/nrg3068 . ПМИД 21897427 . S2CID 3447321 .
- ^ Перейти обратно: а б с Иллюмина, Инк. (2010). «Сборка De Novo с использованием чтения Illumina» (PDF) .
- ^ Конеса А; и др. (2005). «Blast2GO: универсальный инструмент для аннотирования, визуализации и анализа в исследованиях функциональной геномики» . Биоинформатика . 21 (18): 3674–3676. doi : 10.1093/биоинформатика/bti610 . ПМИД 16081474 .
- ^ Маккарти FM; и др. (2006). «AgBase: ресурс функциональной геномики для сельского хозяйства» . БМК Геномика . 7 : 229. дои : 10.1186/1471-2164-7-229 . ПМЦ 1618847 . ПМИД 16961921 .
- ^ «База данных KEGG PATHWAY» .
- ^ Transrate: понять сборку транскриптома. http://hibberdlab.com/transrate
- ^ Ли Б; и др. (2014). «Оценка сборок транскриптома de novo на основе данных RNA-Seq» . Геномная биология . 15 (12): 553. дои : 10.1186/s13059-014-0553-5 . ПМК 4298084 . ПМИД 25608678 .
- ^ Карплюс, К. pdb-1: Минимальная длина белковой последовательности. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html .
- ^ Сеппи, Матье; Манни, Мозе; Здобнов, Евгений М. (2019), Коллмар, Мартин (ред.), «BUSCO: Оценка сборки генома и полноты аннотаций» , Прогнозирование генов , Методы молекулярной биологии, том. 1962, Нью-Йорк, штат Нью-Йорк: Springer New York, стр. 227–245, doi : 10.1007/978-1-4939-9173-0_14 , ISBN. 978-1-4939-9172-3 , PMID 31020564 , S2CID 131774987 , получено 24 апреля 2021 г.
- ^ Парра, Г.; Брэднэм, К.; Корф, И. (1 мая 2007 г.). «CEGMA: конвейер для точного аннотирования основных генов в геномах эукариот» . Биоинформатика . 23 (9): 1061–1067. doi : 10.1093/биоинформатика/btm071 . ISSN 1367-4803 . ПМИД 17332020 .
- ^ «ЦЕГМА» . korflab.ucdavis.edu . Проверено 24 апреля 2021 г.
- ^ Зербино Д.Р., Бирни Э. (2008). «Бархат: Алгоритмы сборки короткого чтения de novo с использованием графов де Брёйна» . Геном Рез . 18 (5): 821–829. дои : 10.1101/гр.074492.107 . ПМК 2336801 . ПМИД 18349386 .
- ^ «Оазисы: ассемблер транскриптома de novo для очень короткого чтения» . Архивировано из оригинала 29 ноября 2018 г. Проверено 28 ноября 2011 г.
- ^ «Trans-ABySS: анализ данных транскриптома дробовика, собранного ABySS multi-k» .
- ^ «Троица» . 24.11.2018.
- ^ «Trinity RNA-Seq Assembly – программное обеспечение для реконструкции полноразмерных транскриптов и альтернативно сплайсированных изоформ» . Архивировано из оригинала 12 июля 2011 года.