Строительные леса (биоинформатика)

Скаффолдинг — это метод, используемый в биоинформатике . Оно определяется следующим образом: [ 1 ]
Соедините несмежные серии геномных последовательностей в каркас, состоящий из последовательностей, разделенных промежутками известной длины. Связанные последовательности обычно представляют собой смежные последовательности, соответствующие перекрытиям чтения.
При создании чернового генома отдельные прочтения ДНК вторично собираются в контиги , которые по характеру сборки имеют между собой промежутки. Следующий шаг — устранить промежутки между этими контигами , чтобы создать каркас. [ 2 ] Это можно сделать с помощью оптического картирования или секвенирования матовых пар. [ 3 ]
Программное обеспечение для сборки
[ редактировать ]Секвенирование генома Haemophilus influenzae ознаменовало появление строительных лесов. Этот проект сгенерировал в общей сложности 140 контигов, которые были ориентированы и связаны с использованием парного чтения. Успех этой стратегии побудил Институт геномных исследований разработать программу Grouper для других своих проектов по секвенированию. До 2001 года Grouper была единственным автономным программным обеспечением для строительных лесов. [ 4 ] После того, как « Проект генома человека» и Celera доказали, что можно создать большой черновой вариант генома, было создано несколько других подобных программ. Bambus был создан в 2003 году и представлял собой переписанную версию оригинального программного обеспечения для группирования, но предоставил исследователям возможность настраивать параметры строительных лесов. [ 4 ] Это программное обеспечение также позволяло опционально использовать другие связывающие данные, такие как порядок контигов в эталонном геноме.
Алгоритмы, используемые программным обеспечением для сборки, очень разнообразны и могут быть классифицированы как основанные на итеративном упорядочении маркеров или на основе графов. Приложения на основе графов способны упорядочивать и ориентировать более 10 000 маркеров по сравнению с максимальными 3000 маркерами, которые можно использовать в итеративных приложениях маркеров. [ 5 ] Алгоритмы можно далее классифицировать как жадные, нежадные, консервативные и неконсервативные. Bambus использует жадный алгоритм, который определяется как таковой, потому что он сначала объединяет контиги с наибольшим количеством ссылок. Алгоритм, используемый Bambus 2, удаляет повторяющиеся контиги перед ориентацией и упорядочиванием их в каркасах. SSPACE также использует жадный алгоритм, который начинает построение своего первого каркаса с самого длинного контига, предоставленного данными последовательности. SSPACE — наиболее часто упоминаемый инструмент сборки в публикациях по биологии, вероятно, из-за того, что он оценивается как значительно более интуитивно понятная программа для установки и запуска, чем другие ассемблеры. [ 6 ]
В последние годы появились новые типы ассемблеров, способные интегрировать данные связей из нескольких типов карт связей. ALLMAPS является первой из таких программ и способна комбинировать данные генетических карт, созданных с использованием SNP или данных рекомбинации, с физическими картами, такими как оптические или синтенные карты. [ 7 ]
Некоторые программы, такие как ABySS и SOAPdenovo, содержат алгоритмы заполнения пробелов, которые, хотя и не создают новых каркасов, служат для уменьшения длины промежутков между контигами отдельных каркасов. Автономная программа GapFiller способна закрывать большее количество пробелов, используя меньше памяти, чем алгоритмы заполнения пробелов, содержащиеся в программах ассемблера. [ 8 ]
Уттуркар и др. исследовали полезность нескольких различных пакетов программного обеспечения для сборки в сочетании с данными гибридных последовательностей. Они пришли к выводу, что алгоритмы ALLPATHS-LG и SPAdes превосходят другие ассемблеры по количеству, максимальной длине и длине N50 контигов и каркасов. [ 9 ]
Скаффолдинг и секвенирование нового поколения
[ редактировать ]Большинство высокопроизводительных платформ секвенирования следующего поколения обеспечивают меньшую длину считывания по сравнению с секвенированием по Сэнгеру . Эти новые платформы способны генерировать большие объемы данных за короткие промежутки времени, но до тех пор, пока не были разработаны методы сборки de novo больших геномов из коротких последовательностей считывания, секвенирование по Сэнгеру оставалось стандартным методом создания эталонного генома. [ 10 ] Хотя платформы Illumina теперь способны генерировать чтения парных пар со средней длиной 150 пар оснований, первоначально они были способны генерировать только чтения длиной 75 оснований или меньше, что заставило многих людей в научном сообществе усомниться в том, что надежный эталонный геном когда-либо можно будет создать с помощью коротких читайте технологию. Возросшая сложность сборки контигов и каркасов, связанная с новыми технологиями, создала потребность в новых мощных компьютерных программах и алгоритмах, способных осмысливать данные. [ 11 ]
Одной из стратегий, включающей высокопроизводительное секвенирование нового поколения, является гибридное секвенирование, при котором несколько технологий секвенирования используются на разных уровнях покрытия, так что они могут дополнять друг друга своими соответствующими сильными сторонами. Выпуск платформы SMRT от Pacific Biosciences ознаменовал начало секвенирования одиночных молекул и технологий длительного чтения. Было показано, что 80-100-кратное покрытие с помощью технологии SMRT, которая генерирует среднее чтение длиной 5456 пар оснований, обычно достаточно для создания готовой сборки de novo для прокариотических организмов. Когда средства для такого уровня покрытия недоступны для исследователя, он может решить использовать гибридный подход.
Гольдберг и др. оценили эффективность сочетания высокопроизводительного пиросеквенирования с традиционным секвенированием по Сэнгеру. С помощью этого подхода им удалось значительно увеличить длину контига N50 и уменьшить длину гэпа и даже закрыть один микробный геном. [ 12 ]
Оптическое картографирование
[ редактировать ]Было показано, что интеграция карт сцепления может помочь сборкам de novo с данными о рекомбинации на большом расстоянии в масштабе хромосом, без которых сборки могут быть подвержены ошибкам макроупорядочения. Оптическое картирование — это процесс иммобилизации ДНК на предметном стекле и ее расщепления ферментами рестрикции. Концы фрагментов затем флуоресцентно помечаются и снова сшиваются. В течение последних двух десятилетий оптическое картографирование было непомерно дорогим, но последние достижения в области технологий значительно снизили затраты. [ 5 ] [ 13 ]
См. также
[ редактировать ]- ^ «Онтология биоинформатических операций и форматов данных EDAM» .
- ^ Уотерстон, Роберт (2002). «О секвенировании генома человека» . Труды Национальной академии наук Соединенных Штатов Америки . 99 (6): 3712–3716. Бибкод : 2002PNAS...99.3712W . дои : 10.1073/pnas.042692499 . ПМЦ 122589 . ПМИД 11880605 .
- ^ Фло, Жан-Франсуа; Мари-Нелли, Эрве; Кошул, Ромен (07 октября 2015 г.). «Контактная геномика: формирование и фазирование (мета)геномов с использованием трехмерных физических сигнатур хромосом» . Письма ФЭБС . 589 (20 ч. А): 2966–2974. дои : 10.1016/j.febslet.2015.04.034 . ISSN 1873-3468 . ПМИД 25935414 .
- ^ Jump up to: а б Поп, Михай; Косак, Дэниел С.; Зальцберг, Стивен Л. (1 января 2004 г.). «Иерархические леса с бамбуком» . Геномные исследования . 14 (1): 149–159. дои : 10.1101/гр.1536204 . ISSN 1088-9051 . ПМК 314292 . ПМИД 14707177 .
- ^ Jump up to: а б Fierst JL (2015) Использование карт связей для исправления и создания новых сборок генома: методы, проблемы и вычислительные инструменты. В: Границы генетики. http://journal.frontiersin.org/article/10.3389/fgene.2015.00220/full . По состоянию на 7 апреля 2017 г.
- ^ Хант, М; Ньюболд, К; Берриман, М; Отто, ТД (2014). «Комплексная оценка инструментов для сборки строительных лесов» . Геномная биология . 15 (3): Р42. дои : 10.1186/gb-2014-15-3-r42 . ПМК 4053845 . ПМИД 24581555 .
- ^ Тан, Х; Чжан, X; Мяо, К; и др. (2015). «ALLMAPS: надежное упорядочение каркасов на основе нескольких карт» . Геномная биология . 16 (1): 3. дои : 10.1186/s13059-014-0573-1 . ПМЦ 4305236 . ПМИД 25583564 .
- ^ Бетцер, М; Пировано, Вт (2012). «На пути к почти закрытым геномам с помощью GapFiller» . Геномная биология . 13 (6): R56. дои : 10.1186/gb-2012-13-6-r56 . ПМЦ 3446322 . ПМИД 22731987 .
- ^ Уттюркар, С.М.; Клингеман, DM; Земля, МЛ; и др. (2014). «Оценка и валидация методов de novo и гибридной сборки для получения высококачественных последовательностей генома» . Биоинформатика . 30 (19): 2709–2716. doi : 10.1093/биоинформатика/btu391 . ПМК 4173024 . ПМИД 24930142 .
- ^ Ли, Жуйцян; Жуань, Цзюэ; Цянь, Вубин; Ши, Чжунбин; Ли, Шэньтин, Гао (09 февраля 2017 г.) . с массово-параллельным секвенированием короткого чтения» . Genome Research . 20 (2): 265–272. doi : 10.1101 . ISSN 1088-9051 . ПМЦ 2813482 . гр.097261.109 /
- ^ Парик, Чандра Шекхар; Смочинский, Рафаль; Третин, Анджей (9 февраля 2017 г.). «Технологии секвенирования и секвенирование генома» . Журнал прикладной генетики . 52 (4): 413–435. дои : 10.1007/s13353-011-0057-x . ISSN 1234-1983 . ПМК 3189340 . ПМИД 21698376 .
- ^ Голдберг, Сюзанна, доктор медицинских наук; и др. (2006). «Гибридный подход Сэнгера и пиросеквенирования для создания высококачественных черновых сборок геномов морских микробов» . Труды Национальной академии наук Соединенных Штатов Америки . 103 (30): 11240–11245. Бибкод : 2006PNAS..10311240G . дои : 10.1073/pnas.0604351103 . JSTOR 30049789 . ПМК 1544072 . ПМИД 16840556 .
- ^ Чессон, Марк; Уилсон, Ричард; Эйхлер, Эван (7 октября 2015 г.). «Генетическая изменчивость и сборка геномов человека de novo» . Обзоры природы Генетика . 16 (11): 627–640. дои : 10.1038/nrg3933 . ПМЦ 4745987 . ПМИД 26442640 .