SPAdes (программное обеспечение)
Разработчик(и) | Санкт-Петербургский государственный университет , Россия Санкт-Петербургский академический университет , Россия Калифорнийский университет, Сан-Диего , США |
---|---|
Стабильная версия | 4.0.0
/ 3 июня 2024 г. |
Репозиторий | github |
Написано в | С++ , С , Питон , Перл . |
Операционная система | Линукс , МакОС |
Тип | Биоинформатика |
Лицензия | Стандартная общественная лицензия GNU версии 2 (GPLv2) |
Веб-сайт | аблаб |
SPAdes (Санкт-Петербургский генома сборщик ) [ 1 ] сборки генома представляет собой алгоритм об одноклеточных и многоклеточных бактериях , который был разработан для наборов данных . Поэтому он может не подойти для крупных проектов по изучению геномов. [ 1 ] [ 2 ]
SPAdes работает с Ion Torrent , PacBio , Oxford Nanopore и Illumina, парными, сопряженными парами и одиночными чтениями . [ 1 ] SPAdes был интегрирован в конвейеры Galaxy Гаем Лайонелом и Филипом Мабоном. [ 3 ]
Фон
[ редактировать ]Изучение генома одиночных клеток поможет отследить изменения, происходящие в ДНК с течением времени или связанные с воздействием различных условий. Кроме того, многие проекты, такие как проект «Микробиом человека» и открытие антибиотиков, значительно выиграют от секвенирования одиночных клеток (SCS). [ 4 ] [ 5 ] SCS имеет преимущество перед секвенированием ДНК, выделенной из большого количества клеток. Проблему усреднения значительных различий между ячейками можно решить с помощью SCS. [ 6 ] Экспериментальные и вычислительные технологии оптимизируются, чтобы позволить исследователям секвенировать отдельные клетки. Например, амплификация ДНК, выделенной из одной клетки, является одной из экспериментальных задач. Чтобы максимизировать точность и качество SCS, необходима равномерная амплификация ДНК. Было продемонстрировано, что использование множественных циклов отжига и петлевой амплификации ( MALBAC ) для амплификации ДНК приводит к меньшей систематической ошибке по сравнению с полимеразной цепной реакцией ( ПЦР ) или амплификацией с множественным смещением (MDA). [ 7 ] Более того, было признано, что проблемы, стоящие перед SCS, носят скорее вычислительный, чем экспериментальный характер. [ 8 ] На данный момент доступен ассемблер, например Velvet , [ 9 ] Ассемблер строковых графов (SGA) [ 10 ] и Эйлер-СР, [ 11 ] не были предназначены для сборки SCS. [ 2 ] Сборка данных отдельных клеток затруднена из-за неравномерного охвата чтения, различий в длине вставки, высокого уровня ошибок секвенирования и химерных чтений. [ 8 ] [ 12 ] [ 13 ] Поэтому новый алгоритмический подход SPAdes был разработан для решения этих проблем.
Подход к сборке SPAdes
[ редактировать ]SPAdes использует k-меры для построения исходного графа де Брейна и на последующих этапах выполняет теоретико-графовые операции, основанные на структуре графа, покрытии и длинах последовательностей. Более того, он корректирует ошибки итеративно. [ 2 ] Этапы сборки в SPAdes следующие: [ 2 ]
- Этап 1: построение графа сборки. SPAdes использует многоразмерный граф де Брейна (см. ниже), который обнаруживает и удаляет выпуклости/пузыри и химерные чтения.
- Этап 2: корректировка k-бимеров (пар k-меров). Оцениваются точные расстояния между k-мерами в геноме (ребра в графе сборки).
- Этап 3: построение парного графа сборки.
- Этап 4: построение контига. SPAdes выводит контиги и позволяет сопоставлять чтения обратно с их позициями в графе сборки после упрощения графа (обратного отслеживания).
Подробности по сборке SPAdes
[ редактировать ]
SPAdes был разработан для решения следующих проблем, связанных со сборкой одноячеечных данных: [ 2 ]
1. Неравномерное покрытие . SPAdes использует многоразмерный граф де Брёйна, который позволяет использовать различные значения k. Было предложено использовать меньшие значения k в регионах с низким охватом, чтобы минимизировать фрагментацию, и большие значения k в регионах с высоким охватом, чтобы уменьшить коллапс повторов (этап 1 выше).
2. Переменные размеры вставок парных считываний . SPAdes использует базовую концепцию парных графов де Брёйна. Однако парное чтение де Брейна хорошо работает при чтении спаренных концов с фиксированным размером вставки. Таким образом, SPAdes оценивает «расстояния» вместо использования «размеров вставки». Расстояние (d) чтения спаренного конца определяется как для длины чтения L, d = размер вставки – L. Используя подход настройки k-бимера, расстояния точно оцениваются. k-бимер, состоящий из k-меров «α» и «β» вместе с предполагаемым расстоянием между ними в геноме (α|β,d). Этот подход разбивает чтения парных концов на пары k-меров, которые преобразуются для определения пар ребер (ребер) в графах де Брейна. Эти наборы двуребер участвуют в оценке расстояний между путями ребер между k-мерами α и β. Путем кластеризации из каждого кластера выбирается оптимальная оценка расстояния (этап 2 выше). Для построения парного графа де Брейна в SPAdes используются прямоугольные графы (этап 3). Метод прямоугольных графиков был впервые представлен в 2012 году. [ 15 ] построить парные графы де Брейна с сомнительными расстояниями.
3. Балдж, кончики и химеры . Выпуклости и кончики возникают из-за ошибок в середине и конце чтения соответственно. Химерная связь соединяет две несвязанные подстроки генома. SPAdes идентифицирует их на основе топологии графа, длины и покрытия включенных в них неветвящихся путей. SPAdes сохраняет структуру данных, позволяющую отслеживать все исправления или удаления.
SPAdes изменяет ранее использовавшийся подход к удалению выпуклостей. [ 16 ] и итеративный графовый подход де Брейна от Peng et al (2010). [ 17 ] и создает новый подход под названием «коррекция выпуклостей», который означает коррекцию и удаление выпуклостей. Алгоритм устранения выпуклости можно резюмировать следующим образом: простая выпуклость формируется двумя небольшими и похожими путями (P и Q), соединяющими одни и те же концентраторы. Если P — неветвящийся путь (h-путь), то SPAdes отображает каждое ребро в P в проекцию ребра в Q и удаляет P из графа, в результате чего покрытие Q увеличивается. В отличие от других ассемблеров, которые используют удаление выпуклостей с фиксированным покрытием, SPAdes шаг за шагом удаляет или проецирует h-пути с низким покрытием. Это достигается за счет постепенного увеличения порогов отсечения и повторения всех h-путей в возрастающем порядке покрытия (для удаления выпуклостей и удаления химер) или длины (для удаления кончика). Более того, чтобы гарантировать, что в графе не появятся новые источники/приемники, SPAdes удаляет h-путь (при удалении химерного h-пути) или проецирует (при удалении выпуклости) только в том случае, если его начальная и конечная вершины имеют по крайней мере две вершины. исходящие и входящие края . Это помогает удалить h-пути с низким покрытием, возникающие из-за ошибок секвенирования и химерных считываний, но не из-за повторов.
Конвейеры SPAdes и производительность
[ редактировать ]SPAdes состоит из следующих инструментов: [ 1 ]
- Прочтите инструмент исправления ошибок BayesHammer (для данных Illumina) и IonHammer (для данных IonTorrent) . [ 14 ] При традиционной коррекции ошибок редкие k-меры считаются ошибками. Это невозможно применить к СКС из-за неравномерного покрытия. Поэтому BayesHammer использует вероятностную субкластеризацию, которая исследует несколько центральных нуклеотидов, которые будут лучше покрыты, чем другие, похожими k-мерами. [ 14 ] Утверждалось, что для одноклеточного набора данных Escherichia coli ( E. coli ) BayesHammer работает примерно за 75 минут, требует до 10 ГБ ОЗУ для исправления ошибок чтения и требует 10 ГБ дополнительного дискового пространства для временных файлов.
- Итеративный ассемблер генома с коротким чтением, SPAdes . Для того же набора данных этот шаг занимает ~ 75 минут. выше) уходит ~40% этого времени На выполнение этапа 1 (см. подход к сборке SPAdes при использовании трёх итераций (k=22, 34 и 56), а на выполнение этапов 2, 3 и 1% уходит ~45%, 14% и 1%. 4 соответственно. Для выполнения сборки также требуется до 5 ГБ оперативной памяти и требуется 8 ГБ дополнительного дискового пространства.
- Корректор несоответствия (использующий инструмент BWA ). Этот модуль требует наибольшее время (~120 мин) и наибольшее дополнительное дисковое пространство (~21 Гб) для временных файлов. требуется до 9 ГБ ОЗУ Для полной коррекции несоответствий собранного набора данных об отдельных клетках E. coli .
- Модуль для сборки высокополиморфных диплоидных геномов, digSPAdes . digSPAdes конструирует более длинные контиги, используя преимущества расхождения между гапломами в повторяющихся областях генома. После этого он производит консенсусное конструирование контигов и выполняет сборку гаплотипа.
Сравнение ассемблеров
[ редактировать ]Исследование [ 18 ] сравнили несколько сборщиков генома на образцах одноклеточных E. coli . Это ассемблеры EULER-SR, [ 11 ] бархат, [ 9 ] СОАПденово, [ 19 ] Бархат-SC, EULER+ Бархат-SC (E+V-SC), [ 16 ] ИДБА-УД [ 20 ] и СПАДЫ. Было продемонстрировано, что IDBA-UD и SPAdes показали себя лучше всего. [ 18 ] У SPAdes был самый большой NG50 (99 913, статистика NG50 такая же, как у N50, за исключением того, что используется размер генома, а не размер сборки). [ 21 ] Более того, используя E. coli , эталонный геном [ 22 ] SPAdes собрал самый высокий процент генома (97%) и наибольшее количество полных генов (4071 из 4324). [ 18 ] Выступления сборщиков были следующими: [ 18 ]
- Количество контигов:
IDBA-UD < Velvet < E+V-SC < SPAdes < EULER-SR < Velvet-SC < SOAPdenovo
- НГ50
ЛОПАТЫ > IDBA-UD >>> E+V-SC > EULER-SR >Velvet >Velvet-SC > SOAPdenovo
- Самый большой контиг:
IDBA-UD > SPAdes > > EULER-SR > Velvet= E+V-SC > Velvet-SC > SOAPdenovo
- Картированный геном (%):
SPAdes > IDBA-UD > E+V-SC > Velvet-SC > EULER-SR > SOAPdenovo > Velvet
- Количество ошибок сборки:
E+V-SC = Velvet = Velvet-SC < SOAPdenovo < IDBA-UD < SPADes < EULER-SR
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д «Руководство по SPAdes 3.0.0» . Архивировано из оригинала 2 февраля 2014 года . Проверено 26 января 2014 г.
- ^ Jump up to: а б с д и Банкевич А; Нурк С; Антипов Д; Гуревич А.А.; Дворкин М; Куликов А.С.; Лесин В.М.; Николенко С.И.; Фам С; Пржибельский А.Д.; Пышкин А.В.; Сироткин А.В.; Вяххи Н; Теслер Г; Алексеев М.А.; Певзнер П.А. (2012). «SPAdes: новый алгоритм сборки генома и его применение к секвенированию одиночных клеток» . Журнал вычислительной биологии . 19 (5): 455–477. дои : 10.1089/cmb.2012.0021 . ПМЦ 3342519 . ПМИД 22506599 .
- ^ Сарай для инструментов Galaxy
- ^ Джилл С; Поп М; Дебой Р; Экбург П; Тернбо П; Сэмюэл Б; Гордон Дж; Релман Д; Фрейзер-Лиггетт С; Нельсон К. (2006). «Метагеномный анализ микробиома дистального отдела кишечника человека» . Наука . 312 (5778): 1355–1359. Бибкод : 2006Sci...312.1355G . дои : 10.1126/science.1124234 . ПМК 3027896 . ПМИД 16741115 .
- ^ Ли Дж; Ведерас Дж (2009). «Открытие лекарств и натуральные продукты: конец эпохи или бесконечный фронтир?» (PDF) . Наука . 325 (5937): 161–165. Бибкод : 2009Sci...325..161L . дои : 10.1126/science.1168243 . ПМИД 19589993 . S2CID 206517350 .
- ^ Лу С; Зонг С; Вентилятор В; Ян М; Ли Дж; Чепмен А; Чжу П; Ху Х; Сюй Л; Ян Л; ФБ; Цяо Дж; Тан Ф; Ли Р; Се Икс (2012). «Изучение мейотической рекомбинации и анеуплоидии отдельных сперматозоидов с помощью полногеномного секвенирования» . Наука . 338 (6114): 1627–1630. Бибкод : 2012Sci...338.1627L . дои : 10.1126/science.1229112 . ПМК 3590491 . ПМИД 23258895 .
- ^ «Одна ячейка — это все, что вам нужно» . 4 января 2013 г.
- ^ Jump up to: а б Родриг С; Мальмстрем Р.Р.; Берлин AM; Биррен Б.В.; Хенн М.Р.; Чисхолм SW (2009). «Полногеномная амплификация и сборка de novo отдельных бактериальных клеток» . ПЛОС ОДИН . 4 (9): e6864. Бибкод : 2009PLoSO...4.6864R . дои : 10.1371/journal.pone.0006864 . ПМЦ 2731171 . ПМИД 19724646 .
- ^ Jump up to: а б Зербино Д; Бирни Э (2008). «Бархат: алгоритмы сборки короткого чтения de novo с использованием графов де Брёйна» . Геномные исследования . 18 (5): 821–829. дои : 10.1101/гр.074492.107 . ПМК 2336801 . ПМИД 18349386 .
- ^ Симпсон Дж.Т.; Дурбин Р. (2012). «Эффективная сборка больших геномов de novo с использованием сжатых структур данных» . Геномные исследования . 22 (3): 549–556. дои : 10.1101/гр.126953.111 . ПМК 3290790 . ПМИД 22156294 .
- ^ Jump up to: а б Певзнер П.А.; Тан Х; Уотерман М.С. (2001). «Подход Эйлера к сборке фрагментов ДНК» . Труды Национальной академии наук Соединенных Штатов Америки . 98 (17): 9748–9753. Бибкод : 2001PNAS...98.9748P . дои : 10.1073/pnas.171285098 . ПМК 55524 . ПМИД 11504945 .
- ^ Медведев П; Скотт Э; Какарадов Б; Певзнер П (2011). «Исправление ошибок наборов данных высокопроизводительного секвенирования с неравномерным покрытием» . Биоинформатика . 27 (13): i137–141. doi : 10.1093/биоинформатика/btr208 . ПМК 3117386 . ПМИД 21685062 .
- ^ Ишои Т; Войк Т; Степанаускас Р; Новотный М; Ласкен Р.С. (2008). «Геномное секвенирование отдельных микробных клеток из образцов окружающей среды» . Современное мнение в микробиологии . 11 (3): 198–204. дои : 10.1016/j.mib.2008.05.006 . ПМЦ 3635501 . ПМИД 18550420 .
- ^ Jump up to: а б с Николенко С.И.; Коробейников А.И.; Алексеев МА. (2012). «BayesHammer: байесовская кластеризация для исправления ошибок при секвенировании одиночных клеток» . БМК Геномика . 14 (Приложение 1): S7. arXiv : 1211.2756 . дои : 10.1186/1471-2164-14-S1-S7 . ПМЦ 3549815 . ПМИД 23368723 .
- ^ Вяххи Н; Фам СК; Певзнер П (2012). «От графов де Брёйна к прямоугольным графам для сборки генома». Алгоритмы в биоинформатике . Конспект лекций по биоинформатике. Том. 7534. стр. 249–261. дои : 10.1007/978-3-642-33122-0_20 . ISBN 978-3-642-33121-3 .
- ^ Jump up to: а б Чицаз Х; Йи-Гринбаум Дж.Л.; Теслер Г; Ломбардо М.Дж.; Дюпон CL; Барсук Дж. Х.; Новотный М; Раш БД; Фрейзер Л.Дж.; Гормли Н.А.; Шульц-Триглафф О; Смит ГП; Эверс диджей; Певзнер П.А.; Ласкен Р.С. (2011). «Эффективная сборка de novo одноклеточных бактериальных геномов из наборов данных короткого чтения» . Нат Биотехнология . 29 (10): 915–921. дои : 10.1038/nbt.1966 . ПМЦ 3558281 . ПМИД 21926975 .
- ^ Пэн Ю.; Люнг ХКМ; Ю С.-М; Чин ФЮЛ (2010). «IDBA - Практический итеративный граф Брейна для ассемблера Novo» . Исследования в области вычислительной молекулярной биологии . Конспекты лекций по информатике. Том. 6044. стр. 426–440 . Бибкод : 2010LNCS.6044..426P . CiteSeerX 10.1.1.157.195 . дои : 10.1007/978-3-642-12683-3_28 . hdl : 10722/129571 . ISBN 978-3-642-12682-6 . S2CID 16328443 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Jump up to: а б с д Гуревич А; Савельев В; Вяххи Н; Теслер Г. (2013). «QUAST: инструмент оценки качества сборок генома» . Биоинформатика . 29 (8): 1072–1075. doi : 10.1093/биоинформатика/btt086 . ПМЦ 3624806 . ПМИД 23422339 .
- ^ Ли Р; Чжу Х; Руан Дж; Цянь В; Клык Икс; Ши З; Ли Й; Ли С; Шан Г; Кристиансен К; Ли С; Ян Х; Ван Дж; Ван Дж (2010). «Сборка геномов человека de novo с помощью массово-параллельного секвенирования короткого чтения» (PDF) . Геномные исследования . 20 (2): 265–272. дои : 10.1101/гр.097261.109 . ПМЦ 2813482 . ПМИД 20019144 .
- ^ Пэн Ю; Люнг ХКМ; Ю С.М.; Чин ФЮЛ (2012). «IDBA-UD: ассемблер de novo для данных одноклеточного и метагеномного секвенирования с весьма неравномерной глубиной» . Биоинформатика . 28 (11): 1–8. doi : 10.1093/биоинформатика/bts174 . hdl : 10722/152505 . ПМИД 22495754 .
- ^ «Ассемблер генома SPAdes | Лаборатория алгоритмической биологии» .
- ^ Блаттнер, Франция; Планкетт Дж; Блох С; Перна Н; Берланд V; Райли М; Кольядо-Видес Дж; Гласнер Дж; Роде С; Мэйхью Дж; Грегор Дж; Дэвис Н; Киркпатрик Х; Гёден М; Роуз Д; Мау Б; Шао Ю (1997). «Полная последовательность генома Escherichia coli K-12» . Наука . 277 (5331): 1453–1462. дои : 10.1126/science.277.5331.1453 . ПМИД 9278503 .