Jump to content

SPAdes (программное обеспечение)

(Перенаправлено с SPAdes )

ЛОПАТЫ
Разработчик(и) Санкт-Петербургский государственный университет , Россия
Санкт-Петербургский академический университет , Россия
Калифорнийский университет, Сан-Диего , США
Стабильная версия
4.0.0 / 3 июня 2024 г.
Репозиторий github /аблаб /пики
Написано в С++ , С , Питон , Перл .
Операционная система Линукс , МакОС
Тип Биоинформатика
Лицензия Стандартная общественная лицензия GNU версии 2 (GPLv2)
Веб-сайт аблаб .github .что /пики /

SPAdes (Санкт-Петербургский генома сборщик ) [ 1 ] сборки генома представляет собой алгоритм об одноклеточных и многоклеточных бактериях , который был разработан для наборов данных . Поэтому он может не подойти для крупных проектов по изучению геномов. [ 1 ] [ 2 ]

SPAdes работает с Ion Torrent , PacBio , Oxford Nanopore и Illumina, парными, сопряженными парами и одиночными чтениями . [ 1 ] SPAdes был интегрирован в конвейеры Galaxy Гаем Лайонелом и Филипом Мабоном. [ 3 ]

Изучение генома одиночных клеток поможет отследить изменения, происходящие в ДНК с течением времени или связанные с воздействием различных условий. Кроме того, многие проекты, такие как проект «Микробиом человека» и открытие антибиотиков, значительно выиграют от секвенирования одиночных клеток (SCS). [ 4 ] [ 5 ] SCS имеет преимущество перед секвенированием ДНК, выделенной из большого количества клеток. Проблему усреднения значительных различий между ячейками можно решить с помощью SCS. [ 6 ] Экспериментальные и вычислительные технологии оптимизируются, чтобы позволить исследователям секвенировать отдельные клетки. Например, амплификация ДНК, выделенной из одной клетки, является одной из экспериментальных задач. Чтобы максимизировать точность и качество SCS, необходима равномерная амплификация ДНК. Было продемонстрировано, что использование множественных циклов отжига и петлевой амплификации ( MALBAC ) для амплификации ДНК приводит к меньшей систематической ошибке по сравнению с полимеразной цепной реакцией ( ПЦР ) или амплификацией с множественным смещением (MDA). [ 7 ] Более того, было признано, что проблемы, стоящие перед SCS, носят скорее вычислительный, чем экспериментальный характер. [ 8 ] На данный момент доступен ассемблер, например Velvet , [ 9 ] Ассемблер строковых графов (SGA) [ 10 ] и Эйлер-СР, [ 11 ] не были предназначены для сборки SCS. [ 2 ] Сборка данных отдельных клеток затруднена из-за неравномерного охвата чтения, различий в длине вставки, высокого уровня ошибок секвенирования и химерных чтений. [ 8 ] [ 12 ] [ 13 ] Поэтому новый алгоритмический подход SPAdes был разработан для решения этих проблем.

Подход к сборке SPAdes

[ редактировать ]

SPAdes использует k-меры для построения исходного графа де Брейна и на последующих этапах выполняет теоретико-графовые операции, основанные на структуре графа, покрытии и длинах последовательностей. Более того, он корректирует ошибки итеративно. [ 2 ] Этапы сборки в SPAdes следующие: [ 2 ]

  • Этап 1: построение графа сборки. SPAdes использует многоразмерный граф де Брейна (см. ниже), который обнаруживает и удаляет выпуклости/пузыри и химерные чтения.
  • Этап 2: корректировка k-бимеров (пар k-меров). Оцениваются точные расстояния между k-мерами в геноме (ребра в графе сборки).
  • Этап 3: построение парного графа сборки.
  • Этап 4: построение контига. SPAdes выводит контиги и позволяет сопоставлять чтения обратно с их позициями в графе сборки после упрощения графа (обратного отслеживания).

Подробности по сборке SPAdes

[ редактировать ]
Логарифмический график покрытия данных секвенирования отдельных клеток генома E. coli . [ 14 ]

SPAdes был разработан для решения следующих проблем, связанных со сборкой одноячеечных данных: [ 2 ]

1. Неравномерное покрытие . SPAdes использует многоразмерный граф де Брёйна, который позволяет использовать различные значения k. Было предложено использовать меньшие значения k в регионах с низким охватом, чтобы минимизировать фрагментацию, и большие значения k в регионах с высоким охватом, чтобы уменьшить коллапс повторов (этап 1 выше).

2. Переменные размеры вставок парных считываний . SPAdes использует базовую концепцию парных графов де Брёйна. Однако парное чтение де Брейна хорошо работает при чтении спаренных концов с фиксированным размером вставки. Таким образом, SPAdes оценивает «расстояния» вместо использования «размеров вставки». Расстояние (d) чтения спаренного конца определяется как для длины чтения L, d = размер вставки – L. Используя подход настройки k-бимера, расстояния точно оцениваются. k-бимер, состоящий из k-меров «α» и «β» вместе с предполагаемым расстоянием между ними в геноме (α|β,d). Этот подход разбивает чтения парных концов на пары k-меров, которые преобразуются для определения пар ребер (ребер) в графах де Брейна. Эти наборы двуребер участвуют в оценке расстояний между путями ребер между k-мерами α и β. Путем кластеризации из каждого кластера выбирается оптимальная оценка расстояния (этап 2 выше). Для построения парного графа де Брейна в SPAdes используются прямоугольные графы (этап 3). Метод прямоугольных графиков был впервые представлен в 2012 году. [ 15 ] построить парные графы де Брейна с сомнительными расстояниями.

3. Балдж, кончики и химеры . Выпуклости и кончики возникают из-за ошибок в середине и конце чтения соответственно. Химерная связь соединяет две несвязанные подстроки генома. SPAdes идентифицирует их на основе топологии графа, длины и покрытия включенных в них неветвящихся путей. SPAdes сохраняет структуру данных, позволяющую отслеживать все исправления или удаления.

SPAdes изменяет ранее использовавшийся подход к удалению выпуклостей. [ 16 ] и итеративный графовый подход де Брейна от Peng et al (2010). [ 17 ] и создает новый подход под названием «коррекция выпуклостей», который означает коррекцию и удаление выпуклостей. Алгоритм устранения выпуклости можно резюмировать следующим образом: простая выпуклость формируется двумя небольшими и похожими путями (P и Q), соединяющими одни и те же концентраторы. Если P — неветвящийся путь (h-путь), то SPAdes отображает каждое ребро в P в проекцию ребра в Q и удаляет P из графа, в результате чего покрытие Q увеличивается. В отличие от других ассемблеров, которые используют удаление выпуклостей с фиксированным покрытием, SPAdes шаг за шагом удаляет или проецирует h-пути с низким покрытием. Это достигается за счет постепенного увеличения порогов отсечения и повторения всех h-путей в возрастающем порядке покрытия (для удаления выпуклостей и удаления химер) или длины (для удаления кончика). Более того, чтобы гарантировать, что в графе не появятся новые источники/приемники, SPAdes удаляет h-путь (при удалении химерного h-пути) или проецирует (при удалении выпуклости) только в том случае, если его начальная и конечная вершины имеют по крайней мере две вершины. исходящие и входящие края . Это помогает удалить h-пути с низким покрытием, возникающие из-за ошибок секвенирования и химерных считываний, но не из-за повторов.

Конвейеры SPAdes и производительность

[ редактировать ]

SPAdes состоит из следующих инструментов: [ 1 ]

  • Прочтите инструмент исправления ошибок BayesHammer (для данных Illumina) и IonHammer (для данных IonTorrent) . [ 14 ] При традиционной коррекции ошибок редкие k-меры считаются ошибками. Это невозможно применить к СКС из-за неравномерного покрытия. Поэтому BayesHammer использует вероятностную субкластеризацию, которая исследует несколько центральных нуклеотидов, которые будут лучше покрыты, чем другие, похожими k-мерами. [ 14 ] Утверждалось, что для одноклеточного набора данных Escherichia coli ( E. coli ) BayesHammer работает примерно за 75 минут, требует до 10 ГБ ОЗУ для исправления ошибок чтения и требует 10 ГБ дополнительного дискового пространства для временных файлов.
  • Итеративный ассемблер генома с коротким чтением, SPAdes . Для того же набора данных этот шаг занимает ~ 75 минут. выше) уходит ~40% этого времени На выполнение этапа 1 (см. подход к сборке SPAdes при использовании трёх итераций (k=22, 34 и 56), а на выполнение этапов 2, 3 и 1% уходит ~45%, 14% и 1%. 4 соответственно. Для выполнения сборки также требуется до 5 ГБ оперативной памяти и требуется 8 ГБ дополнительного дискового пространства.
  • Корректор несоответствия (использующий инструмент BWA ). Этот модуль требует наибольшее время (~120 мин) и наибольшее дополнительное дисковое пространство (~21 Гб) для временных файлов. требуется до 9 ГБ ОЗУ Для полной коррекции несоответствий собранного набора данных об отдельных клетках E. coli .
  • Модуль для сборки высокополиморфных диплоидных геномов, digSPAdes . digSPAdes конструирует более длинные контиги, используя преимущества расхождения между гапломами в повторяющихся областях генома. После этого он производит консенсусное конструирование контигов и выполняет сборку гаплотипа.

Сравнение ассемблеров

[ редактировать ]

Исследование [ 18 ] сравнили несколько сборщиков генома на образцах одноклеточных E. coli . Это ассемблеры EULER-SR, [ 11 ] бархат, [ 9 ] СОАПденово, [ 19 ] Бархат-SC, EULER+ Бархат-SC (E+V-SC), [ 16 ] ИДБА-УД [ 20 ] и СПАДЫ. Было продемонстрировано, что IDBA-UD и SPAdes показали себя лучше всего. [ 18 ] У SPAdes был самый большой NG50 (99 913, статистика NG50 такая же, как у N50, за исключением того, что используется размер генома, а не размер сборки). [ 21 ] Более того, используя E. coli , эталонный геном [ 22 ] SPAdes собрал самый высокий процент генома (97%) и наибольшее количество полных генов (4071 из 4324). [ 18 ] Выступления сборщиков были следующими: [ 18 ]

  • Количество контигов:

IDBA-UD < Velvet < E+V-SC < SPAdes < EULER-SR < Velvet-SC < SOAPdenovo

  • НГ50

ЛОПАТЫ > IDBA-UD >>> E+V-SC > EULER-SR >Velvet >Velvet-SC > SOAPdenovo

  • Самый большой контиг:

IDBA-UD > SPAdes > > EULER-SR > Velvet= E+V-SC > Velvet-SC > SOAPdenovo

  • Картированный геном (%):

SPAdes > IDBA-UD > E+V-SC > Velvet-SC > EULER-SR > SOAPdenovo > Velvet

  • Количество ошибок сборки:

E+V-SC = Velvet = Velvet-SC < SOAPdenovo < IDBA-UD < SPADes < EULER-SR

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д «Руководство по SPAdes 3.0.0» . Архивировано из оригинала 2 февраля 2014 года . Проверено 26 января 2014 г.
  2. ^ Jump up to: а б с д и Банкевич А; Нурк С; Антипов Д; Гуревич А.А.; Дворкин М; Куликов А.С.; Лесин В.М.; Николенко С.И.; Фам С; Пржибельский А.Д.; Пышкин А.В.; Сироткин А.В.; Вяххи Н; Теслер Г; Алексеев М.А.; Певзнер П.А. (2012). «SPAdes: новый алгоритм сборки генома и его применение к секвенированию одиночных клеток» . Журнал вычислительной биологии . 19 (5): 455–477. дои : 10.1089/cmb.2012.0021 . ПМЦ   3342519 . ПМИД   22506599 .
  3. ^ Сарай для инструментов Galaxy
  4. ^ Джилл С; Поп М; Дебой Р; Экбург П; Тернбо П; Сэмюэл Б; Гордон Дж; Релман Д; Фрейзер-Лиггетт С; Нельсон К. (2006). «Метагеномный анализ микробиома дистального отдела кишечника человека» . Наука . 312 (5778): 1355–1359. Бибкод : 2006Sci...312.1355G . дои : 10.1126/science.1124234 . ПМК   3027896 . ПМИД   16741115 .
  5. ^ Ли Дж; Ведерас Дж (2009). «Открытие лекарств и натуральные продукты: конец эпохи или бесконечный фронтир?» (PDF) . Наука . 325 (5937): 161–165. Бибкод : 2009Sci...325..161L . дои : 10.1126/science.1168243 . ПМИД   19589993 . S2CID   206517350 .
  6. ^ Лу С; Зонг С; Вентилятор В; Ян М; Ли Дж; Чепмен А; Чжу П; Ху Х; Сюй Л; Ян Л; ФБ; Цяо Дж; Тан Ф; Ли Р; Се Икс (2012). «Изучение мейотической рекомбинации и анеуплоидии отдельных сперматозоидов с помощью полногеномного секвенирования» . Наука . 338 (6114): 1627–1630. Бибкод : 2012Sci...338.1627L . дои : 10.1126/science.1229112 . ПМК   3590491 . ПМИД   23258895 .
  7. ^ «Одна ячейка — это все, что вам нужно» . 4 января 2013 г.
  8. ^ Jump up to: а б Родриг С; Мальмстрем Р.Р.; Берлин AM; Биррен Б.В.; Хенн М.Р.; Чисхолм SW (2009). «Полногеномная амплификация и сборка de novo отдельных бактериальных клеток» . ПЛОС ОДИН . 4 (9): e6864. Бибкод : 2009PLoSO...4.6864R . дои : 10.1371/journal.pone.0006864 . ПМЦ   2731171 . ПМИД   19724646 .
  9. ^ Jump up to: а б Зербино Д; Бирни Э (2008). «Бархат: алгоритмы сборки короткого чтения de novo с использованием графов де Брёйна» . Геномные исследования . 18 (5): 821–829. дои : 10.1101/гр.074492.107 . ПМК   2336801 . ПМИД   18349386 .
  10. ^ Симпсон Дж.Т.; Дурбин Р. (2012). «Эффективная сборка больших геномов de novo с использованием сжатых структур данных» . Геномные исследования . 22 (3): 549–556. дои : 10.1101/гр.126953.111 . ПМК   3290790 . ПМИД   22156294 .
  11. ^ Jump up to: а б Певзнер П.А.; Тан Х; Уотерман М.С. (2001). «Подход Эйлера к сборке фрагментов ДНК» . Труды Национальной академии наук Соединенных Штатов Америки . 98 (17): 9748–9753. Бибкод : 2001PNAS...98.9748P . дои : 10.1073/pnas.171285098 . ПМК   55524 . ПМИД   11504945 .
  12. ^ Медведев П; Скотт Э; Какарадов Б; Певзнер П (2011). «Исправление ошибок наборов данных высокопроизводительного секвенирования с неравномерным покрытием» . Биоинформатика . 27 (13): i137–141. doi : 10.1093/биоинформатика/btr208 . ПМК   3117386 . ПМИД   21685062 .
  13. ^ Ишои Т; Войк Т; Степанаускас Р; Новотный М; Ласкен Р.С. (2008). «Геномное секвенирование отдельных микробных клеток из образцов окружающей среды» . Современное мнение в микробиологии . 11 (3): 198–204. дои : 10.1016/j.mib.2008.05.006 . ПМЦ   3635501 . ПМИД   18550420 .
  14. ^ Jump up to: а б с Николенко С.И.; Коробейников А.И.; Алексеев МА. (2012). «BayesHammer: байесовская кластеризация для исправления ошибок при секвенировании одиночных клеток» . БМК Геномика . 14 (Приложение 1): S7. arXiv : 1211.2756 . дои : 10.1186/1471-2164-14-S1-S7 . ПМЦ   3549815 . ПМИД   23368723 .
  15. ^ Вяххи Н; Фам СК; Певзнер П (2012). «От графов де Брёйна к прямоугольным графам для сборки генома». Алгоритмы в биоинформатике . Конспект лекций по биоинформатике. Том. 7534. стр. 249–261. дои : 10.1007/978-3-642-33122-0_20 . ISBN  978-3-642-33121-3 .
  16. ^ Jump up to: а б Чицаз Х; Йи-Гринбаум Дж.Л.; Теслер Г; Ломбардо М.Дж.; Дюпон CL; Барсук Дж. Х.; Новотный М; Раш БД; Фрейзер Л.Дж.; Гормли Н.А.; Шульц-Триглафф О; Смит ГП; Эверс диджей; Певзнер П.А.; Ласкен Р.С. (2011). «Эффективная сборка de novo одноклеточных бактериальных геномов из наборов данных короткого чтения» . Нат Биотехнология . 29 (10): 915–921. дои : 10.1038/nbt.1966 . ПМЦ   3558281 . ПМИД   21926975 .
  17. ^ Пэн Ю.; Люнг ХКМ; Ю С.-М; Чин ФЮЛ (2010). «IDBA - Практический итеративный граф Брейна для ассемблера Novo» . Исследования в области вычислительной молекулярной биологии . Конспекты лекций по информатике. Том. 6044. стр. 426–440 . Бибкод : 2010LNCS.6044..426P . CiteSeerX   10.1.1.157.195 . дои : 10.1007/978-3-642-12683-3_28 . hdl : 10722/129571 . ISBN  978-3-642-12682-6 . S2CID   16328443 . {{cite book}}: |journal= игнорируется ( помогите )
  18. ^ Jump up to: а б с д Гуревич А; Савельев В; Вяххи Н; Теслер Г. (2013). «QUAST: инструмент оценки качества сборок генома» . Биоинформатика . 29 (8): 1072–1075. doi : 10.1093/биоинформатика/btt086 . ПМЦ   3624806 . ПМИД   23422339 .
  19. ^ Ли Р; Чжу Х; Руан Дж; Цянь В; Клык Икс; Ши З; Ли Й; Ли С; Шан Г; Кристиансен К; Ли С; Ян Х; Ван Дж; Ван Дж (2010). «Сборка геномов человека de novo с помощью массово-параллельного секвенирования короткого чтения» (PDF) . Геномные исследования . 20 (2): 265–272. дои : 10.1101/гр.097261.109 . ПМЦ   2813482 . ПМИД   20019144 .
  20. ^ Пэн Ю; Люнг ХКМ; Ю С.М.; Чин ФЮЛ (2012). «IDBA-UD: ассемблер de novo для данных одноклеточного и метагеномного секвенирования с весьма неравномерной глубиной» . Биоинформатика . 28 (11): 1–8. doi : 10.1093/биоинформатика/bts174 . hdl : 10722/152505 . ПМИД   22495754 .
  21. ^ «Ассемблер генома SPAdes | Лаборатория алгоритмической биологии» .
  22. ^ Блаттнер, Франция; Планкетт Дж; Блох С; Перна Н; Берланд V; Райли М; Кольядо-Видес Дж; Гласнер Дж; Роде С; Мэйхью Дж; Грегор Дж; Дэвис Н; Киркпатрик Х; Гёден М; Роуз Д; Мау Б; Шао Ю (1997). «Полная последовательность генома Escherichia coli K-12» . Наука . 277 (5331): 1453–1462. дои : 10.1126/science.277.5331.1453 . ПМИД   9278503 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d6b23e5201f41e5f368fbb2472a71ed3__1717744440
URL1:https://arc.ask3.ru/arc/aa/d6/d3/d6b23e5201f41e5f368fbb2472a71ed3.html
Заголовок, (Title) документа по адресу, URL1:
SPAdes (software) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)