Jump to content

Сборка гибридного генома

Гибридная сборка может использоваться для разрешения неоднозначностей, существующих в геномах, ранее собранных с использованием секвенирования второго поколения. Короткие чтения второго поколения также использовались для исправления ошибок, существующих при длинных чтениях третьего поколения.

В биоинформатике из фрагментированной секвенированной ДНК , сборка гибридного генома относится к использованию различных технологий секвенирования для решения задачи сборки генома полученной в результате секвенирования дробовиком. Сборка генома представляет собой одну из самых сложных задач при секвенировании генома, поскольку большинство современных технологий секвенирования ДНК могут производить только чтения, которых в среднем составляет 25–300 пар оснований . длина [1] Это на порядки меньше среднего размера генома (геном октоплоидного растения Paris japonica составляет 149 миллиардов пар оснований). [2] ). Эта сборка сложна в вычислительном отношении и имеет некоторые присущие проблемы, одна из которых заключается в том, что геномы часто содержат сложные тандемные повторы последовательностей, длина которых может составлять тысячи пар оснований. [3] Эти повторы могут быть достаточно длинными, поэтому считывания секвенирования второго поколения не могут быть достаточно длинными, чтобы соединить повтор, и, как таковое, определение местоположения каждого повтора в геноме может быть затруднено. [4] Разрешение этих тандемных повторов может быть достигнуто путем использования длинных считываний секвенирования третьего поколения , например, полученных с помощью секвенатора ДНК PacBio RS. Эти последовательности в среднем имеют длину 10 000–15 000 пар оснований и достаточно длинные, чтобы охватить большинство повторяющихся областей. [5] Использование гибридного подхода к этому процессу может повысить точность сборки тандемных повторов за счет возможности точного размещения их вдоль линейного каркаса и сделать процесс более эффективным в вычислительном отношении.

Геномная сборка

[ редактировать ]

Классическая сборка генома

[ редактировать ]

Термин «сборка генома» относится к процессу взятия большого количества фрагментов ДНК, генерируемых во время дробового секвенирования , и сборки их в правильном порядке, например, для реконструкции исходного генома. [6] Секвенирование включает использование автоматизированных машин для определения порядка нуклеиновых кислот в интересующей ДНК (нуклеиновые кислоты в ДНК — это аденин , цитозин , гуанин и тимин ) для проведения геномного анализа с участием интересующего организма. Появление секвенирования нового поколения привело к значительному повышению скорости, точности и стоимости секвенирования ДНК и сделало секвенирование целых геномов осуществимым процессом. [7] [8] Существует множество различных технологий секвенирования, разработанных различными биотехнологическими компаниями, каждая из которых производит различные считывания секвенирования с точки зрения точности и длины считывания. Некоторые из этих технологий включают Roche 454 , Illumina , SOLiD и IonTorrent . [9] Эти технологии секвенирования дают относительно короткие считывания (50–700 оснований) и имеют высокую точность (>98%). Секвенирование третьего поколения включает такие технологии, как система PacBio RS, которая может производить длинные чтения (максимум 23 КБ), но имеет относительно низкую точность. [10]

Сборка генома обычно выполняется одним из двух методов: сборка с использованием эталонного генома в качестве каркаса, [11] или снова [12] сборка. Подход с использованием каркасов может быть полезен, если геном аналогичного организма был секвенирован ранее. Этот процесс включает сборку интересующего генома путем сравнения его с известным геномом или каркасом. Сборка генома de novo используется, когда собираемый геном не похож на геном других организмов, геномы которых были секвенированы ранее. Этот процесс осуществляется путем объединения отдельных чтений в смежные последовательности ( контиги ), которые затем расширяются в направлениях 3' и 5' путем перекрытия других последовательностей. Последнее предпочтительнее, поскольку позволяет сохранить больше последовательностей. [13]

Сборка последовательностей ДНК de novo представляет собой очень сложный в вычислительном отношении процесс и может попасть в класс NP-сложных задач, если гамильтонового цикла используется подход . Это связано с тем, что для реконструкции генома необходимо собрать миллионы последовательностей. Внутри геномов часто встречаются тандемные повторы сегментов ДНК, длина которых может составлять тысячи пар оснований, что может вызвать проблемы во время сборки. [1]

Хотя технология секвенирования нового поколения теперь способна производить миллионы прочтений, сборка этих прочтений может стать узким местом во всем процессе сборки генома. Таким образом, проводятся обширные исследования по разработке новых методов и алгоритмов, которые упростят процесс сборки генома и сделают его более эффективным в вычислительном отношении, а также повысят точность процесса в целом. [10]

Сборка гибридного генома

[ редактировать ]
Рабочий процесс типичного эксперимента по сборке гибридного генома с использованием технологий секвенирования второго и третьего поколения. Рисунок адаптирован из Wang et al., 2012. [14]

Один гибридный подход к сборке генома включает дополнение коротких и точных данных секвенирования второго поколения (например, от IonTorrent, Illumina или Roche 454) длинными, менее точными данными секвенирования третьего поколения (например, от PacBio RS) для разрешения сложных повторяющихся сегментов ДНК. [15] Основным ограничением секвенирования одиночных молекул третьего поколения , которое не позволяет использовать его отдельно, является его относительно низкая точность, которая вызывает присущие ошибки в секвенируемой ДНК. Использование исключительно технологий секвенирования второго поколения для сборки генома может пропустить или привести к неполной сборке важных аспектов генома. Дополнение считываний третьего поколения короткими высокоточными последовательностями второго поколения может преодолеть эти присущие ошибки и завершить важные детали генома. Этот подход использовался для секвенирования геномов некоторых видов бактерий, включая штамм Vibrio cholerae . [16] Были разработаны алгоритмы, специфичные для этого типа сборки гибридного генома, такие как алгоритм скорректированного чтения PacBio. [10]

При использовании считывания последовательностей с помощью различных технологий для сборки секвенированного генома возникают проблемы; данные, поступающие от разных секвенаторов, могут иметь разные характеристики. Пример этого можно увидеть при использовании метода сборки генома с перекрытием-макетом (OLC), который может быть затруднительным при использовании чтений существенно разной длины. В настоящее время эта проблема решается за счет использования нескольких программ сборки генома. [1] Пример этого можно увидеть у Goldberg et al. где авторы соединили 454 чтения с чтениями Сэнгера. 454 чтения были сначала собраны с использованием ассемблера Newbler (который оптимизирован для использования коротких чтений), генерирующего псевдочтения, которые затем были объединены в пары с более длинными чтениями Сэнгера и собраны с помощью ассемблера Celera. [17]

Сборку гибридного генома также можно осуществить, используя подход Эйлера. В этом подходе длина собранных последовательностей не имеет значения, поскольку после построения спектра k-меров длины ридов не имеют значения. [1] [18]

Практические подходы

[ редактировать ]

Гибридная коррекция ошибок и сборка de novo считываний секвенирования одиночных молекул.

[ редактировать ]

Авторы этого исследования разработали алгоритм коррекции, называемый алгоритмом исправленного чтения PacBio (PBcR), который реализован как часть программы сборки Celera . [10] Этот алгоритм вычисляет точную гибридную консенсусную последовательность путем сопоставления коротких чтений с более высокой точностью (из технологий секвенирования второго поколения) с отдельными длинными считываниями с более низкой точностью (из технологий секвенирования третьего поколения ). Это отображение позволяет обрезать и корректировать длинные считывания, чтобы повысить точность считывания с 80% до более 99,9%. В лучшем примере этого приложения из этой статьи размер контига был увеличен в пять раз по сравнению со сборками, использующими только чтение второго поколения. [10]

Это исследование предлагает улучшение по сравнению с типичными программами и алгоритмами, используемыми для сбора неисправленных показаний PacBio. ALLPATHS-LG (еще одна программа, которая может собирать считывания PacBio) использует неисправленные считывания PacBio для помощи в построении лесов и для закрытия пробелов в сборках коротких последовательностей. Из-за вычислительных ограничений этот подход ограничивает сборку относительно небольшими геномами (максимум 10 Мбит/с). Алгоритм PBcR позволяет собирать гораздо более крупные геномы с более высокой точностью и использовать нескорректированные чтения PacBio. [10]

Это исследование также показывает, что использование меньшего охвата исправленных длинных чтений аналогично использованию более высокого охвата более коротких чтений; Данные 13x PBcR (скорректированные с использованием 50x данных Illumina) были сопоставимы со сборкой, построенной с использованием 100x парных считываний Illumina. N50 . для скорректированных данных PBcR также был длиннее, чем данные Illumina (4,65 Мбит/с по сравнению с 3,32 Мбит/с для считываний Illumina) Аналогичная тенденция наблюдалась при секвенировании генома Escherichia coli JM221: сборка 25x PBcR имела N50 в три раза больше, чем сборка 50x 454. [10]

Автоматизированная обработка бактериальных геномов

[ редактировать ]

В этом исследовании использовались два разных метода сборки гибридного генома: метод каркаса, который дополнял доступные в настоящее время секвенированные контиги считыванием PacBio, а также подход с коррекцией ошибок для улучшения сборки бактериальных геномов. [16] Первый подход в этом исследовании начался с высококачественных контигов, созданных на основе считываний секвенирования с использованием технологии второго поколения (Illumina и 454). Эти контиги были дополнены путем их согласования с длинными чтениями PacBio для получения линейных каркасов, которые были заполнены пробелами с помощью длинных чтений PacBio. Затем эти каркасы были снова дополнены, но с использованием строб-считываний PacBio (множественных субчтений из одного непрерывного фрагмента ДНК). [19] ) для достижения окончательной, качественной сборки. Этот подход был использован для секвенирования генома штамма холерного вибриона , который был ответственен за вспышку холеры на Гаити . [16] [20]

В этом исследовании также использовался гибридный подход к исправлению ошибок данных секвенирования PacBio. Это было достигнуто за счет использования коротких считываний Illumina с высоким охватом для исправления ошибок в считываниях PacBio с низким охватом. В этом процессе использовался BLASR (элайнер длительного считывания от PacBio). В областях, где считывания Illumina можно было картировать, консенсусную последовательность конструировали с использованием перекрывающихся считываний в этой области. [16]

Одной из областей генома, где использование длинных считываний PacBio оказалось особенно полезным, был рибосомальный оперон. Размер этой области обычно превышает 5 КБ и встречается семь раз по всему геному со средней идентичностью от 98,04% до 99,94%. Разрешение этих областей с использованием только коротких чтений второго поколения было бы очень сложно, но использование длинных чтений третьего поколения делает процесс намного более эффективным. Использование считываний PacBio позволило однозначно разместить комплекс, повторяемый вдоль каркаса. [16]

Использование только коротких чтений

[ редактировать ]
Пример графа Де Брейна , который будет использоваться для сборки генома. Узлы представляют собой последовательность контигов, используемых для сборки.

В этом исследовании используется подход к сборке гибридного генома, в котором используются только чтения секвенирования, созданные с помощью секвенирования SOLiD (технология секвенирования второго поколения). [13] Геном C. pseudotuberculosis собирали дважды: один раз с использованием классического подхода к эталонному геному и один раз с использованием гибридного подхода. Гибридный подход состоял из трех последовательных этапов. Во-первых, контиги генерировались de novo, во-вторых, контиги упорядочивались и объединялись в суперконтиги, и, в-третьих, промежутки между контигами закрывались с помощью итеративного подхода. Первоначальная сборка контигов de novo осуществлялась параллельно с использованием Velvet, который собирает контиги путем манипулирования графами Де Брейна, и Edena, ассемблера на основе OLC. [13]

Сравнение сборки, созданной с использованием гибридного подхода, со сборкой, созданной с использованием традиционного подхода с использованием эталонного генома, показало, что при наличии эталонного генома более выгодно использовать стратегию гибридной сборки de novo, поскольку она сохраняет больше последовательностей генома. [13]

Использование высокопроизводительного короткого и длинного чтения

[ редактировать ]

Авторы этой статьи представляют Cerulean, программу сборки гибридного генома, которая отличается от традиционных подходов к гибридной сборке. [21] Обычно гибридная сборка включает в себя сопоставление коротких чтений высокого качества с длинными чтениями низкого качества, но это все равно вносит ошибки в собранные геномы. Этот процесс также требует больших вычислительных затрат и большого времени даже для относительно небольших бактериальных геномов. [21]

Cerulean, в отличие от других подходов к гибридной сборке, не использует короткие чтения напрямую, вместо этого он использует граф сборки, который создается аналогично методу OLC или методу Де Брейна. Этот граф используется для сборки скелетного графа, в котором используются только длинные контиги, а края графа представляют предполагаемую геномную связь между контигами. Скелетный граф представляет собой упрощенную версию типичного графа Де Брейна, а это означает, что однозначная сборка с использованием скелетного графа более выгодна, чем традиционные методы. [21]

Этот метод был протестирован путем сборки генома штамма Escherichia coli. Сначала короткие чтения были собраны с помощью ассемблера ABySS. Эти чтения затем были сопоставлены с длинными чтениями с помощью BLASR. Результаты сборки ABySS использовались для создания графа сборки, который использовался для создания каркасов с использованием отфильтрованных данных BLASR. Преимущества церулеана в том, что он требует минимальных ресурсов и позволяет собирать леса с высокой точностью. Эти характеристики делают его более подходящим для масштабирования для использования на более крупных эукариотических геномах, но эффективность церулеана при применении к более крупным геномам еще предстоит проверить. [21]

Перспективы на будущее

[ редактировать ]

Текущие проблемы сборки генома связаны с ограничениями современных технологий секвенирования. Достижения в технологии секвенирования направлены на разработку систем, способных производить длинные чтения секвенирования с очень высокой точностью, но на данный момент эти две вещи являются взаимоисключающими. [1] Появление технологии секвенирования третьего поколения расширяет границы геномных исследований, поскольку стоимость получения высококачественных данных секвенирования снижается. [22]

Идея использования нескольких технологий секвенирования для облегчения сборки генома может уйти в прошлое, поскольку качество длинных считываний секвенирования (сотни или тысячи пар оснований) приближается и превосходит качество текущих считываний секвенирования второго поколения. Вычислительные трудности, возникающие при сборке генома, также уйдут в прошлое по мере роста эффективности и производительности вычислений. Разработка более эффективных алгоритмов секвенирования и программ сборки необходима для разработки более эффективных подходов к сборке, которые могут одновременно включать считывание секвенирования из нескольких технологий.

Многие из текущих ограничений в геномных исследованиях связаны с возможностью получения больших объемов высококачественных данных секвенирования и сбора полных геномов представляющих интерес организмов. Разработка более эффективных стратегий сборки гибридного генома является следующим шагом в развитии технологии сборки последовательностей, и эти стратегии гарантированно станут более эффективными по мере появления более мощных технологий.

  1. ^ Jump up to: а б с д и Поп, М. (2009). Возрождение сборки генома: недавние вычислительные проблемы. Краткий Биоинформ, 10(4), 354–366. два : 10.1093/bib/bbp026 .
  2. ^ Пеллисер, Жауме, Фэй, Майкл Ф. и Лейтч, Илия Дж. (2010). Самый большой эукариотический геном из всех? Ботанический журнал Линнеевского общества, 164 (1), 10–15. два : 10.1111/j.1095-8339.2010.01072.x
  3. ^ Алкан К., Саджадиан С. и Эйхлер Э. (2011). Ограничения сборки последовательностей генома следующего поколения. Природные методы, 8.
  4. ^ Корен, С., Хархей, Г., Смит, П., Боно, Дж., Хархей, Д., Макви, С., ... Филлиппи, А. (2013). Уменьшение сложности сборки микробных геномов с помощью секвенирования одиночных молекул. Геномная биология.
  5. ^ http://blog.pacificbiosciences.com/2014/10/new-chemistry-boosts-average-read.html
  6. ^ Мотахари А.С., Бреслер Г. и Це, DNC (2013). Информационная теория дробового секвенирования ДНК. Транзакции IEEE по теории информации, 59 (10), 6273–6289. два : 10.1109/tit.2013.2270273
  7. ^ Мардис, ER (2008). Методы секвенирования ДНК нового поколения. Анну Преподобный Геном Хум Генет, 9, 387–402. doi : 10.1146/annurev.genom.9.081307.164359
  8. ^ ДиГуистини, С., Ляо, Н., Платт, Д., Робертсон, Г., Сидел, М., Чан, С.,… Джонс, SJM (2009). Сборка последовательности de novo мицелиального гриба с использованием данных последовательности Sanger, 454 и Illumina. Геномная биология , 10 .
  9. ^ Гленн, Т. (2011). Полевое руководство по секвенаторам ДНК нового поколения. Ресурсы молекулярной экологии, 11.
  10. ^ Jump up to: а б с д и ж г Корен, С., Шац, М.К., Валенц, Б.П., Мартин, Дж., Ховард, Дж.Т., Ганапати, Г., ... Филлиппи, А.М. (2012). Гибридная коррекция ошибок и сборка de novo считываний секвенирования одиночных молекул. Природная биотехнология, 30(7), 692–+. дои : 10.1038/nbt.2280
  11. ^ Ким, П.Г., Чо, Х.Г., и Парк, К. (2008). Инструмент анализа каркаса, использующий информацию о партнерских парах при секвенировании генома. Журнал биомедицины и биотехнологии. дои : 10.1155/2008/675741
  12. ^ Хэм, Дж.С., Квак, В., Чанг, ОК, Хан, Г.С., Чон, С.Г., Соль, К.Х., ... Ким, Х. (2013). Сборка De Novo и сравнительный анализ генома Enterococcus faecalis (KACC 91532) корейского новорожденного. Журнал микробиологии и биотехнологии, 23 (7), 966–973. два : 10.4014/jmb.1303.03045
  13. ^ Jump up to: а б с д Сердейра, Л.Т., Карнейро, А.Р., Рамос, RTJ, де Алмейда, СС, Д'Афонсека, В., Шнайдер, МПК, ... Сильва, А. (2011). Быстрая гибридная сборка микробного генома de novo с использованием только коротких прочтений: Corynebacterium pseudo Tuberculosis I19 в качестве примера. Журнал микробиологических методов, 86 (2), 218–223. дои : 10.1016/j.mimet.2011.05.008 .
  14. ^ Ван, Ю., Ю, Ю., Пан, Б., Хао, П., Ли, Ю., Шао, З., ... Ли, X. (2012). Оптимизация гибридной сборки данных о последовательностях следующего поколения Enterococcus faecium: микроба с сильно отличающимся геномом. БМК Сист Биол, 6 Приложение 3, С21. дои : 10.1186/1752-0509-6-S3-S21
  15. ^ Инглиш, AC, Ричардс, С., Хан, Ю., Ван, М., Ви, В., Цюй, JX, ... Гиббс, Р.А. (2012). Помните о разрыве: обновление геномов с помощью технологии долгосрочного секвенирования Pacific Biosciences RS. ПЛОС ОДИН, 7(11). дои : 10.1371/journal.pone.0047768
  16. ^ Jump up to: а б с д и Башир А., Кламмер А.А., Робинс В.П., Чин К.С., Вебстер Д., Паксинос Э., ... Шадт Э.Э. (2012). Гибридный подход к автоматизированной доработке бактериальных геномов. Природная биотехнология, 30(7), 701–+. дои : 10.1038/nbt.2288
  17. ^ Голдберг, С.М., Джонсон, Дж., Бусам, Д., Фельдблюм, Т., Феррьера, С., Фридман, Р., ... Вентер, Дж.К. (2006). Гибридный подход Сэнгера и пиросеквенирования для создания высококачественных черновых сборок геномов морских микробов. Proc Natl Acad Sci USA, 103(30), 11240–11245. два : 10.1073/pnas.0604351103
  18. ^ Певзнер, Пенсильвания, Тан, Х., и Уотерман, М.С. (2001). Подход Эйлера к сборке фрагментов ДНК. Proc Natl Acad Sci USA, 98(17), 9748-9753. два : 10.1073/pnas.171285098
  19. ^ Ритц, Анна, Башир, Али и Рафаэль, Бенджамин Дж. (2010). Анализ структурных вариаций с помощью стробоскопических считываний. Биоинформатика, 26(10), 1291–1298. doi : 10.1093/биоинформатика/btq153
  20. ^ Абрамс, Дж. Я., Коупленд, младший, Токс, Р. В., Дейт, К. А., Белэй, ЭД, Моди, РК, и Минц, ЭД (2013). Моделирование в реальном времени, используемое для борьбы со вспышками во время эпидемии холеры, Гаити, 2010–2011 гг. Эпидемиология и инфекции, 141(6), 1276–1285.
  21. ^ Jump up to: а б с д Дешпанде В., Фунг Э., Фам С. и Бафна В. (2013). Cerulean: гибридная сборка, использующая короткое и длинное чтение с высокой пропускной способностью. Алгоритмы в биоинформатике, 8126, 349–363.
  22. ^ «Секвенирование ДНК: последние разработки в области секвенирования следующего поколения - мир открытия лекарств (DDW)» . 4 апреля 2013 г.
[ редактировать ]

Гибридная коррекция ошибок и сборка De Novo считываний секвенирования одиночных молекул

Виртуальный плакат: Сборка гибридного генома ночного лемура

Национальный центр биотехнологической информации: сборка генома

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: eca1e209b6755d2969d6319a4b8f13f5__1722198900
URL1:https://arc.ask3.ru/arc/aa/ec/f5/eca1e209b6755d2969d6319a4b8f13f5.html
Заголовок, (Title) документа по адресу, URL1:
Hybrid genome assembly - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)