Теория секвенирования ДНК
Теория секвенирования ДНК представляет собой обширную работу, которая пытается заложить аналитические основы для определения порядка конкретных нуклеотидов в последовательности ДНК , иначе известной как секвенирование ДНК . Практические аспекты вращаются вокруг разработки и оптимизации проектов секвенирования (известных как «стратегическая геномика»), прогнозирования эффективности проекта, устранения неполадок в результатах экспериментов, характеристики таких факторов, как смещение последовательности и влияние алгоритмов обработки программного обеспечения, а также сравнения различных методов секвенирования друг с другом. В этом смысле его можно рассматривать как отрасль системной инженерии или исследования операций . Постоянный архив работ носит преимущественно математический характер, хотя численные расчеты часто проводятся и для конкретных задач. Теория секвенирования ДНК рассматривает физические процессы, связанные с секвенированием ДНК, и ее не следует путать с теориями анализа полученных последовательностей ДНК, например, выравнивания последовательностей . Публикации [1] иногда не проводят тщательного различия, но последние в первую очередь касаются алгоритмических проблем. Теория секвенирования основана на элементах математики , биологии и системной инженерии , поэтому она является весьма междисциплинарной. Этот предмет может изучаться в контексте вычислительной биологии .
Теория и стратегии последовательности
[ редактировать ]Секвенирование как проблема покрытия
[ редактировать ]Все основные методы секвенирования ДНК основаны на считывании небольших фрагментов ДНК и последующей реконструкции этих данных для определения исходной мишени ДНК либо путем сборки , либо путем выравнивания по эталону. Общей для этих методов абстракцией является абстракция математической задачи покрытия . [2] Например, можно представить себе сегмент линии, представляющий цель, и последующий процесс, в котором меньшие сегменты «сбрасываются» в случайные места цели. Цель считается «выполненной», когда накапливается достаточный охват (например, когда не остается пробелов).
Абстрактные свойства накрытия изучаются математиками уже более века. [3] Однако прямое применение этих результатов в целом оказалось невозможным. Математические решения в закрытой форме, особенно для распределений вероятностей, часто нелегко оценить. То есть они требуют непомерно большого количества компьютерного времени для параметров, характерных для секвенирования ДНК . Конфигурация Стивенса является одним из таких примеров. [4] Результаты, полученные с точки зрения чистой математики , также не учитывают факторы, которые действительно важны для секвенирования, например, обнаруживаемое перекрытие фрагментов секвенирования, двухцепочечную структуру, краевые эффекты и целевую множественность. Следовательно, развитие теории последовательности в большей степени шло в соответствии с философией прикладной математики . В частности, он был проблемно-ориентированным и целесообразно использовал аппроксимации, моделирование и т. д.
Раннее использование, заимствованное из элементарной теории вероятностей.
[ редактировать ]Самый ранний результат может быть найден непосредственно из элементарной теории вероятностей. Предположим, мы моделируем описанный выше процесс, принимая и как длина фрагмента и целевая длина соответственно. вероятность «накрытия» любого данного места на цели одним конкретным фрагментом равна Тогда . (Это предполагает , что справедливо часто, но не для всех реальных случаев.) Таким образом, вероятность того, что один фрагмент не покроет заданное место на цели, равна , и для фрагменты. Таким образом, вероятность накрытия данного места цели хотя бы одним осколком равна
Это уравнение было впервые использовано для характеристики плазмидных библиотек. [5] но он может появиться в измененной форме. Для большинства проектов , так что с хорошей степенью приближения
где называется избыточностью . Обратите внимание на значимость избыточности, поскольку она отражает среднее количество раз, когда позиция покрывается фрагментами. Отметим также, что при рассмотрении процесса покрытия по всем позициям в цели эта вероятность идентична ожидаемому значению случайной величины , доля целевого покрытия. Конечный результат,
по-прежнему широко используется в качестве « обратной » оценки и предсказывает, что охват всех проектов развивается по универсальной кривой, которая является функцией только избыточности.
Теория Ландера-Ватермана
[ редактировать ]В 1988 году Эрик Ландер и Майкл Уотерман опубликовали важную статью. [6] рассмотрение проблемы покрытия с точки зрения пробелов. Хотя они сосредоточились на так называемой проблеме отображения , абстракция секвенирования во многом та же самая. Они предоставили ряд полезных результатов, которые были приняты в качестве стандартной теории с самых первых дней «крупномасштабного» секвенирования генома. [7] Их модель также использовалась при разработке проекта «Геном человека» и продолжает играть важную роль в секвенировании ДНК.
В конечном счете, главная цель проекта секвенирования — закрыть все пробелы, поэтому «перспектива пробелов» стала логической основой разработки модели секвенирования. Одним из наиболее часто используемых результатов этой модели является ожидаемое количество контигов с учетом количества секвенированных фрагментов. Если пренебречь количеством последовательности, которое по существу «тратится впустую» из-за необходимости обнаружения перекрытий, их теория дает результат:
В 1995 году Роуч [8] опубликовал улучшения этой теории, позволяющие применять ее к проектам секвенирования, целью которых было полное секвенирование целевого генома. Майкл Вендл и Боб Уотерстон [9] подтверждено на основе метода Стивенса, [4] что обе модели давали схожие результаты, когда количество контигов было значительным, например, в проектах картирования с низким охватом или секвенирования. По мере того, как в 1990-х годах проекты секвенирования расширялись и приближались к завершению, аппроксимации с низким охватом становились неадекватными, и возникла необходимость в точной модели Роуча. Однако по мере того, как стоимость секвенирования упала, параметры проектов секвенирования стало легче напрямую проверять эмпирически, а интерес и финансирование стратегической геномики уменьшились.
Основные идеи теории Ландера – Уотермана привели к ряду дополнительных результатов для конкретных вариантов методов картографии. [10] [11] [12] Однако технологические достижения сделали теории картирования в значительной степени устаревшими, за исключением организмов, отличных от хорошо изученных модельных организмов (например, дрожжей, мух, мышей и людей).
Стратегия парковки
[ редактировать ]Стратегия последовательности парковки напоминает процесс парковки автомобилей вдоль обочины. Каждая машина — это секвенированный клон, а бордюр — геномная мишень. [13] Каждый секвенированный клон подвергается скринингу, чтобы гарантировать, что секвенированные впоследствии клоны не перекрываются с ранее секвенированными клонами. В этой стратегии никакие усилия по секвенированию не являются излишними. Однако, как и в случае с промежутками между припаркованными автомобилями, между секвенированными клонами накапливаются несеквенированные промежутки, длина которых меньше длины клона. Закрытие таких пробелов может потребовать значительных затрат.
Парное конечное секвенирование
[ редактировать ]В 1995 году Роуч и др. [14] предложил и продемонстрировал посредством моделирования обобщение набора стратегий, ранее исследованных Эдвардсом и Кэски. [15] Этот метод полногеномного секвенирования стал чрезвычайно популярным, поскольку его поддерживала компания Celera и он использовался для секвенирования нескольких модельных организмов, прежде чем Celera применила его к геному человека. Сегодня в большинстве проектов секвенирования используется эта стратегия, часто называемая секвенированием парных концов.
Достижения проекта «Пост-геном человека»
[ редактировать ]Физические процессы и протоколы секвенирования ДНК продолжают развиваться, во многом благодаря достижениям в области биохимических методов, приборов и технологий автоматизации. В настоящее время существует широкий спектр проблем, секвенирование ДНК в решение которых входит , включая метагеномику и медицинское (раковое) секвенирование . В этих сценариях есть важные факторы, которые классическая теория не учитывает. В последнее время работа была сосредоточена на устранении последствий некоторых из этих проблем. Уровень математики становится соразмерно более сложным.
Различные артефакты секвенирования с большими вставками
[ редактировать ]Биологи разработали методы фильтрации часто повторяющихся и практически не секвенируемых участков генома. Эти процедуры важны для организмов, геномы которых состоят преимущественно из такой ДНК, например кукурузы. Они дают множество небольших островков секвенируемых продуктов ДНК. Вендл и Барбазук [16] предложил расширение теории Лендера-Уотермана для учета «пробелов» в цели из-за фильтрации и так называемого «краевого эффекта». Последнее представляет собой смещение выборки, зависящее от позиции, например, позиция базовой клеммы имеет только шанс быть застрахованным, в отличие от на внутренние позиции. Для Классическая теория Ландера-Уотермана по-прежнему дает хорошие предсказания, но динамика меняется при более высокой избыточности.
Современные методы секвенирования обычно секвенируют оба конца более крупного фрагмента, что обеспечивает информацию о связывании для сборки de novo и повышает вероятность выравнивания с эталонной последовательностью. Исследователи обычно полагают, что большая длина данных (длина чтения) повышает производительность для очень больших целей ДНК, и эта идея согласуется с предсказаниями моделей распределения. [17] Однако Вендл [18] показали, что более мелкие фрагменты обеспечивают лучшее покрытие небольших линейных целей, поскольку они уменьшают краевой эффект в линейных молекулах. Эти результаты имеют значение для секвенирования продуктов процедур фильтрации ДНК. Спаривание чтения и размер фрагмента, очевидно, оказывают незначительное влияние на большие цели класса целого генома.
Индивидуальное и популяционное секвенирование
[ редактировать ]Секвенирование становится важным инструментом в медицине, например, в исследованиях рака. Здесь важна способность обнаруживать гетерозиготные мутации последовательность диплоидного генома , а сделать это можно только в том случае, если получена . В новаторских усилиях по секвенированию людей Леви и др. [19] и Уилер и др. , [20] которые секвенировали Крейга Вентера и Джима Уотсона соответственно, наметили модели покрытия обеих аллелей в геноме. Вендл и Уилсон [21] за ним последовала более общая теория, которая допускала произвольное количество покрытий каждой аллели и произвольную плоидность . Эти результаты указывают на общий вывод о том, что объем данных, необходимых для таких проектов, значительно выше, чем для традиционных гаплоидных проектов. Обычно в настоящее время стандартом является по меньшей мере 30-кратная избыточность, т.е. каждый нуклеотид охватывает в среднем 30 чтений последовательности. [22] Однако требования могут быть еще выше, в зависимости от того, какие геномные события необходимо обнаружить. Например, в так называемом «методе несогласных пар чтения» вставки ДНК можно сделать вывод, если расстояние между парами чтения больше, чем ожидалось. при пороге 1% необходима примерно 50-кратная избыточность Расчеты показывают, что для предотвращения ложноположительных ошибок . [23]
Появление секвенирования нового поколения также сделало возможным крупномасштабное популяционное секвенирование, например, проект «1000 геномов» для характеристики различий в группах человеческой популяции. В то время как общие вариации легко фиксируются, редкие вариации создают проблему проектирования: слишком мало образцов со значительной избыточностью последовательности рискует не иметь варианта в группе образцов, но большие выборки с легкой избыточностью рискуют не уловить вариант в наборе считываний, который фактически находится в группа образцов. Вендл и Уилсон [24] сообщить простой набор правил оптимизации, которые максимизируют вероятность обнаружения для данного набора параметров. Например, для наблюдения редкого аллеля как минимум дважды (чтобы исключить возможность, индивидуальную для конкретного человека) следует использовать избыточность чуть менее 4-х раз, независимо от размера выборки.
Метагеномное секвенирование
[ редактировать ]Инструменты нового поколения теперь также позволяют секвенировать целые некультивируемые метагеномные сообщества. Сценарий последовательности здесь более сложен, и существуют различные способы формирования теории дизайна для данного проекта. Например, Стэнхоуп [25] разработали вероятностную модель количества последовательности, необходимой для получения хотя бы одного контига заданного размера от каждого нового организма сообщества, а Wendl et al. сообщили об анализе среднего размера контига или вероятности полного обнаружения нового организма данной редкости в сообществе. [26] И наоборот, Хупер и др. предложить полуэмпирическую модель, основанную на гамма-распределении . [27]
Ограничения
[ редактировать ]Теории секвенирования ДНК часто исходят из предположения, что определенные случайные переменные в модели независимы и одинаково распределены . Например, в теории Ландера-Уотермана предполагается, что секвенированный фрагмент имеет одинаковую вероятность покрытия каждой области генома, и все фрагменты считаются независимыми друг от друга. На самом деле проекты секвенирования подвержены различным типам ошибок, включая различия в том, насколько хорошо клонируются регионы, аномалии секвенирования, ошибки в целевой последовательности (которые не являются случайными), а также ошибки и предвзятости, зависящие от программного обеспечения. В целом теория будет хорошо согласовываться с наблюдениями до тех пор, пока не будет собрано достаточно данных, чтобы выявить скрытые предубеждения. [21] Виды систематических ошибок, связанных с базовой целевой последовательностью, особенно трудно моделировать, поскольку сама последовательность может быть неизвестна априори . Это представляет собой разновидность (логической) проблемы «Уловка-22» .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Уотерман, Майкл С. (1995). Введение в вычислительную биологию . Бока-Ратон: Чепмен и Холл/CRC. ISBN 978-0-412-99391-6 .
- ^ Холл, П. (1988). Введение в теорию процессов покрытия . Нью-Йорк: Уайли. ISBN 978-0-471-85702-0 .
- ^ Соломон, Х. (1978). Геометрическая вероятность . Филадельфия: Общество промышленной и прикладной математики. ISBN 978-0-898-71025-0 .
- ^ Перейти обратно: а б Стивенс В.Л. (1939). «Решение геометрической задачи по теории вероятности» . Анналы евгеники . 9 (4): 315–320. дои : 10.1111/j.1469-1809.1939.tb02216.x .
- ^ Кларк Л., Карбон Дж. (1976). «Банк колоний, содержащий синтетические гибридные плазмиды Col-El, представляющие весь геном E. coli». Клетка . 9 (1): 91–99. дои : 10.1016/0092-8674(76)90055-6 . ПМИД 788919 . S2CID 2535372 .
- ^ Ландер Э.С. , Уотерман М.С. (1988). «Геномное картирование путем снятия отпечатков пальцев случайных клонов: математический анализ». Геномика . 2 (3): 231–239. дои : 10.1016/0888-7543(88)90007-9 . ПМИД 3294162 .
- ^ Флейшманн Р.Д.; и др. (1995). «Полногеномное случайное секвенирование и сборка Haemophilus influenzae Rd». Наука . 269 (5223): 496–512. Бибкод : 1995Sci...269..496F . дои : 10.1126/science.7542800 . ПМИД 7542800 .
- ^ Роуч Джей Си (1995). «Случайное субклонирование» . Геномные исследования . 5 (5): 464–473. дои : 10.1101/гр.5.5.464 . ПМИД 8808467 .
- ^ Вендл MC , Уотерстон Р.Х. (2002). «Обобщенная модель разрыва для картирования отпечатков пальцев клонов искусственных бактериальных хромосом и дробового секвенирования» . Геномные исследования . 12 (12): 1943–1949. дои : 10.1101/гр.655102 . ПМК 187573 . ПМИД 12466299 .
- ^ Арратия Р ; и др. (1991). «Геномное картирование путем привязки случайных клонов: математический анализ». Геномика . 11 (4): 806–827. CiteSeerX 10.1.1.80.8788 . дои : 10.1016/0888-7543(91)90004-X . ПМИД 1783390 .
- ^ Порт Е; и др. (1995). «Геномное картирование с помощью случайных клонов с конечными характеристиками: математический анализ». Геномика . 26 (1): 84–100. CiteSeerX 10.1.1.74.4380 . дои : 10.1016/0888-7543(95)80086-2 . ПМИД 7782090 .
- ^ Чжан М.К., Марр Т.Г. (1993). «Картирование генома путем неслучайного привязки: дискретный теоретический анализ» . Труды Национальной академии наук . 90 (2): 600–604. Бибкод : 1993PNAS...90..600Z . дои : 10.1073/pnas.90.2.600 . ПМК 45711 . ПМИД 8421694 .
- ^ Роуч Джей Си; и др. (2000). «Стратегии парковки для секвенирования генома» . Геномные исследования . 10 (7): 1020–1030. дои : 10.1101/гр.10.7.1020 . ПМК 310895 . ПМИД 10899151 .
- ^ Роуч Дж.С., Бойсен С., Ван К., Худ Л. (1995). «Попарное секвенирование концов: унифицированный подход к геномному картированию и секвенированию». Геномика . 26 (2): 345–353. дои : 10.1016/0888-7543(95)80219-C . ПМИД 7601461 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Эдвардс, А.; Каски, Т. (1991). Стратегии закрытия для случайного секвенирования ДНК . Том. 3. Спутник методов энзимологии. стр. 41–47.
- ^ Вендл MC , Барбазук В.Б. (2005). «Расширение теории Ландера-Уотермана для секвенирования фильтрованных библиотек ДНК» . БМК Биоинформатика . 6 : статья 245. doi : 10.1186/1471-2105-6-245 . ПМЦ 1280921 . ПМИД 16216129 .
- ^ Вендл MC (2006). «Моделирование распределения покрытия для полногеномного секвенирования ДНК». Бюллетень математической биологии . 68 (1): 179–196. дои : 10.1007/s11538-005-9021-4 . ПМИД 16794926 . S2CID 23889071 .
- ^ Вендл MC (2006). «Общая теория покрытия для секвенирования ДНК дробовика» . Журнал вычислительной биологии . 13 (6): 1177–1196. дои : 10.1089/cmb.2006.13.1177 . ПМИД 16901236 . S2CID 17112274 .
- ^ Леви С; и др. (2007). «Диплоидная последовательность генома отдельного человека» . ПЛОС Биология . 5 (10): статья е254. doi : 10.1371/journal.pbio.0050254 . ЧВК 1964779 . ПМИД 17803354 .
- ^ Уилер Д.А.; и др. (2008). «Полный геном человека путем массового параллельного секвенирования ДНК» . Природа . 452 (7189): 872–876. Бибкод : 2008Natur.452..872W . дои : 10.1038/nature06884 . ПМИД 18421352 .
- ^ Перейти обратно: а б Вендл MC , Уилсон Р.К. (2008). «Аспекты охвата медицинского секвенирования ДНК» . БМК Биоинформатика . 9 : статья 239. doi : 10.1186/1471-2105-9-239 . ПМК 2430974 . ПМИД 18485222 .
- ^ Лей Ти Джей ; и др. (2008). «Секвенирование ДНК цитогенетически нормального генома острого миелолейкоза» . Природа . 456 (7218): 66–72. Бибкод : 2008Natur.456...66L . дои : 10.1038/nature07485 . ПМК 2603574 . ПМИД 18987736 .
- ^ Вендл MC , Уилсон Р.К. (2009). «Статистические аспекты выявления структурных вариаций индель-типа посредством выравнивания последовательностей ДНК» . БМК Геномика . 10 : статья 359. doi : 10.1186/1471-2164-10-359 . ПМК 2748092 . ПМИД 19656394 .
- ^ Вендл MC , Уилсон Р.К. (2009). «Теория обнаружения редких вариантов посредством секвенирования ДНК» . БМК Геномика . 10 : статья 485. doi : 10.1186/1471-2164-10-485 . ПМЦ 2778663 . ПМИД 19843339 .
- ^ Стэнхоуп С.А. (2010). «Моделирование занятости, вероятности максимального размера контига и разработка экспериментов по метагеномике» . ПЛОС ОДИН . 5 (7): статья е11652. Бибкод : 2010PLoSO...511652S . дои : 10.1371/journal.pone.0011652 . ПМЦ 2912229 . ПМИД 20686599 .
- ^ Вендл MC ; и др. (2012). «Теории покрытия метагеномного секвенирования ДНК, основанные на обобщении теоремы Стивенса» . Журнал математической биологии . 67 (5): 1141–1161. дои : 10.1007/s00285-012-0586-x . ПМЦ 3795925 . ПМИД 22965653 .
- ^ Хупер С.Д.; и др. (2010). «Оценка покрытия и численности ДНК в метагеномах с использованием гамма-приближения» . Биоинформатика . 26 (3): 295–301. doi : 10.1093/биоинформатика/btp687 . ПМК 2815663 . ПМИД 20008478 .