Ошибки чтения ДНК

В биоинформатике ошибка чтения ДНК возникает, когда ассемблер последовательности заменяет одно основание ДНК другим основанием . Чтения из ассемблера последовательности затем можно использовать для создания графа де Брёйна , который можно использовать различными способами для поиска ошибок .

Обзор

последовательность 1

рисунок 1

Образец последовательности ДНК и соответствующий ему график де Брейна.

В графе де Брёйна существует возможность 4^k различных узлов организовать геном . Количество узлов, используемых для создания графа, можно уменьшить, рассматривая только k-меры, обнаруженные в ДНК интересующей цепи . Учитывая последовательность 1, можно определить узлы размера 7 или 7-меров, которые будут в графе. Эти 7-меры затем создают граф, показанный на рисунке 1. ^[1]

График , показанный на рисунке 1, представляет собой очень простую версию того, как может выглядеть график. ^[2] Этот граф формируется путем взятия последних 6 элементов 7-мера и связывания его с узлом, первые 6 элементов которого одинаковы. Рисунок 1 представляет собой наиболее упрощенный граф де Брёйна , поскольку каждый узел имеет ровно один путь в него и один путь наружу. В большинстве случаев графы будут иметь более одного ребра, направленного к узлу, и/или более одного ребра, выходящего из узла. Это происходит из-за способа соединения узлов. Узлы соединяются ребрами, указывающими на узлы, если последние k-1 элементов k -мера соответствуют первым k-1 элементам любого узла. многореберный граф де Брёйна Это позволяет сформировать . Эти более сложные графики возникают либо из-за ошибок чтения, либо из-за изменений в цепях ДНК. Обе причины затрудняют определение правильной структуры ДНК и того, что является причиной различий. Поскольку большинство нитей ДНК, скорее всего, будут содержать ошибки чтения и вариации, ученые надеются использовать процесс сборки, который сможет объединить узлы графа, когда они однозначно связаны после того, как граф будет очищен от вершин и ребер, созданных ошибками. ^[3]

Подсказки и пузыри

Когда график формируется из секвенированных данных, ошибки чтения образуют подсказки и пузырьки. Подсказка — это случай, когда в процессе секвенирования произошла ошибка, которая привела к преждевременному завершению графика и включает как правильные, так и неправильные k -меры. Пузырь также образуется , когда в процессе чтения последовательности возникает ошибка; однако, где бы ни произошла ошибка, у k -мерных операций чтения есть возможность воссоединиться с основным графом и продолжить работу, как будто ничего не произошло. сформированном на основе данных, присутствуют вершины и пузырьки Если на графике де Брейна, , их можно удалить только в том случае, если причиной появления вершины или пузырька стала ошибка. Когда ученые используют эталонный геном , они могут быстро и легко определить, где расположены кончики, сравнивая график эталонного генома и график последовательности. Если эталонного генома нет, кончики исключаются путем прослеживания ветвей назад до тех пор, пока не будет найдена точка неоднозначности. Подсказки затем удаляются, только если ветвь, содержащая подсказку, короче установленного порогового значения. ^[3] Процесс удаления пузырей немного сложнее. Первое, что необходимо сделать, это определить начало пузыря. Отсюда прослеживается каждый путь от начала пузыря до точки повторного соединения. Точка переподключения может быть разной для каждого пути. Поскольку от начального узла могут быть пути различной длины, путь с меньшим покрытием удаляется. ^[3]

Пример

Учитывая последовательность любой длины, первый шаг, который необходимо сделать, — это ввести последовательность в программу секвенирования, секвенировать ее и получить возвращаемую пару оснований (bp) определенной длины. Поскольку не существует полностью точной программы секвенирования, всегда будут некоторые чтения, содержащие ошибки. Наиболее распространенным методом секвенирования является метод дробовика , который, скорее всего, используется для последовательности 2. После выбора метода вам необходимо указать длину считываний bp, которые вы хотите, чтобы он возвращал. В случае последовательности 2 были возвращены чтения размером 7 п.н., все ошибки, допущенные во время процесса, отмечены красным. ^[4]

Как только чтения получены, они хэшируются в k- меры. Затем k - меры записываются в таблицу с указанием того, сколько раз каждый k -мер появлялся в чтениях. В этом примере каждое чтение хешировалось в 4 -мера, и если была ошибка, она записывалась красным цветом. Затем были записаны все 4 -меры, их частота указана в следующей таблице.

АКАГ (5X)	А С ГХ	ИДТИ А	АГАК (9X)	АГАГ (9X)	ВЫ (8X)
АГГК (16X)	СЛКП (7X)	АТСС (7X)	АТГА (8X)	CCGA (7X)	CGA С
КГАГ (8X)	КГАТ (6X)	С ТЕГ (2X)	КТ С Т	КТТТ (8X)	РУКА (8X)
GA C G	ГАГА (12X)	ГАГГ (16X)	ГАТГ (5X)	ГАТК (8X)	ГАТ Т
ГКТ С (2X)	ГКТТ (8X)	ГГКТ (11X)	ГТКГ (9X)	ЗАДНИЙ (16X)	ДЕНЬ (3 раза)
ТККГ (7X)	TCGA (10X)	Т С Т А (2X)	ТГАГ (9X)	ТТАГ (12X)	ТТТА (8X)

Каждая отдельная ячейка таблицы тогда образует узел, что позволяет граф де Брейна сформировать из заданных k -меров. На рисунке 2 идентифицируются линейные участки, а затем формируется другой график, рисунок 3, где линейные участки стали одним узлом с другим размером k -меров, что позволяет получить более краткий график. На этом упрощенном графике легко идентифицировать различные кончики и пузырьки, как показано на рисунке 4. Эти пузырьки и пузырьки затем можно удалить, поскольку мы можем определить, что они образовались из-за ошибок чтения bp, что дает нам структуру графика. это должно точно и полностью отражать исходную последовательность. ^[4] Если вы проследите за графиком де Брейна, показанным на рисунке 5, вы увидите, что образовавшаяся последовательность действительно соответствует последовательности ДНК, приведенной в последовательности 2.

рисунок 2 Граф де Брейна с идентифицированными линейными участками	рисунок 3 Упрощенный граф де Брёйна
рисунок 4 График де Брейна с идентифицированными кончиками и пузырьками	цифра 5 Окончательный график де Брёйна по цепи ДНК

Сравнение двух цепей ДНК

При сравнении двух цепей ДНК цветные графики де Брейна часто используются для выявления ошибок. Эти ошибки, часто полиморфизмы , приводят к образованию пузырей, подобных упомянутым выше. В настоящее время существует четыре основных алгоритма, используемых для обобщения данных и обнаружения пузырьков. Четыре алгоритма расширяют графы де Брёйна, позволяя раскрашивать узлы и ребра графа в соответствии с образцами, из которых они наблюдались. ^[5]

Пузырьковый вызов

Простейшее использование цветного графа де Брёйна известно как алгоритм вызова пузырьков. Этот алгоритм ищет и находит пузырьки в геноме, которые отличаются от оригинала. Эти пузырьки должны быть «чистыми» или просто отличаться от эталонного генома, но не могут быть вызваны делециями оснований ДНК. Этот алгоритм может иметь высокий уровень ложноположительных результатов , поскольку существует сложность разделения пузырьков, вызванных повторами и вариантами; однако часто существует эталонный геном, помогающий повысить надежность . Эталонный геном также помогает в обнаружении вариантов и необходим для обнаружения вариантов сайтов. ^[5] Недавно ученые нашли способ использовать алгоритм вызова пузырьков с обнаружением изменений числа копий , чтобы обеспечить возможность беспристрастного обнаружения этих изменений в будущем. ^[6]^[7]

Расхождение путей

При просмотре сложных вариантов вероятность того, что они сделают чистый контиг , очень мала . Поскольку это происходит чаще всего, алгоритм расхождения путей полезен, особенно если учесть, где происходят делеции, и вариант настолько сложен, что ограничивается эталонным аллелем . Когда образуется пузырь, алгоритм расхождения путей используется наиболее часто и позволяет удалять обнаруженные пузырьки с помощью очень систематической процедуры. Алгоритм сначала находит каждую точку расхождения. Затем из каждой точки расхождения прослеживаются нити, образующие пузырь, чтобы найти место соединения двух путей после n узлов. Если два пути соединяются, то путь с меньшим покрытием удаляется и сохраняется в файле. ^[3]^[8]

Анализ нескольких образцов

Использование нескольких образцов существенно повышает мощность и частоту ложных обнаружений вариантов. В простейших случаях образцы объединяются в группу одного цвета и данные анализируются, как описано ранее. Однако, сохраняя отдельные цвета для каждого набора образцов, можно получить дополнительную информацию о том, как образовались пузырьки: по ошибке или в результате повторений. ^[5] В 1997 году технологический отдел компании Genzyme Genetics во Фрамингеме , штат Массачусетс, разработал новый подход, который обеспечил прорыв в борьбе с пузырьками с использованием мультиплексного аллель-специфического диагностического анализа (MASDA). Эта программа сочетает в себе прямой дот-блоттинг , сложную одновременную гибридизацию зондов и прямое обнаружение мутаций, чтобы помочь решить двойную проблему анализа нескольких образцов. ^[9]

Генотипирование

Цветные графики де Брейна можно использовать для генотипирования любого образца ДНК в известных локусах , даже если покрытие недостаточно для сборки вариантов. ^[5] Первым шагом в этом процессе является построение графика эталонного аллеля , известных вариантов и данных из образца. Затем алгоритм вычисляет вероятность каждого генотипа и учитывает структуру графа, как локальной , так и общегеномной последовательности. Затем это обобщается на несколько аллельных типов и помогает создавать сложные и составные варианты генотипа. ^[5] Этот алгоритм используется часто, поскольку при этом не образуются пузырьки, с которыми приходится иметь дело. Это также напрямую помогает находить более сложные проблемы в генах более прямым способом, чем любой из трех ранее упомянутых алгоритмов. ^[10]

Ссылки

^ Механизмы рекомбинации ДНК и перестройки генома: пересечение гомологичной рекомбинации, репликации ДНК и репарации ДНК . Академическая пресса. 06.03.2018. ISBN 978-0-12-813980-6 .
^ Де Брейна Граф небольшой последовательности . (2011). Получено 7 февраля 2015 г. с сайта Homolog.us — Биоинформатика: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1. Архивировано 30 октября 2014 г. на Wayback Machine.
^ Перейти обратно: ^а ^б ^с ^д Симпсон Дж.Т., Вонг К., Джекман С.Д., Шейн Дж.Э., Джонс С.Дж. и Бироль И. (2009). ABySS: параллельный ассемблер для данных короткой последовательности чтения. Геномные исследования, 19 (6), 1117-1123
^ Перейти обратно: ^а ^б Фличек П. и Бирни Э. (2009). Смысл последовательности гласит: методы выравнивания и сборки. Природные методы, 6 , С6-С12. Рисунок 3
^ Перейти обратно: ^а ^б ^с ^д ^и Икбал З., Каккамо М., Тернер И., Фличек П. и МакВин Г. (2012). Сборка de novo и генотипирование вариантов с использованием цветных графов де Брёйна. Природная генетика, 44 (2), 226-232.
^ Нейкамп, Дж. Ф., ван ден Брук, Массачусетс, Гертман, Дж. М. А., Рейндерс, М. Дж., Даран, Дж. М. Г. и де Риддер, Д. (2012). Обнаружение de novo изменения количества копий при совместной сборке. Биоинформатика, 28 (24), 3195-3202
^ Меснер, Ларри Д.; Валсакумар, Вина; Чеслик, Марцин; Пикин, Ребекка; Хэмлин, Джойс Л.; Бекиранов, Стефан (ноябрь 2013 г.). «Анализ генома человека с помощью пузырькового секвенирования выявляет различные опосредованные хроматином механизмы регуляции происхождения ранних и поздних импульсов» . Геномные исследования . 23 (11): 1774–1788. дои : 10.1101/гр.155218.113 . ISSN 1088-9051 . ПМЦ 3814878 . ПМИД 23861383 .
^ «Расхождение путей – знания в области управления проектами» . Проверено 9 октября 2020 г.
^ Шубер, А.П., Михаловски, Л.А., Насс, Г.С., Сколецкий, Дж., Хайр, Л.М., Коцопулос, С.К., ... и Клингер, К.В. (1997). Высокопроизводительный параллельный анализ сотен образцов пациентов на предмет выявления более 100 мутаций в генах множества заболеваний. Молекулярная генетика человека, 6 (3), 337-347
^ «Генотипирование — обзор | Темы ScienceDirect» . www.sciencedirect.com . Проверено 9 октября 2020 г.

[1] Механизмы рекомбинации ДНК и перестройки генома: пересечение гомологичной рекомбинации, репликации ДНК и репарации ДНК . Академическая пресса. 06.03.2018. ISBN 978-0-12-813980-6 .

[Homolog-2] Де Брейна Граф небольшой последовательности . (2011). Получено 7 февраля 2015 г. с сайта Homolog.us — Биоинформатика: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1. Архивировано 30 октября 2014 г. на Wayback Machine.

[Simpson-3] Перейти обратно: ^а ^б ^с ^д Симпсон Дж.Т., Вонг К., Джекман С.Д., Шейн Дж.Э., Джонс С.Дж. и Бироль И. (2009). ABySS: параллельный ассемблер для данных короткой последовательности чтения. Геномные исследования, 19 (6), 1117-1123

[Flicek-4] Перейти обратно: ^а ^б Фличек П. и Бирни Э. (2009). Смысл последовательности гласит: методы выравнивания и сборки. Природные методы, 6 , С6-С12. Рисунок 3

[Iqbal-5] Перейти обратно: ^а ^б ^с ^д ^и Икбал З., Каккамо М., Тернер И., Фличек П. и МакВин Г. (2012). Сборка de novo и генотипирование вариантов с использованием цветных графов де Брёйна. Природная генетика, 44 (2), 226-232.

[Nijkamp-6] Нейкамп, Дж. Ф., ван ден Брук, Массачусетс, Гертман, Дж. М. А., Рейндерс, М. Дж., Даран, Дж. М. Г. и де Риддер, Д. (2012). Обнаружение de novo изменения количества копий при совместной сборке. Биоинформатика, 28 (24), 3195-3202

[7] Меснер, Ларри Д.; Валсакумар, Вина; Чеслик, Марцин; Пикин, Ребекка; Хэмлин, Джойс Л.; Бекиранов, Стефан (ноябрь 2013 г.). «Анализ генома человека с помощью пузырькового секвенирования выявляет различные опосредованные хроматином механизмы регуляции происхождения ранних и поздних импульсов» . Геномные исследования . 23 (11): 1774–1788. дои : 10.1101/гр.155218.113 . ISSN 1088-9051 . ПМЦ 3814878 . ПМИД 23861383 .

[8] «Расхождение путей – знания в области управления проектами» . Проверено 9 октября 2020 г.

[Shuber-9] Шубер, А.П., Михаловски, Л.А., Насс, Г.С., Сколецкий, Дж., Хайр, Л.М., Коцопулос, С.К., ... и Клингер, К.В. (1997). Высокопроизводительный параллельный анализ сотен образцов пациентов на предмет выявления более 100 мутаций в генах множества заболеваний. Молекулярная генетика человека, 6 (3), 337-347

[10] «Генотипирование — обзор | Темы ScienceDirect» . www.sciencedirect.com . Проверено 9 октября 2020 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]