Jump to content

Ошибки чтения ДНК

В биоинформатике ошибка чтения ДНК возникает, когда ассемблер последовательности заменяет одно основание ДНК другим основанием . Чтения из ассемблера последовательности затем можно использовать для создания графа де Брёйна , который можно использовать различными способами для поиска ошибок .

последовательность 1
рисунок 1
Образец последовательности ДНК и соответствующий ему график де Брейна.

В графе де Брёйна существует возможность 4^k различных узлов организовать геном . Количество узлов, используемых для создания графа, можно уменьшить, рассматривая только k-меры, обнаруженные в ДНК интересующей цепи . Учитывая последовательность 1, можно определить узлы размера 7 или 7-меров, которые будут в графе. Эти 7-меры затем создают граф, показанный на рисунке 1. [1]

График , показанный на рисунке 1, представляет собой очень простую версию того, как может выглядеть график. [2] Этот граф формируется путем взятия последних 6 элементов 7-мера и связывания его с узлом, первые 6 элементов которого одинаковы. Рисунок 1 представляет собой наиболее упрощенный граф де Брёйна , поскольку каждый узел имеет ровно один путь в него и один путь наружу. В большинстве случаев графы будут иметь более одного ребра, направленного к узлу, и/или более одного ребра, выходящего из узла. Это происходит из-за способа соединения узлов. Узлы соединяются ребрами, указывающими на узлы, если последние k-1 элементов k -мера соответствуют первым k-1 элементам любого узла. многореберный граф де Брёйна Это позволяет сформировать . Эти более сложные графики возникают либо из-за ошибок чтения, либо из-за изменений в цепях ДНК. Обе причины затрудняют определение правильной структуры ДНК и того, что является причиной различий. Поскольку большинство нитей ДНК, скорее всего, будут содержать ошибки чтения и вариации, ученые надеются использовать процесс сборки, который сможет объединить узлы графа, когда они однозначно связаны после того, как граф будет очищен от вершин и ребер, созданных ошибками. [3]

Подсказки и пузыри

[ редактировать ]

Когда график формируется из секвенированных данных, ошибки чтения образуют подсказки и пузырьки. Подсказка это случай, когда в процессе секвенирования произошла ошибка, которая привела к преждевременному завершению графика и включает как правильные, так и неправильные k -меры. Пузырь также образуется , когда в процессе чтения последовательности возникает ошибка; однако, где бы ни произошла ошибка, у k -мерных операций чтения есть возможность воссоединиться с основным графом и продолжить работу, как будто ничего не произошло. сформированном на основе данных, присутствуют вершины и пузырьки Если на графике де Брейна, , их можно удалить только в том случае, если причиной появления вершины или пузырька стала ошибка. Когда ученые используют эталонный геном , они могут быстро и легко определить, где расположены кончики, сравнивая график эталонного генома и график последовательности. Если эталонного генома нет, кончики исключаются путем прослеживания ветвей назад до тех пор, пока не будет найдена точка неоднозначности. Подсказки затем удаляются, только если ветвь, содержащая подсказку, короче установленного порогового значения. [3] Процесс удаления пузырей немного сложнее. Первое, что необходимо сделать, это определить начало пузыря. Отсюда прослеживается каждый путь от начала пузыря до точки повторного соединения. Точка переподключения может быть разной для каждого пути. Поскольку от начального узла могут быть пути различной длины, путь с меньшим покрытием удаляется. [3]

последовательность 2

Учитывая последовательность любой длины, первый шаг, который необходимо сделать, — это ввести последовательность в программу секвенирования, секвенировать ее и получить возвращаемую пару оснований (bp) определенной длины. Поскольку не существует полностью точной программы секвенирования, всегда будут некоторые чтения, содержащие ошибки. Наиболее распространенным методом секвенирования является метод дробовика , который, скорее всего, используется для последовательности 2. После выбора метода вам необходимо указать длину считываний bp, которые вы хотите, чтобы он возвращал. В случае последовательности 2 были возвращены чтения размером 7 п.н., все ошибки, допущенные во время процесса, отмечены красным. [4]

Как только чтения получены, они хэшируются в k- меры. Затем k - меры записываются в таблицу с указанием того, сколько раз каждый k -мер появлялся в чтениях. В этом примере каждое чтение хешировалось в 4 -мера, и если была ошибка, она записывалась красным цветом. Затем были записаны все 4 -меры, их частота указана в следующей таблице.

АКАГ (5X) А С ГХ ИДТИ А АГАК (9X) АГАГ (9X) ВЫ (8X)
АГГК (16X) СЛКП (7X) АТСС (7X) АТГА (8X) CCGA (7X) CGA С
КГАГ (8X) КГАТ (6X) С ТЕГ (2X) КТ С Т КТТТ (8X) РУКА (8X)
GA C G ГАГА (12X) ГАГГ (16X) ГАТГ (5X) ГАТК (8X) ГАТ Т
ГКТ С (2X) ГКТТ (8X) ГГКТ (11X) ГТКГ (9X) ЗАДНИЙ (16X) ДЕНЬ (3 раза)
ТККГ (7X) TCGA (10X) Т С Т А (2X) ТГАГ (9X) ТТАГ (12X) ТТТА (8X)

Каждая отдельная ячейка таблицы тогда образует узел, что позволяет граф де Брейна сформировать из заданных k -меров. На рисунке 2 идентифицируются линейные участки, а затем формируется другой график, рисунок 3, где линейные участки стали одним узлом с другим размером k -меров, что позволяет получить более краткий график. На этом упрощенном графике легко идентифицировать различные кончики и пузырьки, как показано на рисунке 4. Эти пузырьки и пузырьки затем можно удалить, поскольку мы можем определить, что они образовались из-за ошибок чтения bp, что дает нам структуру графика. это должно точно и полностью отражать исходную последовательность. [4] Если вы проследите за графиком де Брейна, показанным на рисунке 5, вы увидите, что образовавшаяся последовательность действительно соответствует последовательности ДНК, приведенной в последовательности 2.

рисунок 2
Граф де Брейна с идентифицированными линейными участками
рисунок 3
Упрощенный граф де Брёйна
рисунок 4
График де Брейна с идентифицированными кончиками и пузырьками
цифра 5
Окончательный график де Брёйна по цепи ДНК

Сравнение двух цепей ДНК

[ редактировать ]

При сравнении двух цепей ДНК цветные графики де Брейна часто используются для выявления ошибок. Эти ошибки, часто полиморфизмы , приводят к образованию пузырей, подобных упомянутым выше. В настоящее время существует четыре основных алгоритма, используемых для обобщения данных и обнаружения пузырьков. Четыре алгоритма расширяют графы де Брёйна, позволяя раскрашивать узлы и ребра графа в соответствии с образцами, из которых они наблюдались. [5]

Пузырьковый вызов

[ редактировать ]

Простейшее использование цветного графа де Брёйна известно как алгоритм вызова пузырьков. Этот алгоритм ищет и находит пузырьки в геноме, которые отличаются от оригинала. Эти пузырьки должны быть «чистыми» или просто отличаться от эталонного генома, но не могут быть вызваны делециями оснований ДНК. Этот алгоритм может иметь высокий уровень ложноположительных результатов , поскольку существует сложность разделения пузырьков, вызванных повторами и вариантами; однако часто существует эталонный геном, помогающий повысить надежность . Эталонный геном также помогает в обнаружении вариантов и необходим для обнаружения вариантов сайтов. [5] Недавно ученые нашли способ использовать алгоритм вызова пузырьков с обнаружением изменений числа копий , чтобы обеспечить возможность беспристрастного обнаружения этих изменений в будущем. [6] [7]

Расхождение путей

[ редактировать ]

При просмотре сложных вариантов вероятность того, что они сделают чистый контиг , очень мала . Поскольку это происходит чаще всего, алгоритм расхождения путей полезен, особенно если учесть, где происходят делеции, и вариант настолько сложен, что ограничивается эталонным аллелем . Когда образуется пузырь, алгоритм расхождения путей используется наиболее часто и позволяет удалять обнаруженные пузырьки с помощью очень систематической процедуры. Алгоритм сначала находит каждую точку расхождения. Затем из каждой точки расхождения прослеживаются нити, образующие пузырь, чтобы найти место соединения двух путей после n узлов. Если два пути соединяются, то путь с меньшим покрытием удаляется и сохраняется в файле. [3] [8]

Анализ нескольких образцов

[ редактировать ]

Использование нескольких образцов существенно повышает мощность и частоту ложных обнаружений вариантов. В простейших случаях образцы объединяются в группу одного цвета и данные анализируются, как описано ранее. Однако, сохраняя отдельные цвета для каждого набора образцов, можно получить дополнительную информацию о том, как образовались пузырьки: по ошибке или в результате повторений. [5] В 1997 году технологический отдел компании Genzyme Genetics во Фрамингеме , штат Массачусетс, разработал новый подход, который обеспечил прорыв в борьбе с пузырьками с использованием мультиплексного аллель-специфического диагностического анализа (MASDA). Эта программа сочетает в себе прямой дот-блоттинг , сложную одновременную гибридизацию зондов и прямое обнаружение мутаций, чтобы помочь решить двойную проблему анализа нескольких образцов. [9]

Генотипирование

[ редактировать ]

Цветные графики де Брейна можно использовать для генотипирования любого образца ДНК в известных локусах , даже если покрытие недостаточно для сборки вариантов. [5] Первым шагом в этом процессе является построение графика эталонного аллеля , известных вариантов и данных из образца. Затем алгоритм вычисляет вероятность каждого генотипа и учитывает структуру графа, как локальной , так и общегеномной последовательности. Затем это обобщается на несколько аллельных типов и помогает создавать сложные и составные варианты генотипа. [5] Этот алгоритм используется часто, поскольку при этом не образуются пузырьки, с которыми приходится иметь дело. Это также напрямую помогает находить более сложные проблемы в генах более прямым способом, чем любой из трех ранее упомянутых алгоритмов. [10]

  1. ^ Механизмы рекомбинации ДНК и перестройки генома: пересечение гомологичной рекомбинации, репликации ДНК и репарации ДНК . Академическая пресса. 06.03.2018. ISBN  978-0-12-813980-6 .
  2. ^ Де Брейна Граф небольшой последовательности . (2011). Получено 7 февраля 2015 г. с сайта Homolog.us — Биоинформатика: http://www.homolog.us/Tutorials/index.php?p=2.1&s=1. Архивировано 30 октября 2014 г. на Wayback Machine.
  3. ^ Перейти обратно: а б с д Симпсон Дж.Т., Вонг К., Джекман С.Д., Шейн Дж.Э., Джонс С.Дж. и Бироль И. (2009). ABySS: параллельный ассемблер для данных короткой последовательности чтения. Геномные исследования, 19 (6), 1117-1123
  4. ^ Перейти обратно: а б Фличек П. и Бирни Э. (2009). Смысл последовательности гласит: методы выравнивания и сборки. Природные методы, 6 , С6-С12. Рисунок 3
  5. ^ Перейти обратно: а б с д и Икбал З., Каккамо М., Тернер И., Фличек П. и МакВин Г. (2012). Сборка de novo и генотипирование вариантов с использованием цветных графов де Брёйна. Природная генетика, 44 (2), 226-232.
  6. ^ Нейкамп, Дж. Ф., ван ден Брук, Массачусетс, Гертман, Дж. М. А., Рейндерс, М. Дж., Даран, Дж. М. Г. и де Риддер, Д. (2012). Обнаружение de novo изменения количества копий при совместной сборке. Биоинформатика, 28 (24), 3195-3202
  7. ^ Меснер, Ларри Д.; Валсакумар, Вина; Чеслик, Марцин; Пикин, Ребекка; Хэмлин, Джойс Л.; Бекиранов, Стефан (ноябрь 2013 г.). «Анализ генома человека с помощью пузырькового секвенирования выявляет различные опосредованные хроматином механизмы регуляции происхождения ранних и поздних импульсов» . Геномные исследования . 23 (11): 1774–1788. дои : 10.1101/гр.155218.113 . ISSN   1088-9051 . ПМЦ   3814878 . ПМИД   23861383 .
  8. ^ «Расхождение путей – знания в области управления проектами» . Проверено 9 октября 2020 г.
  9. ^ Шубер, А.П., Михаловски, Л.А., Насс, Г.С., Сколецкий, Дж., Хайр, Л.М., Коцопулос, С.К., ... и Клингер, К.В. (1997). Высокопроизводительный параллельный анализ сотен образцов пациентов на предмет выявления более 100 мутаций в генах множества заболеваний. Молекулярная генетика человека, 6 (3), 337-347
  10. ^ «Генотипирование — обзор | Темы ScienceDirect» . www.sciencedirect.com . Проверено 9 октября 2020 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 840d50a767e3eb7110197fbeebaea8b7__1608934860
URL1:https://arc.ask3.ru/arc/aa/84/b7/840d50a767e3eb7110197fbeebaea8b7.html
Заголовок, (Title) документа по адресу, URL1:
DNA read errors - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)