Вызов SNV из данных NGS
Вызов SNV на основе данных NGS — это любой из ряда методов идентификации существования однонуклеотидных вариантов (SNV) по результатам экспериментов по секвенированию следующего поколения (NGS). Это вычислительные методы, которые отличаются от специальных экспериментальных методов, основанных на известных общепопуляционных однонуклеотидных полиморфизмах (см. генотипирование SNP ). Из-за растущего количества данных NGS эти методы становятся все более популярными для генотипирования SNP с широким спектром алгоритмов, разработанных для конкретных экспериментальных проектов и приложений. [ 1 ] Помимо обычной области применения генотипирования SNP, эти методы были успешно адаптированы для выявления редких SNP в популяции. [ 2 ] а также обнаружение соматических SNV у человека с использованием нескольких образцов тканей. [ 3 ]
Методы обнаружения вариантов зародышевой линии
[ редактировать ]Большинство методов обнаружения SNV, основанных на NGS, предназначены для обнаружения вариаций зародышевой линии в геноме человека. Это мутации, которые человек биологически наследует от своих родителей, и они представляют собой обычный тип вариантов, которые ищут при выполнении такого анализа (за исключением некоторых конкретных приложений, где соматические мутации ищут ). Очень часто искомые варианты встречаются с некоторой (возможно, редкой) частотой во всей популяции, и в этом случае их можно назвать однонуклеотидными полиморфизмами (SNP). Технически термин SNP относится только к этим видам вариаций, однако на практике они часто используются как синонимы SNV в литературе по вызову вариантов. Кроме того, поскольку обнаружение SNV зародышевой линии требует определения генотипа человека в каждом локусе, фраза «генотипирование SNP» также может использоваться для обозначения этого процесса. Однако эта фраза может также относиться к экспериментальным процедурам влажной лаборатории для классификации генотипов в наборе известных местоположений SNP.
Обычный процесс таких методов основан на: [ 1 ]
- Фильтрация набора чтений NGS для удаления источников ошибок/предвзятости.
- Сопоставление прочтений с эталонным геномом
- Использование алгоритма, основанного либо на статистической модели, либо на некоторой эвристике, для прогнозирования вероятности вариаций в каждом локусе на основе показателей качества и количества аллелей выровненных прочтений в этом локусе.
- Фильтрация прогнозируемых результатов, часто на основе показателей, имеющих отношение к приложению.
- Аннотация SNP для прогнозирования функционального эффекта каждого варианта.
Обычным результатом этих процедур является файл VCF .
Вероятностные методы
[ редактировать ]
В идеальном мире без ошибок и с высоким охватом чтения задача вызова вариантов по результатам выравнивания данных NGS была бы простой; в каждом локусе (положении в геноме) можно подсчитать количество вхождений каждого отдельного нуклеотида среди ридов, выровненных по этому положению, и истинный генотип будет очевиден; либо AA , если все нуклеотиды соответствуют аллели A , BB, если они соответствуют аллели B , или AB, если имеется смесь. Однако при работе с реальными данными NGS такой наивный подход не используется, поскольку он не может учитывать шум во входных данных. [ 4 ] Подсчеты нуклеотидов, используемые для вызова оснований, содержат ошибки и предвзятость, вызванные как самими секвенированными чтениями, так и процессом выравнивания. Эту проблему можно в некоторой степени смягчить за счет секвенирования с большей глубиной охвата прочтений, однако это часто обходится дорого, и многие практические исследования требуют делать выводы на основе данных с низким охватом. [ 1 ]
Вероятностные методы направлены на решение вышеуказанной проблемы путем получения надежных оценок вероятностей каждого из возможных генотипов с учетом шума, а также другой доступной предварительной информации, которую можно использовать для улучшения оценок. Затем на основе этих вероятностей можно предсказать генотип, часто в соответствии с оценкой MAP .
Вероятностные методы вызова вариантов основаны на теореме Байеса . В контексте выбора вариантов теорема Байеса определяет вероятность того, что каждый генотип является истинным генотипом с учетом наблюдаемых данных, с точки зрения априорных вероятностей каждого возможного генотипа и распределения вероятностей данных с учетом каждого возможного генотипа. Формула:
В приведенном выше уравнении:
- относится к наблюдаемым данным; то есть выровненное читает
- это генотип, вероятность которого рассчитывается
- относится к i- му возможному генотипу из n возможностей
Учитывая вышеизложенную структуру, различные программные решения для обнаружения SNV различаются в зависимости от того, как они рассчитывают априорные вероятности. , модель ошибок, используемая для моделирования вероятностей и разделение общих генотипов на отдельные подгенотипы, вероятности которых можно индивидуально оценить в этой структуре. [ 5 ]
Оценка вероятности априорного генотипа
[ редактировать ]Расчет априорных вероятностей зависит от имеющихся данных об изучаемом геноме и типа выполняемого анализа. Для исследований, в которых доступны хорошие справочные данные, содержащие частоты известных мутаций (например, при изучении данных о геноме человека), эти известные частоты генотипов в популяции можно использовать для оценки априорных значений. Учитывая частоты аллелей в масштабах всей популяции, априорные вероятности генотипа могут быть рассчитаны для каждого локуса в соответствии с равновесием Харди-Вайнберга . [ 6 ] При отсутствии таких данных можно использовать постоянные априоры, независимые от локуса. Их можно установить с использованием эвристически выбранных значений, возможно, в зависимости от типа вариаций, которые ищут в исследовании. В качестве альтернативы были исследованы контролируемые процедуры машинного обучения, целью которых является определение оптимальных априорных значений для отдельных лиц в выборке, используя предоставленные данные NGS от этих лиц. [ 4 ]
Модели ошибок для наблюдения за данными
[ редактировать ]Модель ошибок, использованная при создании вероятностного метода вызова вариантов, является основой расчета термин, используемый в теореме Байеса. Если предположить, что данные не содержат ошибок, то распределение наблюдаемого количества нуклеотидов в каждом локусе будет следовать биномиальному распределению , при этом 100% нуклеотидов соответствуют аллелю A или B соответственно в случаях AA и BB , и 50% вероятность каждого нуклеотида, соответствующего либо A , либо B в случае AB . Однако при наличии шума в считываемых данных это предположение нарушается, и значения должны учитывать возможность присутствия ошибочных нуклеотидов в выровненных прочтениях в каждом локусе.
Простая модель ошибок состоит в том, чтобы ввести небольшую ошибку в термин вероятности данных в гомозиготных случаях, допуская небольшую постоянную вероятность того, что нуклеотиды, не соответствующие аллелю А, наблюдаются в случае АА , и, соответственно, небольшую постоянную вероятность того, что нуклеотиды не соответствующие аллелю B , наблюдаются в случае BB . Однако доступны более сложные процедуры, которые пытаются более реалистично воспроизвести фактические закономерности ошибок, наблюдаемые в реальных данных при расчете вероятностей условных данных. Например, в эти расчеты были включены оценки качества чтения (измеряемые как показатели качества Phred ) с учетом ожидаемой частоты ошибок при каждом отдельном чтении в локусе. [ 7 ] Другой метод, который был успешно включен в модели ошибок, — это повторная калибровка базового качества, при которой рассчитываются отдельные коэффициенты ошибок — на основе ранее известной информации о закономерностях ошибок — для каждой возможной замены нуклеотидов. Исследования показывают, что каждая возможная замена нуклеотидов не с одинаковой вероятностью будет проявляться как ошибка в данных секвенирования, поэтому для улучшения оценок вероятности ошибки была применена повторная калибровка базового качества. [ 6 ]
Разделение генотипа
[ редактировать ]В приведенном выше обсуждении предполагалось, что вероятности генотипа в каждом локусе рассчитываются независимо; то есть весь генотип разбивается на независимые генотипы в каждом локусе, вероятности которых рассчитываются независимо. Однако из-за неравновесия по сцеплению генотипы близлежащих локусов, как правило, не являются независимыми. В результате разделение общего генотипа вместо этого на последовательность перекрывающихся гаплотипов позволяет моделировать эти корреляции, что приводит к более точным оценкам вероятности за счет включения частот гаплотипов в масштабах всей популяции в априорный подход. Использование гаплотипов для повышения точности обнаружения вариантов успешно применяется, например, в проекте «1000 геномов» . [ 8 ]
Алгоритмы на основе эвристики
[ редактировать ]В качестве альтернативы вероятностным методам существуют эвристические методы для выполнения вариантов вызова данных NGS. Вместо моделирования распределения наблюдаемых данных и использования байесовской статистики для расчета вероятностей генотипов выбор вариантов осуществляется на основе множества эвристических факторов, таких как минимальное количество аллелей, пороговые значения качества чтения, границы глубины чтения и т. д. Хотя на практике они были относительно непопулярны по сравнению с вероятностными методами. На практике из-за использования границ и пороговых значений они могут быть устойчивыми к внешним данным, которые нарушают предположения вероятностных моделей. [ 9 ]
Эталонный геном, используемый для выравнивания
[ редактировать ]Важной частью разработки методов вызова вариантов с использованием данных NGS является последовательность ДНК, используемая в качестве эталона, с которой выравниваются чтения NGS. В исследованиях генетики человека доступны высококачественные ссылки из таких источников, как проект HapMap , [ 10 ] что может существенно повысить точность вызовов вариантов, выполняемых алгоритмами вызова вариантов. В качестве бонуса такие ссылки могут быть источником априорных вероятностей генотипов для байесовского анализа. Однако при отсутствии такого высококачественного эталона можно сначала собрать экспериментально полученные риды , чтобы создать эталонную последовательность для выравнивания. [ 1 ]
Предварительная обработка и фильтрация результатов
[ редактировать ]Существуют различные методы фильтрации данных в экспериментах по вызову вариантов, чтобы устранить источники ошибок/предвзятости. Это может включать удаление подозрительных операций чтения перед выполнением выравнивания и/или фильтрации списка вариантов, возвращаемых алгоритмом вызова вариантов.
В зависимости от используемой платформы секвенирования в наборе секвенированных считываний могут существовать различные отклонения. Например, может возникнуть смещение цепи, когда существует крайне неравномерное распределение прямого и обратного направлений в чтениях, выровненных в некоторой окрестности. Кроме того, может произойти необычно высокое дублирование некоторых прочтений (например, из-за систематической ошибки ПЦР ). Такие смещения могут привести к сомнительным вызовам вариантов – например, если фрагмент, содержащий ошибку ПЦР в каком-то локусе, чрезмерно амплифицируется из-за смещения ПЦР, этот локус будет иметь большое количество ложных аллелей и может быть назван SNV – и поэтому конвейеры анализа часто фильтруют вызовы на основе этих предубеждений. [ 1 ]
Методы выявления соматических вариантов
[ редактировать ]В дополнение к методам, которые выравнивают считывания из отдельных образцов с эталонным геномом для обнаружения генетических вариантов зародышевой линии , считывания из нескольких образцов тканей одного человека можно выравнивать и сравнивать для обнаружения соматических вариантов. Эти варианты соответствуют мутациям , которые произошли de novo в группах соматических клеток индивидуума (то есть они не присутствуют в зародышевых клетках индивидуума). Эта форма анализа часто применяется при изучении рака , где многие исследования направлены на изучение профиля соматических мутаций в раковых тканях. Такие исследования привели к созданию диагностических инструментов, которые нашли клиническое применение и используются для улучшения научного понимания болезни, например, путем открытия новых генов, связанных с раком, идентификации вовлеченных генных регуляторных сетей и метаболических путей , а также путем информирования моделей. о том, как растут и развиваются опухоли. [ 11 ]
Последние события
[ редактировать ]До недавнего времени программные инструменты для проведения такого анализа были недостаточно развиты и основывались на тех же алгоритмах, которые используются для обнаружения вариаций зародышевой линии. Такие процедуры не оптимизированы для этой задачи, поскольку они не моделируют адекватно статистическую корреляцию между генотипами, присутствующими в нескольких образцах тканей одного и того же человека. [ 3 ]
Более поздние исследования привели к разработке программных инструментов, специально оптимизированных для обнаружения соматических мутаций в нескольких образцах тканей. Были разработаны вероятностные методы, которые объединяют количество аллелей из всех образцов тканей в каждом локусе и используют статистические модели для вероятности совпадения генотипов для всех тканей и распределения количества аллелей с учетом генотипа, что позволяет рассчитать относительно надежные вероятности. соматических мутаций в каждом локусе с использованием всех доступных данных. [ 3 ] [ 12 ] Кроме того, недавно были проведены исследования в области методов машинного обучения для выполнения этого анализа. [ 13 ] [ 14 ] [ 15 ] [ 16 ]
В 2021 году Консорциум второго этапа контроля качества секвенирования [ 17 ] опубликовал ряд исследований, в которых изучалось влияние подготовки образцов, наборов библиотек секвенирования, платформ секвенирования и рабочих процессов биоинформатики на точность обнаружения соматических SNV. [ 18 ] на основе пары линий опухоле-нормальных клеток, которые Консорциум установил в качестве эталонных образцов, данных и наборов вызовов. [ 19 ]
Список доступного программного обеспечения
[ редактировать ]- ВарНет
- Геномика больших данных: авокадо
- Бигль
- DeepVariant
- Фрибайес
- ГАТК (включая MuTect)
- ВМЕНИТЬ2
- ДжойнтСНВМикс
- МаЧ
- Магнолия DCNN
- НейСоматик
- НГСЭП
- Рыба
- Утконос
- реальныйSFS
- Ревель
- SAMtools
- СНВмикс
- SOAPsnp
- СоматикСек
- СоматическийСнайпер
- Strelka
- ВарДикт
- ВарСкан
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с д и Нильсен Р., Пол Дж. С., Альбрехтсен А. и Сонг Ю. С. (2011). «Вызов генотипа и SNP на основе данных секвенирования следующего поколения» . Обзоры природы Генетика . 12 (6): 443–451. дои : 10.1038/nrg2986 . ПМЦ 3593722 . ПМИД 21587300 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Бансал, В. (2010). «Статистический метод обнаружения вариантов в результате повторного секвенирования пулов ДНК следующего поколения» . Биоинформатика . 26 (12): i318–i324. doi : 10.1093/биоинформатика/btq214 . ПМЦ 2881398 . ПМИД 20529923 .
- ^ Перейти обратно: а б с Рот А., Динг Дж., Морин Р., Крисан А., Ха, Г., Джулиани Р., Башашати А., Херст М., Турашвили Г., Олуми А., Марра, Массачусетс, Апарисио, С. и Шах, С.П. (2012). «JointSNVMix: вероятностная модель для точного обнаружения [соматических мутаций в парных данных секвенирования следующего поколения норма/опухоль» . Биоинформатика . 28 (7): 907–913. doi : 10.1093/биоинформатика/bts053 . ПМЦ 3315723 . ПМИД 22285562 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Перейти обратно: а б Мартин, Э.Р., Киннамон, Д.Д., Шмидт, М.А., Пауэлл, Э.Х., Цухнер, С., и Моррис, Р.В. (2010). «SeqEM: адаптивный подход к определению генотипов для исследований секвенирования следующего поколения» . Биоинформатика . 26 (22): 2803–2810. doi : 10.1093/биоинформатика/btq526 . ПМЦ 2971572 . ПМИД 20861027 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Ю Н., Мурильо Г., Су Х., Цзэн Х., Сюй Дж., Нин К., Чжан С., Чжу Дж. и Цуй Х. (2012). «Вызов SNP с использованием выбора модели генотипа на данных высокопроизводительного секвенирования» . Биоинформатика . 28 (5): 643–650. doi : 10.1093/биоинформатика/bts001 . ПМЦ 3338331 . ПМИД 22253293 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Перейти обратно: а б Ли Р., Ли Ю., Фанг Х., Ян Х., Ван Дж., Кристиансен К. и Ван Дж. (2009). «Обнаружение SNP для массового параллельного полногеномного секвенирования» . Геномные исследования . 19 (6): 1124–1132. дои : 10.1101/гр.088013.108 . ПМЦ 2694485 . ПМИД 19420381 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Ли Х., Руан Дж. и Дурбин Р. (2008). «Картирование коротких прочтений секвенирования ДНК и вызов вариантов с использованием показателей качества картирования» . Геномные исследования . 18 (11): 1851–1858. дои : 10.1101/гр.078212.108 . ПМК 2577856 . ПМИД 18714091 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Абекасис, Г.Р., Альтшулер, Д., Аутон, А., Брукс, Л.Д., Дурбин, Р.М., Гиббс, Р.А., Херлс, М.Э., МакВин, Дж.А., Бентли, Д.Р., Чакраварти, А... и Проект 1000 геномов Консорциум (2010). «Карта вариаций генома человека по результатам популяционного секвенирования» . Природа . 467 (7319): 1061–1073. Бибкод : 2010Natur.467.1061T . дои : 10.1038/nature09534 . ПМК 3042601 . ПМИД 20981092 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Кобольдт, округ Колумбия, Чжан, К., Ларсон, Д.Э., Шен, Д., Маклеллан, доктор медицинских наук, Лин, Л., Миллер, Калифорния, Мардис, Э.Р., Дин, Л. и Уилсон, Р.К. (2012). «VarScan 2: обнаружение соматических мутаций и изменений числа копий при раке путем секвенирования экзома» . Геномные исследования . 22 (3): 568–576. дои : 10.1101/гр.129684.111 . ПМК 3290792 . ПМИД 22300766 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Гиббс, Р.А., Белмонт, Дж.В., Харденбол, П., Уиллис, Т.Д., Ю, Ф., Ян, Х., Чанг, Л.-Ю., Хуанг, В. и Лю, Бин и Шен, Ян ( 2003). «Международный проект HapMap» (PDF) . Природа . 426 (6968): 789–796. Бибкод : 2003Natur.426..789G . дои : 10.1038/nature02168 . hdl : 2027.42/62838 . ПМИД 14685227 . S2CID 4387110 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Шир Д. и Лю К. (2013). «Секвенирование нового поколения в исследованиях рака и клиническом применении» . Биологические процедуры онлайн . 15 (4): 4. дои : 10.1186/1480-9222-15-4 . ПМК 3599179 . ПМИД 23406336 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Ларсон Д.Э., Харрис К.С., Чен К., Кобольдт Д.К., Эбботт Т.Э., Дулинг Д.Д., Лей Т.Дж., Мардис Э.Р., Уилсон Р.К. и Дин Л. (2012). «SomaticSniper: идентификация точечных соматических мутаций в данных полногеномного секвенирования» . Биоинформатика . 28 (3): 311–317. doi : 10.1093/биоинформатика/btr665 . ПМЦ 3268238 . ПМИД 22155872 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Дин Дж., Башашати А., Рот А., Олуми А., Цзе К., Цзэн Т., Хаффари Г., Херст М., Марра М.А., Кондон А., Апарисио , С. и Шах, СП (2012). «Классификаторы на основе признаков для обнаружения соматических мутаций в опухоли — данные нормального парного секвенирования» . Биоинформатика . 28 (2): 167–175. doi : 10.1093/биоинформатика/btr629 . ПМЦ 3259434 . ПМИД 22084253 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Фанг, Л.Т., Афшар, П.Т., Чиббер, А., Мохиюддин, М., Фан, Ю., Му, Дж.К., Гибелинг, Г., Барр, С., Асади, Н.Б., Герштейн, М.Б., Кобольдт, Д.К., Ван , В., Вонг, У.Х. и Лам, HYK (2015). «Ансамбльный подход для точного обнаружения соматических мутаций с помощью SomaticSeq» . Геномная биология . 16 (1): 197. дои : 10.1186/s13059-015-0758-2 . ПМЦ 4574535 . ПМИД 26381235 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Сахрайян, SME, Лю, Р., Лау, Б., Подеста, К., Мохиюддин, М. и Лам, HYK (2019). «Глубокие сверточные нейронные сети для точного обнаружения соматических мутаций» . Природные коммуникации . 10 (1): 1041. Бибкод : 2019NatCo..10.1041S . дои : 10.1038/s41467-019-09027-x . ПМК 6399298 . ПМИД 30833567 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Кришнамачари, К., Лу, Д., Свифт-Скотт, А., Ералиев, А., Ли, К., Хуанг, В., Сим, Н.Л., Скандеруп, А.Дж. (2022). «Точное обнаружение соматических вариантов с использованием глубокого обучения со слабым контролем» . Природные коммуникации . 13 (1): 4248. Бибкод : 2022NatCo..13.4248K . дои : 10.1038/s41467-022-31765-8 . ПМЦ 9307817 . ПМИД 35869060 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «Консорциум MAQC-IV/SEQC2» . Управление по контролю за продуктами и лекарствами США. 9 сентября 2020 г. Проверено 11 октября 2021 г.
- ^ Сяо, В., Рен, Л., Чен, З., Фан, Л.Т., Чжао, Ю., Лак, Дж., Гуань, М., Чжу, Б., Джегер, Э., Керриган, Л., Бломквист , ТМ, Хунг Т., Султан М., Айдлер К., Лу, К., Шерер А., Куско Р., Моос М., Сяо, С; и др. (2021). «На пути к передовой практике обнаружения мутаций рака с помощью полногеномного и полноэкзомного секвенирования» . Природная биотехнология . 39 (9): 1141–1150. дои : 10.1038/s41587-021-00994-5 . ПМЦ 8506910 . ПМИД 34504346 . S2CID 237471055 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Фанг, Л.Т., Чжу, Б., Чжао, Ю., Чен, В., Ян, З., Керриган, Л., Лангенбах, К., де Марс, М., Лу, К., Айдлер, К., Джейкоб, Х., Чжэн, Ю., Рен, Л., Ю, Ю., Джагер, Э., Шрот, Г.П., Абаан, О.Д., Талсания, К., Лак, Дж.; и др. (2021). «Создание эталонных образцов, данных и наборов вызовов сообщества для сравнительного анализа обнаружения мутаций рака с использованием полногеномного секвенирования» . Природная биотехнология . 39 (9): 1151–1160. дои : 10.1038/s41587-021-00993-6 . ПМЦ 8532138 . ПМИД 34504347 . S2CID 237469255 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )