NVIDIA Парабрикс
Разработчик(и) | Нвидиа |
---|---|
Стабильная версия | 4.3.1-1
/ 1 июля 2024 г. |
Платформа | Графические процессоры NVIDIA |
Доступно в | Английский |
Тип | Медицинское программное обеспечение |
Веб-сайт | www |
Nvidia Parabricks — это пакет бесплатного программного обеспечения для анализа генома , разработанный Nvidia и предназначенный для обеспечения высокой производительности за счет ускорения графического процессора (GPU). [ 1 ]
Parabricks предлагает рабочие процессы для анализа ДНК и РНК , а также обнаружения зародышевых и соматических мутаций с использованием с открытым исходным кодом . инструментов [ 1 ] Он предназначен для сокращения времени вычислений при анализе геномных данных, сохраняя при этом гибкость, необходимую для различных биоинформатических экспериментов. [ 1 ] Наряду со скоростью обработки на базе графического процессора Parabricks обеспечивает высокую точность , соответствие стандартным форматам генома и возможность масштабирования для обработки очень больших наборов данных. [ 1 ]
Пользователи могут загружать и запускать конвейеры Parabricks локально или напрямую развертывать их у поставщиков облачных услуг, таких как Amazon Web Services , Google Cloud , Oracle Cloud Infrastructure и Microsoft Azure . [ 1 ]
Основы ускоренного анализа генома
[ редактировать ]

Массовое снижение на секвенирование затрат [ 2 ] привело к значительному увеличению размера и доступности геномных данных. [ 3 ] с потенциалом совершить революцию во многих областях, от медицины до разработки лекарств . [ 4 ]
Начав с биологического образца (например, слюны или крови ), можно извлечь ДНК человека и секвенировать ее с помощью оборудования для секвенирования, чтобы перевести биологическую информацию в текстовую последовательность оснований . [ 5 ] будет получен весь геном Затем, как только в процессе сборки генома , ДНК можно будет проанализировать для извлечения информации, которая является ключевой в нескольких областях, включая персонализированную медицину и медицинскую диагностику . [ 6 ]
Обычно анализ геномных данных выполняется с помощью инструментов на базе центральных процессоров (ЦП) для обработки. [ 7 ] Недавно несколько исследователей в этой области подчеркнули проблемы с вычислительной мощностью, обеспечиваемой этими инструментами, и сосредоточили свои усилия на поиске способов повышения производительности приложений . [ 7 ] Проблему решали двумя способами: разработкой более эффективных алгоритмов или ускорением вычислительной части с помощью аппаратных ускорителей . Примерами ускорителей, используемых в этой области, являются графические процессоры, FPGA и ASIC. [ 8 ]
В этом контексте графические процессоры произвели революцию в геномике , используя свою мощность параллельной обработки для ускорения ресурсоемких вычислительных задач. [ 9 ] [ 10 ] Графические процессоры обеспечивают многообещающие результаты в этих сценариях благодаря своей архитектуре, состоящей из тысяч небольших ядер, способных выполнять вычисления параллельно. [ 11 ] Этот параллелизм позволяет графическим процессорам обрабатывать несколько задач одновременно, значительно ускоряя вычисления, которые можно разбить на независимые блоки. [ 11 ] Например, сопоставление миллионов считываний секвенирования с эталонным геномом или выполнение статистического анализа больших наборов геномных данных можно выполнить гораздо быстрее на графических процессорах, чем при использовании центральных процессоров. [ 10 ] Это облегчает быстрый анализ геномных данных из различных источников, начиная от отдельных геномов и заканчивая крупномасштабными популяционными исследованиями . [ 12 ] ускорение понимания генетических заболеваний , генетического разнообразия и более сложных биологических систем . [ 10 ]
Рекомендуемые трубопроводы
[ редактировать ]Parabricks предлагает конечным пользователям различные наборы инструментов, организованных последовательно для анализа необработанных данных в соответствии с требованиями пользователя, называемые конвейерами . [ 1 ] Тем не менее, пользователи могут решить использовать инструменты, предоставляемые Parabricks, отдельно, по-прежнему используя ускорение графического процессора для преодоления возможных вычислительных узких мест. Лишь некоторые из инструментов пакета основаны на графическом процессоре. [ 13 ]

В целом все трубопроводы имеют стандартную структуру. Большинство конвейеров созданы для анализа данных FASTQ , полученных в результате различных технологий секвенирования (например, короткого или длинного чтения ). Входные геномные последовательности сначала выравниваются, а затем проходят процесс контроля качества. Эти два процесса предоставляют BAM или CRAM в качестве промежуточного результата файл . На основе этих данных в следующей задаче вызова вариантов используются высокоточные инструменты, которые уже широко используются. На выходе эти конвейеры предоставляют идентифицированные мутации в VCF (или gVCF). [ 13 ]
Зародышевый трубопровод
[ редактировать ]Трубопровод зародышевой линии, предлагаемый Parabricks, соответствует лучшим практикам. [ 14 ] предложено Институтом Броуда в их наборе инструментов для анализа генома (GATK). [ 15 ] Конвейер зародышевой линии работает с файлами FASTQ, предоставленными пользователем, для вызова вариантов, которые, принадлежащие к зародышевой линии, могут быть унаследованы. [ 13 ]
Этот конвейер анализирует данные, вычисляя выравнивание чтения с помощью BWA-MEM. [ 16 ] [ 17 ] и вызов вариантов с помощью GATK HaplotypeCaller, [ 18 ] один из наиболее подходящих инструментов в области выявления вариантов зародышевой линии. [ 13 ]
Конвейер зародышевой линии DeepVariant
[ редактировать ]Помимо конвейера, который использует HaplotypeCaller для вызова вариантов, Parabricks также предлагает альтернативный конвейер, который по-прежнему вызывает варианты зародышевой линии, но основан на DeepVariant. [ 19 ] [ 20 ] DeepVariant — это программа вызова вариантов, разработанная и поддерживаемая Google , способная выявлять мутации с использованием подхода, основанного на глубоком обучении . Ядро DeepVariant [ 19 ] — это сверточная нейронная сеть (CNN), которая идентифицирует варианты, преобразуя эту задачу в операцию классификации изображений . В Parabricks процесс вывода ускоряется аппаратно. Для этого конвейера T4, V100 и A100 . поддерживаются только графические процессоры [ 13 ]
Анализы, выполненные в соответствии с этим конвейером, соответствуют использованию BWA-MEM. [ 16 ] для согласования CNN Google для вариантов вызова. [ 13 ]
Конвейер Human_par
[ редактировать ]По-прежнему соответствует лучшим практикам GATK. [ 14 ] конвейер human_par позволяет пользователям выявлять мутации во всем геноме человека, включая половые хромосомы X и Y , и, таким образом, соответствует их плоидности . Для мужских выборок сначала в конвейере запускается HaplotypeCaller. [ 18 ] на всех участках, не принадлежащих к X и Y хромосомам, и на псевдоаутосомном участке с плоидностью, равной 1. Затем HaplotypeCaller анализирует участки X и Y без псевдоаутосомного участка с плоидностью 2. Что касается женских выборок, вместо этого конвейер запускает HaplotypeCaller на всем геноме с плоидностью 2. [ 13 ]
Пол выборки можно определить двумя основными способами:
- Устанавливается вручную с помощью
--sample-sex
вариант; - Укажите соотношение X и Y с помощью параметров диапазона.
--range-male
и--range-female
и позвольте инструменту автоматически определить пол образцов на основе количества чтений X и Y.
Конвейер требует от пользователя указать хотя бы один из этих трех параметров. [ 13 ]
Что касается случая зародышевой линии, поскольку этот конвейер нацелен на варианты зародышевой линии, конвейер прибегает к BWA-MEM. [ 16 ] для выравнивания, за которым следует HaplotypeCaller [ 18 ] для варианта вызова. [ 13 ]
Соматический конвейер
[ редактировать ]Соматический конвейер Парабрикса предназначен для вызова соматических вариантов , то есть тех мутаций, которые затрагивают нерепродуктивные (соматические) клетки. Этот конвейер может анализировать как опухолевые, так и неопухолевые геномы, предлагая либо анализ только опухоли, либо анализ опухоли/нормы для всесторонних исследований. [ 13 ]
Как и в трубопроводе зародышевой линии, задача выравнивания выполняется с использованием BWA-MEM. [ 16 ] за которым следует GATK Mutect [ 21 ] выявить возможные мутации. Mutect используется вместо HaplotypeCaller из-за того, что он ориентирован на соматические мутации, в отличие от мутаций зародышевой линии, на которые нацелен HaplotypeCaller. [ 21 ]
трубопровод РНК
[ редактировать ]Этот конвейер оптимизирован для обнаружения коротких вариантов (т. е. однонуклеотидных полиморфизмов (SNP) и инделей ) в RNAseq данных . Он следует лучшим практикам Института Броуда для проведения такого рода анализа. [ 13 ]
Он опирается на выравниватель STAR, [ 22 ] выравниватель чтения, специализированный для последовательностей РНК для выравнивания прочтений, и HaplotypeCaller [ 18 ] для вызова вариантов. [ 13 ]
Инструменты Парабрикса
[ редактировать ]Parabricks предоставляет набор инструментов для выполнения геномного анализа, разделенных на шесть основных категорий, связанных с их задачами. [ 13 ] В совокупности эти инструменты составляют конвейеры Parabricks и могут использоваться как есть.
Для обработки файлов FASTQ и BAM предлагаются следующие инструменты: [ 13 ]
- применитьbsqr
- bam2fq
- бамсорт
- БКСР
- fq2bam
- fq2bamfast
- fq2bam_meth
- сотрясение земли
- миникарта2 (бета)
Для вызова вариантов предлагаются следующие инструменты: [ 13 ]
- глубокий соматический
- глубокий вариант
- deepvariant_germline
- зародышевая линия (GATK Germline Pipeline)
- вызывающий гаплотип
- вызывающий звук
- pacbio_germline (бета)
- отложить
- препон
- соматический (соматический вариант вызывающего абонента)
Предлагаемые инструменты для обработки РНК: [ 13 ]
- rna_fq2bam
- звездное слияние
Для контроля качества результатов предлагаются следующие инструменты: [ 13 ]
- бамметрика
- собирать множественные метрики
Для вариантов обработки предлагаемые инструменты: [ 13 ]
- дбснп
Для обработки файлов gVCF предлагаются следующие инструменты: [ 13 ]
- генотипgvcf
- indexgvcf
Не все перечисленные инструменты ускоряются на GPU. [ 13 ]
Аппаратная поддержка
[ редактировать ]Пользователи могут загружать и запускать конвейеры Parabricks на своих локальных серверах, что позволяет осуществлять частную обработку и анализ данных на месте. Они также могут развертывать конвейеры Parabricks на облачных платформах с улучшенной масштабируемостью для более крупных наборов данных. Поддерживаемые поставщики облачных услуг включают AWS , GCP , OCI и Azure . [ 1 ]
В последней версии (v4.3.1-1) Parabricks включает поддержку суперчипа NVIDIA Hopper . Grace [ 23 ] Суперчип NVIDIA GH200 Grace Hopper — это гетерогенная платформа, предназначенная для высокопроизводительных вычислений и искусственного интеллекта , объединяющая NVIDIA Grace и Hopper на одном чипе . [ 24 ] Эта платформа повышает производительность приложений, используя как графические процессоры, так и центральные процессоры, предлагая модель программирования, направленную на повышение производительности, портативности и производительности . [ 23 ]
Приложения
[ редактировать ]Из-за вычислительной мощности, необходимой для задач геномики, Parabricks нашел применение в нескольких исследованиях в различных прикладных областях, особенно в рака . исследованиях [ 25 ] [ 26 ] [ 27 ]
Ученые из Вашингтонского университета использовали конвейер Parabricks DeepVariant для идентификации вариантов (например, SNP и небольших инделей) в данных полногеномного секвенирования Hi-Fi (WGS), полученных с помощью PacBio Revio SMRT Cell . технологии [ 28 ]
Помимо конвейеров, отдельные компоненты Parabricks использовались как автономные инструменты в академических условиях. Например, ускоренный DeepVariant был использован в новом процессе для дальнейшего сокращения времени обработки данных WGS Nanopore . [ 29 ]
В 2022 году Nvidia объявила о сотрудничестве с Институтом Броуда, чтобы предоставить исследователям преимущества ускоренных вычислений. Это партнерство включает в себя весь набор программного обеспечения Nvidia для биомедицинского аппаратного ускорения под названием Clara, в который входят Parabricks и MONAI . [ 30 ] Аналогично, Центр генетики Regeneron использует Parabricks для ускорения вторичного анализа экзомов, которые они секвенируют в своем высокопроизводительном центре секвенирования, а также использует конвейер DeepVariant Germline в своих рабочих процессах. [ 31 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж г «Клара за геномику» . NVIDIA . Проверено 8 июля 2024 г.
- ^ «Затраты на секвенирование ДНК: данные» . www.genome.gov . Проверено 10 июля 2024 г.
- ^ Лэнгмид Б., Неллор А. (апрель 2018 г.). «Облачные вычисления для анализа геномных данных и совместной работы» . Обзоры природы. Генетика . 19 (4): 208–219. дои : 10.1038/nrg.2017.113 . ПМК 6452449 . ПМИД 29379135 .
- ^ Омбрелло М.Дж., Сикора К.А., Кастнер Д.Л. (апрель 2014 г.). «Генетика, геномика и их значение для патологии и терапии» . Лучшие практики и исследования. Клиническая ревматология . Достижения в области детской ревматологии и перевод исследований на таргетную терапию. 28 (2): 175–189. дои : 10.1016/j.berh.2014.05.001 . ПМК 4149217 . ПМИД 24974057 .
- ^ Алсер М., Линдеггер Дж., Фиртина С., Алмадхун Н., Мао Х., Сингх Г. и др. (2022). «От молекул к геномным вариациям: ускорение анализа генома с помощью интеллектуальных алгоритмов и архитектур» . Журнал вычислительной и структурной биотехнологии . 20 : 4579–4599. дои : 10.1016/j.csbj.2022.08.019 . ПМЦ 9436709 . ПМИД 36090814 .
- ^ Джайн К.К. (2009). «Основы персонализированной медицины». В Джайн К.К. (ред.). Учебник персонализированной медицины . Нью-Йорк, штат Нью-Йорк: Спрингер. стр. 1–27. дои : 10.1007/978-1-4419-0769-1_1 . ISBN 978-1-4419-0769-1 .
- ^ Jump up to: а б Алсер М., Бингол З., Кали Д.С., Ким Дж., Гоуз С., Алкан С. и др. (сентябрь 2020 г.). «Ускорение анализа генома: введение в продолжающийся путь» . IEEE микро . 40 (5): 65–75. arXiv : 2008.00961 . дои : 10.1109/MM.2020.3013728 . ISSN 0272-1732 .
- ^ Алсер М., Ротман Дж., Дешпанде Д., Тарашка К., Ши Х., Байкал П.И. и др. (август 2021 г.). «Технологии диктуют алгоритмы: последние разработки в области выравнивания чтения» . Геномная биология . 22 (1): 249. дои : 10.1186/s13059-021-02443-7 . ПМК 8390189 . ПМИД 34446078 .
- ^ Тейлор-Вайнер А., Аге Ф., Харадхвала Н.Дж., Госай С., Ананд С., Ким Дж. и др. (ноябрь 2019 г.). «Масштабирование вычислительной геномики для миллионов людей с помощью графических процессоров» . Геномная биология . 20 (1): 228. дои : 10.1186/s13059-019-1836-7 . ПМК 6823959 . ПМИД 31675989 .
- ^ Jump up to: а б с Нобиле М.С., Каццанига П., Тангерлони А., Безоцци Д. (сентябрь 2017 г.). «Графические процессоры в биоинформатике, вычислительной биологии и системной биологии» . Брифинги по биоинформатике . 18 (5): 870–885. дои : 10.1093/нагрудник/bbw058 . ПМЦ 5862309 . ПМИД 27402792 .
- ^ Jump up to: а б Ченг Дж., Гроссман М., МакКерчер Т. (9 сентября 2014 г.). Профессиональное программирование на CUDA C. Джон Уайли и сыновья. ISBN 978-1-118-73932-7 .
- ^ Чжоу С, Лан X, Ван Ю, Чжу С (06 августа 2015 г.). «gPGA: анализ популяционной генетики с ускорением на графическом процессоре» . ПЛОС ОДИН . 10 (8): e0135028. Бибкод : 2015PLoSO..1035028Z . дои : 10.1371/journal.pone.0135028 . ПМЦ 4527771 . ПМИД 26248314 .
- ^ Jump up to: а б с д и ж г час я дж к л м н тот п д р с т «Добро пожаловать в NVIDIA Parabricks v4.3.1» . Документы NVIDIA . Проверено 10 июля 2024 г.
- ^ Jump up to: а б «Рекомендации по вариантному вызову с помощью GATK» . @broadinstitute . 19 марта 2015 г. Проверено 9 июля 2024 г.
- ^ «Инструментарий для анализа генома (GATK)» . @broadinstitute . 08.06.2010 . Проверено 9 июля 2024 г.
- ^ Jump up to: а б с д Ли Х (26 мая 2013 г.), Выравнивание считывания последовательностей, последовательностей клонирования и контигов сборки с помощью BWA-MEM , arXiv : 1303.3997
- ^ «Алайнер Берроуза-Уиллера» . bio-bwa.sourceforge.net . Проверено 9 июля 2024 г.
- ^ Jump up to: а б с д Поплин Р., Руано-Рубио В., ДеПристо М.А., Феннелл Т.Дж., Карнейро М.О., Ван дер Аувера Г.А. и др. (24 июля 2018 г.), Масштабирование точного обнаружения генетических вариантов до десятков тысяч образцов , doi : 10.1101/201178 , получено 9 июля 2024 г.
- ^ Jump up to: а б Поплин Р., Чанг ПК, Александр Д., Шварц С., Колтерст Т., Ку А. и др. (ноябрь 2018 г.). «Универсальный SNP и вызывающий вариант с малым числом делений с использованием глубоких нейронных сетей». Природная биотехнология . 36 (10): 983–987. дои : 10.1038/nbt.4235 . ПМИД 30247488 .
- ^ google/deepvariant , Google, 04 июля 2024 г. , получено 9 июля 2024 г.
- ^ Jump up to: а б Цибульскис К., Лоуренс М.С., Картер С.Л., Сиваченко А., Яффе Д., Суньез С. и др. (март 2013 г.). «Чувствительное выявление точковых соматических мутаций в нечистых и гетерогенных образцах рака» . Природная биотехнология . 31 (3): 213–219. дои : 10.1038/nbt.2514 . ПМЦ 3833702 . ПМИД 23396013 .
- ^ Добин А., Дэвис К.А., Шлезингер Ф., Дренков Дж., Залески С., Джа С. и др. (январь 2013 г.). «STAR: сверхбыстрый универсальный выравниватель RNA-seq» . Биоинформатика . 29 (1): 15–21. doi : 10.1093/биоинформатика/bts635 . ПМК 3530905 . ПМИД 23104886 .
- ^ Jump up to: а б «Суперчип Грейс Хоппер» . Документы NVIDIA . Проверено 10 июля 2024 г.
- ^ Симаков Н.А., Джонс, доктор медицинских наук, Фурлани Т.Р., Зигманн Э., Харрисон Р.Дж. (11 января 2024 г.). «Первые впечатления от суперчипа NVIDIA Grace CPU и суперчипа NVIDIA Grace Hopper для научных задач» . Материалы Международной конференции по высокопроизводительным вычислениям в Азиатско-Тихоокеанском регионе . Семинары HPCAsia '24. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 36–44. дои : 10.1145/3636480.3637097 . ISBN 979-8-4007-1652-2 .
- ^ Кроуги Э.Л., Ватс П., Франке К., Бернетт Г., Сетия А., Харкинс Т. и др. (июль 2021 г.). «Реферат 165: Расширенная обработка данных геномного секвенирования при раке у детей: графические процессоры и методы машинного обучения для обнаружения вариантов» . Исследования рака . 81 (13_Supplement): 165. doi : 10.1158/1538-7445.AM2021-165 . ISSN 0008-5472 .
- ^ Нг Дж.К., Ватс П., Фриц-Уотерс Э., Саркар С., Сэмс Э.И., Падхи Э.М. и др. (декабрь 2022 г.). «Вызов варианта de novo идентифицирует признаки раковых мутаций в проекте «1000 геномов» . Человеческая мутация . 43 (12): 1979–1993. дои : 10.1002/humu.24455 . ПМК 9771978 . ПМИД 36054329 .
- ^ Ли Т.Х., Чан Б.С., Чанг Дж.Х., Ким Э, Пак Дж.Х., Чи ЭК (июль 2023 г.). «Геномный ландшафт местно-распространенной аденокарциномы прямой кишки: сравнение до и после неоадъювантной химиолучевой терапии и влияние генетических биомаркеров на клинические исходы и реакцию опухоли» . Раковая медицина . 12 (14): 15664–15675. дои : 10.1002/cam4.6169 . ПМЦ 10417181 . ПМИД 37260182 .
- ^ Мануэль Дж.Г., Хайнс Х.Б., Крокер С., Нейдич Дж.А., Садзевич Л., Таллон Л. и др. (июнь 2023 г.). «Высокоточное секвенирование длинного считывания с высоким охватом линии нейрональных клеток мыши с использованием секвенатора PacBio Revio» . биоRxiv . дои : 10.1101/2023.06.06.543940 . ПМЦ 10274723 . ПМИД 37333171 .
- ^ Гоенка С.Д., Горжински Дж.Е., Шафин К., Фиск Д.Г., Песаут Т., Йенсен Т.Д. и др. (июль 2022 г.). «Ускоренная идентификация болезнетворных вариантов с помощью сверхбыстрого секвенирования генома нанопор» . Природная биотехнология . 40 (7): 1035–1041. дои : 10.1038/s41587-022-01221-5 . ПМЦ 9287171 . ПМИД 35347328 .
- ^ «Институт Броуда и NVIDIA внедряют NVIDIA Clara на облачную платформу Terra, обслуживающую 25 000 исследователей, продвигающих биомедицинские открытия» . Отдел новостей NVIDIA . Проверено 9 июля 2024 г.
- ^ «Биобанк Великобритании продвигает исследования в области геномики с помощью NVIDIA Clara Parabricks» . NVIDIA . Проверено 9 июля 2024 г.
Дальнейшее чтение
[ редактировать ]- Франке К.Р., Кроуги Э.Л. (март 2020 г.). «Ускорение анализа данных секвенирования нового поколения: оценка оптимизированных лучших практик для алгоритмов Genome Analysis Toolkit» . Геномика и информатика . 18 (1). БМК: е10. дои : 10.5808/GI.2020.18.1.e10 . ПМК 7120354 . ПМИД 32224843 .
- О'Коннелл К.А., Йосуфзай З.Б., Кэмпбелл Р.А., Лобб С.Дж. и др. Горрелл Л.М. и др. (май 2023 г.). «Ускорение геномных рабочих процессов с помощью NVIDIA Parabricks» . БМК Биоинформатика . 24 (1): 221. дои : 10.1186/s12859-023-05292-2 . ПМЦ 10230726 . ПМИД 37259021 .