Jump to content

NVIDIA Парабрикс

NVIDIA Парабрикс
Разработчик(и) Нвидиа
Стабильная версия
4.3.1-1 / 1 июля 2024 г.
Платформа Графические процессоры NVIDIA
Доступно в Английский
Тип Медицинское программное обеспечение
Веб-сайт www .nvidia /en-нас /Клара /геномика /

Nvidia Parabricks — это пакет бесплатного программного обеспечения для анализа генома , разработанный Nvidia и предназначенный для обеспечения высокой производительности за счет ускорения графического процессора (GPU). [ 1 ]

Parabricks предлагает рабочие процессы для анализа ДНК и РНК , а также обнаружения зародышевых и соматических мутаций с использованием с открытым исходным кодом . инструментов [ 1 ] Он предназначен для сокращения времени вычислений при анализе геномных данных, сохраняя при этом гибкость, необходимую для различных биоинформатических экспериментов. [ 1 ] Наряду со скоростью обработки на базе графического процессора Parabricks обеспечивает высокую точность , соответствие стандартным форматам генома и возможность масштабирования для обработки очень больших наборов данных. [ 1 ]

Пользователи могут загружать и запускать конвейеры Parabricks локально или напрямую развертывать их у поставщиков облачных услуг, таких как Amazon Web Services , Google Cloud , Oracle Cloud Infrastructure и Microsoft Azure . [ 1 ]

Основы ускоренного анализа генома

[ редактировать ]
Стандартный конвейер для извлечения вариантов из генома человека
Секвенирующие машины, способные идентифицировать последовательность оснований, составляющих ДНК.

Массовое снижение на секвенирование затрат [ 2 ] привело к значительному увеличению размера и доступности геномных данных. [ 3 ] с потенциалом совершить революцию во многих областях, от медицины до разработки лекарств . [ 4 ]

Начав с биологического образца (например, слюны или крови ), можно извлечь ДНК человека и секвенировать ее с помощью оборудования для секвенирования, чтобы перевести биологическую информацию в текстовую последовательность оснований . [ 5 ] будет получен весь геном Затем, как только в процессе сборки генома , ДНК можно будет проанализировать для извлечения информации, которая является ключевой в нескольких областях, включая персонализированную медицину и медицинскую диагностику . [ 6 ]

Обычно анализ геномных данных выполняется с помощью инструментов на базе центральных процессоров (ЦП) для обработки. [ 7 ] Недавно несколько исследователей в этой области подчеркнули проблемы с вычислительной мощностью, обеспечиваемой этими инструментами, и сосредоточили свои усилия на поиске способов повышения производительности приложений . [ 7 ] Проблему решали двумя способами: разработкой более эффективных алгоритмов или ускорением вычислительной части с помощью аппаратных ускорителей . Примерами ускорителей, используемых в этой области, являются графические процессоры, FPGA и ASIC. [ 8 ]

В этом контексте графические процессоры произвели революцию в геномике , используя свою мощность параллельной обработки для ускорения ресурсоемких вычислительных задач. [ 9 ] [ 10 ] Графические процессоры обеспечивают многообещающие результаты в этих сценариях благодаря своей архитектуре, состоящей из тысяч небольших ядер, способных выполнять вычисления параллельно. [ 11 ] Этот параллелизм позволяет графическим процессорам обрабатывать несколько задач одновременно, значительно ускоряя вычисления, которые можно разбить на независимые блоки. [ 11 ] Например, сопоставление миллионов считываний секвенирования с эталонным геномом или выполнение статистического анализа больших наборов геномных данных можно выполнить гораздо быстрее на графических процессорах, чем при использовании центральных процессоров. [ 10 ] Это облегчает быстрый анализ геномных данных из различных источников, начиная от отдельных геномов и заканчивая крупномасштабными популяционными исследованиями . [ 12 ] ускорение понимания генетических заболеваний , генетического разнообразия и более сложных биологических систем . [ 10 ]

[ редактировать ]

Parabricks предлагает конечным пользователям различные наборы инструментов, организованных последовательно для анализа необработанных данных в соответствии с требованиями пользователя, называемые конвейерами . [ 1 ] Тем не менее, пользователи могут решить использовать инструменты, предоставляемые Parabricks, отдельно, по-прежнему используя ускорение графического процессора для преодоления возможных вычислительных узких мест. Лишь некоторые из инструментов пакета основаны на графическом процессоре. [ 13 ]

Обзор основных этапов конвейеров NVIDIA Parabricks

В целом все трубопроводы имеют стандартную структуру. Большинство конвейеров созданы для анализа данных FASTQ , полученных в результате различных технологий секвенирования (например, короткого или длинного чтения ). Входные геномные последовательности сначала выравниваются, а затем проходят процесс контроля качества. Эти два процесса предоставляют BAM или CRAM в качестве промежуточного результата файл . На основе этих данных в следующей задаче вызова вариантов используются высокоточные инструменты, которые уже широко используются. На выходе эти конвейеры предоставляют идентифицированные мутации в VCF (или gVCF). [ 13 ]

Зародышевый трубопровод

[ редактировать ]

Трубопровод зародышевой линии, предлагаемый Parabricks, соответствует лучшим практикам. [ 14 ] предложено Институтом Броуда в их наборе инструментов для анализа генома (GATK). [ 15 ] Конвейер зародышевой линии работает с файлами FASTQ, предоставленными пользователем, для вызова вариантов, которые, принадлежащие к зародышевой линии, могут быть унаследованы. [ 13 ]

Этот конвейер анализирует данные, вычисляя выравнивание чтения с помощью BWA-MEM. [ 16 ] [ 17 ] и вызов вариантов с помощью GATK HaplotypeCaller, [ 18 ] один из наиболее подходящих инструментов в области выявления вариантов зародышевой линии. [ 13 ]

Конвейер зародышевой линии DeepVariant

[ редактировать ]

Помимо конвейера, который использует HaplotypeCaller для вызова вариантов, Parabricks также предлагает альтернативный конвейер, который по-прежнему вызывает варианты зародышевой линии, но основан на DeepVariant. [ 19 ] [ 20 ] DeepVariant — это программа вызова вариантов, разработанная и поддерживаемая Google , способная выявлять мутации с использованием подхода, основанного на глубоком обучении . Ядро DeepVariant [ 19 ] — это сверточная нейронная сеть (CNN), которая идентифицирует варианты, преобразуя эту задачу в операцию классификации изображений . В Parabricks процесс вывода ускоряется аппаратно. Для этого конвейера T4, V100 и A100 . поддерживаются только графические процессоры [ 13 ]

Анализы, выполненные в соответствии с этим конвейером, соответствуют использованию BWA-MEM. [ 16 ] для согласования CNN Google для вариантов вызова. [ 13 ]

Конвейер Human_par

[ редактировать ]

По-прежнему соответствует лучшим практикам GATK. [ 14 ] конвейер human_par позволяет пользователям выявлять мутации во всем геноме человека, включая половые хромосомы X и Y , и, таким образом, соответствует их плоидности . Для мужских выборок сначала в конвейере запускается HaplotypeCaller. [ 18 ] на всех участках, не принадлежащих к X и Y хромосомам, и на псевдоаутосомном участке с плоидностью, равной 1. Затем HaplotypeCaller анализирует участки X и Y без псевдоаутосомного участка с плоидностью 2. Что касается женских выборок, вместо этого конвейер запускает HaplotypeCaller на всем геноме с плоидностью 2. [ 13 ]

Пол выборки можно определить двумя основными способами:

  1. Устанавливается вручную с помощью --sample-sex вариант;
  2. Укажите соотношение X и Y с помощью параметров диапазона. --range-male и --range-female и позвольте инструменту автоматически определить пол образцов на основе количества чтений X и Y.

Конвейер требует от пользователя указать хотя бы один из этих трех параметров. [ 13 ]

Что касается случая зародышевой линии, поскольку этот конвейер нацелен на варианты зародышевой линии, конвейер прибегает к BWA-MEM. [ 16 ] для выравнивания, за которым следует HaplotypeCaller [ 18 ] для варианта вызова. [ 13 ]

Соматический конвейер

[ редактировать ]

Соматический конвейер Парабрикса предназначен для вызова соматических вариантов , то есть тех мутаций, которые затрагивают нерепродуктивные (соматические) клетки. Этот конвейер может анализировать как опухолевые, так и неопухолевые геномы, предлагая либо анализ только опухоли, либо анализ опухоли/нормы для всесторонних исследований. [ 13 ]

Как и в трубопроводе зародышевой линии, задача выравнивания выполняется с использованием BWA-MEM. [ 16 ] за которым следует GATK Mutect [ 21 ] выявить возможные мутации. Mutect используется вместо HaplotypeCaller из-за того, что он ориентирован на соматические мутации, в отличие от мутаций зародышевой линии, на которые нацелен HaplotypeCaller. [ 21 ]

трубопровод РНК

[ редактировать ]

Этот конвейер оптимизирован для обнаружения коротких вариантов (т. е. однонуклеотидных полиморфизмов (SNP) и инделей ) в RNAseq данных . Он следует лучшим практикам Института Броуда для проведения такого рода анализа. [ 13 ]

Он опирается на выравниватель STAR, [ 22 ] выравниватель чтения, специализированный для последовательностей РНК для выравнивания прочтений, и HaplotypeCaller [ 18 ] для вызова вариантов. [ 13 ]

Инструменты Парабрикса

[ редактировать ]

Parabricks предоставляет набор инструментов для выполнения геномного анализа, разделенных на шесть основных категорий, связанных с их задачами. [ 13 ] В совокупности эти инструменты составляют конвейеры Parabricks и могут использоваться как есть.

Для обработки файлов FASTQ и BAM предлагаются следующие инструменты: [ 13 ]

  • применитьbsqr
  • bam2fq
  • бамсорт
  • БКСР
  • fq2bam
  • fq2bamfast
  • fq2bam_meth
  • сотрясение земли
  • миникарта2 (бета)

Для вызова вариантов предлагаются следующие инструменты: [ 13 ]

  • глубокий соматический
  • глубокий вариант
  • deepvariant_germline
  • зародышевая линия (GATK Germline Pipeline)
  • вызывающий гаплотип
  • вызывающий звук
  • pacbio_germline (бета)
  • отложить
  • препон
  • соматический (соматический вариант вызывающего абонента)

Предлагаемые инструменты для обработки РНК: [ 13 ]

  • rna_fq2bam
  • звездное слияние

Для контроля качества результатов предлагаются следующие инструменты: [ 13 ]

  • бамметрика
  • собирать множественные метрики

Для вариантов обработки предлагаемые инструменты: [ 13 ]

  • дбснп

Для обработки файлов gVCF предлагаются следующие инструменты: [ 13 ]

  • генотипgvcf
  • indexgvcf

Не все перечисленные инструменты ускоряются на GPU. [ 13 ]

Аппаратная поддержка

[ редактировать ]

Пользователи могут загружать и запускать конвейеры Parabricks на своих локальных серверах, что позволяет осуществлять частную обработку и анализ данных на месте. Они также могут развертывать конвейеры Parabricks на облачных платформах с улучшенной масштабируемостью для более крупных наборов данных. Поддерживаемые поставщики облачных услуг включают AWS , GCP , OCI и Azure . [ 1 ]

В последней версии (v4.3.1-1) Parabricks включает поддержку суперчипа NVIDIA Hopper . Grace [ 23 ] Суперчип NVIDIA GH200 Grace Hopper — это гетерогенная платформа, предназначенная для высокопроизводительных вычислений и искусственного интеллекта , объединяющая NVIDIA Grace и Hopper на одном чипе . [ 24 ] Эта платформа повышает производительность приложений, используя как графические процессоры, так и центральные процессоры, предлагая модель программирования, направленную на повышение производительности, портативности и производительности . [ 23 ]

Приложения

[ редактировать ]

Из-за вычислительной мощности, необходимой для задач геномики, Parabricks нашел применение в нескольких исследованиях в различных прикладных областях, особенно в рака . исследованиях [ 25 ] [ 26 ] [ 27 ]

Ученые из Вашингтонского университета использовали конвейер Parabricks DeepVariant для идентификации вариантов (например, SNP и небольших инделей) в данных полногеномного секвенирования Hi-Fi (WGS), полученных с помощью PacBio Revio SMRT Cell . технологии [ 28 ]

Помимо конвейеров, отдельные компоненты Parabricks использовались как автономные инструменты в академических условиях. Например, ускоренный DeepVariant был использован в новом процессе для дальнейшего сокращения времени обработки данных WGS Nanopore . [ 29 ]

В 2022 году Nvidia объявила о сотрудничестве с Институтом Броуда, чтобы предоставить исследователям преимущества ускоренных вычислений. Это партнерство включает в себя весь набор программного обеспечения Nvidia для биомедицинского аппаратного ускорения под названием Clara, в который входят Parabricks и MONAI . [ 30 ] Аналогично, Центр генетики Regeneron использует Parabricks для ускорения вторичного анализа экзомов, которые они секвенируют в своем высокопроизводительном центре секвенирования, а также использует конвейер DeepVariant Germline в своих рабочих процессах. [ 31 ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж г «Клара за геномику» . NVIDIA . Проверено 8 июля 2024 г.
  2. ^ «Затраты на секвенирование ДНК: данные» . www.genome.gov . Проверено 10 июля 2024 г.
  3. ^ Лэнгмид Б., Неллор А. (апрель 2018 г.). «Облачные вычисления для анализа геномных данных и совместной работы» . Обзоры природы. Генетика . 19 (4): 208–219. дои : 10.1038/nrg.2017.113 . ПМК   6452449 . ПМИД   29379135 .
  4. ^ Омбрелло М.Дж., Сикора К.А., Кастнер Д.Л. (апрель 2014 г.). «Генетика, геномика и их значение для патологии и терапии» . Лучшие практики и исследования. Клиническая ревматология . Достижения в области детской ревматологии и перевод исследований на таргетную терапию. 28 (2): 175–189. дои : 10.1016/j.berh.2014.05.001 . ПМК   4149217 . ПМИД   24974057 .
  5. ^ Алсер М., Линдеггер Дж., Фиртина С., Алмадхун Н., Мао Х., Сингх Г. и др. (2022). «От молекул к геномным вариациям: ускорение анализа генома с помощью интеллектуальных алгоритмов и архитектур» . Журнал вычислительной и структурной биотехнологии . 20 : 4579–4599. дои : 10.1016/j.csbj.2022.08.019 . ПМЦ   9436709 . ПМИД   36090814 .
  6. ^ Джайн К.К. (2009). «Основы персонализированной медицины». В Джайн К.К. (ред.). Учебник персонализированной медицины . Нью-Йорк, штат Нью-Йорк: Спрингер. стр. 1–27. дои : 10.1007/978-1-4419-0769-1_1 . ISBN  978-1-4419-0769-1 .
  7. ^ Jump up to: а б Алсер М., Бингол З., Кали Д.С., Ким Дж., Гоуз С., Алкан С. и др. (сентябрь 2020 г.). «Ускорение анализа генома: введение в продолжающийся путь» . IEEE микро . 40 (5): 65–75. arXiv : 2008.00961 . дои : 10.1109/MM.2020.3013728 . ISSN   0272-1732 .
  8. ^ Алсер М., Ротман Дж., Дешпанде Д., Тарашка К., Ши Х., Байкал П.И. и др. (август 2021 г.). «Технологии диктуют алгоритмы: последние разработки в области выравнивания чтения» . Геномная биология . 22 (1): 249. дои : 10.1186/s13059-021-02443-7 . ПМК   8390189 . ПМИД   34446078 .
  9. ^ Тейлор-Вайнер А., Аге Ф., Харадхвала Н.Дж., Госай С., Ананд С., Ким Дж. и др. (ноябрь 2019 г.). «Масштабирование вычислительной геномики для миллионов людей с помощью графических процессоров» . Геномная биология . 20 (1): 228. дои : 10.1186/s13059-019-1836-7 . ПМК   6823959 . ПМИД   31675989 .
  10. ^ Jump up to: а б с Нобиле М.С., Каццанига П., Тангерлони А., Безоцци Д. (сентябрь 2017 г.). «Графические процессоры в биоинформатике, вычислительной биологии и системной биологии» . Брифинги по биоинформатике . 18 (5): 870–885. дои : 10.1093/нагрудник/bbw058 . ПМЦ   5862309 . ПМИД   27402792 .
  11. ^ Jump up to: а б Ченг Дж., Гроссман М., МакКерчер Т. (9 сентября 2014 г.). Профессиональное программирование на CUDA C. Джон Уайли и сыновья. ISBN  978-1-118-73932-7 .
  12. ^ Чжоу С, Лан X, Ван Ю, Чжу С (06 августа 2015 г.). «gPGA: анализ популяционной генетики с ускорением на графическом процессоре» . ПЛОС ОДИН . 10 (8): e0135028. Бибкод : 2015PLoSO..1035028Z . дои : 10.1371/journal.pone.0135028 . ПМЦ   4527771 . ПМИД   26248314 .
  13. ^ Jump up to: а б с д и ж г час я дж к л м н тот п д р с т «Добро пожаловать в NVIDIA Parabricks v4.3.1» . Документы NVIDIA . Проверено 10 июля 2024 г.
  14. ^ Jump up to: а б «Рекомендации по вариантному вызову с помощью GATK» . @broadinstitute . 19 марта 2015 г. Проверено 9 июля 2024 г.
  15. ^ «Инструментарий для анализа генома (GATK)» . @broadinstitute . 08.06.2010 . Проверено 9 июля 2024 г.
  16. ^ Jump up to: а б с д Ли Х (26 мая 2013 г.), Выравнивание считывания последовательностей, последовательностей клонирования и контигов сборки с помощью BWA-MEM , arXiv : 1303.3997
  17. ^ «Алайнер Берроуза-Уиллера» . bio-bwa.sourceforge.net . Проверено 9 июля 2024 г.
  18. ^ Jump up to: а б с д Поплин Р., Руано-Рубио В., ДеПристо М.А., Феннелл Т.Дж., Карнейро М.О., Ван дер Аувера Г.А. и др. (24 июля 2018 г.), Масштабирование точного обнаружения генетических вариантов до десятков тысяч образцов , doi : 10.1101/201178 , получено 9 июля 2024 г.
  19. ^ Jump up to: а б Поплин Р., Чанг ПК, Александр Д., Шварц С., Колтерст Т., Ку А. и др. (ноябрь 2018 г.). «Универсальный SNP и вызывающий вариант с малым числом делений с использованием глубоких нейронных сетей». Природная биотехнология . 36 (10): 983–987. дои : 10.1038/nbt.4235 . ПМИД   30247488 .
  20. ^ google/deepvariant , Google, 04 июля 2024 г. , получено 9 июля 2024 г.
  21. ^ Jump up to: а б Цибульскис К., Лоуренс М.С., Картер С.Л., Сиваченко А., Яффе Д., Суньез С. и др. (март 2013 г.). «Чувствительное выявление точковых соматических мутаций в нечистых и гетерогенных образцах рака» . Природная биотехнология . 31 (3): 213–219. дои : 10.1038/nbt.2514 . ПМЦ   3833702 . ПМИД   23396013 .
  22. ^ Добин А., Дэвис К.А., Шлезингер Ф., Дренков Дж., Залески С., Джа С. и др. (январь 2013 г.). «STAR: сверхбыстрый универсальный выравниватель RNA-seq» . Биоинформатика . 29 (1): 15–21. doi : 10.1093/биоинформатика/bts635 . ПМК   3530905 . ПМИД   23104886 .
  23. ^ Jump up to: а б «Суперчип Грейс Хоппер» . Документы NVIDIA . Проверено 10 июля 2024 г.
  24. ^ Симаков Н.А., Джонс, доктор медицинских наук, Фурлани Т.Р., Зигманн Э., Харрисон Р.Дж. (11 января 2024 г.). «Первые впечатления от суперчипа NVIDIA Grace CPU и суперчипа NVIDIA Grace Hopper для научных задач» . Материалы Международной конференции по высокопроизводительным вычислениям в Азиатско-Тихоокеанском регионе . Семинары HPCAsia '24. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 36–44. дои : 10.1145/3636480.3637097 . ISBN  979-8-4007-1652-2 .
  25. ^ Кроуги Э.Л., Ватс П., Франке К., Бернетт Г., Сетия А., Харкинс Т. и др. (июль 2021 г.). «Реферат 165: Расширенная обработка данных геномного секвенирования при раке у детей: графические процессоры и методы машинного обучения для обнаружения вариантов» . Исследования рака . 81 (13_Supplement): 165. doi : 10.1158/1538-7445.AM2021-165 . ISSN   0008-5472 .
  26. ^ Нг Дж.К., Ватс П., Фриц-Уотерс Э., Саркар С., Сэмс Э.И., Падхи Э.М. и др. (декабрь 2022 г.). «Вызов варианта de novo идентифицирует признаки раковых мутаций в проекте «1000 геномов» . Человеческая мутация . 43 (12): 1979–1993. дои : 10.1002/humu.24455 . ПМК   9771978 . ПМИД   36054329 .
  27. ^ Ли Т.Х., Чан Б.С., Чанг Дж.Х., Ким Э, Пак Дж.Х., Чи ЭК (июль 2023 г.). «Геномный ландшафт местно-распространенной аденокарциномы прямой кишки: сравнение до и после неоадъювантной химиолучевой терапии и влияние генетических биомаркеров на клинические исходы и реакцию опухоли» . Раковая медицина . 12 (14): 15664–15675. дои : 10.1002/cam4.6169 . ПМЦ   10417181 . ПМИД   37260182 .
  28. ^ Мануэль Дж.Г., Хайнс Х.Б., Крокер С., Нейдич Дж.А., Садзевич Л., Таллон Л. и др. (июнь 2023 г.). «Высокоточное секвенирование длинного считывания с высоким охватом линии нейрональных клеток мыши с использованием секвенатора PacBio Revio» . биоRxiv . дои : 10.1101/2023.06.06.543940 . ПМЦ   10274723 . ПМИД   37333171 .
  29. ^ Гоенка С.Д., Горжински Дж.Е., Шафин К., Фиск Д.Г., Песаут Т., Йенсен Т.Д. и др. (июль 2022 г.). «Ускоренная идентификация болезнетворных вариантов с помощью сверхбыстрого секвенирования генома нанопор» . Природная биотехнология . 40 (7): 1035–1041. дои : 10.1038/s41587-022-01221-5 . ПМЦ   9287171 . ПМИД   35347328 .
  30. ^ «Институт Броуда и NVIDIA внедряют NVIDIA Clara на облачную платформу Terra, обслуживающую 25 000 исследователей, продвигающих биомедицинские открытия» . Отдел новостей NVIDIA . Проверено 9 июля 2024 г.
  31. ^ «Биобанк Великобритании продвигает исследования в области геномики с помощью NVIDIA Clara Parabricks» . NVIDIA . Проверено 9 июля 2024 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 59a4417679fabfdda48274e97b17e3bd__1722267900
URL1:https://arc.ask3.ru/arc/aa/59/bd/59a4417679fabfdda48274e97b17e3bd.html
Заголовок, (Title) документа по адресу, URL1:
Nvidia Parabricks - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)