Вариант формата вызова
Расширение имени файла |
.vcf |
---|---|
Разработано | Проект 1000 геномов |
Последний выпуск | 4.3 13 января 2021 г |
Тип формата | Биоинформатика |
Расширено с | Значения, разделенные табуляцией |
Распространено на | gVCF |
Открытый формат ? | Да |
Веб-сайт | Самтулс |
Формат вызова вариантов или VCF — это стандартный формат текстового файла, используемый в биоинформатике для хранения вариантов последовательностей генов . Формат был разработан в 2010 году для проекта «1000 геномов» и с тех пор используется в других крупномасштабных проектах генотипирования и секвенирования ДНК . [1] [2] VCF является распространенным форматом вывода для программ вызова вариантов из-за его относительной простоты и масштабируемости. [3] [4] Для редактирования файлов VCF и управления ими было разработано множество инструментов, в том числе VCFtools, который был выпущен вместе с форматом VCF в 2011 году, и BCFtools, который был включен как часть SAMtools до тех пор, пока не был разделен на независимый пакет в 2014 году. [1] [5]
В настоящее время стандарт находится в версии 4.3. [6] [7] хотя проект «1000 геномов» разработал собственную спецификацию структурных вариаций, таких как дупликации, которые нелегко вписать в существующую схему. [8]
На основе VCF были разработаны дополнительные форматы файлов, включая геномный VCF ( gVCF ). gVCF — это расширенный формат, который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествах. [9] [10]
Пример [ править ]
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

Заголовок VCF [ править ]
Заголовок начинает файл и содержит метаданные, описывающие тело файла. Строки заголовка обозначаются как начинающиеся с # . Специальные ключевые слова в заголовке обозначены значком ## . Рекомендуемые ключевые слова включают в себя формат файла , дата_файла и ссылка .
Заголовок содержит ключевые слова, которые опционально семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. ниже).
Столбцы VCF [ править ]
Тело VCF следует за заголовком и разделено табуляцией на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые можно использовать для записи другой информации об образце(ах). При использовании дополнительных столбцов первый необязательный столбец используется для описания формата данных в последующих столбцах.
Имя | Краткое описание (подробнее см. в спецификации). | |
---|---|---|
1 | ХРОМ | Имя последовательности (обычно хромосомы), в которой вызывается вариация. Эту последовательность обычно называют «эталонной последовательностью», т.е. последовательностью, относительно которой изменяется данный образец. |
2 | POS-терминал | Позиция варианта данной последовательности, отсчитываемая от 1. |
3 | ИДЕНТИФИКАТОР | Идентификатор варианта, например, идентификатор dbSNP rs или, если он неизвестен, «.». Несколько идентификаторов должны быть разделены точкой с запятой без пробелов. |
4 | ССЫЛКА | Ссылочное основание (или основания в случае indel ) в данной позиции в данной ссылочной последовательности. |
5 | ВСЕ | Список альтернативных аллелей в этой позиции. |
6 | КОТОРЫЙ | Показатель качества, связанный с выводом данных аллелей. |
7 | ФИЛЬТР | Флаг, указывающий, какой из заданных фильтров вариант не прошел, или PASS, если все фильтры прошли успешно. |
8 | ИНФОРМАЦИЯ | Расширяемый список пар ключ-значение (полей), описывающих вариант. Ниже приведены некоторые общие поля. Несколько полей разделяются точкой с запятой с необязательными значениями в формате: <key>=<data>[,data] .
|
9 | ФОРМАТ | (Необязательный) расширяемый список полей для описания образцов. Ниже приведены некоторые общие поля. |
+ | ОБРАЗЦЫ | Для каждого (необязательного) образца, описанного в файле, указаны значения полей, перечисленных в ФОРМАТ. |
Общие поля INFO [ править ]
Допускаются произвольные ключи, однако следующие подполя зарезервированы (хотя и необязательны): [6]
Имя | Краткое описание |
---|---|
АА | предковый аллель |
переменного тока | количество аллелей в генотипах для каждого аллеля ALT в том же порядке, как указано |
ИЗ | частота аллелей для каждого аллеля ALT в том же порядке, как указано (используйте это значение при оценке на основе первичных данных, а не генотипов) |
АН | общее количество аллелей в названных генотипах |
БК | Базовое качество RMS на этой позиции |
СИГАРА | сигарная строка, описывающая, как совместить альтернативную аллель с эталонной аллелью |
БД | членство в dbSNP |
ДП | общая глубина образцов, например DP=154 |
КОНЕЦ | конечное положение варианта, описанного в этой записи (для использования с символическими аллелями) |
Н2 | членство в hapmap2 |
Н3 | членство в hapmap3 |
МК | Качество отображения RMS, например MQ=52. |
MQ0 | Количество операций чтения MAPQ == 0, охватывающих эту запись. |
НС | Количество образцов с данными |
СБ | смещение пряди в этом положении |
СОМАТИЧЕСКИЙ | указывает на то, что запись представляет собой соматическую мутацию в геномике рака. |
ПОДТВЕРЖДЕНО | подтверждено последующим экспериментом |
1000 г | членство в 1000 геномов |
Любые другие информационные поля определяются в заголовке .vcf.
Общие поля FORMAT [ править ]
Имя | Краткое описание |
---|---|
ОБЪЯВЛЕНИЕ | Глубина чтения для каждой аллели |
АПД | Считайте глубину для каждой аллели на передней цепи. |
АДР | Считайте глубину для каждой аллели на обратной цепи. |
ДП | Глубина чтения |
ЕС | Ожидаемое количество альтернативных аллелей |
ФТ | Фильтр, указывающий, был ли этот генотип «вызван» |
ГЛ | Вероятность генотипа |
врач общей практики | Апостериорные вероятности генотипа |
GQ | Условное качество генотипа |
ГТ | Генотип |
штаб-квартира | Качество гаплотипа |
МК | Качество отображения RMS |
ПЛ | Вероятность генотипа по шкале Phred, округленная до ближайшего целого числа |
ПК | Качество фазировки |
ПС | Фазовый набор |
Любые другие поля формата определяются в заголовке .vcf.
См. также [ править ]
- Формат FASTA , используемый для представления последовательностей генома.
- Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
- Формат SAM , используемый для представления считываний секвенатора генома, которые были сопоставлены с последовательностями генома.
- Формат GVF (формат вариаций генома), расширение, основанное на формате GFF3 .
- Глобальный альянс по геномике и здоровью (GA4GH) , группа, возглавляющая управление и расширение формата VCF. [11] Спецификация VCF больше не поддерживается проектом «1000 геномов». [12]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б Данечек, Петр; Аутон, Адам; Абекасис, Гонсалу; Альберс, Корнелис А.; Бэнкс, Эрик; ДеПристо, Марк А.; Handsaker, Роберт Э.; Лантер, Гертон; Март, Габор Т.; Шерри, Стивен Т.; Маквин, Джилэн; Дурбин, Ричард (1 августа 2011 г.). «Вариант формата вызова и VCFtools» . Биоинформатика . 27 (15): 2156–2158. doi : 10.1093/биоинформатика/btr330 . ISSN 1367-4803 . ПМК 3137218 . ПМИД 21653522 .
- ^ Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК» . IEEE-спектр . Проверено 22 марта 2015 г.
- ^ «Понимание формата VCF | Генетические вариации человека» . ЭМБЛ-ЭБИ . Архивировано из оригинала 20 апреля 2023 г. Проверено 10 ноября 2023 г.
- ^ Гаррисон, Эрик; Кроненберг, Зев Н.; Доусон, Эрик Т.; Педерсен, Брент С.; Принс, Петр (31 мая 2022 г.). «Спектр бесплатных программных инструментов для обработки формата вызова варианта VCF: vcflib, bio-vcf, cyvcf2, hts-nim и slivar» . PLOS Вычислительная биология . 18 (5): e1009123. Бибкод : 2022PLSCB..18E9123G . дои : 10.1371/journal.pcbi.1009123 . ISSN 1553-734X . ПМЦ 9286226 . ПМИД 35639788 .
- ^ Данечек, Петр; Бонфилд, Джеймс К.; Лиддл, Дженнифер; Маршалл, Джон; Оган, Валериу; Поллард, Мартин О; Уитвам, Эндрю; Кин, Томас; Маккарти, Шейн А; Дэвис, Роберт М; Ли, Хэн (29 января 2021 г.). «Двенадцать лет SAMtools и BCFtools» . ГигаСайенс . 10 (2). doi : 10.1093/gigascience/giab008 . ISSN 2047-217X . ПМЦ 7931819 . ПМИД 33590861 .
- ↑ Перейти обратно: Перейти обратно: а б «Спецификация VCF» (PDF) . Проверено 20 октября 2016 г.
- ^ «Спецификации SAM/BAM и связанных с ними форматов файлов секвенирования с высокой пропускной способностью» . Гитхаб . Проверено 24 июня 2014 г.
- ^ «Кодирование структурных вариантов в VCF (формат вызова вариантов) версии 4.0 | 1000 геномов» . Проверено 20 октября 2016 г.
- ^ «GVCF — формат вызова геномного варианта» . ГАТК . Броудский институт.
- ^ «Файлы gVCF» . Illumina, Inc. Проверено 10 ноября 2023 г.
- ^ «Спецификации формата HTS» . samtools.github.io . Проверено 22 февраля 2022 г.
- ^ «Мир БиоИТ» . www.bio-itworld.com . Проверено 26 октября 2018 г.