Jump to content

Вариант формата вызова

Вариант формата вызова
Расширение имени файла
.vcf
Разработано Проект 1000 геномов
Последний выпуск
4.3
13 января 2021 г .; 3 года назад ( 13.01.2021 )
Тип формата Биоинформатика
Расширено с Значения, разделенные табуляцией
Распространено на gVCF
Открытый формат ? Да
Веб-сайт Самтулс .github .что /hts-спецификации /VCFv4 .3 .pdf

Формат вызова вариантов или VCF — это стандартный формат текстового файла, используемый в биоинформатике для хранения вариантов последовательностей генов . Формат был разработан в 2010 году для проекта «1000 геномов» и с тех пор используется в других крупномасштабных проектах генотипирования и секвенирования ДНК . [1] [2] VCF является распространенным форматом вывода для программ вызова вариантов из-за его относительной простоты и масштабируемости. [3] [4] Для редактирования файлов VCF и управления ими было разработано множество инструментов, в том числе VCFtools, который был выпущен вместе с форматом VCF в 2011 году, и BCFtools, который был включен как часть SAMtools до тех пор, пока не был разделен на независимый пакет в 2014 году. [1] [5]

В настоящее время стандарт находится в версии 4.3. [6] [7] хотя проект «1000 геномов» разработал собственную спецификацию структурных вариаций, таких как дупликации, которые нелегко вписать в существующую схему. [8]

На основе VCF были разработаны дополнительные форматы файлов, включая геномный VCF ( gVCF ). gVCF — это расширенный формат, который включает дополнительную информацию о «блоках», соответствующих эталону, и их качествах. [9] [10]

Пример [ править ]

##fileformat=VCFv4.3
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS      ID         REF   ALT    QUAL  FILTER   INFO                             FORMAT       NA00001         NA00002          NA00003
20     14370    rs6054257  G     A      29    PASS    NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ  0|0:48:1:51,51  1|0:48:8:51,51   1/1:43:5:.,.
20     17330    .          T     A      3     q10     NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ  0|0:49:3:58,50  0|1:3:5:65,3     0/0:41:3
20     1110696  rs6040355  A     G,T    67    PASS    NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ  1|2:21:6:23,27  2|1:2:0:18,2     2/2:35:4
20     1230237  .          T     .      47    PASS    NS=3;DP=13;AA=T                   GT:GQ:DP:HQ  0|0:54:7:56,60  0|0:48:4:51,51   0/0:61:2
20     1234567  microsat1  GTC   G,GTCT 50    PASS    NS=3;DP=9;AA=G                    GT:GQ:DP     0/1:35:4        0/2:17:2         1/1:40:3
BCF v VCF
Демонстрация разницы между двоичными форматами BCF и VCF.

Заголовок VCF [ править ]

Заголовок начинает файл и содержит метаданные, описывающие тело файла. Строки заголовка обозначаются как начинающиеся с # . Специальные ключевые слова в заголовке обозначены значком ## . Рекомендуемые ключевые слова включают в себя формат файла , дата_файла и ссылка .

Заголовок содержит ключевые слова, которые опционально семантически и синтаксически описывают поля, используемые в теле файла, в частности INFO, FILTER и FORMAT (см. ниже).

Столбцы VCF [ править ]

Тело VCF следует за заголовком и разделено табуляцией на 8 обязательных столбцов и неограниченное количество дополнительных столбцов, которые можно использовать для записи другой информации об образце(ах). При использовании дополнительных столбцов первый необязательный столбец используется для описания формата данных в последующих столбцах.

Имя Краткое описание (подробнее см. в спецификации).
1 ХРОМ Имя последовательности (обычно хромосомы), в которой вызывается вариация. Эту последовательность обычно называют «эталонной последовательностью», т.е. последовательностью, относительно которой изменяется данный образец.
2 POS-терминал Позиция варианта данной последовательности, отсчитываемая от 1.
3 ИДЕНТИФИКАТОР Идентификатор варианта, например, идентификатор dbSNP rs или, если он неизвестен, «.». Несколько идентификаторов должны быть разделены точкой с запятой без пробелов.
4 ССЫЛКА Ссылочное основание (или основания в случае indel ) в данной позиции в данной ссылочной последовательности.
5 ВСЕ Список альтернативных аллелей в этой позиции.
6 КОТОРЫЙ Показатель качества, связанный с выводом данных аллелей.
7 ФИЛЬТР Флаг, указывающий, какой из заданных фильтров вариант не прошел, или PASS, если все фильтры прошли успешно.
8 ИНФОРМАЦИЯ Расширяемый список пар ключ-значение (полей), описывающих вариант. Ниже приведены некоторые общие поля. Несколько полей разделяются точкой с запятой с необязательными значениями в формате: <key>=<data>[,data].
9 ФОРМАТ (Необязательный) расширяемый список полей для описания образцов. Ниже приведены некоторые общие поля.
+ ОБРАЗЦЫ Для каждого (необязательного) образца, описанного в файле, указаны значения полей, перечисленных в ФОРМАТ.

Общие поля INFO [ править ]

Допускаются произвольные ключи, однако следующие подполя зарезервированы (хотя и необязательны): [6]

Имя Краткое описание
АА предковый аллель
переменного тока количество аллелей в генотипах для каждого аллеля ALT в том же порядке, как указано
ИЗ частота аллелей для каждого аллеля ALT в том же порядке, как указано (используйте это значение при оценке на основе первичных данных, а не генотипов)
АН общее количество аллелей в названных генотипах
БК Базовое качество RMS на этой позиции
СИГАРА сигарная строка, описывающая, как совместить альтернативную аллель с эталонной аллелью
БД членство в dbSNP
ДП общая глубина образцов, например DP=154
КОНЕЦ конечное положение варианта, описанного в этой записи (для использования с символическими аллелями)
Н2 членство в hapmap2
Н3 членство в hapmap3
МК Качество отображения RMS, например MQ=52.
MQ0 Количество операций чтения MAPQ == 0, охватывающих эту запись.
НС Количество образцов с данными
СБ смещение пряди в этом положении
СОМАТИЧЕСКИЙ указывает на то, что запись представляет собой соматическую мутацию в геномике рака.
ПОДТВЕРЖДЕНО подтверждено последующим экспериментом
1000 г членство в 1000 геномов

Любые другие информационные поля определяются в заголовке .vcf.

Общие поля FORMAT [ править ]

Имя Краткое описание
ОБЪЯВЛЕНИЕ Глубина чтения для каждой аллели
АПД Считайте глубину для каждой аллели на передней цепи.
АДР Считайте глубину для каждой аллели на обратной цепи.
ДП Глубина чтения
ЕС Ожидаемое количество альтернативных аллелей
ФТ Фильтр, указывающий, был ли этот генотип «вызван»
ГЛ Вероятность генотипа
врач общей практики Апостериорные вероятности генотипа
GQ Условное качество генотипа
ГТ Генотип
штаб-квартира Качество гаплотипа
МК Качество отображения RMS
ПЛ Вероятность генотипа по шкале Phred, округленная до ближайшего целого числа
ПК Качество фазировки
ПС Фазовый набор

Любые другие поля формата определяются в заголовке .vcf.

См. также [ править ]

  • Формат FASTA , используемый для представления последовательностей генома.
  • Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
  • Формат SAM , используемый для представления считываний секвенатора генома, которые были сопоставлены с последовательностями генома.
  • Формат GVF (формат вариаций генома), расширение, основанное на формате GFF3 .

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б Данечек, Петр; Аутон, Адам; Абекасис, Гонсалу; Альберс, Корнелис А.; Бэнкс, Эрик; ДеПристо, Марк А.; Handsaker, Роберт Э.; Лантер, Гертон; Март, Габор Т.; Шерри, Стивен Т.; Маквин, Джилэн; Дурбин, Ричард (1 августа 2011 г.). «Вариант формата вызова и VCFtools» . Биоинформатика . 27 (15): 2156–2158. doi : 10.1093/биоинформатика/btr330 . ISSN   1367-4803 . ПМК   3137218 . ПМИД   21653522 .
  2. ^ Оссола, Александра (20 марта 2015 г.). «Гонка за создание поисковой системы для вашей ДНК» . IEEE-спектр . Проверено 22 марта 2015 г.
  3. ^ «Понимание формата VCF | Генетические вариации человека» . ЭМБЛ-ЭБИ . Архивировано из оригинала 20 апреля 2023 г. Проверено 10 ноября 2023 г.
  4. ^ Гаррисон, Эрик; Кроненберг, Зев Н.; Доусон, Эрик Т.; Педерсен, Брент С.; Принс, Петр (31 мая 2022 г.). «Спектр бесплатных программных инструментов для обработки формата вызова варианта VCF: vcflib, bio-vcf, cyvcf2, hts-nim и slivar» . PLOS Вычислительная биология . 18 (5): e1009123. Бибкод : 2022PLSCB..18E9123G . дои : 10.1371/journal.pcbi.1009123 . ISSN   1553-734X . ПМЦ   9286226 . ПМИД   35639788 .
  5. ^ Данечек, Петр; Бонфилд, Джеймс К.; Лиддл, Дженнифер; Маршалл, Джон; Оган, Валериу; Поллард, Мартин О; Уитвам, Эндрю; Кин, Томас; Маккарти, Шейн А; Дэвис, Роберт М; Ли, Хэн (29 января 2021 г.). «Двенадцать лет SAMtools и BCFtools» . ГигаСайенс . 10 (2). doi : 10.1093/gigascience/giab008 . ISSN   2047-217X . ПМЦ   7931819 . ПМИД   33590861 .
  6. Перейти обратно: Перейти обратно: а б «Спецификация VCF» (PDF) . Проверено 20 октября 2016 г.
  7. ^ «Спецификации SAM/BAM и связанных с ними форматов файлов секвенирования с высокой пропускной способностью» . Гитхаб . Проверено 24 июня 2014 г.
  8. ^ «Кодирование структурных вариантов в VCF (формат вызова вариантов) версии 4.0 | 1000 геномов» . Проверено 20 октября 2016 г.
  9. ^ «GVCF — формат вызова геномного варианта» . ГАТК . Броудский институт.
  10. ^ «Файлы gVCF» . Illumina, Inc. Проверено 10 ноября 2023 г.
  11. ^ «Спецификации формата HTS» . samtools.github.io . Проверено 22 февраля 2022 г.
  12. ^ «Мир БиоИТ» . www.bio-itworld.com . Проверено 26 октября 2018 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e043a429623c1c93405413bc586db72e__1716448440
URL1:https://arc.ask3.ru/arc/aa/e0/2e/e043a429623c1c93405413bc586db72e.html
Заголовок, (Title) документа по адресу, URL1:
Variant Call Format - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)