Jump to content

КРОВАТЬ (формат файла)

(Перенаправлено из формата файла BED )
КРОВАТЬ (формат файла)
Расширение имени файла
.bed
Тип интернет-СМИ текстовый/обычный
Тип формата Текстовый файл
Веб-сайт https://samtools.github.io/hts-specs/BEDv1.pdf

Формат BED ( расширяемые данные браузера ) представляет собой текстовый формат файла, используемый для хранения геномных регионов в виде координат и связанных с ними аннотаций . Данные представлены в виде столбцов, разделенных пробелами или табуляциями. Этот формат был разработан в рамках проекта «Геном человека». [ 1 ] а затем принят в других проектах секвенирования. В результате все более широкого использования этот формат уже стал де-факто стандартом в биоинформатике еще до того, как была написана официальная спецификация.

Одним из преимуществ этого формата является манипулирование координатами вместо нуклеотидных последовательностей , что оптимизирует мощность и время вычислений при сравнении всех или части геномов. Кроме того, его простота позволяет легко манипулировать и читать (или анализировать ) координаты или аннотации с помощью языков обработки текста и сценариев, таких как Python , Ruby или Perl , или более специализированных инструментов, таких как BEDTools .

В конце 20-го века появились первые проекты по секвенированию полных геномов . Среди этих проектов проект «Геном человека» был самым амбициозным на тот момент, целью которого было впервые секвенировать геном, состоящий из нескольких гигабаз . Это потребовало от центров секвенирования проведения крупных методологических разработок с целью автоматизации обработки последовательностей и их анализа. Таким образом было создано множество форматов, таких как FASTQ , [ 2 ] GFF и КРОВАТЬ. [ 1 ] Однако в то время не было опубликовано никаких официальных спецификаций, что повлияло на некоторые форматы, такие как FASTQ, при увеличении числа проектов секвенирования в начале 21 века.

Его широкое использование в браузерах генома позволило определить этот формат относительно стабильным образом, поскольку это описание используется многими инструментами.

Изначально формат BED не имел официальной спецификации. Вместо этого описание, предоставленное браузером генома UCSC, [ 3 ] широко использовался в качестве справочного материала.

Официальная спецификация BED [ 4 ] был опубликован в 2021 году [ 5 ] под эгидой Глобального альянса по геномике и здоровью .

Описание

[ редактировать ]

Файл BED состоит как минимум из трех столбцов, к которым можно добавить девять дополнительных столбцов, всего двенадцать столбцов. Первые три столбца содержат названия хромосом или каркасов , начальные и конечные координаты рассматриваемых последовательностей. Следующие девять столбцов содержат аннотации, относящиеся к этим последовательностям. Эти столбцы должны быть разделены пробелами или табуляцией , причем последний вариант рекомендуется из соображений совместимости между программами. [ 6 ] Каждая строка файла должна иметь одинаковое количество столбцов. Порядок столбцов должен соблюдаться: если используются столбцы с большими номерами, необходимо заполнить столбцы с промежуточными номерами.

Столбцы BED-файлов
Номер столбца Заголовок Определение Обязательный
1 хром Имя хромосомы (например, chr3, chrY, chr2_random) или каркаса (например, scaffold10671) Да
2 хромстарт Начальная координата на хромосоме или каркасе рассматриваемой последовательности (первое основание хромосомы имеет номер 0, т.е. число начинается с нуля) Да
3 хромЭнд Конечная координата хромосомы или каркаса рассматриваемой последовательности. Эта позиция не является инклюзивной, в отличие от chromStart (первое основание хромосомы имеет номер 1, т.е. число начинается с единицы). Да
4 имя Имя строки в BED-файле Нет
5 счет Оценка от 0 до 1000 Нет
6 прядь Ориентация цепи ДНК (положительная ["+"] или отрицательная ["-"] или ".", если нити нет) Нет
7 толстое начало от которой аннотация отображается более толстым шрифтом в графическом представлении (например: стартовый кодон гена Начальная координата , ). Нет
8 толстый конец Конечные координаты, начиная с которых аннотация больше не отображается в графическом представлении более толстым слоем (например: стоп-кодон гена). Нет
9 элементRgb Значение RGB в форме R, G, B (например, 255,0,0), определяющее цвет отображения аннотации, содержащейся в BED-файле. Нет
10 блокКаунт Количество блоков (например, экзонов ) в строке файла BED Нет
11 размеры блоков Список значений, разделенных запятыми, соответствующих размеру блоков (количество значений должно соответствовать числу «blockCount») Нет
12 блокстартс Список значений, разделенных запятыми, соответствующих начальным координатам блоков, координаты рассчитываются относительно присутствующих в столбце chromStart (количество значений должно соответствовать числу «blockCount») Нет
[ редактировать ]

BED-файл может дополнительно содержать заголовок . Однако официального описания формата заголовка нет. Он может содержать одну или несколько строк и обозначаться разными словами или символами. [ 6 ] в зависимости от его функциональной роли или просто описательный. Таким образом, строка заголовка может начинаться с таких слов или символа:

  • «браузер»: функциональный заголовок, используемый браузером генома UCSC для установки связанных с ним параметров,
  • «трек»: функциональный заголовок, используемый браузерами генома для указания связанных с ним параметров отображения,
  • «#»: описательный заголовок для добавления комментариев, таких как имя каждого столбца.

Система координат

[ редактировать ]

В отличие от системы координат, используемой другими стандартами, такими как GFF , система, используемая в формате BED, отсчитывается от нуля для начала координат и от единицы для конца координат. [ 6 ] Таким образом, нуклеотид с координатой 1 в геноме будет иметь значение 0 в столбце 2 и значение 1 в столбце 3.

Интервал BED в тысячу оснований со следующим началом и концом:

chr7    0    1000

преобразуется в следующие координаты «человеческого» генома, отсчитываемые от 1, которые используются браузером генома, таким как UCSC:

chr7    1    1000

Такой выбор обоснован методом расчета длин рассматриваемых участков генома, основанным на простом вычитании конечных координат (столбец 3) из координат начала (столбец 2): . Когда система координат основана на использовании 1 для обозначения первой позиции, расчет становится немного сложнее: . Эта небольшая разница может иметь относительно большое влияние с точки зрения времени вычислений, когда наборы данных используются от нескольких тысяч до сотен тысяч строк.

В качестве альтернативы мы можем рассматривать обе координаты как отсчитываемые от нуля, где конечная позиция не включается. Другими словами, конечная позиция, отсчитываемая от нуля, обозначает индекс первой позиции после объекта. В приведенном выше примере конечная позиция 1000, отсчитываемая от нуля, отмечает первую позицию после объекта, включая позиции от 0 до 999.

Вот минимальный пример:

chr7    127471196    127472363
chr7    127472363    127473530
chr7    127473530    127474697

Вот типичный пример с девятью столбцами из браузера генома UCSC . Первые три строки являются настройками браузера генома UCSC и не связаны с данными, указанными в формате BED:

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196    127472363    Pos1    0    +    127471196    127472363    255,0,0
chr7    127472363    127473530    Pos2    0    +    127472363    127473530    255,0,0
chr7    127473530    127474697    Pos3    0    +    127473530    127474697    255,0,0
chr7    127474697    127475864    Pos4    0    +    127474697    127475864    255,0,0
chr7    127475864    127477031    Neg1    0    -    127475864    127477031    0,0,255
chr7    127477031    127478198    Neg2    0    -    127477031    127478198    0,0,255
chr7    127478198    127479365    Neg3    0    -    127478198    127479365    0,0,255
chr7    127479365    127480532    Pos5    0    +    127479365    127480532    255,0,0
chr7    127480532    127481699    Neg4    0    -    127480532    127481699    0,0,255

Расширение файла

[ редактировать ]

В настоящее время для файлов BED не существует стандартного расширения , но расширение «.bed» используется наиболее часто. Количество столбцов иногда указывается в расширении файла, например: «.bed3», «.bed4», «.bed6», «.bed12». [ 7 ]

Использование

[ редактировать ]

Использование файлов BED быстро распространилось с появлением новых методов секвенирования и манипулирования все большими и большими файлами последовательностей . Сравнение геномных последовательностей или даже целых геномов путем сравнения самих последовательностей может быстро потребовать значительных вычислительных ресурсов и занять много времени. Обработка файлов BED делает эту работу более эффективной за счет использования координат для извлечения интересующих последовательностей из наборов секвенирования или для прямого сравнения и управления двумя наборами координат.

Для выполнения этих задач можно использовать различные программы для управления BED-файлами, включая, помимо прочего, следующие:

  • Геномные браузеры : из файлов BED позволяют визуализировать и извлекать последовательности геномов млекопитающих, секвенированных в настоящее время (например, функция «Управление пользовательскими треками» в браузере генома UCSC ). [ 3 ]
  • Galaxy : веб- платформа. [ 7 ]
  • Инструменты командной строки:
    • BEDTools: программа, позволяющая манипулировать наборами координат и извлекать последовательности из файла BED. [ 6 ]
    • BEDOPS: набор инструментов для быстрых логических операций с BED-файлами. [ 8 ]
    • BedTk: более быстрая альтернатива BEDTools для ограниченного и специализированного набора операций. [ 9 ]
    • covtobed: инструмент для преобразования файла BAM в трек покрытия BED. [ 10 ]

.genome-файлы

[ редактировать ]

BEDtools также использует .genome файлы для определения границ хромосом и обеспечения того, чтобы операции заполнения не выходили за границы хромосом. Файлы генома отформатированы, как показано ниже: файл состоит из двух столбцов, разделенных табуляцией, и однострочного заголовка.

 chrom   size                                                                         
 chr1    248956422
 chr2    242193529
 chr3    198295559
 chr4    190214555
 chr5    181538259
 chr6    170805979
 chr7    159345973
 ...
  1. ^ Перейти обратно: а б Кент, В. Джеймс; Сугнет, Чарльз В.; Фьюри, Терренс С.; Роскин, Кришна М.; Прингл, Том Х.; Залер, Алан М.; Хаусслер, Дэвид (1 июня 2002 г.). «Обозреватель генома человека в UCSC» . Геномные исследования . 12 (6): 996–1006. дои : 10.1101/гр.229102 . ISSN   1088-9051 . ПМК   186604 . ПМИД   12045153 .
  2. ^ Кок, Питер Дж.А.; Филдс, Кристофер Дж.; Гото, Наохиса; Хойер, Майкл Л.; Райс, Питер М. (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–1771. дои : 10.1093/нар/gkp1137 . ISSN   1362-4962 . ПМЦ   2847217 . ПМИД   20015970 .
  3. ^ Перейти обратно: а б «Часто задаваемые вопросы: Форматы файлов данных. Формат BED» . Браузер генома UCSC . Институт геномики Калифорнийского университета в Санта-Крус . Проверено 2 октября 2019 г.
  4. ^ «Формат расширяемых данных браузера (BED)» (PDF) . samtools.github.io .
  5. ^ «GA4GH BED v1.0: формальный стандарт устанавливает основные правила для геномных функций» . www.ga4gh.org . 2022-03-30.
  6. ^ Перейти обратно: а б с д Куинлан, Арканзас; Холл, IM (21 сентября 2010 г.). Руководство BEDTools (PDF) . Проверено 3 октября 2019 г.
  7. ^ Перейти обратно: а б «Типы данных» . Центр сообщества Галактики . Проверено 3 октября 2019 г.
  8. ^ Неф, С; Кюн, М.С.; Рейнольдс, AP; Хауген, Э; Турман, Р.Э.; Джонсон, АК; Райнс, Э; Маурано, Монтана; Виерстра, Дж; Томас, С; Сандстрем, Р; Гумберт, Р; Стаматояннопулос, Дж. А. (15 июля 2012 г.). «BEDOPS: высокопроизводительные операции с геномными функциями» . Биоинформатика . 28 (14): 1919–20. doi : 10.1093/биоинформатика/bts277 . ПМЦ   3389768 . ПМИД   22576172 .
  9. ^ Ли, Хэн; Ронг, Цзячжэнь (9 июня 2021 г.). «Бедтк: поиск перекрытия интервалов с помощью неявного дерева интервалов». Биоинформатика . 37 (9): 1315–1316. doi : 10.1093/биоинформатика/btaa827 .
  10. ^ Бироло, Джованни; Телатин, Андреа (6 марта 2020 г.). «covtobed: простой и быстрый инструмент для извлечения треков покрытия из файлов BAM» . Журнал программного обеспечения с открытым исходным кодом . 5 (47): 2119. Бибкод : 2020JOSS....5.2119B . дои : 10.21105/joss.02119 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 27df740124bf8c5871455bbe5625a7cc__1724107200
URL1:https://arc.ask3.ru/arc/aa/27/cc/27df740124bf8c5871455bbe5625a7cc.html
Заголовок, (Title) документа по адресу, URL1:
BED (file format) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)