КРОВАТЬ (формат файла)
Расширение имени файла | .bed |
---|---|
Тип интернет-СМИ | текстовый/обычный |
Тип формата | Текстовый файл |
Веб-сайт | https://samtools.github.io/hts-specs/BEDv1.pdf |
Формат BED ( расширяемые данные браузера ) представляет собой текстовый формат файла, используемый для хранения геномных регионов в виде координат и связанных с ними аннотаций . Данные представлены в виде столбцов, разделенных пробелами или табуляциями. Этот формат был разработан в рамках проекта «Геном человека». [ 1 ] а затем принят в других проектах секвенирования. В результате все более широкого использования этот формат уже стал де-факто стандартом в биоинформатике еще до того, как была написана официальная спецификация.
Одним из преимуществ этого формата является манипулирование координатами вместо нуклеотидных последовательностей , что оптимизирует мощность и время вычислений при сравнении всех или части геномов. Кроме того, его простота позволяет легко манипулировать и читать (или анализировать ) координаты или аннотации с помощью языков обработки текста и сценариев, таких как Python , Ruby или Perl , или более специализированных инструментов, таких как BEDTools .
История
[ редактировать ]В конце 20-го века появились первые проекты по секвенированию полных геномов . Среди этих проектов проект «Геном человека» был самым амбициозным на тот момент, целью которого было впервые секвенировать геном, состоящий из нескольких гигабаз . Это потребовало от центров секвенирования проведения крупных методологических разработок с целью автоматизации обработки последовательностей и их анализа. Таким образом было создано множество форматов, таких как FASTQ , [ 2 ] GFF и КРОВАТЬ. [ 1 ] Однако в то время не было опубликовано никаких официальных спецификаций, что повлияло на некоторые форматы, такие как FASTQ, при увеличении числа проектов секвенирования в начале 21 века.
Его широкое использование в браузерах генома позволило определить этот формат относительно стабильным образом, поскольку это описание используется многими инструментами.
Формат
[ редактировать ]Изначально формат BED не имел официальной спецификации. Вместо этого описание, предоставленное браузером генома UCSC, [ 3 ] широко использовался в качестве справочного материала.
Официальная спецификация BED [ 4 ] был опубликован в 2021 году [ 5 ] под эгидой Глобального альянса по геномике и здоровью .
Описание
[ редактировать ]Файл BED состоит как минимум из трех столбцов, к которым можно добавить девять дополнительных столбцов, всего двенадцать столбцов. Первые три столбца содержат названия хромосом или каркасов , начальные и конечные координаты рассматриваемых последовательностей. Следующие девять столбцов содержат аннотации, относящиеся к этим последовательностям. Эти столбцы должны быть разделены пробелами или табуляцией , причем последний вариант рекомендуется из соображений совместимости между программами. [ 6 ] Каждая строка файла должна иметь одинаковое количество столбцов. Порядок столбцов должен соблюдаться: если используются столбцы с большими номерами, необходимо заполнить столбцы с промежуточными номерами.
Номер столбца | Заголовок | Определение | Обязательный |
---|---|---|---|
1 | хром | Имя хромосомы (например, chr3, chrY, chr2_random) или каркаса (например, scaffold10671) | Да |
2 | хромстарт | Начальная координата на хромосоме или каркасе рассматриваемой последовательности (первое основание хромосомы имеет номер 0, т.е. число начинается с нуля) | Да |
3 | хромЭнд | Конечная координата хромосомы или каркаса рассматриваемой последовательности. Эта позиция не является инклюзивной, в отличие от chromStart (первое основание хромосомы имеет номер 1, т.е. число начинается с единицы). | Да |
4 | имя | Имя строки в BED-файле | Нет |
5 | счет | Оценка от 0 до 1000 | Нет |
6 | прядь | Ориентация цепи ДНК (положительная ["+"] или отрицательная ["-"] или ".", если нити нет) | Нет |
7 | толстое начало | от которой аннотация отображается более толстым шрифтом в графическом представлении (например: стартовый кодон гена Начальная координата , ). | Нет |
8 | толстый конец | Конечные координаты, начиная с которых аннотация больше не отображается в графическом представлении более толстым слоем (например: стоп-кодон гена). | Нет |
9 | элементRgb | Значение RGB в форме R, G, B (например, 255,0,0), определяющее цвет отображения аннотации, содержащейся в BED-файле. | Нет |
10 | блокКаунт | Количество блоков (например, экзонов ) в строке файла BED | Нет |
11 | размеры блоков | Список значений, разделенных запятыми, соответствующих размеру блоков (количество значений должно соответствовать числу «blockCount») | Нет |
12 | блокстартс | Список значений, разделенных запятыми, соответствующих начальным координатам блоков, координаты рассчитываются относительно присутствующих в столбце chromStart (количество значений должно соответствовать числу «blockCount») | Нет |
Заголовок
[ редактировать ]BED-файл может дополнительно содержать заголовок . Однако официального описания формата заголовка нет. Он может содержать одну или несколько строк и обозначаться разными словами или символами. [ 6 ] в зависимости от его функциональной роли или просто описательный. Таким образом, строка заголовка может начинаться с таких слов или символа:
- «браузер»: функциональный заголовок, используемый браузером генома UCSC для установки связанных с ним параметров,
- «трек»: функциональный заголовок, используемый браузерами генома для указания связанных с ним параметров отображения,
- «#»: описательный заголовок для добавления комментариев, таких как имя каждого столбца.
Система координат
[ редактировать ]В отличие от системы координат, используемой другими стандартами, такими как GFF , система, используемая в формате BED, отсчитывается от нуля для начала координат и от единицы для конца координат. [ 6 ] Таким образом, нуклеотид с координатой 1 в геноме будет иметь значение 0 в столбце 2 и значение 1 в столбце 3.
Интервал BED в тысячу оснований со следующим началом и концом:
chr7 0 1000
преобразуется в следующие координаты «человеческого» генома, отсчитываемые от 1, которые используются браузером генома, таким как UCSC:
chr7 1 1000
Такой выбор обоснован методом расчета длин рассматриваемых участков генома, основанным на простом вычитании конечных координат (столбец 3) из координат начала (столбец 2): . Когда система координат основана на использовании 1 для обозначения первой позиции, расчет становится немного сложнее: . Эта небольшая разница может иметь относительно большое влияние с точки зрения времени вычислений, когда наборы данных используются от нескольких тысяч до сотен тысяч строк.
В качестве альтернативы мы можем рассматривать обе координаты как отсчитываемые от нуля, где конечная позиция не включается. Другими словами, конечная позиция, отсчитываемая от нуля, обозначает индекс первой позиции после объекта. В приведенном выше примере конечная позиция 1000, отсчитываемая от нуля, отмечает первую позицию после объекта, включая позиции от 0 до 999.
Примеры
[ редактировать ]Вот минимальный пример:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
Вот типичный пример с девятью столбцами из браузера генома UCSC . Первые три строки являются настройками браузера генома UCSC и не связаны с данными, указанными в формате BED:
browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Расширение файла
[ редактировать ]В настоящее время для файлов BED не существует стандартного расширения , но расширение «.bed» используется наиболее часто. Количество столбцов иногда указывается в расширении файла, например: «.bed3», «.bed4», «.bed6», «.bed12». [ 7 ]
Использование
[ редактировать ]Использование файлов BED быстро распространилось с появлением новых методов секвенирования и манипулирования все большими и большими файлами последовательностей . Сравнение геномных последовательностей или даже целых геномов путем сравнения самих последовательностей может быстро потребовать значительных вычислительных ресурсов и занять много времени. Обработка файлов BED делает эту работу более эффективной за счет использования координат для извлечения интересующих последовательностей из наборов секвенирования или для прямого сравнения и управления двумя наборами координат.
Для выполнения этих задач можно использовать различные программы для управления BED-файлами, включая, помимо прочего, следующие:
- Геномные браузеры : из файлов BED позволяют визуализировать и извлекать последовательности геномов млекопитающих, секвенированных в настоящее время (например, функция «Управление пользовательскими треками» в браузере генома UCSC ). [ 3 ]
- Galaxy : веб- платформа. [ 7 ]
- Инструменты командной строки:
- BEDTools: программа, позволяющая манипулировать наборами координат и извлекать последовательности из файла BED. [ 6 ]
- BEDOPS: набор инструментов для быстрых логических операций с BED-файлами. [ 8 ]
- BedTk: более быстрая альтернатива BEDTools для ограниченного и специализированного набора операций. [ 9 ]
- covtobed: инструмент для преобразования файла BAM в трек покрытия BED. [ 10 ]
.genome-файлы
[ редактировать ]BEDtools также использует .genome
файлы для определения границ хромосом и обеспечения того, чтобы операции заполнения не выходили за границы хромосом. Файлы генома отформатированы, как показано ниже: файл состоит из двух столбцов, разделенных табуляцией, и однострочного заголовка.
chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Кент, В. Джеймс; Сугнет, Чарльз В.; Фьюри, Терренс С.; Роскин, Кришна М.; Прингл, Том Х.; Залер, Алан М.; Хаусслер, Дэвид (1 июня 2002 г.). «Обозреватель генома человека в UCSC» . Геномные исследования . 12 (6): 996–1006. дои : 10.1101/гр.229102 . ISSN 1088-9051 . ПМК 186604 . ПМИД 12045153 .
- ^ Кок, Питер Дж.А.; Филдс, Кристофер Дж.; Гото, Наохиса; Хойер, Майкл Л.; Райс, Питер М. (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–1771. дои : 10.1093/нар/gkp1137 . ISSN 1362-4962 . ПМЦ 2847217 . ПМИД 20015970 .
- ^ Перейти обратно: а б «Часто задаваемые вопросы: Форматы файлов данных. Формат BED» . Браузер генома UCSC . Институт геномики Калифорнийского университета в Санта-Крус . Проверено 2 октября 2019 г.
- ^ «Формат расширяемых данных браузера (BED)» (PDF) . samtools.github.io .
- ^ «GA4GH BED v1.0: формальный стандарт устанавливает основные правила для геномных функций» . www.ga4gh.org . 2022-03-30.
- ^ Перейти обратно: а б с д Куинлан, Арканзас; Холл, IM (21 сентября 2010 г.). Руководство BEDTools (PDF) . Проверено 3 октября 2019 г.
- ^ Перейти обратно: а б «Типы данных» . Центр сообщества Галактики . Проверено 3 октября 2019 г.
- ^ Неф, С; Кюн, М.С.; Рейнольдс, AP; Хауген, Э; Турман, Р.Э.; Джонсон, АК; Райнс, Э; Маурано, Монтана; Виерстра, Дж; Томас, С; Сандстрем, Р; Гумберт, Р; Стаматояннопулос, Дж. А. (15 июля 2012 г.). «BEDOPS: высокопроизводительные операции с геномными функциями» . Биоинформатика . 28 (14): 1919–20. doi : 10.1093/биоинформатика/bts277 . ПМЦ 3389768 . ПМИД 22576172 .
- ^ Ли, Хэн; Ронг, Цзячжэнь (9 июня 2021 г.). «Бедтк: поиск перекрытия интервалов с помощью неявного дерева интервалов». Биоинформатика . 37 (9): 1315–1316. doi : 10.1093/биоинформатика/btaa827 .
- ^ Бироло, Джованни; Телатин, Андреа (6 марта 2020 г.). «covtobed: простой и быстрый инструмент для извлечения треков покрытия из файлов BAM» . Журнал программного обеспечения с открытым исходным кодом . 5 (47): 2119. Бибкод : 2020JOSS....5.2119B . дои : 10.21105/joss.02119 .