SAM (формат файла)
Расширение имени файла | .один |
---|---|
Разработано |
|
Тип формата | Биоинформатика |
Расширено с | Значения, разделенные табуляцией |
Веб-сайт | Самтулс |
Карта выравнивания последовательностей (SAM) — это текстовый формат , первоначально предназначенный для хранения биологических последовательностей, выровненных по эталонной последовательности, разработанный Хенг Ли и Бобом Хэндсакером и др . [1] Он был разработан, когда проект «1000 геномов» захотел отойти от формата картографа MAQ и решил разработать новый формат. Общий вид этого формата, разделенного TAB, заимствован из более раннего формата, вдохновленного . PSL BLAT Название SAM пришло от Габора Марта из Университета Юты , у которого изначально был формат с тем же именем, но с другим синтаксисом, более похожим на вывод BLAST . [2] Он широко используется для хранения данных, таких как нуклеотидные последовательности, созданные с помощью технологий секвенирования нового поколения , а стандарт был расширен за счет включения некартированных последовательностей. Формат поддерживает короткое и длинное чтение (до 128 Мбит/с). [3] ), созданный с помощью различных платформ секвенирования, и используется для хранения картированных данных в наборе инструментов анализа генома (GATK) , а также в Институте Броуда , Институте Уэллкома Сэнгера и в рамках проекта «1000 геномов» .
Формат [ править ]
Формат SAM состоит из заголовка и раздела выравнивания. [1] Двоичным эквивалентом файла SAM является файл карты двоичного выравнивания (BAM), в котором те же данные хранятся в сжатом двоичном представлении. [4] Файлы SAM можно анализировать и редактировать с помощью программного обеспечения SAMtools . [1] Раздел заголовка должен предшествовать разделу выравнивания, если он присутствует. Заголовки начинаются с символа «@», который отличает их от раздела выравнивания. Разделы выравнивания имеют 11 обязательных полей, а также переменное количество необязательных полей. [1]
Кол | Поле | Тип | Краткое описание |
---|---|---|---|
1 | QNAME | Нить | Шаблон запроса НАЗВАНИЕ |
2 | ФЛАГ | Int | побитовый ФЛАГ |
3 | Имя | Нить | Последовательность ссылок НАЗВАНИЕ |
4 | POS-терминал | Int | Крайнее левое отображение POSition на основе 1 |
5 | МАПК | Int | Качество картографирования |
6 | СИГАРА | Нить | Сигарная струна |
7 | RNEXT | Нить | Ссылка. имя помощника/следующее чтение |
8 | ПСЛЕДУЮЩИЙ | Int | Позиция помощника/следующее чтение |
9 | КИСЛОРОД | Int | наблюдаемая длина шаблона |
10 | ПОСЛЕДОВАТЕЛЬНОСТЬ | Нить | сегмент SEQuence |
11 | КОТОРЫЙ | Нить | ASCII базового уровня Phred QUALity+33 |
Описание [ править ]
Из спецификации: [4]
- QNAME: шаблон запроса NAME. Считается, что операции чтения/сегменты, имеющие одинаковый QNAME, происходят из одного и того же шаблона. QNAME '*' указывает, что информация недоступна. В файле SAM чтение может занимать несколько строк выравнивания, когда его выравнивание является химерным или когда задано несколько отображений.
- FLAG: комбинация побитовых флагов. [5]
- RNAME: ИМЯ эталонной последовательности выравнивания. Если присутствуют строки заголовка @SQ, RNAME (если не '*') должен присутствовать в одном из тегов SQ-SN. Несопоставленный сегмент без координат имеет в этом поле символ «*». Однако несопоставленный сегмент также может иметь обычную координату, так что после сортировки его можно поместить в желаемое положение. Если RNAME равно '*', нельзя делать никаких предположений относительно POS и CIGAR.
- POS: Крайнее левое отображение POS на основе 1 первой совпадающей базы. Первая база в ссылочной последовательности имеет координату 1. POS устанавливается как 0 для неотображенного чтения без координаты. Если POS равен 0, никаких предположений о RNAME и CIGAR делать нельзя.
- MAPQ: Качество картографирования. Оно равно −10 log10 Pr{неправильная позиция отображения}, округленное до ближайшего целого числа. Значение 255 указывает, что качество отображения недоступно.
- CIGAR: строка краткого отчета об идиосинкразическом выравнивании с пробелами (CIGAR).
- RNEXT: Имя эталонной последовательности первичного выравнивания NEXT, считанного в шаблоне. Для последнего чтения следующее чтение является первым чтением в шаблоне. Если присутствуют строки заголовка @SQ, RNEXT (если не '*' или '=') должен присутствовать в одном из тегов SQ-SN. Это поле устанавливается как '*', когда информация недоступна, и устанавливается как '=', если RNEXT идентичен RNAME. Если не '=" и следующее чтение в шаблоне имеет одно первичное сопоставление (см. также бит 0x100 в FLAG), это поле идентично RNAME в основной строке следующего чтения. Если RNEXT равен «*», никаких предположений относительно PNEXT и бита 0x20 делать нельзя.
- PNEXT: Положение первичного выравнивания считывания NEXT в шаблоне. Установите значение 0, если информация недоступна. Это поле равно POS в основной строке следующего чтения. Если PNEXT равен 0, никаких предположений относительно RNEXT и бита 0x20 делать нельзя.
- TLEN: подписано, соблюдено, шаблон LENGth. Если все сегменты сопоставлены с одной и той же ссылкой, наблюдаемая длина беззнакового шаблона равна количеству оснований от самой левой сопоставленной базы до самой правой сопоставленной базы. Крайний левый сегмент имеет знак плюс, а крайний правый — знак минус. Знак сегментов посередине не определен. Он устанавливается равным 0 для односегментного шаблона или когда информация недоступна.
- SEQ: сегмент SEQuence. Это поле может иметь значение «*», если последовательность не сохранена. Если это не '*', длина последовательности должна равняться сумме длин операций M/I/S/=/X в CIGAR. Знак «=» означает, что база идентична эталонной базе. Никаких предположений относительно регистров букв делать нельзя.
- QUAL: ASCII базового QUALity плюс 33 (то же самое, что строка качества в формате Sanger FASTQ ). Базовое качество — это базовая вероятность ошибки в масштабе phred , равная −10 log10 Pr{база неверна}. Это поле может иметь значение «*», если качество не сохраняется. Если это не «*», SEQ не должен быть «*», а длина строки качества должна равняться длине SEQ.
Побитовые флаги [ править ]
Поле FLAG отображается как одно целое число, но представляет собой сумму поразрядных флагов для обозначения нескольких атрибутов выравнивания чтения. [4] Каждый атрибут обозначает один бит в двоичном представлении целого числа.
Целое число | Двоичный | Описание (парное чтение, интерпретация) |
---|---|---|
1 | 000000000001 | шаблон, имеющий несколько шаблонов в последовательности (чтение происходит в паре) |
2 | 000000000010 | каждый сегмент правильно выровнен в соответствии с выравнивателем (читай сопоставлено в правильной паре) |
4 | 000000000100 | сегмент не сопоставлен (read1 не сопоставлен) |
8 | 000000001000 | следующий сегмент в шаблоне не сопоставлен (read2 не сопоставлен) |
16 | 000000010000 | SEQ обратно дополняется (обратное дополнение read1) |
32 | 000000100000 | SEQ следующего сегмента в шаблоне, который дополняется обратным образом (обратное дополнение read2) |
64 | 000001000000 | первый сегмент в шаблоне (read1) |
128 | 000010000000 | последний сегмент в шаблоне (read2) |
256 | 000100000000 | не первичное выравнивание |
512 | 001000000000 | выравнивание не проходит проверку качества |
1024 | 010000000000 | ПЦР или оптический дубликат |
2048 | 100000000000 | дополнительное выравнивание (например, специфичное для выравнивателя, может быть частью разделенного считывания или связанной области) |
Атрибуты FLAG суммируются для получения окончательного значения, например, строка SAM, полученная из парной записи FASTQ Illumina, имеющей значение FLAG 2145, будет означать:
Значение флага | Значение | Сумма флага |
---|---|---|
1 | чтение в паре | 1 |
32 | read2 было обратно дополнено | 33 |
64 | читать1 | 97 |
2048 | Дополнительное выравнивание | 2145 |
Необязательные поля [ править ]
Из спецификации для спецификации дополнительных полей выравнивания/карты (SAMtags): [6]
Тип H может быть одним из A (символ), C (целое число от 0 до 255), f (действительное число), ( шестнадцатеричный массив), i (целое число) или Z (строка). Это может быть одно значение или B (общий массив).
Ярлык | Тип | Описание |
---|---|---|
ЯВЛЯЮСЬ | я | Наименьшее качество отображения в шаблоне, независимое от шаблона. |
КАК | я | Оценка выравнивания, созданная выравнивателем |
до нашей эры | С | Последовательность штрих-кода, идентифицирующая образец |
БК | С | Смещение к базовому качеству выравнивания (BAQ) |
БЖ | С | Phred качество уникальных молекулярных основ штрих-кода в метке OX |
КБ | С | Идентификатор ячейки |
СС | С | Справочное имя следующего хита |
компьютерная графика | Б, я | Только BAM: CIGAR в двоичной кодировке BAM, если (и только если) он состоит из >65535 операторов. |
СМ | я | Редактировать расстояние между последовательностью цветов и эталоном цвета (см. также NM). |
СО | С | Свободные текстовые комментарии |
КП | я | Крайняя левая координата следующего попадания |
CQ | С | Цветное чтение базовых качеств |
ЧР | С | Основы последовательностей сотовых штрих-кодов (без исправлений) |
CS | С | Последовательность чтения цвета |
Коннектикут | С | Тег аннотации полного чтения, используемый для фиктивных функций согласованной аннотации. |
CY | С | Качество Phred последовательности клеточного штрих-кода в теге CR |
Е2 | С | Второй наиболее вероятный базовый вызов |
БЫТЬ | я | Индекс сегмента в шаблоне |
ФС | С | Суффикс сегмента |
ФЗ | Б,С | Интенсивность сигнала расхода |
ГК | ? | Зарезервировано для целей обратной совместимости. |
GQ | ? | Зарезервировано для целей обратной совместимости. |
GS | ? | Зарезервировано для целей обратной совместимости. |
Н0 | я | Количество идеальных попаданий |
H1 | я | Количество попаданий с разницей в 1 (см. также NM) |
Н2 | я | Количество попаданий с 2-разницами |
ПРИВЕТ | я | Индекс попадания запроса |
IH | я | Общее количество обращений по запросу |
ФУНТ | С | Библиотека |
МК | С | Строка CIGAR для сопряжения/следующего сегмента |
доктор медицинских наук | С | Строка для несовпадающих позиций |
МФ | ? | Зарезервировано для целей обратной совместимости. |
МНЕ | С | Молекулярный идентификатор; строка, которая однозначно идентифицирует молекулу, из которой была получена запись |
МЛ | Б, С | Базовые вероятности модификации |
ММ | С | Базовые модификации/метилирование |
МК | я | Качество отображения сопряжения/следующего сегмента |
Нью-Хэмпшир | я | Количество зарегистрированных сопоставлений, содержащих запрос в текущей записи. |
Нью-Мексико | я | Изменить расстояние до ссылки |
ОЙ | С | Исходное выравнивание |
ОК | С | Оригинальная CIGAR (устарела; вместо этого используйте OA) |
НА | я | Исходное положение сопоставления (устарело; вместо этого используйте OA) |
БЕЛЫЙ | С | Оригинальное базовое качество |
БЫК | С | Оригинальные уникальные базы молекулярных штрих-кодов |
PG | С | Программа |
ПК | я | Phred вероятность шаблона |
ПТ | С | Чтение аннотаций для частей дополненной последовательности чтения. |
МОГ | С | Платформенный блок |
2 квартал | С | Качество Phred последовательности сопряжения/следующего сегмента в теге R2 |
QT | С | Качество Phred образца последовательности штрих-кода в теге BC |
КХ | С | Показатель качества уникального молекулярного идентификатора в теге RX |
Р2 | С | Последовательность сопряжения/следующего сегмента в шаблоне |
РГ | С | Читать группу |
РТ | ? | Зарезервировано для целей обратной совместимости. |
прием | С | Основы последовательностей уникального молекулярного идентификатора (возможно, исправленного) |
С2 | ? | Зарезервировано для целей обратной совместимости. |
на | С | Другие канонические выравнивания в химерном выравнивании |
СМ | я | Независимое от шаблона качество отображения |
КВ. | ? | Зарезервировано для целей обратной совместимости. |
ТК | я | Количество сегментов в шаблоне |
U2 | С | Phred вероятность того, что второй вызов окажется неправильным, при условии, что лучший будет неправильным |
UQ | я | Вероятность Phred сегмента при условии правильного отображения |
Х? | ? | Зарезервировано для конечных пользователей |
И? | ? | Зарезервировано для конечных пользователей |
С? | ? | Зарезервировано для конечных пользователей |
См. также [ править ]
- Формат FASTA , используемый для представления последовательностей генома.
- Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
- Формат GVF (формат вариаций генома), расширение, основанное на GFF3 . формате
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б с д и Ли, Х.; Рукосакер, Б.; Высокер, А.; Феннелл, Т.; Руан, Дж.; Гомер, Н.; Март, Г.; Абекасис, Г.; Дурбин, Р. (2009). «Формат Sequence Alignment/Map и SAMtools» (PDF) . Биоинформатика . 25 (16): 2078–2079. doi : 10.1093/биоинформатика/btp352 . ISSN 1367-4803 . ПМК 2723002 . ПМИД 19505943 .
- ^ Эдмундс, Скотт (17 февраля 2021 г.). «Сыграйте еще раз, SAMtools. Вопросы и ответы с командой SAMtools о 12-летнем опыте производства биоинформатического «клея» » . ГигаСайенс . Проверено 20 марта 2021 г.
- ^ Дерпингхаус, Дж.; Вейль, В.; Шааф, С.; Апке, А. (2023). Вычислительные науки о жизни: инженерия данных и интеллектуальный анализ данных для наук о жизни . Исследования в области больших данных. Международное издательство Спрингер. п. 447. ИСБН 978-3-031-08411-9 . Проверено 19 июля 2023 г.
- ^ Jump up to: Перейти обратно: а б с «Спецификация формата SAM/BAM» (PDF) . samtools.github.io .
- ^ «Объяснение флагов ЗРК» . Broadinstitute.github.io . Проверено 4 ноября 2023 г.