Jump to content

SAM (формат файла)

SAM — формат файла
Расширение имени файла
.один
Разработано
Тип формата Биоинформатика
Расширено с Значения, разделенные табуляцией
Веб-сайт Самтулс .github .что /hts-спецификации /

Карта выравнивания последовательностей (SAM) — это текстовый формат , первоначально предназначенный для хранения биологических последовательностей, выровненных по эталонной последовательности, разработанный Хенг Ли и Бобом Хэндсакером и др . [1] Он был разработан, когда проект «1000 геномов» захотел отойти от формата картографа MAQ и решил разработать новый формат. Общий вид этого формата, разделенного TAB, заимствован из более раннего формата, вдохновленного . PSL BLAT Название SAM пришло от Габора Марта из Университета Юты , у которого изначально был формат с тем же именем, но с другим синтаксисом, более похожим на вывод BLAST . [2] Он широко используется для хранения данных, таких как нуклеотидные последовательности, созданные с помощью технологий секвенирования нового поколения , а стандарт был расширен за счет включения некартированных последовательностей. Формат поддерживает короткое и длинное чтение (до 128 Мбит/с). [3] ), созданный с помощью различных платформ секвенирования, и используется для хранения картированных данных в наборе инструментов анализа генома (GATK) , а также в Институте Броуда , Институте Уэллкома Сэнгера и в рамках проекта «1000 геномов» .

Формат [ править ]

Формат SAM состоит из заголовка и раздела выравнивания. [1] Двоичным эквивалентом файла SAM является файл карты двоичного выравнивания (BAM), в котором те же данные хранятся в сжатом двоичном представлении. [4] Файлы SAM можно анализировать и редактировать с помощью программного обеспечения SAMtools . [1] Раздел заголовка должен предшествовать разделу выравнивания, если он присутствует. Заголовки начинаются с символа «@», который отличает их от раздела выравнивания. Разделы выравнивания имеют 11 обязательных полей, а также переменное количество необязательных полей. [1]

Кол Поле Тип Краткое описание
1 QNAME Нить Шаблон запроса НАЗВАНИЕ
2 ФЛАГ Int побитовый ФЛАГ
3 Имя Нить Последовательность ссылок НАЗВАНИЕ
4 POS-терминал Int Крайнее левое отображение POSition на основе 1
5 МАПК Int Качество картографирования
6 СИГАРА Нить Сигарная струна
7 RNEXT Нить Ссылка. имя помощника/следующее чтение
8 ПСЛЕДУЮЩИЙ Int Позиция помощника/следующее чтение
9 КИСЛОРОД Int наблюдаемая длина шаблона
10 ПОСЛЕДОВАТЕЛЬНОСТЬ Нить сегмент SEQuence
11 КОТОРЫЙ Нить ASCII базового уровня Phred QUALity+33

Описание [ править ]

Из спецификации: [4]

  1. QNAME: шаблон запроса NAME. Считается, что операции чтения/сегменты, имеющие одинаковый QNAME, происходят из одного и того же шаблона. QNAME '*' указывает, что информация недоступна. В файле SAM чтение может занимать несколько строк выравнивания, когда его выравнивание является химерным или когда задано несколько отображений.
  2. FLAG: комбинация побитовых флагов. [5]
  3. RNAME: ИМЯ эталонной последовательности выравнивания. Если присутствуют строки заголовка @SQ, RNAME (если не '*') должен присутствовать в одном из тегов SQ-SN. Несопоставленный сегмент без координат имеет в этом поле символ «*». Однако несопоставленный сегмент также может иметь обычную координату, так что после сортировки его можно поместить в желаемое положение. Если RNAME равно '*', нельзя делать никаких предположений относительно POS и CIGAR.
  4. POS: Крайнее левое отображение POS на основе 1 первой совпадающей базы. Первая база в ссылочной последовательности имеет координату 1. POS устанавливается как 0 для неотображенного чтения без координаты. Если POS равен 0, никаких предположений о RNAME и CIGAR делать нельзя.
  5. MAPQ: Качество картографирования. Оно равно −10 log10 Pr{неправильная позиция отображения}, округленное до ближайшего целого числа. Значение 255 указывает, что качество отображения недоступно.
  6. CIGAR: строка краткого отчета об идиосинкразическом выравнивании с пробелами (CIGAR).
  7. RNEXT: Имя эталонной последовательности первичного выравнивания NEXT, считанного в шаблоне. Для последнего чтения следующее чтение является первым чтением в шаблоне. Если присутствуют строки заголовка @SQ, RNEXT (если не '*' или '=') должен присутствовать в одном из тегов SQ-SN. Это поле устанавливается как '*', когда информация недоступна, и устанавливается как '=', если RNEXT идентичен RNAME. Если не '=" и следующее чтение в шаблоне имеет одно первичное сопоставление (см. также бит 0x100 в FLAG), это поле идентично RNAME в основной строке следующего чтения. Если RNEXT равен «*», никаких предположений относительно PNEXT и бита 0x20 делать нельзя.
  8. PNEXT: Положение первичного выравнивания считывания NEXT в шаблоне. Установите значение 0, если информация недоступна. Это поле равно POS в основной строке следующего чтения. Если PNEXT равен 0, никаких предположений относительно RNEXT и бита 0x20 делать нельзя.
  9. TLEN: подписано, соблюдено, шаблон LENGth. Если все сегменты сопоставлены с одной и той же ссылкой, наблюдаемая длина беззнакового шаблона равна количеству оснований от самой левой сопоставленной базы до самой правой сопоставленной базы. Крайний левый сегмент имеет знак плюс, а крайний правый — знак минус. Знак сегментов посередине не определен. Он устанавливается равным 0 для односегментного шаблона или когда информация недоступна.
  10. SEQ: сегмент SEQuence. Это поле может иметь значение «*», если последовательность не сохранена. Если это не '*', длина последовательности должна равняться сумме длин операций M/I/S/=/X в CIGAR. Знак «=» означает, что база идентична эталонной базе. Никаких предположений относительно регистров букв делать нельзя.
  11. QUAL: ASCII базового QUALity плюс 33 (то же самое, что строка качества в формате Sanger FASTQ ). Базовое качество — это базовая вероятность ошибки в масштабе phred , равная −10 log10 Pr{база неверна}. Это поле может иметь значение «*», если качество не сохраняется. Если это не «*», SEQ не должен быть «*», а длина строки качества должна равняться длине SEQ.

Побитовые флаги [ править ]

Поле FLAG отображается как одно целое число, но представляет собой сумму поразрядных флагов для обозначения нескольких атрибутов выравнивания чтения. [4] Каждый атрибут обозначает один бит в двоичном представлении целого числа.

Побитовые флаги
Целое число Двоичный Описание (парное чтение, интерпретация)
1 000000000001шаблон, имеющий несколько шаблонов в последовательности (чтение происходит в паре)
2 000000000010каждый сегмент правильно выровнен в соответствии с выравнивателем (читай сопоставлено в правильной паре)
4 000000000100сегмент не сопоставлен (read1 не сопоставлен)
8 000000001000следующий сегмент в шаблоне не сопоставлен (read2 не сопоставлен)
16 000000010000SEQ обратно дополняется (обратное дополнение read1)
32 000000100000SEQ следующего сегмента в шаблоне, который дополняется обратным образом (обратное дополнение read2)
64 000001000000первый сегмент в шаблоне (read1)
128 000010000000последний сегмент в шаблоне (read2)
256 000100000000не первичное выравнивание
512 001000000000выравнивание не проходит проверку качества
1024 010000000000ПЦР или оптический дубликат
2048 100000000000дополнительное выравнивание (например, специфичное для выравнивателя, может быть частью разделенного считывания или связанной области)

Атрибуты FLAG суммируются для получения окончательного значения, например, строка SAM, полученная из парной записи FASTQ Illumina, имеющей значение FLAG 2145, будет означать:

Значение флага Значение Сумма флага
1 чтение в паре 1
32 read2 было обратно дополнено 33
64 читать1 97
2048 Дополнительное выравнивание 2145

Необязательные поля [ править ]

Из спецификации для спецификации дополнительных полей выравнивания/карты (SAMtags): [6]

Тип H может быть одним из A (символ), C (целое число от 0 до 255), f (действительное число), ( шестнадцатеричный массив), i (целое число) или Z (строка). Это может быть одно значение или B (общий массив).

Ярлык Тип Описание
ЯВЛЯЮСЬ я Наименьшее качество отображения в шаблоне, независимое от шаблона.
КАК я Оценка выравнивания, созданная выравнивателем
до нашей эры С Последовательность штрих-кода, идентифицирующая образец
БК С Смещение к базовому качеству выравнивания (BAQ)
БЖ С Phred качество уникальных молекулярных основ штрих-кода в метке OX
КБ С Идентификатор ячейки
СС С Справочное имя следующего хита
компьютерная графика Б, я Только BAM: CIGAR в двоичной кодировке BAM, если (и только если) он состоит из >65535 операторов.
СМ я Редактировать расстояние между последовательностью цветов и эталоном цвета (см. также NM).
СО С Свободные текстовые комментарии
КП я Крайняя левая координата следующего попадания
CQ С Цветное чтение базовых качеств
ЧР С Основы последовательностей сотовых штрих-кодов (без исправлений)
CS С Последовательность чтения цвета
Коннектикут С Тег аннотации полного чтения, используемый для фиктивных функций согласованной аннотации.
CY С Качество Phred последовательности клеточного штрих-кода в теге CR
Е2 С Второй наиболее вероятный базовый вызов
БЫТЬ я Индекс сегмента в шаблоне
ФС С Суффикс сегмента
ФЗ Б,С Интенсивность сигнала расхода
ГК ? Зарезервировано для целей обратной совместимости.
GQ ? Зарезервировано для целей обратной совместимости.
GS ? Зарезервировано для целей обратной совместимости.
Н0 я Количество идеальных попаданий
H1 я Количество попаданий с разницей в 1 (см. также NM)
Н2 я Количество попаданий с 2-разницами
ПРИВЕТ я Индекс попадания запроса
IH я Общее количество обращений по запросу
ФУНТ С Библиотека
МК С Строка CIGAR для сопряжения/следующего сегмента
доктор медицинских наук С Строка для несовпадающих позиций
МФ ? Зарезервировано для целей обратной совместимости.
МНЕ С Молекулярный идентификатор; строка, которая однозначно идентифицирует молекулу, из которой была получена запись
МЛ Б, С Базовые вероятности модификации
ММ С Базовые модификации/метилирование
МК я Качество отображения сопряжения/следующего сегмента
Нью-Хэмпшир я Количество зарегистрированных сопоставлений, содержащих запрос в текущей записи.
Нью-Мексико я Изменить расстояние до ссылки
ОЙ С Исходное выравнивание
ОК С Оригинальная CIGAR (устарела; вместо этого используйте OA)
НА я Исходное положение сопоставления (устарело; вместо этого используйте OA)
БЕЛЫЙ С Оригинальное базовое качество
БЫК С Оригинальные уникальные базы молекулярных штрих-кодов
PG С Программа
ПК я Phred вероятность шаблона
ПТ С Чтение аннотаций для частей дополненной последовательности чтения.
МОГ С Платформенный блок
2 квартал С Качество Phred последовательности сопряжения/следующего сегмента в теге R2
QT С Качество Phred образца последовательности штрих-кода в теге BC
КХ С Показатель качества уникального молекулярного идентификатора в теге RX
Р2 С Последовательность сопряжения/следующего сегмента в шаблоне
РГ С Читать группу
РТ ? Зарезервировано для целей обратной совместимости.
прием С Основы последовательностей уникального молекулярного идентификатора (возможно, исправленного)
С2 ? Зарезервировано для целей обратной совместимости.
на С Другие канонические выравнивания в химерном выравнивании
СМ я Независимое от шаблона качество отображения
КВ. ? Зарезервировано для целей обратной совместимости.
ТК я Количество сегментов в шаблоне
U2 С Phred вероятность того, что второй вызов окажется неправильным, при условии, что лучший будет неправильным
UQ я Вероятность Phred сегмента при условии правильного отображения
Х? ? Зарезервировано для конечных пользователей
И? ? Зарезервировано для конечных пользователей
С? ? Зарезервировано для конечных пользователей

См. также [ править ]

  • Формат FASTA , используемый для представления последовательностей генома.
  • Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
  • Формат GVF (формат вариаций генома), расширение, основанное на GFF3 . формате

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б с д и Ли, Х.; Рукосакер, Б.; Высокер, А.; Феннелл, Т.; Руан, Дж.; Гомер, Н.; Март, Г.; Абекасис, Г.; Дурбин, Р. (2009). «Формат Sequence Alignment/Map и SAMtools» (PDF) . Биоинформатика . 25 (16): 2078–2079. doi : 10.1093/биоинформатика/btp352 . ISSN   1367-4803 . ПМК   2723002 . ПМИД   19505943 .
  2. ^ Эдмундс, Скотт (17 февраля 2021 г.). «Сыграйте еще раз, SAMtools. Вопросы и ответы с командой SAMtools о 12-летнем опыте производства биоинформатического «клея» » . ГигаСайенс . Проверено 20 марта 2021 г.
  3. ^ Дерпингхаус, Дж.; Вейль, В.; Шааф, С.; Апке, А. (2023). Вычислительные науки о жизни: инженерия данных и интеллектуальный анализ данных для наук о жизни . Исследования в области больших данных. Международное издательство Спрингер. п. 447. ИСБН  978-3-031-08411-9 . Проверено 19 июля 2023 г.
  4. ^ Jump up to: Перейти обратно: а б с «Спецификация формата SAM/BAM» (PDF) . samtools.github.io .
  5. ^ «Объяснение флагов ЗРК» . Broadinstitute.github.io . Проверено 4 ноября 2023 г.
  6. ^ «Спецификация дополнительных полей выравнивания последовательности/карты» (PDF) . samtools.github.io .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a0a7e5dc60cd60a867a3c27c8fa05a05__1706608920
URL1:https://arc.ask3.ru/arc/aa/a0/05/a0a7e5dc60cd60a867a3c27c8fa05a05.html
Заголовок, (Title) документа по адресу, URL1:
SAM (file format) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)