Формат нагромождения
Расширения имен файлов | .msf, .pup, .pileup |
---|---|
Разработано | Тони Кокс и Земин Нин |
Тип формата | Биоинформатика |
Расширено с | Значения, разделенные табуляцией |
Веб-сайт | www |
Формат Pileup — это текстовый формат для суммирования базовых вызовов выровненных чтений в ссылочной последовательности. Этот формат облегчает визуальное отображение SNP вызова и выравнивания /indel. Впервые его использовалТони Кокса и Земина Нина из Wellcome Trust Sanger Institute , и получил широкую известность благодаря своей реализации в программном пакете SAMtools . [1]
Формат [ править ]
Пример [ править ]
Последовательность | Позиция | Справочная база | Чтение счетчика | Чтение результатов | Качество |
---|---|---|---|---|---|
seq1 | 272 | Т | 24 | ,.$.....,,.,.,...,,,.,..^+. | <<<+;<<<<<<<<<<<=<;<;7<& |
seq1 | 273 | Т | 23 | ,......,,.,.,...,,,.,..А | <<<;<<<<<<<<<3<=<<<;<<+ |
seq1 | 274 | Т | 23 | ,.$....,,.,.,...,,,.,... | 7<7;<;<<<<<<<<<=<;<;<<6 |
seq1 | 275 | А | 23 | ,$....,,.,.,...,,,.,...^l. | <+;9*<<<<<<<<<=<<:;<<<< |
seq1 | 276 | Г | 22 | ...Т,,.,.,...,,,.,.... | 33;+<<7=7<<7<&<<1;<<6< |
seq1 | 277 | Т | 22 | ....,,.,.,.С.,,,.,..Г. | +7<;<<<<<<<&<=<<:;<<&< |
seq1 | 278 | Г | 23 | ....,,.,.,...,,,.,....^к. | %38*<<;<7<<7<=<<<;<<<<< |
seq1 | 279 | С | 23 | В,,.,.,...,,,.,..... | 75&<<<<<<<<<=<<<9<<:<<< |
Столбцы [ править ]
Каждая строка состоит из 5 (или опционально 6) столбцов, разделенных табуляцией:
- Идентификатор последовательности
- Позиция в последовательности (начиная с 1)
- Эталонный нуклеотид в этом положении
- Количество согласованных чтений, охватывающих эту позицию (глубина охвата)
- Базы в этой позиции из выровненных чтений
- Phred Качество этих оснований, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО).
Столбец 5: Базовая строка [ править ]
- . (точка) означает основу, соответствующую ссылке на прямую цепь.
- , (запятая) означает основу, соответствующую ссылке на обратной цепи.
- </> (знак меньше/больше) обозначает пропуск ссылки. Это происходит, например, если основание эталонного генома является интронным, а считывание соответствует двум фланкирующим экзонам. Если оценки качества указаны в шестом столбце , они относятся к качеству чтения, а не к конкретной базе.
- AGTCN (заглавные буквы) обозначает основание, которое не соответствует ссылке в прямой цепи.
- agtcn (строчная буква) обозначает основание, которое не соответствует эталону на обратной цепи.
- Последовательность, соответствующая регулярному выражению
\+[0-9]+[ACGTNacgtn]+
обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, +2AG означает вставку AG в прямую цепь. - Последовательность, соответствующая регулярному выражению
\-[0-9]+[ACGTNacgtn]+
обозначает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи. - ^ (каретка) отмечает начало сегмента чтения, а ASCII символа, следующего за `^' минус 33, определяет качество отображения.
- $ (доллар) отмечает конец сегмента чтения.
- * (звездочка) — это заполнитель для удаленной базы при удалении нескольких пар оснований, которое было упомянуто в предыдущей строке пользователем
-[0-9]+[ACGTNacgtn]+
обозначение
Столбец 6: Строка базового качества [ править ]
Это необязательный столбец. Если присутствует, значение ASCII символа минус 33 дает качество отображения Phred каждого из оснований в предыдущем столбце 5. Это аналогично качественному кодированию в формате FASTQ .
Расширение файла [ править ]
не существует стандартного расширения файла , но есть .msf (файл с несколькими последовательностями), .pup. Для файла Pileup [2] и .pileup [3] [4] используются.
См. также [ править ]
Ссылки [ править ]
- ^ Ли Х.; Рукодельник Б.; Высокер А.; Феннелл Т.; Руан Дж.; Гомер Н.; Март Г.; Абекасис Г.; Дурбин Р; Подгруппа обработки данных проекта «1000 геномов» (2009) (2009). «Формат выравнивания/карты последовательностей (SAM) и SAMtools» . Биоинформатика . 25 (16): 2078–2079. doi : 10.1093/биоинформатика/btp352 . ПМК 2723002 . ПМИД 19505943 .
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка ) - ^ Аксельрис (2 октября 1998 г.). «КВАНТЫ: Дизайн белка. 3. Чтение и запись файлов данных последовательностей» . Университет Монреаля . Проверено 27 марта 2020 г.
- ^ Глез-Пенья, Даниэль; Гомес-Лопес, Гонсало; Ребойро-Жато, Мигель; Фдез-Риверола, Флорентино; Пизано, Дэвид Дж. (24 января 2011 г.). «PileLine: набор инструментов для обработки информации о положении генома в исследованиях секвенирования следующего поколения» . БМК Биоинформатика . 12:31 . дои : 10.1186/1471-2105-12-31 . ISSN 1471-2105 . ПМК 3037855 . ПМИД 21261974 .
- ^ Чисом, Халимат (31 марта 2023 г.). «Форматы файлов, которые должен знать каждый биоинформатик — как опытный, так и будущий — (а затем и некоторые)» . Середина . Проверено 11 ноября 2023 г.