Jump to content

Формат нагромождения

Пайлап
Расширения имен файлов
.msf, .pup, .pileup
Разработано Тони Кокс и Земин Нин
Тип формата Биоинформатика
Расширено с Значения, разделенные табуляцией
Веб-сайт www .htslib .org /док /samtools-mpileup .html

Формат Pileup — это текстовый формат для суммирования базовых вызовов выровненных чтений в ссылочной последовательности. Этот формат облегчает визуальное отображение SNP вызова и выравнивания /indel. Впервые его использовалТони Кокса и Земина Нина из Wellcome Trust Sanger Institute , и получил широкую известность благодаря своей реализации в программном пакете SAMtools . [1]

Формат [ править ]

Пример [ править ]

Последовательность Позиция Справочная база Чтение счетчика Чтение результатов Качество
seq1 272 Т 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 Т 23 ,......,,.,.,...,,,.,..А <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 Т 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 А 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 Г 22 ...Т,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<
seq1 277 Т 22 ....,,.,.,.С.,,,.,..Г. +7<;<<<<<<<&<=<<:;<<&<
seq1 278 Г 23 ....,,.,.,...,,,.,....^к. %38*<<;<7<<7<=<<<;<<<<<
seq1 279 С 23 В,,.,.,...,,,.,..... 75&<<<<<<<<<=<<<9<<:<<<

Столбцы [ править ]

Каждая строка состоит из 5 (или опционально 6) столбцов, разделенных табуляцией:

  1. Идентификатор последовательности
  2. Позиция в последовательности (начиная с 1)
  3. Эталонный нуклеотид в этом положении
  4. Количество согласованных чтений, охватывающих эту позицию (глубина охвата)
  5. Базы в этой позиции из выровненных чтений
  6. Phred Качество этих оснований, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО).

Столбец 5: Базовая строка [ править ]

  • . (точка) означает основу, соответствующую ссылке на прямую цепь.
  • , (запятая) означает основу, соответствующую ссылке на обратной цепи.
  • </> (знак меньше/больше) обозначает пропуск ссылки. Это происходит, например, если основание эталонного генома является интронным, а считывание соответствует двум фланкирующим экзонам. Если оценки качества указаны в шестом столбце , они относятся к качеству чтения, а не к конкретной базе.
  • AGTCN (заглавные буквы) обозначает основание, которое не соответствует ссылке в прямой цепи.
  • agtcn (строчная буква) обозначает основание, которое не соответствует эталону на обратной цепи.
  • Последовательность, соответствующая регулярному выражению \+[0-9]+[ACGTNacgtn]+ обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, +2AG означает вставку AG в прямую цепь.
  • Последовательность, соответствующая регулярному выражению \-[0-9]+[ACGTNacgtn]+ обозначает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи.
  • ^ (каретка) отмечает начало сегмента чтения, а ASCII символа, следующего за `^' минус 33, определяет качество отображения.
  • $ (доллар) отмечает конец сегмента чтения.
  • * (звездочка) — это заполнитель для удаленной базы при удалении нескольких пар оснований, которое было упомянуто в предыдущей строке пользователем -[0-9]+[ACGTNacgtn]+ обозначение

Столбец 6: Строка базового качества [ править ]

Это необязательный столбец. Если присутствует, значение ASCII символа минус 33 дает качество отображения Phred каждого из оснований в предыдущем столбце 5. Это аналогично качественному кодированию в формате FASTQ .

Расширение файла [ править ]

не существует стандартного расширения файла , но есть .msf (файл с несколькими последовательностями), .pup. Для файла Pileup [2] и .pileup [3] [4] используются.

См. также [ править ]

Ссылки [ править ]

  1. ^ Ли Х.; Рукодельник Б.; Высокер А.; Феннелл Т.; Руан Дж.; Гомер Н.; Март Г.; Абекасис Г.; Дурбин Р; Подгруппа обработки данных проекта «1000 геномов» (2009) (2009). «Формат выравнивания/карты последовательностей (SAM) и SAMtools» . Биоинформатика . 25 (16): 2078–2079. doi : 10.1093/биоинформатика/btp352 . ПМК   2723002 . ПМИД   19505943 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
  2. ^ Аксельрис (2 октября 1998 г.). «КВАНТЫ: Дизайн белка. 3. Чтение и запись файлов данных последовательностей» . Университет Монреаля . Проверено 27 марта 2020 г.
  3. ^ Глез-Пенья, Даниэль; Гомес-Лопес, Гонсало; Ребойро-Жато, Мигель; Фдез-Риверола, Флорентино; Пизано, Дэвид Дж. (24 января 2011 г.). «PileLine: набор инструментов для обработки информации о положении генома в исследованиях секвенирования следующего поколения» . БМК Биоинформатика . 12:31 . дои : 10.1186/1471-2105-12-31 . ISSN   1471-2105 . ПМК   3037855 . ПМИД   21261974 .
  4. ^ Чисом, Халимат (31 марта 2023 г.). «Форматы файлов, которые должен знать каждый биоинформатик — как опытный, так и будущий — (а затем и некоторые)» . Середина . Проверено 11 ноября 2023 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 757a1577a687e6edb04ff7058cc840ac__1703633100
URL1:https://arc.ask3.ru/arc/aa/75/ac/757a1577a687e6edb04ff7058cc840ac.html
Заголовок, (Title) документа по адресу, URL1:
Pileup format - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)