Стокгольмский формат
Расширения имен файлов | .sto , .stk |
---|---|
Тип интернет-СМИ | text/x-stockholm-alignment |
Разработано | Эрик Зоннхаммерс |
Тип формата | Биоинформатика |
Открытый формат ? | да |
Веб-сайт | зоннхаммер |
Стокгольмский формат — это формат множественного выравнивания последовательностей, используемый Pfam , Rfam и Dfam для распространения выравниваний последовательностей белков, РНК и ДНК. [1] [2] [3] Расклад редакторов Рали , [4] Belvu и Jalview поддерживают стокгольмский формат, равно как и инструменты вероятностного в базе данных поиска Infernal и HMMER , а также инструмент филогенетического анализа Xrate . Файлы стокгольмского формата часто имеют расширение имени файла. .sto
или .stk
. [5]
Синтаксис [ править ]
Правильно сформированный стокгольмский файл всегда содержит заголовок, в котором указаны формат и идентификатор версии, ' # STOCKHOLM 1.0
'. Затем за заголовком следует несколько строк, представляющих собой смесь разметки (начиная с # ) и последовательности. Наконец, " //
Линия " указывает на конец выравнивания.
Пример без разметки выглядит так:
# STOCKHOLM 1.0 #=GF ID EXAMPLE <seqname> <aligned sequence> <seqname> <aligned sequence> <seqname> <aligned sequence> //
Последовательности записываются по одной в строке. Имя последовательности записывается первым, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя/начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут обозначаться значком " . " или " - ".
Строки разметки начинаются с # . «Параметры» разделяются пробелами, поэтому для разметки по 1 символу на столбец вместо пробела следует использовать подчеркивание («_»). Определенные типы наценок включают:
#=GF <feature> <Generic per-File annotation, free text> #=GC <feature> <Generic per-Column annotation, exactly 1 char per column> #=GS <seqname> <feature> <Generic per-Sequence annotation, free text> #=GR <seqname> <feature> <Generic per-Residue annotation, exactly 1 char per residue>
Рекомендуемые функции [ править ]
Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. документацию Pfam и Rfam в разделе «Описание полей»).
#=ГФ [ править ]
Pfam и Rfam могут использовать следующие теги:
Compulsory fields: ------------------ AC Accession number: Accession number in form PFxxxxx (Pfam) or RFxxxxx (Rfam). ID Identification: One word name for family. DE Definition: Short description of family. AU Author: Authors of the entry. SE Source of seed: The source suggesting the seed members belong to one family. SS Source of structure: The source (prediction or publication) of the consensus RNA secondary structure used by Rfam. BM Build method: Command line used to generate the model SM Search method: Command line used to perform the search GA Gathering threshold: Search threshold to build the full alignment. TC Trusted Cutoff: Lowest sequence score (and domain score for Pfam) of match in the full alignment. NC Noise Cutoff: Highest sequence score (and domain score for Pfam) of match not in full alignment. TP Type: Type of family -- presently Family, Domain, Motif or Repeat for Pfam. -- a tree with roots Gene, Intron or Cis-reg for Rfam. SQ Sequence: Number of sequences in alignment. Optional fields: ---------------- DC Database Comment: Comment about database reference. DR Database Reference: Reference to external database. RC Reference Comment: Comment about literature reference. RN Reference Number: Reference Number. RM Reference Medline: Eight digit medline UI number. RT Reference Title: Reference Title. RA Reference Author: Reference Author RL Reference Location: Journal location. PI Previous identifier: Record of all previous ID lines. KW Keywords: Keywords. CC Comment: Comments. NE Pfam accession: Indicates a nested domain. NL Location: Location of nested domains - sequence ID, start and end of insert. WK Wikipedia link: Wikipedia page CL Clan: Clan accession MB Membership: Used for listing Clan membership For embedding trees: ---------------- NH New Hampshire A tree in New Hampshire eXtended format. TN Tree ID A unique identifier for the next tree. Other: ------ FR False discovery Rate: A method used to set the bit score threshold based on the ratio of expected false positives to true positives. Floating point number between 0 and 1. CB Calibration method: Command line used to calibrate the model (Rfam only, release 12.0 and later)
- Примечания: Дерево может храниться в нескольких строках #=GF NH.
- Если в одном файле хранится несколько деревьев, каждому дереву должна предшествовать строка #=GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку #=GF TN можно опустить.
#=GS [ править ]
Rfam и Pfam могут использовать следующие функции:
Feature Description --------------------- ----------- AC <accession> ACcession number DE <freetext> DEscription DR <db>; <accession>; Database Reference OS <organism> Organism (species) OC <clade> Organism Classification (clade, etc.) LO <look> Look (Color, etc.)
#=GR [ править ]
Feature Description Markup letters ------- ----------- -------------- SS Secondary Structure For RNA [.,;<>(){}[]AaBb.-_] --supports pseudoknot and further structure markup (see WUSS documentation) For protein [HGIEBTSCX] SA Surface Accessibility [0-9X] (0=0%-10%; ...; 9=90%-100%) TM TransMembrane [Mio] PP Posterior Probability [0-9*] (0=0.00-0.05; 1=0.05-0.15; *=0.95-1.00) LI LIgand binding [*] AS Active Site [*] pAS AS - Pfam predicted [*] sAS AS - from SwissProt [*] IN INtron (in or after) [0-2] For RNA tertiary interactions: ------------------------------ tWW WC/WC in trans For basepairs: [<>AaBb...Zz] For unpaired: [.] cWH WC/Hoogsteen in cis cWS WC/SugarEdge in cis tWS WC/SugarEdge in trans notes: (1) {c,t}{W,H,S}{W,H,S} for general format. (2) cWW is equivalent to SS.
#=GC [ править ]
Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для #=GR, с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».
Feature Description Description ------- ----------- -------------- RF ReFerence annotation Often the consensus RNA or protein sequence is used as a reference Any non-gap character (e.g. x's) can indicate consensus/conserved/match columns .'s or -'s indicate insert columns ~'s indicate unaligned insertions Upper and lower case can be used to discriminate strong and weakly conserved residues respectively MM Model Mask Indicates which columns in an alignment should be masked, such that the emission probabilities for match states corresponding to those columns will be the background distribution.
Примечания [ править ]
- Не используйте несколько строк с одной и той же меткой #=GC.
- Для одной последовательности не используйте несколько строк с одной и той же меткой #=GR. Для каждой последовательности можно назначить только одно уникальное назначение функции.
- «X» в SA и SS означает «остаток неизвестной структуры».
- Буквы белка SS взяты из DSSP : H=альфа-спираль, G=3/10-спираль, I=p-спираль, E=удлиненная цепь, B=остаток в изолированном b-мостике, T=поворот, S=изгиб. , C=катушка/петля.)
- Буквы RNA SS взяты из обозначения WUSS (Вторичная структура Вашингтонского университета). Соответствующие символы вложенных круглых скобок <>, (), [] или {} обозначают базовую пару. Символы «.», «,» и «;» указать непарные области. Совпадающие символы верхнего и нижнего регистра английского алфавита указывают на взаимодействие псевдоузлов . 5'-нуклеотид внутри узла должен быть написан прописными буквами, а 3'-нуклеотид - строчными.
Рекомендуемые места размещения [ изменить ]
- #=GF Выше выравнивания
- #=GC Ниже выравнивания
- #=GS Выше выравнивания или чуть ниже соответствующей последовательности
- #=GR Чуть ниже соответствующей последовательности
Ограничения по размеру [ править ]
Ни для одного поля нет явных ограничений на размер. Однако простой синтаксический анализатор, использующий фиксированные размеры полей, должен безопасно работать с выравниваниями Pfam и Rfam со следующими ограничениями:
- Длина строки: 10000.
- <имя_последовательности>: 255.
- <функция>: 255.
Примеры [ править ]
Простой пример выравнивания Rfam ( UPSK RNA ) с псевдоузлом в стокгольмском формате показан ниже: [6]
# STOCKHOLM 1.0 #=GF ID UPSK #=GF SE Predicted; Infernal #=GF SS Published; PMID 9223489 #=GF RN [1] #=GF RM 9223489 #=GF RT The role of the pseudoknot at the 3' end of turnip yellow mosaic #=GF RT virus RNA in minus-strand synthesis by the viral RNA-dependent RNA #=GF RT polymerase. #=GF RA Deiman BA, Kortlever RM, Pleij CW; #=GF RL J Virol 1997;71:5990-5996. AF035635.1/619-641 UGAGUUCUCGAUCUCUAAAAUCG M24804.1/82-104 UGAGUUCUCUAUCUCUAAAAUCG J04373.1/6212-6234 UAAGUUCUCGAUCUUUAAAAUCG M24803.1/1-23 UAAGUUCUCGAUCUCUAAAAUCG #=GC SS_cons .AAA....<<<<aaa....>>>> //
Вот немного более сложный пример, показывающий домен Pfam CBS :
# STOCKHOLM 1.0 #=GF ID CBS #=GF AC PF00571 #=GF DE CBS domain #=GF AU Bateman A #=GF CC CBS domains are small intracellular modules mostly found #=GF CC in 2 or four copies within a protein. #=GF SQ 5 #=GS O31698/18-71 AC O31698 #=GS O83071/192-246 AC O83071 #=GS O83071/259-312 AC O83071 #=GS O31698/88-139 AC O31698 #=GS O31698/88-139 OS Bacillus subtilis O83071/192-246 MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS #=GR O83071/192-246 SA 9998877564535242525515252536463774777 O83071/259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY #=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEE O31698/18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS #=GR O31698/18-71 SS CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHH O31698/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE #=GR O31698/88-139 SS CCCCCCCHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH #=GC SS_cons CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEH O31699/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE #=GR O31699/88-139 AS ________________*____________________ #=GR O31699/88-139 IN ____________1____________2______0____ //
См. также [ править ]
Ссылки [ править ]
- ^ Гарднер П.П., Дауб Дж., Тейт Дж.Г., Навроцкий Е.П., Кольбе Д.Л., Линдгрин С. и др. (январь 2009 г.). «Rfam: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D136–D140. дои : 10.1093/нар/gkn766 . ПМК 2686503 . ПМИД 18953034 .
- ^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Хотц Х.Р. и др. (январь 2008 г.). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D281–D288. дои : 10.1093/нар/gkm960 . ПМК 2238907 . ПМИД 18039703 .
- ^ Сторер Дж., Хабли Р., Розен Дж., Уилер Т.Дж., Смит А.Ф. (январь 2021 г.). «Ресурс сообщества Dfam, посвященный семействам мобильных элементов, моделям последовательностей и аннотациям генома» . Мобильная ДНК . 12 (1): 2. дои : 10.1186/s13100-020-00230-y . ПМЦ 7805219 . ПМИД 33436076 .
- ^ Гриффитс-Джонс С. (январь 2005 г.). «RALEE — редактор выравнивания РНК в Emacs» . Биоинформатика . 21 (2): 257–259. doi : 10.1093/биоинформатика/bth489 . ПМИД 15377506 .
- ^ «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.
- ^ Дейман Б.А., Кортлевер Р.М., Плейдж CW (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой» . Журнал вирусологии . 71 (8): 5990–5996. doi : 10.1128/JVI.71.8.5990-5996.1997 . ЧВК 191855 . ПМИД 9223489 .