Стокгольмский формат

Стокгольмский формат
Расширения имен файлов	.sto, .stk
Тип интернет-СМИ	text/x-stockholm-alignment
Разработано	Эрик Зоннхаммерс
Тип формата	Биоинформатика
Открытый формат ?	да
Веб-сайт	зоннхаммер .sbc .являются .se /Стокгольм .html

Стокгольмский формат — это формат множественного выравнивания последовательностей, используемый Pfam , Rfam и Dfam для распространения выравниваний последовательностей белков, РНК и ДНК. ^[1]^[2]^[3] Расклад редакторов Рали , ^[4] Belvu и Jalview поддерживают стокгольмский формат, равно как и инструменты вероятностного в базе данных поиска Infernal и HMMER , а также инструмент филогенетического анализа Xrate . Файлы стокгольмского формата часто имеют расширение имени файла. .sto или .stk. ^[5]

Синтаксис [ править ]

Правильно сформированный стокгольмский файл всегда содержит заголовок, в котором указаны формат и идентификатор версии, ' # STOCKHOLM 1.0'. Затем за заголовком следует несколько строк, представляющих собой смесь разметки (начиная с # ) и последовательности. Наконец, " //Линия " указывает на конец выравнивания.

Пример без разметки выглядит так:

# STOCKHOLM 1.0
#=GF ID   EXAMPLE
<seqname> <aligned sequence>
<seqname> <aligned sequence>
<seqname> <aligned sequence>
//

Последовательности записываются по одной в строке. Имя последовательности записывается первым, а после любого количества пробелов записывается последовательность. Имена последовательностей обычно имеют форму «имя/начало-конец» или просто «имя». Буквы последовательности могут включать любые символы, кроме пробелов. Пробелы могут обозначаться значком " . " или " - ".

Строки разметки начинаются с # . «Параметры» разделяются пробелами, поэтому для разметки по 1 символу на столбец вместо пробела следует использовать подчеркивание («_»). Определенные типы наценок включают:

#=GF <feature> <Generic per-File annotation, free text>
#=GC <feature> <Generic per-Column annotation, exactly 1 char per column>
#=GS <seqname> <feature> <Generic per-Sequence annotation, free text>
#=GR <seqname> <feature> <Generic per-Residue annotation, exactly 1 char per residue>

Рекомендуемые функции [ править ]

Эти имена функций используются Pfam и Rfam для определенных типов аннотаций. (См. документацию Pfam и Rfam в разделе «Описание полей»).

#=ГФ [ править ]

Pfam и Rfam могут использовать следующие теги:

Compulsory fields:
------------------
AC Accession number: Accession number in form PFxxxxx (Pfam) or RFxxxxx (Rfam).
ID Identification: One word name for family.
DE Definition: Short description of family.
AU Author: Authors of the entry.
SE Source of seed: The source suggesting the seed members belong to one family.
SS Source of structure: The source (prediction or publication) of the consensus RNA secondary structure used by Rfam.
BM Build method: Command line used to generate the model
SM Search method: Command line used to perform the search
GA Gathering threshold: Search threshold to build the full alignment.
TC Trusted Cutoff: Lowest sequence score (and domain score for Pfam) of match in the full alignment.
NC Noise Cutoff: Highest sequence score (and domain score for Pfam) of match not in full alignment.
TP Type: Type of family -- presently Family, Domain, Motif or Repeat for Pfam.
-- a tree with roots Gene, Intron or Cis-reg for Rfam.
SQ Sequence: Number of sequences in alignment.

Optional fields:
----------------
DC Database Comment: Comment about database reference.
DR Database Reference: Reference to external database.
RC Reference Comment: Comment about literature reference.
RN Reference Number: Reference Number.
RM Reference Medline: Eight digit medline UI number.
RT Reference Title: Reference Title.
RA Reference Author: Reference Author
RL Reference Location: Journal location.
PI Previous identifier: Record of all previous ID lines.
KW Keywords: Keywords.
CC Comment: Comments.
NE Pfam accession: Indicates a nested domain.
NL Location: Location of nested domains - sequence ID, start and end of insert.
WK Wikipedia link: Wikipedia page
CL Clan: Clan accession
MB Membership: Used for listing Clan membership

For embedding trees:
----------------
NH New Hampshire A tree in New Hampshire eXtended format.
TN Tree ID A unique identifier for the next tree.

Other:
------
FR False discovery Rate: A method used to set the bit score threshold based on the ratio of
expected false positives to true positives. Floating point number between 0 and 1.
CB Calibration method: Command line used to calibrate the model (Rfam only, release 12.0 and later)

Примечания: Дерево может храниться в нескольких строках #=GF NH.
Если в одном файле хранится несколько деревьев, каждому дереву должна предшествовать строка #=GF TN с уникальным идентификатором дерева. Если включено только одно дерево, строку #=GF TN можно опустить.

#=GS [ править ]

Rfam и Pfam могут использовать следующие функции:

      Feature                    Description
      ---------------------      -----------
      AC <accession>             ACcession number
      DE <freetext>              DEscription
      DR <db>; <accession>;      Database Reference
      OS <organism>              Organism (species)
      OC <clade>                 Organism Classification (clade, etc.)
      LO <look>                  Look (Color, etc.)

#=GR [ править ]

      Feature   Description            Markup letters
      -------   -----------            --------------
      SS        Secondary Structure    For RNA [.,;<>(){}[]AaBb.-_] --supports pseudoknot and further structure markup (see WUSS documentation) 
                                       For protein [HGIEBTSCX]
      SA        Surface Accessibility  [0-9X] 
                    (0=0%-10%; ...; 9=90%-100%)
      TM        TransMembrane          [Mio]
      PP        Posterior Probability  [0-9*] 
                    (0=0.00-0.05; 1=0.05-0.15; *=0.95-1.00)
      LI        LIgand binding         [*]
      AS        Active Site            [*]
     pAS        AS - Pfam predicted    [*]
     sAS        AS - from SwissProt    [*]
      IN        INtron (in or after)   [0-2]
 
     For RNA tertiary interactions:
     ------------------------------
     tWW       WC/WC        in trans   For basepairs: [<>AaBb...Zz]  For unpaired: [.]
     cWH       WC/Hoogsteen in cis
     cWS       WC/SugarEdge in cis
     tWS       WC/SugarEdge in trans
     notes: (1) {c,t}{W,H,S}{W,H,S} for general format. 
            (2) cWW is equivalent to SS.

#=GC [ править ]

Список допустимых функций включает в себя те, которые показаны ниже, а также те же функции, что и для #=GR, с добавлением «_cons», что означает «консенсус». Пример: «SS_cons».

      Feature   Description            Description
      -------   -----------            --------------
      RF        ReFerence annotation   Often the consensus RNA or protein sequence is used as a reference
                                       Any non-gap character (e.g. x's) can indicate consensus/conserved/match columns
                                       .'s or -'s indicate insert columns
                                       ~'s indicate unaligned insertions
                                       Upper and lower case can be used to discriminate strong and weakly conserved 
                                       residues respectively
      MM        Model Mask             Indicates which columns in an alignment should be masked, such
                                       that the emission probabilities for match states corresponding to
                                       those columns will be the background distribution.

Примечания [ править ]

Не используйте несколько строк с одной и той же меткой #=GC.
Для одной последовательности не используйте несколько строк с одной и той же меткой #=GR. Для каждой последовательности можно назначить только одно уникальное назначение функции.
«X» в SA и SS означает «остаток неизвестной структуры».
Буквы белка SS взяты из DSSP : H=альфа-спираль, G=3/10-спираль, I=p-спираль, E=удлиненная цепь, B=остаток в изолированном b-мостике, T=поворот, S=изгиб. , C=катушка/петля.)
Буквы RNA SS взяты из обозначения WUSS (Вторичная структура Вашингтонского университета). Соответствующие символы вложенных круглых скобок <>, (), [] или {} обозначают базовую пару. Символы «.», «,» и «;» указать непарные области. Совпадающие символы верхнего и нижнего регистра английского алфавита указывают на взаимодействие псевдоузлов . 5'-нуклеотид внутри узла должен быть написан прописными буквами, а 3'-нуклеотид - строчными.

Ограничения по размеру [ править ]

Ни для одного поля нет явных ограничений на размер. Однако простой синтаксический анализатор, использующий фиксированные размеры полей, должен безопасно работать с выравниваниями Pfam и Rfam со следующими ограничениями:

Длина строки: 10000.
<имя_последовательности>: 255.
<функция>: 255.

Примеры [ править ]

Простой пример выравнивания Rfam ( UPSK RNA ) с псевдоузлом в стокгольмском формате показан ниже: ^[6]

# STOCKHOLM 1.0
#=GF ID    UPSK
#=GF SE    Predicted; Infernal 
#=GF SS    Published; PMID 9223489
#=GF RN    [1]
#=GF RM    9223489
#=GF RT    The role of the pseudoknot at the 3' end of turnip yellow mosaic
#=GF RT    virus RNA in minus-strand synthesis by the viral RNA-dependent RNA
#=GF RT    polymerase.
#=GF RA    Deiman BA, Kortlever RM, Pleij CW;
#=GF RL    J Virol 1997;71:5990-5996.

AF035635.1/619-641             UGAGUUCUCGAUCUCUAAAAUCG
M24804.1/82-104                UGAGUUCUCUAUCUCUAAAAUCG
J04373.1/6212-6234             UAAGUUCUCGAUCUUUAAAAUCG
M24803.1/1-23                  UAAGUUCUCGAUCUCUAAAAUCG
#=GC SS_cons                   .AAA....<<<<aaa....>>>>
//

Вот немного более сложный пример, показывающий домен Pfam CBS :

# STOCKHOLM 1.0
#=GF ID CBS
#=GF AC PF00571
#=GF DE CBS domain
#=GF AU Bateman A
#=GF CC CBS domains are small intracellular modules mostly found
#=GF CC in 2 or four copies within a protein.
#=GF SQ 5
#=GS O31698/18-71 AC O31698
#=GS O83071/192-246 AC O83071
#=GS O83071/259-312 AC O83071
#=GS O31698/88-139 AC O31698
#=GS O31698/88-139 OS Bacillus subtilis
O83071/192-246          MTCRAQLIAVPRASSLAEAIACAQKMRVSRVPVYERS
#=GR O83071/192-246 SA  9998877564535242525515252536463774777
O83071/259-312          MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY
#=GR O83071/259-312 SS  CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEE
O31698/18-71            MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS
#=GR O31698/18-71 SS    CCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHH
O31698/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
#=GR O31698/88-139 SS   CCCCCCCHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH
#=GC SS_cons            CCCCCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEH
O31699/88-139           EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE
#=GR O31699/88-139 AS   ________________*____________________
#=GR O31699/88-139 IN   ____________1____________2______0____
//

См. также [ править ]

Ссылки [ править ]

^ Гарднер П.П., Дауб Дж., Тейт Дж.Г., Навроцкий Е.П., Кольбе Д.Л., Линдгрин С. и др. (январь 2009 г.). «Rfam: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D136–D140. дои : 10.1093/нар/gkn766 . ПМК 2686503 . ПМИД 18953034 .
^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Хотц Х.Р. и др. (январь 2008 г.). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D281–D288. дои : 10.1093/нар/gkm960 . ПМК 2238907 . ПМИД 18039703 .
^ Сторер Дж., Хабли Р., Розен Дж., Уилер Т.Дж., Смит А.Ф. (январь 2021 г.). «Ресурс сообщества Dfam, посвященный семействам мобильных элементов, моделям последовательностей и аннотациям генома» . Мобильная ДНК . 12 (1): 2. дои : 10.1186/s13100-020-00230-y . ПМЦ 7805219 . ПМИД 33436076 .
^ Гриффитс-Джонс С. (январь 2005 г.). «RALEE — редактор выравнивания РНК в Emacs» . Биоинформатика . 21 (2): 257–259. doi : 10.1093/биоинформатика/bth489 . ПМИД 15377506 .
^ «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.
^ Дейман Б.А., Кортлевер Р.М., Плейдж CW (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой» . Журнал вирусологии . 71 (8): 5990–5996. doi : 10.1128/JVI.71.8.5990-5996.1997 . ЧВК 191855 . ПМИД 9223489 .

Внешние ссылки [ править ]

Определение стокгольмского формата Эриком Зоннхаммерсом

[pmid18953034-1] Гарднер П.П., Дауб Дж., Тейт Дж.Г., Навроцкий Е.П., Кольбе Д.Л., Линдгрин С. и др. (январь 2009 г.). «Rfam: обновления базы данных семейств РНК» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D136–D140. дои : 10.1093/нар/gkn766 . ПМК 2686503 . ПМИД 18953034 .

[pmid18039703-2] Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Хотц Х.Р. и др. (январь 2008 г.). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 36 (Проблема с базой данных): D281–D288. дои : 10.1093/нар/gkm960 . ПМК 2238907 . ПМИД 18039703 .

[3] Сторер Дж., Хабли Р., Розен Дж., Уилер Т.Дж., Смит А.Ф. (январь 2021 г.). «Ресурс сообщества Dfam, посвященный семействам мобильных элементов, моделям последовательностей и аннотациям генома» . Мобильная ДНК . 12 (1): 2. дои : 10.1186/s13100-020-00230-y . ПМЦ 7805219 . ПМИД 33436076 .

[pmid15377506-4] Гриффитс-Джонс С. (январь 2005 г.). «RALEE — редактор выравнивания РНК в Emacs» . Биоинформатика . 21 (2): 257–259. doi : 10.1093/биоинформатика/bth489 . ПМИД 15377506 .

[jalview-fileformats-5] «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.

[pmid9223489-6] Дейман Б.А., Кортлевер Р.М., Плейдж CW (август 1997 г.). «Роль псевдоузла на 3'-конце РНК вируса желтой мозаики репы в синтезе минус-цепи вирусной РНК-зависимой РНК-полимеразой» . Журнал вирусологии . 71 (8): 5990–5996. doi : 10.1128/JVI.71.8.5990-5996.1997 . ЧВК 191855 . ПМИД 9223489 .

[1]

[2]

[3]

[4]

[5]

[6]

v т и Биоинформатика
Базы данных	Базы данных последовательностей: GenBank , Европейский архив нуклеотидов , Банк данных ДНК Японии и Национальный банк генов Китая. Вторичные базы данных: UniProt , база данных белковых последовательностей, группирующихся вместе Swiss-Prot , TrEMBL и ресурс информации о белках. Другие базы данных: BioNumbers , Protein Data Bank , Ensembl , InterPro , KEGG и Gene Ontology. Специализированные геномные базы данных: BOLD , База данных генома Saccharomyces , FlyBase , VectorBase , WormBase , База данных генома крысы , PHI-база , Информационный ресурс Arabidopsis , GISAID и Информационная сеть данио-рерио.
Программное обеспечение	ВЗРЫВ Галстук-бабочка Кластал ЭМБОСС ХММЕР МЫШЦЫ ЯЩЕР SAMtools Мыльный пакет Цилиндр
Другой	Сервер: ExPASy Розалинда (образовательная платформа)
Учреждения	Броуд Институт Департамент вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярно-клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский геномный центр (PGC) Исследования Скриппса Швейцарский институт биоинформатики (SIB) Добро пожаловать в Институт Сэнгера Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Австралийский ресурс по биоинформатике (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество по базам данных нуклеотидных последовательностей (INSDC) Международное общество биокурации (ISB) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ‎ ([BC ²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) Международная конференция по методам вычислительного интеллекта для биоинформатики и биостатистики (CIBB) ISCB Africa Конференция ABCCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (RECOMB)
Форматы файлов	Формат CRAM ФИКСИРОВАННЫЙ формат Формат FASTQ Формат NeXML Формат Нексуса Формат Пайлапа Формат SAM Стокгольмский формат Формат VCF формат GFF формат GTF
Связанные темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Секвенирование База данных последовательностей Выравнивание последовательности
Категория Коммонс