ФИКСИРОВАННЫЙ формат
Расширения имен файлов |
.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn |
---|---|
Тип интернет-СМИ | text/x-fasta |
Единый идентификатор типа (UTI) | нет |
Разработано | Дэвид Дж. Липман Уильям Р. Пирсон [1] [2] |
Первоначальный выпуск | 1985 |
Тип формата | Биоинформатика |
Расширено с | ASCII для FASTA |
Распространено на | Формат FASTQ [3] |
Веб-сайт | www |
В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления либо нуклеотидных последовательностей , либо аминокислотных (белковых) последовательностей, в котором нуклеотиды или аминокислоты представлены с использованием однобуквенных кодов.
Формат позволяет именам последовательностей и комментариям предшествовать последовательностям. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . [4]
Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .
Обзор [ править ]
Последовательность начинается с символа «больше» («>»), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.
Например:
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*
Исходный формат [ править ]
Исходный формат FASTA/ Pearson описан в документации к FASTA пакету программ . Его можно загрузить с помощью любого бесплатного дистрибутива FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).
В исходном формате последовательность представлялась серией строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное выделение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [5] [6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендуемым использовать 80 символов или меньше (часто 70) в строках FASTA. Также ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой. [7]
Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;». [8] (точка с запятой) было воспринято как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для краткого описания последовательности, часто начиная с уникального библиотечного номера, и со временем стало обычным всегда использовать «>» для первой строки и не использовать ";" комментарии (которые в противном случае были бы проигнорированы).
За начальной строкой (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, кроме допустимого символа, будет игнорироваться (включая пробелы, табуляторы, звездочки и т. д.). Также было обычным заканчивать последовательность символом «*» (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
;LCBO - Prolactin precursor - Bovine
; a sample sequence in FASTA format
MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
Формат FASTA с несколькими последовательностями или формат с несколькими FASTA можно получить путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не означает противоречия с форматом, поскольку с «;» может начинаться только первая строка в файле FASTA. или «>», заставляя все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как отдельные последовательности (и дополнительно принудительно резервировать «>» для строки определения последовательности). Таким образом, приведенные выше примеры будут представлять собой файл с несколькими FASTA, если их объединить.
Современные программы биоинформатики, использующие формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать знак «>». Последовательность обычно представляется как «чередующаяся» или состоящая из нескольких строк, как в приведенном выше примере, но также может быть «последовательной» или в одной строке. Запуск различных программ биоинформатики может потребовать преобразования между «последовательным» и «чередующимся» форматами FASTA.
Строка описания [ править ]
Строка описания (defline) или строка заголовка/идентификатора, начинающаяся с «>», дает имя и/или уникальный идентификатор последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может находиться один или несколько комментариев, отмеченных точкой с запятой в начале строки. Некоторые базы данных и приложения биоинформатики не распознают эти комментарии и следуют спецификации NCBI FASTA . Ниже приведен пример файла FASTA с несколькими последовательностями:
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
Идентификаторы NCBI [ править ]
NCBI . определил стандарт уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdb
и table2asn
. В следующем списке описан формат идентификаторов последовательностей, определенный NCBI FASTA. [9]
Тип | Формат(ы) | Пример(ы) |
---|---|---|
локальный (т. е. без ссылки на базу данных) | lcl|integer
|
lcl|123
|
GenInfo секид магистральной сети | bbs|integer
|
bbs|123
|
GenInfo тип магистрали | bbm|integer
|
bbm|123
|
Идентификатор импорта GenInfo | gim|integer
|
gim|123
|
ГенБанк | gb|accession|locus
|
gb|M73307|AGMA13GT
|
ЭМБЛ | emb|accession|locus
|
emb|CAM43271.1|
|
МОСТ | pir|accession|name
|
pir||G36364
|
СВИСС-ПРОТ | sp|accession|name
|
sp|P01013|OVAX_CHICK
|
патент | pat|country|patent|sequence-number
|
pat|US|RE33188|1
|
предварительный патент | pgp|country|application-number|sequence-number
|
pgp|EP|0238993|7
|
RefSeq | ref|accession|name
|
ref|NM_010450.1|
|
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке) |
gnl|database|integer
|
gnl|taxon|9606
|
Интегрированная база данных GenInfo | gi|integer
|
gi|21434723
|
ДБЖ | dbj|accession|locus
|
dbj|BAC85684.1|
|
ПРФ | prf|accession|name
|
prf||0806162C
|
ПДБ | pdb|entry|chain
|
pdb|1I4L|D
|
сторонний генбанк | tpg|accession|name
|
tpg|BK003456|
|
сторонний EMBL | tpe|accession|name
|
tpe|BN000123|
|
сторонний DDBJ | tpd|accession|name
|
tpd|FAA00017|
|
ТРЕМБЛ | tr|accession|name
|
tr|Q90RT2|Q90RT2_9HIV1
|
Вертикальные полосы («|») в приведенном выше списке не являются разделителями в смысле формы Бэкуса – Наура , а являются частью формата. Несколько идентификаторов могут быть объединены, а также разделены вертикальными полосами.
Представление последовательности [ править ]
После строки заголовка отображается фактическая последовательность. Последовательности могут представлять собой белковые последовательности или последовательности нуклеиновых кислот и могут содержать пробелы или символы выравнивания (см. «Выравнивание последовательностей» ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы допускаются и преобразуются в прописные; для обозначения пробела можно использовать один дефис или тире; а в аминокислотных последовательностях допустимыми буквами являются U и * (см. ниже). Числовые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаемые коды нуклеиновых кислот: [10] [11] [12]
Код нуклеиновой кислоты | Значение | Мнемоника |
---|---|---|
А | А | Денин |
С | С | Цитозин |
Г | Г | Гуанин |
Т | Т | Т химин |
В | В | Ты расовый |
(я) | я | я носину (нестандартный) |
Р | А или Г (Я) | Пу Рин |
И | С, Т или У | p Y римидины |
К | Г, Т или У | являющиеся кетонами основания , |
М | А или С | основания миногруппами с |
С | С или Г | Сильное взаимодействие |
В | А, Т или У | Слабое взаимодействие |
Б | не A (т. е. C, G, T или U) | Б идет после А |
Д | не C (т. е. A, G, T или U) | D идет после C |
ЧАС | не G (т. е. A, C, T или U) | H идет после G |
V | ни T, ни U (т.е. A, C или G) | V идет после U |
Н | АХГТУ | Нуклеиновая кислота |
- | разрыв неопределенной длины |
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Аминокислотный код | Значение |
---|---|
А | Аланин |
Б | Аспарагиновая кислота (D) или аспарагин (N) |
С | Цистеин |
Д | Аспарагиновая кислота |
И | Глутаминовая кислота |
Ф | Фенилаланин |
Г | Глицин |
ЧАС | Гистидин |
я | изолейцин |
Дж | Лейцин (L) или изолейцин (I) |
К | Лизин |
л | Лейцин |
М | Метионин / Старт-кодон |
Н | Аспарагин |
ТО | Пирролизин (редко) |
П | Пролин |
вопрос | Глютамин |
Р | Аргинин |
С | Серин |
Т | Треонин |
В | Селеноцистеин (редко) |
V | Валин |
В | Триптофан |
И | Тирозин |
С | Глутаминовая кислота (E) или глютамин (Q) |
Х | любой |
* | остановка перевода |
- | разрыв неопределенной длины |
FASTA-файл [ править ]
Расширение имени файла [ править ]
не существует стандартного расширения имени файла Для текстового файла, содержащего последовательности в формате FASTA, . В таблице ниже показано каждое расширение и его соответствующее значение.
Расширение | Значение | Примечания |
---|---|---|
быстро, быстро, быстро [13] | универсальный FAST | Любой общий файл FASTA. |
фна | Нуклеиновая кислота FASTA | Обычно используется для определения нуклеиновых кислот. |
ффн | Нуклеотид FASTA участков гена | Содержит кодирующие области генома. |
фа | Аминокислота ФАСТА | Содержит аминокислотные последовательности |
Я умираю | Аминокислоты ФАСТА | Содержит несколько белковых последовательностей |
frn | FASTA РНК Некодирующая | Содержит некодирующие области РНК генома, например тРНК, рРНК. |
Сжатие [ править ]
Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия их в основном разделяют на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [14] выполняет сжатие этих файлов без потерь с использованием контекстного моделирования и арифметического кодирования. Генозип, [15] пакет программного обеспечения для сжатия геномных файлов, использует расширяемую контекстно-ориентированную модель. Тесты алгоритмов сжатия файлов FASTA были опубликованы Hosseini et al. в 2016 году, [16] and Kryukov et al. in 2020. [17]
Шифрование [ править ]
Шифрование файлов FASTA можно выполнить с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. [18] [19] Аналогичным образом Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. [15]
Расширения [ править ]
Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. [3]
A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M символы нижнего регистра означают вставки, которые затем обозначаются в других последовательностях точкой (« . ") символ. Точки можно отбросить для компактности без потери информации. Как и в типичных файлах FASTA, используемых при выравнивании, пробел (" - ") понимается ровно одна позиция. [20] A3M аналогичен A2M, с добавленным правилом, согласно которому пробелы, соответствующие вставкам, также могут быть отброшены. [21]
Работа с файлами FASTA [ править ]
Сообщество предлагает множество удобных для пользователя скриптов для выполнения манипуляций с файлами FASTA. Онлайн-панели инструментов, такие как FaBox [22] или FASTX-Toolkit на серверах Galaxy также доступны. [23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка нужных идентификаторов (среди других доступных функций). Древовидный подход к сортировке файлов с несколькими FASTA (TREE2FASTA [24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings можно использовать для чтения и управления файлами FASTA R. в [25]
Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например конвертер, доступный на сайте phylogeny.fr. [26]
См. также [ править ]
- Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
- Форматы SAM и CRAM , используемые для представления считываний секвенатора генома, которые были сопоставлены с последовательностями генома.
- Формат GVF (формат вариаций генома), расширение, основанное на формате GFF3 .
Ссылки [ править ]
- ^ Липман DJ, Pearson WR (март 1985 г.). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .
- ^ Пирсон В.Р., диджей Липман (апрель 1988 г.). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .
- ^ Jump up to: Перейти обратно: а б Кок Пи Джей, Филдс Си Джей, Гото Н, Хойер МЛ, Райс ПМ (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–71. дои : 10.1093/нар/gkp1137 . ПМЦ 2847217 . ПМИД 20015970 .
- ^ «Что такое формат FASTA?» . Чжан Лаборатория . Архивировано из оригинала 04 декабря 2022 г. Проверено 4 декабря 2022 г.
- ^ Ландштейнер, масса:верк, Норберт (20 февраля 2019 г.). «(Теперь Go Bang!) Растровая ЭЛТ-типография (по данным DEC)» . Теперь давай, взрывай! — масса:werk/Блог . Проверено 15 марта 2024 г.
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «Встроенные глифы VT220» . ВТ100 . Проверено 15 марта 2024 г.
- ^ «Почему 80 символов являются «стандартным» пределом ширины кода?» . Обмен стеками программной инженерии . Проверено 15 марта 2024 г.
- ^ «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.
- ^ Книга набора инструментов NCBI C++ . Национальный центр биотехнологической информации . Проверено 19 декабря 2018 г.
- ^ Тао Тао (24 августа 2011 г.). «Однобуквенные коды нуклеотидов» . [Учебный центр NCBI] . Национальный центр биотехнологической информации . Архивировано из оригинала 14 сентября 2012 г. Проверено 15 марта 2012 г.
- ^ «Кодовая таблица ИЮПАК» . Банк ДНК НИАС. Архивировано из оригинала 11 августа 2011 г.
- ^ «любой символ» . MAFFT — программа множественного выравнивания последовательностей .
- ^ «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.
- ^ Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA» . Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594 . ПМЦ 3866555 . ПМИД 24132931 .
- ^ Jump up to: Перейти обратно: а б Лан, Дивон; Тоблер, Рэй; Суильми, Ясин; Ламас, Бастьен (15 февраля 2021 г.). «Genozip: универсальный расширяемый компрессор геномных данных» . Биоинформатика . 37 (16): 2225–2230. doi : 10.1093/биоинформатика/btab102 . ISSN 1367-4803 . ПМК 8388020 . PMID 33585897 .
- ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN 2078-2489 .
- ^ Крюков К., Уэда М.Т., Накагава С., Иманиши Т. (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка безреферентных компрессоров для последовательностей в формате FASTA» . ГигаСайенс . 9 (7): giaa072. doi : 10.1093/gigascience/giaa072 . ПМЦ 7336184 . ПМИД 32627830 .
- ^ Пратас Д., Хоссейни М., Пиньо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том. 616. Спрингер. стр. 305–312. дои : 10.1007/978-3-319-60816-7_37 . ISBN 978-3-319-60815-0 .
- ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж (01 января 2019 г.). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных» . Биоинформатика . 35 (1): 146–148. doi : 10.1093/биоинформатика/bty645 . ISSN 1367-4803 . ПМК 6298042 . ПМИД 30020420 .
- ^ «Описание формата выравнивания A2M» . SAMtools . Архивировано из оригинала 15 августа 2022 г.
- ^ "soedinglab/hh-suite: reformat.pl" . GitHub . 20 November 2022.
- ^ Виллесен, П. (2007). «FaBox: онлайн-инструментарий для быстрого создания последовательностей» . Заметки по молекулярной экологии . 7 (6): 965–968. дои : 10.1111/j.1471-8286.2007.01821.x . ISSN 1471-8278 .
- ^ Бланкенберг Д., Фон Кастер Г., Бувье Э., Бейкер Д., Афган Е., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. дои : 10.1186/gb4161 . ПМЦ 4038738 . ПМИД 25001293 .
- ^ Соваж Т., Плувиз С., Шмидт В.Е., Фредерик С. (март 2018 г.). «TREE2FASTA: гибкий сценарий Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев» . Исследовательские заметки BMC . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . ПМЦ 5838971 . ПМИД 29506565 .
- ^ Пажес, Х; Абойун, П; Джентльмен, Р; Деброй, С (2018). « Биоструны: Эффективное манипулирование биологическими струнами » . Биокондуктор.org . Пакет R версии 2.48.0. doi : 10.18129/B9.bioc.Biostrings .
- ^ Дирипер А, Гиньон В, Блан Г, Аудик С, Баффе С, Шевене Ф, Дюфайард Ж. Ф., Гуиндон С., Лефорт В., Леско М., Клавери Ж. М., Гаскюэль О (июль 2008 г.). «Phyogeny.fr: надежный филогенетический анализ для неспециалистов» . Исследования нуклеиновых кислот . 36 (проблема с веб-сервером): W465–9. дои : 10.1093/нар/gkn180 . ПМЦ 2447785 . ПМИД 18424797 .