ФИКСИРОВАННЫЙ формат

ФИКСИРОВАННЫЙ формат
Расширения имен файлов	.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
Тип интернет-СМИ	text/x-fasta
Единый идентификатор типа (UTI)	нет
Разработано	Дэвид Дж. Липман ; Уильям Р. Пирсон
Первоначальный выпуск	1985
Тип формата	Биоинформатика
Расширено с	ASCII для FASTA
Распространено на	Формат FASTQ
Веб-сайт	www .ncbi .нлм .nih .gov /ВЗРЫВ /голодание .shtml

В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления либо нуклеотидных последовательностей , либо аминокислотных (белковых) последовательностей, в котором нуклеотиды или аминокислоты представлены с использованием однобуквенных кодов.

Формат позволяет именам последовательностей и комментариям предшествовать последовательностям. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . ^[4]

Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .

Обзор [ править ]

Последовательность начинается с символа «больше» («>»), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.

Например:

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*

Исходный формат [ править ]

Исходный формат FASTA/ Pearson описан в документации к FASTA пакету программ . Его можно загрузить с помощью любого бесплатного дистрибутива FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).

В исходном формате последовательность представлялась серией строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное выделение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. ^[5]^[6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендуемым использовать 80 символов или меньше (часто 70) в строках FASTA. Также ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой. ^[7]

Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;». ^[8] (точка с запятой) было воспринято как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для краткого описания последовательности, часто начиная с уникального библиотечного номера, и со временем стало обычным всегда использовать «>» для первой строки и не использовать ";" комментарии (которые в противном случае были бы проигнорированы).

За начальной строкой (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, кроме допустимого символа, будет игнорироваться (включая пробелы, табуляторы, звездочки и т. д.). Также было обычным заканчивать последовательность символом «*» (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:

;LCBO - Prolactin precursor - Bovine
; a sample sequence in FASTA format
MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

Формат FASTA с несколькими последовательностями или формат с несколькими FASTA можно получить путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не означает противоречия с форматом, поскольку с «;» может начинаться только первая строка в файле FASTA. или «>», заставляя все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как отдельные последовательности (и дополнительно принудительно резервировать «>» для строки определения последовательности). Таким образом, приведенные выше примеры будут представлять собой файл с несколькими FASTA, если их объединить.

Современные программы биоинформатики, использующие формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать знак «>». Последовательность обычно представляется как «чередующаяся» или состоящая из нескольких строк, как в приведенном выше примере, но также может быть «последовательной» или в одной строке. Запуск различных программ биоинформатики может потребовать преобразования между «последовательным» и «чередующимся» форматами FASTA.

Строка описания [ править ]

Строка описания (defline) или строка заголовка/идентификатора, начинающаяся с «>», дает имя и/или уникальный идентификатор последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может находиться один или несколько комментариев, отмеченных точкой с запятой в начале строки. Некоторые базы данных и приложения биоинформатики не распознают эти комментарии и следуют спецификации NCBI FASTA . Ниже приведен пример файла FASTA с несколькими последовательностями:

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Идентификаторы NCBI [ править ]

NCBI . определил стандарт уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdb и table2asn. В следующем списке описан формат идентификаторов последовательностей, определенный NCBI FASTA. ^[9]

Тип	Формат(ы)	Пример(ы)
локальный (т. е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo секид магистральной сети	`bbs\|integer`	`bbs\|123`
GenInfo тип магистрали	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
ЭМБЛ	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
МОСТ	`pir\|accession\|name`	`pir\|\|G36364`
СВИСС-ПРОТ	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительный патент	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
ДБЖ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
ПРФ	`prf\|accession\|name`	`prf\|\|0806162C`
ПДБ	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний генбанк	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонний EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
ТРЕМБЛ	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`

Вертикальные полосы («|») в приведенном выше списке не являются разделителями в смысле формы Бэкуса – Наура , а являются частью формата. Несколько идентификаторов могут быть объединены, а также разделены вертикальными полосами.

Представление последовательности [ править ]

После строки заголовка отображается фактическая последовательность. Последовательности могут представлять собой белковые последовательности или последовательности нуклеиновых кислот и могут содержать пробелы или символы выравнивания (см. «Выравнивание последовательностей» ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы допускаются и преобразуются в прописные; для обозначения пробела можно использовать один дефис или тире; а в аминокислотных последовательностях допустимыми буквами являются U и * (см. ниже). Числовые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаемые коды нуклеиновых кислот: ^[10]^[11]^[12]

Код нуклеиновой кислоты	Значение	Мнемоника
А	А	Денин
С	С	Цитозин
Г	Г	Гуанин
Т	Т	Т химин
В	В	Ты расовый
(я)	я	я носину (нестандартный)
Р	А или Г (Я)	Пу Рин
И	С, Т или У	p Y римидины
К	Г, Т или У	являющиеся кетонами основания ,
М	А или С	основания миногруппами с
С	С или Г	Сильное взаимодействие
В	А, Т или У	Слабое взаимодействие
Б	не A (т. е. C, G, T или U)	Б идет после А
Д	не C (т. е. A, G, T или U)	D идет после C
ЧАС	не G (т. е. A, C, T или U)	H идет после G
V	ни T, ни U (т.е. A, C или G)	V идет после U
Н	АХГТУ	Нуклеиновая кислота
-	разрыв неопределенной длины

Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):

Аминокислотный код	Значение
А	Аланин
Б	Аспарагиновая кислота (D) или аспарагин (N)
С	Цистеин
Д	Аспарагиновая кислота
И	Глутаминовая кислота
Ф	Фенилаланин
Г	Глицин
ЧАС	Гистидин
я	изолейцин
Дж	Лейцин (L) или изолейцин (I)
К	Лизин
л	Лейцин
М	Метионин / Старт-кодон
Н	Аспарагин
ТО	Пирролизин (редко)
П	Пролин
вопрос	Глютамин
Р	Аргинин
С	Серин
Т	Треонин
В	Селеноцистеин (редко)
V	Валин
В	Триптофан
И	Тирозин
С	Глутаминовая кислота (E) или глютамин (Q)
Х	любой
*	остановка перевода
-	разрыв неопределенной длины

FASTA-файл [ править ]

Расширение имени файла [ править ]

не существует стандартного расширения имени файла Для текстового файла, содержащего последовательности в формате FASTA, . В таблице ниже показано каждое расширение и его соответствующее значение.

Расширение	Значение	Примечания
быстро, быстро, быстро ^[13]	универсальный FAST	Любой общий файл FASTA.
фна	Нуклеиновая кислота FASTA	Обычно используется для определения нуклеиновых кислот.
ффн	Нуклеотид FASTA участков гена	Содержит кодирующие области генома.
фа	Аминокислота ФАСТА	Содержит аминокислотные последовательности
Я умираю	Аминокислоты ФАСТА	Содержит несколько белковых последовательностей
frn	FASTA РНК Некодирующая	Содержит некодирующие области РНК генома, например тРНК, рРНК.

Сжатие [ править ]

Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия их в основном разделяют на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress ^[14] выполняет сжатие этих файлов без потерь с использованием контекстного моделирования и арифметического кодирования. Генозип, ^[15] пакет программного обеспечения для сжатия геномных файлов, использует расширяемую контекстно-ориентированную модель. Тесты алгоритмов сжатия файлов FASTA были опубликованы Hosseini et al. в 2016 году, ^[16] and Kryukov et al. in 2020. ^[17]

Шифрование [ править ]

Шифрование файлов FASTA можно выполнить с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. ^[18]^[19] Аналогичным образом Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. ^[15]

Расширения [ править ]

Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. ^[3]

A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M символы нижнего регистра означают вставки, которые затем обозначаются в других последовательностях точкой (« . ") символ. Точки можно отбросить для компактности без потери информации. Как и в типичных файлах FASTA, используемых при выравнивании, пробел (" - ") понимается ровно одна позиция. ^[20] A3M аналогичен A2M, с добавленным правилом, согласно которому пробелы, соответствующие вставкам, также могут быть отброшены. ^[21]

Работа с файлами FASTA [ править ]

Сообщество предлагает множество удобных для пользователя скриптов для выполнения манипуляций с файлами FASTA. Онлайн-панели инструментов, такие как FaBox ^[22] или FASTX-Toolkit на серверах Galaxy также доступны. ^[23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка нужных идентификаторов (среди других доступных функций). Древовидный подход к сортировке файлов с несколькими FASTA (TREE2FASTA ^[24]) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings можно использовать для чтения и управления файлами FASTA R. в ^[25]

Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например конвертер, доступный на сайте phylogeny.fr. ^[26]

См. также [ править ]

Формат FASTQ , используемый для представления считываний секвенатора ДНК вместе с показателями качества.
Форматы SAM и CRAM , используемые для представления считываний секвенатора генома, которые были сопоставлены с последовательностями генома.
Формат GVF (формат вариаций генома), расширение, основанное на формате GFF3 .

Ссылки [ править ]

^ Липман DJ, Pearson WR (март 1985 г.). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .
^ Пирсон В.Р., диджей Липман (апрель 1988 г.). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .
^ Jump up to: Перейти обратно: ^а ^б Кок Пи Джей, Филдс Си Джей, Гото Н, Хойер МЛ, Райс ПМ (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–71. дои : 10.1093/нар/gkp1137 . ПМЦ 2847217 . ПМИД 20015970 .
^ «Что такое формат FASTA?» . Чжан Лаборатория . Архивировано из оригинала 04 декабря 2022 г. Проверено 4 декабря 2022 г.
^ Ландштейнер, масса:верк, Норберт (20 февраля 2019 г.). «(Теперь Go Bang!) Растровая ЭЛТ-типография (по данным DEC)» . Теперь давай, взрывай! — масса:werk/Блог . Проверено 15 марта 2024 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «Встроенные глифы VT220» . ВТ100 . Проверено 15 марта 2024 г.
^ «Почему 80 символов являются «стандартным» пределом ширины кода?» . Обмен стеками программной инженерии . Проверено 15 марта 2024 г.
^ «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.
^ Книга набора инструментов NCBI C++ . Национальный центр биотехнологической информации . Проверено 19 декабря 2018 г.
^ Тао Тао (24 августа 2011 г.). «Однобуквенные коды нуклеотидов» . [Учебный центр NCBI] . Национальный центр биотехнологической информации . Архивировано из оригинала 14 сентября 2012 г. Проверено 15 марта 2012 г.
^ «Кодовая таблица ИЮПАК» . Банк ДНК НИАС. Архивировано из оригинала 11 августа 2011 г.
^ «любой символ» . MAFFT — программа множественного выравнивания последовательностей .
^ «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.
^ Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA» . Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594 . ПМЦ 3866555 . ПМИД 24132931 .
^ Jump up to: Перейти обратно: ^а ^б Лан, Дивон; Тоблер, Рэй; Суильми, Ясин; Ламас, Бастьен (15 февраля 2021 г.). «Genozip: универсальный расширяемый компрессор геномных данных» . Биоинформатика . 37 (16): 2225–2230. doi : 10.1093/биоинформатика/btab102 . ISSN 1367-4803 . ПМК 8388020 . PMID 33585897 .
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN 2078-2489 .
^ Крюков К., Уэда М.Т., Накагава С., Иманиши Т. (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка безреферентных компрессоров для последовательностей в формате FASTA» . ГигаСайенс . 9 (7): giaa072. doi : 10.1093/gigascience/giaa072 . ПМЦ 7336184 . ПМИД 32627830 .
^ Пратас Д., Хоссейни М., Пиньо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том. 616. Спрингер. стр. 305–312. дои : 10.1007/978-3-319-60816-7_37 . ISBN 978-3-319-60815-0 .
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж (01 января 2019 г.). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных» . Биоинформатика . 35 (1): 146–148. doi : 10.1093/биоинформатика/bty645 . ISSN 1367-4803 . ПМК 6298042 . ПМИД 30020420 .
^ «Описание формата выравнивания A2M» . SAMtools . Архивировано из оригинала 15 августа 2022 г.
^ "soedinglab/hh-suite: reformat.pl" . GitHub . 20 November 2022.
^ Виллесен, П. (2007). «FaBox: онлайн-инструментарий для быстрого создания последовательностей» . Заметки по молекулярной экологии . 7 (6): 965–968. дои : 10.1111/j.1471-8286.2007.01821.x . ISSN 1471-8278 .
^ Бланкенберг Д., Фон Кастер Г., Бувье Э., Бейкер Д., Афган Е., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. дои : 10.1186/gb4161 . ПМЦ 4038738 . ПМИД 25001293 .
^ Соваж Т., Плувиз С., Шмидт В.Е., Фредерик С. (март 2018 г.). «TREE2FASTA: гибкий сценарий Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев» . Исследовательские заметки BMC . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . ПМЦ 5838971 . ПМИД 29506565 .
^ Пажес, Х; Абойун, П; Джентльмен, Р; Деброй, С (2018). « Биоструны: Эффективное манипулирование биологическими струнами » . Биокондуктор.org . Пакет R версии 2.48.0. doi : 10.18129/B9.bioc.Biostrings .
^ Дирипер А, Гиньон В, Блан Г, Аудик С, Баффе С, Шевене Ф, Дюфайард Ж. Ф., Гуиндон С., Лефорт В., Леско М., Клавери Ж. М., Гаскюэль О (июль 2008 г.). «Phyogeny.fr: надежный филогенетический анализ для неспециалистов» . Исследования нуклеиновых кислот . 36 (проблема с веб-сервером): W465–9. дои : 10.1093/нар/gkn180 . ПМЦ 2447785 . ПМИД 18424797 .

Внешние ссылки [ править ]

[rapid-1] Липман DJ, Pearson WR (март 1985 г.). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .

[improved-2] Пирсон В.Р., диджей Липман (апрель 1988 г.). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .

[fastq-3] Jump up to: Перейти обратно: ^а ^б Кок Пи Джей, Филдс Си Джей, Гото Н, Хойер МЛ, Райс ПМ (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с показателями качества и варианты Solexa/Illumina FASTQ» . Исследования нуклеиновых кислот . 38 (6): 1767–71. дои : 10.1093/нар/gkp1137 . ПМЦ 2847217 . ПМИД 20015970 .

[4] «Что такое формат FASTA?» . Чжан Лаборатория . Архивировано из оригинала 04 декабря 2022 г. Проверено 4 декабря 2022 г.

[5] Ландштейнер, масса:верк, Норберт (20 февраля 2019 г.). «(Теперь Go Bang!) Растровая ЭЛТ-типография (по данным DEC)» . Теперь давай, взрывай! — масса:werk/Блог . Проверено 15 марта 2024 г. {{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )

[6] «Встроенные глифы VT220» . ВТ100 . Проверено 15 марта 2024 г.

[7] «Почему 80 символов являются «стандартным» пределом ширины кода?» . Обмен стеками программной инженерии . Проверено 15 марта 2024 г.

[8] «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.

[9] Книга набора инструментов NCBI C++ . Национальный центр биотехнологической информации . Проверено 19 декабря 2018 г.

[10] Тао Тао (24 августа 2011 г.). «Однобуквенные коды нуклеотидов» . [Учебный центр NCBI] . Национальный центр биотехнологической информации . Архивировано из оригинала 14 сентября 2012 г. Проверено 15 марта 2012 г.

[11] «Кодовая таблица ИЮПАК» . Банк ДНК НИАС. Архивировано из оригинала 11 августа 2011 г.

[12] «любой символ» . MAFFT — программа множественного выравнивания последовательностей .

[13] «Форматы файлов выравнивания» . 22 мая 2019 года . Проверено 22 мая 2019 г.

[MFCompress-14] Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA» . Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594 . ПМЦ 3866555 . ПМИД 24132931 .

[Genozip-15] Jump up to: Перейти обратно: ^а ^б Лан, Дивон; Тоблер, Рэй; Суильми, Ясин; Ламас, Бастьен (15 февраля 2021 г.). «Genozip: универсальный расширяемый компрессор геномных данных» . Биоинформатика . 37 (16): 2225–2230. doi : 10.1093/биоинформатика/btab102 . ISSN 1367-4803 . ПМК 8388020 . PMID 33585897 .

[Morteza-16] Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей» . Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN 2078-2489 .

[SCB-17] Крюков К., Уэда М.Т., Накагава С., Иманиши Т. (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка безреферентных компрессоров для последовательностей в формате FASTA» . ГигаСайенс . 9 (7): giaa072. doi : 10.1093/gigascience/giaa072 . ПМЦ 7336184 . ПМИД 32627830 .

[CRYFA1-18] Пратас Д., Хоссейни М., Пиньо А. (2017). «Cryfa: инструмент для сжатия и шифрования файлов FASTA». 11-я Международная конференция по практическому применению вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том. 616. Спрингер. стр. 305–312. дои : 10.1007/978-3-319-60816-7_37 . ISBN 978-3-319-60815-0 .

[CRYFA2-19] Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж (01 января 2019 г.). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных» . Биоинформатика . 35 (1): 146–148. doi : 10.1093/биоинформатика/bty645 . ISSN 1367-4803 . ПМК 6298042 . ПМИД 30020420 .

[20] «Описание формата выравнивания A2M» . SAMtools . Архивировано из оригинала 15 августа 2022 г.

[21] "soedinglab/hh-suite: reformat.pl" . GitHub . 20 November 2022.

[FaBox-22] Виллесен, П. (2007). «FaBox: онлайн-инструментарий для быстрого создания последовательностей» . Заметки по молекулярной экологии . 7 (6): 965–968. дои : 10.1111/j.1471-8286.2007.01821.x . ISSN 1471-8278 .

[Galaxyserver-23] Бланкенберг Д., Фон Кастер Г., Бувье Э., Бейкер Д., Афган Е., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed» . Геномная биология . 15 (2): 403. дои : 10.1186/gb4161 . ПМЦ 4038738 . ПМИД 25001293 .

[tree2fasta-24] Соваж Т., Плувиз С., Шмидт В.Е., Фредерик С. (март 2018 г.). «TREE2FASTA: гибкий сценарий Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев» . Исследовательские заметки BMC . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . ПМЦ 5838971 . ПМИД 29506565 .

[25] Пажес, Х; Абойун, П; Джентльмен, Р; Деброй, С (2018). « Биоструны: Эффективное манипулирование биологическими струнами » . Биокондуктор.org . Пакет R версии 2.48.0. doi : 10.18129/B9.bioc.Biostrings .

[phylodotfr-26] Дирипер А, Гиньон В, Блан Г, Аудик С, Баффе С, Шевене Ф, Дюфайард Ж. Ф., Гуиндон С., Лефорт В., Леско М., Клавери Ж. М., Гаскюэль О (июль 2008 г.). «Phyogeny.fr: надежный филогенетический анализ для неспециалистов» . Исследования нуклеиновых кислот . 36 (проблема с веб-сервером): W465–9. дои : 10.1093/нар/gkn180 . ПМЦ 2447785 . ПМИД 18424797 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

Тип	Формат(ы)	Пример(ы)
локальный (т. е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo секид магистральной сети	`bbs\|integer`	`bbs\|123`
GenInfo тип магистрали	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
ЭМБЛ	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
МОСТ	`pir\|accession\|name`	`pir\|\|G36364`
СВИСС-ПРОТ	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительный патент	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
RefSeq	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
ДБЖ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
ПРФ	`prf\|accession\|name`	`prf\|\|0806162C`
ПДБ	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний генбанк	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонний EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
ТРЕМБЛ	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`

v т и Биоинформатика
Базы данных	Базы данных последовательностей: GenBank , Европейский архив нуклеотидов , Банк данных ДНК Японии и Национальный банк генов Китая. Вторичные базы данных: UniProt , база данных белковых последовательностей, группирующихся вместе Swiss-Prot , TrEMBL и ресурс информации о белках. Другие базы данных: BioNumbers , Protein Data Bank , Ensembl , InterPro , KEGG и Gene Ontology. Специализированные геномные базы данных: BOLD , База данных генома Saccharomyces , FlyBase , VectorBase , WormBase , База данных генома крысы , PHI-база , Информационный ресурс Arabidopsis , GISAID и Информационная сеть данио-рерио.
Программное обеспечение	ВЗРЫВ Галстук-бабочка Кластал ЭМБОСС ХММЕР МЫШЦЫ ЯЩЕР SAMtools Мыльный пакет Цилиндр
Другой	Сервер: ExPASy Розалинда (образовательная платформа)
Учреждения	Броуд Институт Департамент вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярно-клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский геномный центр (PGC) Исследования Скриппса Швейцарский институт биоинформатики (SIB) Добро пожаловать в Институт Сэнгера Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Австралийский ресурс по биоинформатике (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество по базам данных нуклеотидных последовательностей (INSDC) Международное общество биокурации (ISB) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ‎ ([BC ²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) Международная конференция по методам вычислительного интеллекта для биоинформатики и биостатистики (CIBB) ISCB Africa Конференция ABCCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (RECOMB)
Форматы файлов	Формат CRAM ФИКСИРОВАННЫЙ формат Формат FASTQ Формат NeXML Формат Нексуса Формат Пайлапа Формат SAM Стокгольмский формат Формат VCF формат GFF формат GTF
Связанные темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Секвенирование База данных последовательностей Выравнивание последовательности
Категория Коммонс