Общий формат функции
Расширения имен файлов | .gff , .gff3 |
---|---|
Тип интернет-СМИ | text/gff3 |
Разработано | Центр Сэнгера (v2), Проект онтологии последовательностей (v3) |
Тип формата | Биоинформатика |
Расширено с | Значения, разделенные табуляцией |
Открытый формат ? | да |
Веб-сайт | github |
В биоинформатике общий формат признаков ( формат поиска генов , формат общих признаков , GFF ) — это формат файла, используемый для описания генов и других особенностей последовательностей ДНК , РНК и белков .
Версии GFF [ править ]
Существуют следующие версии GFF:
- Общий формат функций версии 2 , как правило, устарел.
- Формат переноса генов 2.2 , производная версия, используемая Ensembl.
- Общий формат функций, версия 3
- Genome Variation Format с дополнительными прагмами и атрибутами для функций последовательности_альтерации.
GFF2/GTF имел ряд недостатков, в частности, то, что он может представлять только двухуровневую иерархию признаков и, следовательно, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.
GTF . идентичен GFF версии 2 [1]
Общая структура GFF [ править ]
Все форматы GFF (GFF2, GFF3 и GTF) разделены табуляцией и содержат по 9 полей в строке. Все они имеют одинаковую структуру первых семи полей, но отличаются содержанием и форматом девятого поля . Некоторые имена полей были изменены в GFF3, чтобы избежать путаницы. Например, поле «seqid» раньше называлось «последовательностью», что можно спутать с нуклеотидной или аминокислотной цепью. Общая структура выглядит следующим образом:
Индекс позиции | Название должности | Описание |
---|---|---|
1 | так мало | Имя последовательности, в которой находится объект. |
2 | источник | Алгоритм или процедура, сгенерировавшая функцию. Обычно это имя программного обеспечения или базы данных. |
3 | тип | Имя типа объекта, например «ген» или «экзон». В хорошо структурированном файле GFF все дочерние объекты всегда следуют за своими родительскими элементами в одном блоке (поэтому все экзоны транскрипта помещаются после их родительской функциональной строки «транскрипта» и перед любой другой родительской строкой транскрипта). В GFF3 все функции и их взаимосвязи должны быть совместимы со стандартами, выпущенными Sequence Ontology Project . |
4 | начинать | Геномное начало признака со смещением на 1 основание . Это контрастирует с другими форматами полуоткрытых последовательностей со смещением 0, такими как BED . |
5 | конец | Геномный конец признака со смещением на 1 основание . Это та же конечная координата, что и в форматах полуоткрытой последовательности со смещением 0, таких как BED . [ нужна ссылка ] |
6 | счет | Числовое значение, которое обычно указывает на уверенность источника в аннотируемом объекте. Значение "." (точка) используется для определения нулевого значения. |
7 | прядь | Одиночный символ, указывающий направление объекта. Это может быть "+" (положительный или 5'->3'), "-", (отрицательный или 3'->5'), "." (неопределенный), или «?» для функций с значимыми, но неизвестными направлениями. |
8 | фаза | этап реализации функций CDS; это может быть одно из 0, 1, 2 (для функций CDS) или "." (для всего остального). Подробное объяснение смотрите в разделе ниже. |
9 | атрибуты | Список пар тег-значение, разделенных точкой с запятой, с дополнительной информацией о функции. |
8-е поле: этап функций реализации CDS
Проще говоря, CDS означает «последовательность CoDing». Точное значение этого термина определяется онтологией последовательностей (SO). Согласно спецификации GFF3 : [2] [3]
Для признаков типа «CDS» фаза указывает, где начинается признак относительно рамки считывания. Фаза представляет собой одно из целых чисел 0, 1 или 2, указывающее количество оснований, которые следует удалить от начала этого признака, чтобы достичь первого основания следующего кодона.
Мета-директивы [ править ]
В файлах GFF может быть включена дополнительная метаинформация, которая следует после директивы ##. Эта метаинформация может содержать подробную информацию о версии GFF, регионе последовательности или виде (полный список типов метаданных можно найти в спецификациях Sequence Ontology ).
Программное обеспечение GFF [ править ]
Серверы [ править ]
Серверы, генерирующие этот формат:
Сервер | Пример файла |
---|---|
ЮниПрот | [1] |
Клиенты [ править ]
Клиенты, использующие этот формат:
Имя | Описание | Ссылки |
---|---|---|
GBПросмотр | Средство просмотра генома GMOD | GBПросмотр |
ИГБ | Интегрированный браузер генома | Интегрированный браузер генома |
Джалвью | Редактор и средство просмотра множественного выравнивания последовательностей | Джалвью |
РЕМЕНЬ | Подчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2] | [3] |
JОбзор | JBrowse — это быстрый встраиваемый геномный браузер, полностью созданный на JavaScript и HTML5. | JBrowse.org |
ЗЕНБУ | Совместная интеграция данных OMICS и система интерактивной визуализации. | [4] |
Проверка [ править ]
В проекте modENCODE размещен онлайн-инструмент проверки GFF3 с большими ограничениями в 286,10 МБ и 15 миллионами строк.
Коллекция программного обеспечения Genome Tools содержит инструмент gff3validator , который можно использовать в автономном режиме для проверки и, возможно, приведения в порядок файлов GFF3. услуга онлайн-проверки Также доступна .
См. также [ править ]
Ссылки [ править ]
- ^ «Формат файла GFF/GTF» . Ансамбль . Архивировано из оригинала 15 июня 2022 г. Проверено 4 ноября 2023 г.
- ^ «Спецификация GFF3» . Гитхаб . 24.11.2018. Архивировано из оригинала 4 июля 2023 г.
- ^ «ГФФ3» . ГМОД . 12 июля 2016 г. Архивировано из оригинала 25 августа 2023 г.