ИнтерПро
Содержание | |
---|---|
Описание | InterPro функционально анализирует белковые последовательности и классифицирует их по семействам белков, одновременно прогнозируя наличие доменов и функциональных сайтов. |
Контакт | |
Исследовательский центр | ЭМБЛ |
Лаборатория | Европейский институт биоинформатики |
Первичное цитирование | База данных семейств белков и доменов InterPro:20 лет спустя [1] |
Дата выпуска | 1999 |
Доступ | |
Веб-сайт | www |
URL-адрес загрузки | ftp.ebi.ac.uk/pub/databases/interpro/ |
Разнообразный | |
Выпуск данных частота | 8-недельный |
Версия | 97.0 (9 ноября 2023 г | )
InterPro — это база данных семейств белков , белковых доменов и функциональных сайтов , в которой идентифицируемые особенности, обнаруженные в известных белках, могут быть применены к новым последовательностям белков. [2] с целью их функциональной характеристики. [3] [4]
Содержимое InterPro состоит из диагностических сигнатур и белков, которым они существенно соответствуют. Сигнатуры состоят из моделей (простых типов, таких как регулярные выражения , или более сложных, таких как скрытые модели Маркова ), которые описывают семейства белков, домены или сайты. Модели строятся на основе аминокислотных последовательностей известных семейств или доменов и впоследствии используются для поиска неизвестных последовательностей (например, возникающих в результате нового секвенирования генома) с целью их классификации. Каждая из баз данных-членов InterPro вносит свой вклад в свою нишу: от структурных классификаций очень высокого уровня ( SUPERFAMILY и CATH-Gene3D) до вполне конкретных классификаций подсемейств ( PRINTS и PANTHER ).
Намерение InterPro состоит в том, чтобы предоставить единый центр для классификации белков, где все подписи, созданные различными базами данных участников, помещаются в записи в базе данных InterPro. Подписи, которые представляют эквивалентные домены, сайты или семейства, помещаются в одну и ту же запись, и записи также могут быть связаны друг с другом. Дополнительная информация, такая как описание, согласованные имена и термины генной онтологии (GO), связана с каждой записью, где это возможно.
Данные, содержащиеся в ИнтерПро [ править ]
InterPro содержит три основных объекта: белки, сигнатуры (также называемые «методами» или «моделями») и записи. Белки в UniProtKB также являются центральными белковыми объектами в InterPro. Информация о том, какие сигнатуры существенно соответствуют этим белкам, рассчитывается по мере того, как последовательности публикуются UniProtKB, и эти результаты становятся доступными для общественности (см. Ниже). Совпадения сигнатур с белками определяют, как сигнатуры объединяются в записи InterPro: сравнительное перекрытие совпадающих наборов белков и расположение совпадений сигнатур в последовательностях используются в качестве индикаторов родства. В InterPro интегрируются только подписи, которые считаются достаточно качественными. По состоянию на версию 81.0 (выпущенную 21 августа 2020 г.) записи InterPro аннотировали 73,9% остатков, найденных в UniProtKB, а еще 9,2% аннотировали сигнатуры, ожидающие интеграции. [5]
InterPro также включает данные о вариантах сплайсинга и белках, содержащихся в базах данных UniParc и UniMES.
Базы данных участников консорциума ИнтерПро [ править ]
Подписи InterPro взяты из 13 «членских баз данных», перечисленных ниже.
- CATH-Gene3D
- Описывает семейства белков и архитектуру доменов в полных геномах. Семейства белков формируются с использованием алгоритма кластеризации Маркова с последующей многосвязной кластеризацией в соответствии с идентичностью последовательностей. Картирование предсказанных структур и доменов последовательностей осуществляется с использованием библиотек скрытых моделей Маркова, представляющих CATH и Pfam домены . Функциональная аннотация предоставляется белкам из нескольких ресурсов. Функциональное прогнозирование и анализ доменных архитектур доступны на веб-сайте Gene3D.
- CDD
- База данных консервативных доменов — это ресурс аннотаций белков, который состоит из коллекции аннотированных моделей множественного выравнивания последовательностей для древних доменов и полноразмерных белков. Они доступны в виде позиционно-специфичных оценочных матриц (PSSM) для быстрой идентификации консервативных доменов в белковых последовательностях с помощью RPS-BLAST.
- ХАМАП
- Означает высококачественную автоматическую и ручную аннотацию микробных протеомов. Профили HAMAP создаются вручную опытными кураторами. Они идентифицируют белки, которые являются частью хорошо консервативных семейств или подсемейств белков бактерий, архей и пластид (т. е. хлоропластов, цианелл, апикопластов, нефотосинтетических пластид).
- МобиДБ
- MobiDB — это база данных, аннотирующая внутренние нарушения в белках.
- ПАНТЕРА
- PANTHER — это большая коллекция семейств белков, которые были разделены на функционально связанные подсемейства с использованием человеческого опыта. Эти подсемейства моделируют расхождение конкретных функций внутри семейств белков, позволяя более точно связать их с функцией (классификации молекулярных функций, биологических процессов и схемы путей, курируемые человеком), а также сделать вывод об аминокислотах, важных для функциональной специфичности. Скрытые модели Маркова (HMM) строятся для каждого семейства и подсемейства для классификации дополнительных белковых последовательностей.
- Пфам
- Это большая коллекция множественных выравниваний последовательностей и скрытых марковских моделей, охватывающих множество общих доменов и семейств белков.
- ПИРСФ
- Система классификации белков представляет собой сеть с множеством уровней разнообразия последовательностей от суперсемейств до подсемейств, которая отражает эволюционные взаимоотношения полноразмерных белков и доменов. Основной классификационной единицей PIRSF является гомеоморфное семейство, члены которого являются как гомологичными (развившимися от общего предка), так и гомеоморфными (имеющими сходство полноразмерных последовательностей и общую доменную архитектуру).
- ПРИНТЫ
- PRINTS — это сборник белковых отпечатков пальцев. Отпечаток пальца — это группа консервативных мотивов, используемых для характеристики семейства белков; его диагностические возможности улучшаются за счет итеративного сканирования UniProt. Обычно мотивы не перекрываются, а разделяются по порядку, хотя в 3D-пространстве могут быть смежными. Отпечатки пальцев могут кодировать белковые складки и функциональные возможности более гибко и мощно, чем отдельные мотивы, а их полная диагностическая эффективность проистекает из взаимного контекста, обеспечиваемого соседними мотивами.
- PROSITE
- PROSITE — это база данных белковых семейств и доменов. Он состоит из биологически значимых сайтов, структур и профилей, которые помогают надежно определить, к какому известному семейству белков (если таковое имеется) принадлежит новая последовательность.
- УМНЫЙ
- Простой инструмент исследования модульной архитектуры. Позволяет идентифицировать и аннотировать генетически мобильные домены, а также анализировать доменные архитектуры. Обнаружено более 800 семейств доменов, обнаруженных в сигнальных, внеклеточных и ассоциированных с хроматином белках. Эти домены подробно аннотированы в отношении филетического распределения, функционального класса, третичных структур и функционально важных остатков.
- НАДСЕМЬЯ
- SUPERFAMILY — это библиотека профильных скрытых марковских моделей, представляющих все белки известной структуры. Библиотека основана на классификации белков SCOP : каждая модель соответствует домену SCOP и призвана представлять все суперсемейство SCOP , к которому принадлежит этот домен. SUPERFAMILY использовался для определения структур всех полностью секвенированных геномов.
- СФЛД
- Иерархическая классификация ферментов, которая связывает определенные особенности структуры последовательности с конкретными химическими способностями.
- ТИГРФАМ
- TIGRFAMs — это коллекция семейств белков, включающая тщательно подобранные множественные выравнивания последовательностей, скрытые модели Маркова (HMM) и аннотации, которые предоставляют инструмент для идентификации функционально связанных белков на основе гомологии последовательностей. Те записи, которые являются «эквилогами», группируют гомологичные белки, консервативные с точки зрения функции.
Типы данных [ править ]
InterPro состоит из семи типов данных, предоставленных разными членами консорциума:
Тип данных | Описание | Содействие базам данных |
---|---|---|
Записи ИнтерПро | Структурные и/или функциональные домены белков, предсказанные с использованием одной или нескольких сигнатур | Все 13 баз данных участников |
Подписи базы данных участников | Подписи из членских баз данных. К ним относятся подписи, интегрированные в InterPro, и те, которые не интегрированы. | Все 13 баз данных участников |
Белок | Белковые последовательности | UniProtKB (Swiss-Prot и TrEMBL) |
Протеом | Совокупность белков, принадлежащих одному организму | УниПротКБ |
Структура | Трехмерные структуры белков | ПДБе |
Таксономия | Таксономическая информация о белках | УниПротКБ |
Набор | Группы эволюционно родственных семейств | Пфам , CDD |
Типы записей ИнтерПро [ править ]
Записи InterPro можно разделить на пять типов:
- Гомологичное суперсемейство : группа белков, которые имеют общее эволюционное происхождение, что видно по их структурному сходству, даже если их последовательности не очень похожи. Эти записи предоставляются только двумя базами данных участников: CATH-Gene3D и SUPERFAMILY.
- Семейство : группа белков, имеющих общее эволюционное происхождение, определяемое структурным сходством, родственными функциями или гомологией последовательностей .
- Домен: Отдельная единица белка с определенной функцией, структурой или последовательностью.
- Повтор: Последовательность аминокислот, обычно не длиннее 50 аминокислот, которая имеет тенденцию повторяться в белке много раз.
- Сайт: короткая последовательность аминокислот, в которой консервативна хотя бы одна аминокислота. К ним относятся сайты посттрансляционной модификации , консервативные сайты, сайты связывания и активные сайты .
Доступ [ править ]
База данных доступна для поиска по тексту и последовательностям через веб-сервер, а также для загрузки через анонимный FTP. Как и другие базы данных EBI , она находится в открытом доступе , поскольку ее содержимое может использоваться «любым лицом и для любых целей». [8] InterPro стремится публиковать данные каждые 8 недель, обычно в течение дня после выпуска UniProtKB тех же белков.
Интерфейс прикладного программирования (API) InterPro [ править ]
InterPro предоставляет API для программного доступа ко всем записям InterPro и связанным с ними записям в формате Json . [9] Существует шесть основных конечных точек API, соответствующих различным типам данных InterPro: запись, белок, структура, таксономия, протеом и набор.
ИнтерПроСкан [ править ]
InterProScan — это программный пакет, который позволяет пользователям сканировать последовательности на предмет сигнатур членских баз данных. Пользователи могут использовать это программное обеспечение для сканирования сигнатур для функциональной характеристики новых нуклеотидных или белковых последовательностей. [10] InterProScan часто используется в геномных проектах для получения «первичной» характеристики интересующего генома. [11] [12] По состоянию на декабрь 2020 г. [update]общедоступная версия InterProScan (v5.x) использует архитектуру на основе Java . [13] В настоящее время пакет программного обеспечения поддерживается только в 64-битной операционной системе Linux .
Доступ к InterProScan, наряду со многими другими инструментами биоинформатики EMBL-EBI, также можно получить программно с помощью API-интерфейсов веб-служб RESTful и SOAP . [14]
См. также [ править ]
Ссылки [ править ]
- ^ Блюм М., Чанг Х.И., Чугурански С., Грего Т., Кандасаами С., Митчелл А. и др. (ноябрь 2020 г.). «База данных белковых семейств и доменов InterPro: 20 лет спустя» . Исследования нуклеиновых кислот . 49 (Д1): Д344–Д354. дои : 10.1093/nar/gkaa977 . ПМЦ 7778928 . ПМИД 33156333 .
- ^ Хантер С., Джонс П., Митчелл А., Апвейлер Р., Эттвуд Т.К., Бейтман А. и др. (январь 2012 г.). «ИнтерПро в 2011 году: новые разработки в базе данных прогнозирования семейств и доменов» . Исследования нуклеиновых кислот . 40 (Проблема с базой данных): D306-12. дои : 10.1093/nar/gkr948 . ПМК 3245097 . ПМИД 22096229 .
- ^ Апвейлер Р. , Эттвуд Т.К. , Байрох А. , Бейтман А. , Бирни Э. , Бисвас М. и др. (январь 2001 г.). «База данных InterPro, интегрированный ресурс документации по семействам белков, доменам и функциональным сайтам» . Исследования нуклеиновых кислот . 29 (1): 37–40. дои : 10.1093/нар/29.1.37 . ПМК 29841 . ПМИД 11125043 .
- ^ Апвейлер Р. , Эттвуд Т.К. , Байрох А. , Бейтман А. , Бирни Э. , Бисвас М. и др. (декабрь 2000 г.). «InterPro — интегрированный ресурс документации по семействам белков, доменам и функциональным сайтам» . Биоинформатика . 16 (12): 1145–50. дои : 10.1093/биоинформатика/16.12.1145 . ПМИД 11159333 .
- ^ Jump up to: Перейти обратно: а б Блюм, Матиас; Чанг, Синь-Ю; Чугуранский, Сара; Грего, Тьяго; Кандасаами, Сваати; Митчелл, Алекс; Нука, Дар; Пейсан-Лафосс, Тифен; Куреши, Матлуб; Радж, Шрия; Ричардсон, Лорна (06 ноября 2020 г.). «База данных белковых семейств и доменов InterPro: 20 лет спустя» . Исследования нуклеиновых кислот . 49 (Д1): Д344–Д354. дои : 10.1093/nar/gkaa977 . ISSN 0305-1048 . ПМЦ 7778928 . ПМИД 33156333 .
- ^ ЭМБЛ-ЭБИ. «Откуда данные? | ИнтерПро» . Проверено 4 декабря 2020 г.
- ^ ЭМБЛ-ЭБИ. «Типы записей ИнтерПро | ИнтерПро» . Проверено 4 декабря 2020 г.
- ^ «Условия использования услуг EMBL-EBI | Европейский институт биоинформатики» .
- ^ «Как скачать данные InterPro? — Документация InterPro» . interpro-documentation.readthedocs.io . Проверено 4 декабря 2020 г.
- ^ Кевиллон Э., Силвентойнен В., Пиллаи С., Харт Н., Малдер Н., Апвейлер Р., Лопес Р. (июль 2005 г.). «InterProScan: идентификатор белковых доменов» (Бесплатный полный текст) . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W116-20. дои : 10.1093/nar/gki442 . ПМК 1160203 . ПМИД 15980438 .
- ^ Ландер Э.С. , Линтон Л.М., Биррен Б., Нусбаум С., Зоди М.С., Болдуин Дж. и др. (февраль 2001 г.). «Первичное секвенирование и анализ генома человека» (PDF) . Природа . 409 (6822): 860–921. Бибкод : 2001Natur.409..860L . дои : 10.1038/35057062 . ПМИД 11237011 .
- ^ Холт Р.А., Субраманиан Г.М., Халперн А., Саттон Г.Г., Чарлаб Р., Нусскерн Д.Р. и др. (октябрь 2002 г.). «Последовательность генома малярийного комара Anopheles gambiae». Наука . 298 (5591): 129–49. Бибкод : 2002Sci...298..129H . CiteSeerX 10.1.1.149.9058 . дои : 10.1126/science.1076181 . ПМИД 12364791 . S2CID 4512225 .
- ^ Джонс П., Биннс Д., Чанг Х.И., Фрейзер М., Ли В., Маканулла С. и др. (май 2014 г.). «InterProScan 5: классификация функций белков в масштабе генома» . Биоинформатика . 30 (9): 1236–40. doi : 10.1093/биоинформатика/btu031 . ПМЦ 3998142 . ПМИД 24451626 .
- ^ Мадейра Ф., Пак Ю.М., Ли Дж., Бусо Н., Гур Т., Мадхусуданан Н. и др. (июль 2019 г.). «API-интерфейсы инструментов поиска и анализа последовательностей EMBL-EBI в 2019 году» . Исследования нуклеиновых кислот . 47 (П1): W636–W641. дои : 10.1093/nar/gkz268 . ПМК 6602479 . ПМИД 30976793 .
Внешние ссылки [ править ]
- Официальный сайт — веб-сервер