Jump to content

ИнтерПро

ИнтерПро
Содержание
Описание InterPro функционально анализирует белковые последовательности и классифицирует их по семействам белков, одновременно прогнозируя наличие доменов и функциональных сайтов.
Контакт
Исследовательский центр ЭМБЛ
Лаборатория Европейский институт биоинформатики
Первичное цитирование База данных семейств белков и доменов InterPro:20 лет спустя [1]
Дата выпуска 1999
Доступ
Веб-сайт www .семья .uk /интерпро /
URL-адрес загрузки ftp.ebi.ac.uk/pub/databases/interpro/
Разнообразный
Выпуск данных
частота
8-недельный
Версия 97.0 (9 ноября 2023 г .; 7 месяцев назад ( 09.11.2023 ) )

InterPro — это база данных семейств белков , белковых доменов и функциональных сайтов , в которой идентифицируемые особенности, обнаруженные в известных белках, могут быть применены к новым последовательностям белков. [2] с целью их функциональной характеристики. [3] [4]

Содержимое InterPro состоит из диагностических сигнатур и белков, которым они существенно соответствуют. Сигнатуры состоят из моделей (простых типов, таких как регулярные выражения , или более сложных, таких как скрытые модели Маркова ), которые описывают семейства белков, домены или сайты. Модели строятся на основе аминокислотных последовательностей известных семейств или доменов и впоследствии используются для поиска неизвестных последовательностей (например, возникающих в результате нового секвенирования генома) с целью их классификации. Каждая из баз данных-членов InterPro вносит свой вклад в свою нишу: от структурных классификаций очень высокого уровня ( SUPERFAMILY и CATH-Gene3D) до вполне конкретных классификаций подсемейств ( PRINTS и PANTHER ).

Намерение InterPro состоит в том, чтобы предоставить единый центр для классификации белков, где все подписи, созданные различными базами данных участников, помещаются в записи в базе данных InterPro. Подписи, которые представляют эквивалентные домены, сайты или семейства, помещаются в одну и ту же запись, и записи также могут быть связаны друг с другом. Дополнительная информация, такая как описание, согласованные имена и термины генной онтологии (GO), связана с каждой записью, где это возможно.

Данные, содержащиеся в ИнтерПро [ править ]

InterPro содержит три основных объекта: белки, сигнатуры (также называемые «методами» или «моделями») и записи. Белки в UniProtKB также являются центральными белковыми объектами в InterPro. Информация о том, какие сигнатуры существенно соответствуют этим белкам, рассчитывается по мере того, как последовательности публикуются UniProtKB, и эти результаты становятся доступными для общественности (см. Ниже). Совпадения сигнатур с белками определяют, как сигнатуры объединяются в записи InterPro: сравнительное перекрытие совпадающих наборов белков и расположение совпадений сигнатур в последовательностях используются в качестве индикаторов родства. В InterPro интегрируются только подписи, которые считаются достаточно качественными. По состоянию на версию 81.0 (выпущенную 21 августа 2020 г.) записи InterPro аннотировали 73,9% остатков, найденных в UniProtKB, а еще 9,2% аннотировали сигнатуры, ожидающие интеграции. [5]

Покрытие остатков UniProtKB записями InterPro начиная с версии InterPro 81.0. [5]

InterPro также включает данные о вариантах сплайсинга и белках, содержащихся в базах данных UniParc и UniMES.

Базы данных участников консорциума ИнтерПро [ править ]

Подписи InterPro взяты из 13 «членских баз данных», перечисленных ниже.

CATH-Gene3D
Описывает семейства белков и архитектуру доменов в полных геномах. Семейства белков формируются с использованием алгоритма кластеризации Маркова с последующей многосвязной кластеризацией в соответствии с идентичностью последовательностей. Картирование предсказанных структур и доменов последовательностей осуществляется с использованием библиотек скрытых моделей Маркова, представляющих CATH и Pfam домены . Функциональная аннотация предоставляется белкам из нескольких ресурсов. Функциональное прогнозирование и анализ доменных архитектур доступны на веб-сайте Gene3D.
CDD
База данных консервативных доменов — это ресурс аннотаций белков, который состоит из коллекции аннотированных моделей множественного выравнивания последовательностей для древних доменов и полноразмерных белков. Они доступны в виде позиционно-специфичных оценочных матриц (PSSM) для быстрой идентификации консервативных доменов в белковых последовательностях с помощью RPS-BLAST.
ХАМАП
Означает высококачественную автоматическую и ручную аннотацию микробных протеомов. Профили HAMAP создаются вручную опытными кураторами. Они идентифицируют белки, которые являются частью хорошо консервативных семейств или подсемейств белков бактерий, архей и пластид (т. е. хлоропластов, цианелл, апикопластов, нефотосинтетических пластид).
МобиДБ
MobiDB — это база данных, аннотирующая внутренние нарушения в белках.
ПАНТЕРА
PANTHER — это большая коллекция семейств белков, которые были разделены на функционально связанные подсемейства с использованием человеческого опыта. Эти подсемейства моделируют расхождение конкретных функций внутри семейств белков, позволяя более точно связать их с функцией (классификации молекулярных функций, биологических процессов и схемы путей, курируемые человеком), а также сделать вывод об аминокислотах, важных для функциональной специфичности. Скрытые модели Маркова (HMM) строятся для каждого семейства и подсемейства для классификации дополнительных белковых последовательностей.
Пфам
Это большая коллекция множественных выравниваний последовательностей и скрытых марковских моделей, охватывающих множество общих доменов и семейств белков.
13 баз данных-членов консорциума InterPro, сгруппированных по методу построения сигнатур и биологическому объекту, на котором они сосредоточены. [6]
ПИРСФ
Система классификации белков представляет собой сеть с множеством уровней разнообразия последовательностей от суперсемейств до подсемейств, которая отражает эволюционные взаимоотношения полноразмерных белков и доменов. Основной классификационной единицей PIRSF является гомеоморфное семейство, члены которого являются как гомологичными (развившимися от общего предка), так и гомеоморфными (имеющими сходство полноразмерных последовательностей и общую доменную архитектуру).
ПРИНТЫ
PRINTS — это сборник белковых отпечатков пальцев. Отпечаток пальца — это группа консервативных мотивов, используемых для характеристики семейства белков; его диагностические возможности улучшаются за счет итеративного сканирования UniProt. Обычно мотивы не перекрываются, а разделяются по порядку, хотя в 3D-пространстве могут быть смежными. Отпечатки пальцев могут кодировать белковые складки и функциональные возможности более гибко и мощно, чем отдельные мотивы, а их полная диагностическая эффективность проистекает из взаимного контекста, обеспечиваемого соседними мотивами.
PROSITE
PROSITE — это база данных белковых семейств и доменов. Он состоит из биологически значимых сайтов, структур и профилей, которые помогают надежно определить, к какому известному семейству белков (если таковое имеется) принадлежит новая последовательность.
УМНЫЙ
Простой инструмент исследования модульной архитектуры. Позволяет идентифицировать и аннотировать генетически мобильные домены, а также анализировать доменные архитектуры. Обнаружено более 800 семейств доменов, обнаруженных в сигнальных, внеклеточных и ассоциированных с хроматином белках. Эти домены подробно аннотированы в отношении филетического распределения, функционального класса, третичных структур и функционально важных остатков.
НАДСЕМЬЯ
SUPERFAMILY — это библиотека профильных скрытых марковских моделей, представляющих все белки известной структуры. Библиотека основана на классификации белков SCOP : каждая модель соответствует домену SCOP и призвана представлять все суперсемейство SCOP , к которому принадлежит этот домен. SUPERFAMILY использовался для определения структур всех полностью секвенированных геномов.
СФЛД
Иерархическая классификация ферментов, которая связывает определенные особенности структуры последовательности с конкретными химическими способностями.
ТИГРФАМ
TIGRFAMs — это коллекция семейств белков, включающая тщательно подобранные множественные выравнивания последовательностей, скрытые модели Маркова (HMM) и аннотации, которые предоставляют инструмент для идентификации функционально связанных белков на основе гомологии последовательностей. Те записи, которые являются «эквилогами», группируют гомологичные белки, консервативные с точки зрения функции.

Типы данных [ править ]

InterPro состоит из семи типов данных, предоставленных разными членами консорциума:

Типы данных ИнтерПро
Тип данных Описание Содействие базам данных
Записи ИнтерПро Структурные и/или функциональные домены белков, предсказанные с использованием одной или нескольких сигнатур Все 13 баз данных участников
Подписи базы данных участников Подписи из членских баз данных. К ним относятся подписи, интегрированные в InterPro, и те, которые не интегрированы. Все 13 баз данных участников
Белок Белковые последовательности UniProtKB (Swiss-Prot и TrEMBL)
Протеом Совокупность белков, принадлежащих одному организму УниПротКБ
Структура Трехмерные структуры белков ПДБе
Таксономия Таксономическая информация о белках УниПротКБ
Набор Группы эволюционно родственных семейств Пфам , CDD
Значки, обозначающие пять типов записей, найденных в InterPro (гомологическое суперсемейство, семейство, домен, повтор или сайт). [7]

Типы записей ИнтерПро [ править ]

Записи InterPro можно разделить на пять типов:

  • Гомологичное суперсемейство : группа белков, которые имеют общее эволюционное происхождение, что видно по их структурному сходству, даже если их последовательности не очень похожи. Эти записи предоставляются только двумя базами данных участников: CATH-Gene3D и SUPERFAMILY.
  • Семейство : группа белков, имеющих общее эволюционное происхождение, определяемое структурным сходством, родственными функциями или гомологией последовательностей .
  • Домен: Отдельная единица белка с определенной функцией, структурой или последовательностью.
  • Повтор: Последовательность аминокислот, обычно не длиннее 50 аминокислот, которая имеет тенденцию повторяться в белке много раз.
  • Сайт: короткая последовательность аминокислот, в которой консервативна хотя бы одна аминокислота. К ним относятся сайты посттрансляционной модификации , консервативные сайты, сайты связывания и активные сайты .

Доступ [ править ]

База данных доступна для поиска по тексту и последовательностям через веб-сервер, а также для загрузки через анонимный FTP. Как и другие базы данных EBI , она находится в открытом доступе , поскольку ее содержимое может использоваться «любым лицом и для любых целей». [8] InterPro стремится публиковать данные каждые 8 ​​недель, обычно в течение дня после выпуска UniProtKB тех же белков.

Интерфейс прикладного программирования (API) InterPro [ править ]

InterPro предоставляет API для программного доступа ко всем записям InterPro и связанным с ними записям в формате Json . [9] Существует шесть основных конечных точек API, соответствующих различным типам данных InterPro: запись, белок, структура, таксономия, протеом и набор.

ИнтерПроСкан [ править ]

InterProScan — это программный пакет, который позволяет пользователям сканировать последовательности на предмет сигнатур членских баз данных. Пользователи могут использовать это программное обеспечение для сканирования сигнатур для функциональной характеристики новых нуклеотидных или белковых последовательностей. [10] InterProScan часто используется в геномных проектах для получения «первичной» характеристики интересующего генома. [11] [12] По состоянию на декабрь 2020 г. общедоступная версия InterProScan (v5.x) использует архитектуру на основе Java . [13] В настоящее время пакет программного обеспечения поддерживается только в 64-битной операционной системе Linux .

Доступ к InterProScan, наряду со многими другими инструментами биоинформатики EMBL-EBI, также можно получить программно с помощью API-интерфейсов веб-служб RESTful и SOAP . [14]

См. также [ править ]

Ссылки [ править ]

  1. ^ Блюм М., Чанг Х.И., Чугурански С., Грего Т., Кандасаами С., Митчелл А. и др. (ноябрь 2020 г.). «База данных белковых семейств и доменов InterPro: 20 лет спустя» . Исследования нуклеиновых кислот . 49 (Д1): Д344–Д354. дои : 10.1093/nar/gkaa977 . ПМЦ   7778928 . ПМИД   33156333 .
  2. ^ Хантер С., Джонс П., Митчелл А., Апвейлер Р., Эттвуд Т.К., Бейтман А. и др. (январь 2012 г.). «ИнтерПро в 2011 году: новые разработки в базе данных прогнозирования семейств и доменов» . Исследования нуклеиновых кислот . 40 (Проблема с базой данных): D306-12. дои : 10.1093/nar/gkr948 . ПМК   3245097 . ПМИД   22096229 .
  3. ^ Апвейлер Р. , Эттвуд Т.К. , Байрох А. , Бейтман А. , Бирни Э. , Бисвас М. и др. (январь 2001 г.). «База данных InterPro, интегрированный ресурс документации по семействам белков, доменам и функциональным сайтам» . Исследования нуклеиновых кислот . 29 (1): 37–40. дои : 10.1093/нар/29.1.37 . ПМК   29841 . ПМИД   11125043 .
  4. ^ Апвейлер Р. , Эттвуд Т.К. , Байрох А. , Бейтман А. , Бирни Э. , Бисвас М. и др. (декабрь 2000 г.). «InterPro — интегрированный ресурс документации по семействам белков, доменам и функциональным сайтам» . Биоинформатика . 16 (12): 1145–50. дои : 10.1093/биоинформатика/16.12.1145 . ПМИД   11159333 .
  5. ^ Jump up to: Перейти обратно: а б Блюм, Матиас; Чанг, Синь-Ю; Чугуранский, Сара; Грего, Тьяго; Кандасаами, Сваати; Митчелл, Алекс; Нука, Дар; Пейсан-Лафосс, Тифен; Куреши, Матлуб; Радж, Шрия; Ричардсон, Лорна (06 ноября 2020 г.). «База данных белковых семейств и доменов InterPro: 20 лет спустя» . Исследования нуклеиновых кислот . 49 (Д1): Д344–Д354. дои : 10.1093/nar/gkaa977 . ISSN   0305-1048 . ПМЦ   7778928 . ПМИД   33156333 .
  6. ^ ЭМБЛ-ЭБИ. «Откуда данные? | ИнтерПро» . Проверено 4 декабря 2020 г.
  7. ^ ЭМБЛ-ЭБИ. «Типы записей ИнтерПро | ИнтерПро» . Проверено 4 декабря 2020 г.
  8. ^ «Условия использования услуг EMBL-EBI | Европейский институт биоинформатики» .
  9. ^ «Как скачать данные InterPro? — Документация InterPro» . interpro-documentation.readthedocs.io . Проверено 4 декабря 2020 г.
  10. ^ Кевиллон Э., Силвентойнен В., Пиллаи С., Харт Н., Малдер Н., Апвейлер Р., Лопес Р. (июль 2005 г.). «InterProScan: идентификатор белковых доменов» (Бесплатный полный текст) . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W116-20. дои : 10.1093/nar/gki442 . ПМК   1160203 . ПМИД   15980438 .
  11. ^ Ландер Э.С. , Линтон Л.М., Биррен Б., Нусбаум С., Зоди М.С., Болдуин Дж. и др. (февраль 2001 г.). «Первичное секвенирование и анализ генома человека» (PDF) . Природа . 409 (6822): 860–921. Бибкод : 2001Natur.409..860L . дои : 10.1038/35057062 . ПМИД   11237011 .
  12. ^ Холт Р.А., Субраманиан Г.М., Халперн А., Саттон Г.Г., Чарлаб Р., Нусскерн Д.Р. и др. (октябрь 2002 г.). «Последовательность генома малярийного комара Anopheles gambiae». Наука . 298 (5591): 129–49. Бибкод : 2002Sci...298..129H . CiteSeerX   10.1.1.149.9058 . дои : 10.1126/science.1076181 . ПМИД   12364791 . S2CID   4512225 .
  13. ^ Джонс П., Биннс Д., Чанг Х.И., Фрейзер М., Ли В., Маканулла С. и др. (май 2014 г.). «InterProScan 5: классификация функций белков в масштабе генома» . Биоинформатика . 30 (9): 1236–40. doi : 10.1093/биоинформатика/btu031 . ПМЦ   3998142 . ПМИД   24451626 .
  14. ^ Мадейра Ф., Пак Ю.М., Ли Дж., Бусо Н., Гур Т., Мадхусуданан Н. и др. (июль 2019 г.). «API-интерфейсы инструментов поиска и анализа последовательностей EMBL-EBI в 2019 году» . Исследования нуклеиновых кислот . 47 (П1): W636–W641. дои : 10.1093/nar/gkz268 . ПМК   6602479 . ПМИД   30976793 .

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7f4b362e9c56e00099c4a6c51d992c53__1700832480
URL1:https://arc.ask3.ru/arc/aa/7f/53/7f4b362e9c56e00099c4a6c51d992c53.html
Заголовок, (Title) документа по адресу, URL1:
InterPro - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)