ЮниПрот
Содержание | |
---|---|
Описание | UniProt — это универсальный ресурс по белкам , центральное хранилище данных о белках Swiss-Prot, TrEMBL и PIR-PSD , созданное путем объединения баз данных . |
Типы данных захвачен | Белковая аннотация |
Организмы | Все |
Контакт | |
Исследовательский центр | EMBL-EBI , Великобритания; СИБ , Швейцария; ПИР , США. |
Первичное цитирование | Консорциум ЮниПрот [1] |
Доступ | |
Формат данных | Пользовательский плоский файл, FASTA , GFF , RDF , XML . |
Веб-сайт | www www |
URL-адрес загрузки | www |
веб-службы URL-адрес | Да – JAVA API см. информацию здесь , а REST см. информацию здесь. |
Инструменты | |
Интернет | Расширенный поиск, BLAST , Clustal O, массовое извлечение/загрузка, сопоставление идентификаторов |
Разнообразный | |
Лицензия | Creative Commons с указанием авторства – без производных |
Управление версиями | Да |
Выпуск данных частота | 8 недель |
Политика курирования | Да, ручной и автоматический. Правила автоматического аннотирования, генерируемые кураторами базы данных и вычислительными алгоритмами. |
Добавить в закладки сущности | Да – как отдельные записи белков, так и поиск |
UniProt — это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, полученной из научной литературы. Его поддерживает консорциум UniProt, в который входят несколько европейских биоинформатических организаций и фонд из Вашингтона, округ Колумбия , США.
Консорциум UniProt
[ редактировать ]В консорциум UniProt входят Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Экспертная система анализа белков), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, организованный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Маргарет Дэйхофф , впервые опубликованного в 1965 году. Атласа последовательности и структуры белков [2] В 2002 году EBI, SIB и PIR объединили свои усилия в консорциум UniProt. [3]
Истоки баз данных UniProt
[ редактировать ]Каждый член консорциума активно участвует в ведении и аннотировании базы данных белков. До недавнего времени EBI и SIB вместе создавали базы данных Swiss-Prot и TrEMBL, а PIR создавал базу данных белковых последовательностей (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с разным охватом последовательностей белков и приоритетами аннотаций.
Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики , а затем разработан Рольфом Апвейлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot стремилась предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описанием функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высокой уровень интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслированных нуклеотидных последовательностей EMBL) для предоставления автоматических аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные с ним базы данных, включая iProClass , базу данных белковых последовательностей и курируемых семейств.
Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]
Организация баз данных UniProt
[ редактировать ]UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.
УниПротКБ
[ редактировать ]База знаний UniProt (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные записи с аннотациями вручную) и UniProtKB/TrEMBL (содержащая непроверенные записи с автоматическими аннотациями). [11] По состоянию на 22 февраля 2023 г. [update], версия UniProtKB/Swiss-Prot «2023_01» содержит 569 213 записей последовательностей (содержащих 205 728 242 аминокислоты, извлеченных из 291 046 ссылок), а версия UniProtKB/TrEMBL «2023_01» содержит 245 871 724 записи последовательностей (содержащих 85 739 380 194 аминокислоты). кислоты). [12]
UniProtKB/Swiss-Prot
[ редактировать ]UniProtKB/Swiss-Prot — это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и биокуратором компьютерный анализ, оцененный . Целью UniProtKB/Swiss-Prot является предоставление всей известной соответствующей информации о конкретном белке. Аннотация регулярно пересматривается, чтобы быть в курсе последних научных открытий. Ручная аннотация записи включает подробный анализ последовательности белка и научной литературы. [13]
Последовательности одного и того же гена и одного и того же вида объединяются в одну и ту же запись базы данных. Выявляются различия между последовательностями и документируются их причины (например, альтернативный сплайсинг , естественные вариации , неправильные инициации сайты , неправильные границы экзонов , сдвиг рамки считывания , неидентифицированные конфликты). В аннотациях записей UniProtKB/Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты отбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]
Соответствующие публикации идентифицируются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, информация извлекается и добавляется к записи. Аннотация, вытекающая из научной литературы, включает, помимо прочего: [10] [13] [14]
- Названия белков и генов
- Функция
- Информация, специфичная для фермента , такая как каталитическая активность , кофакторы и каталитические остатки.
- Субклеточное расположение
- Белково-белковые взаимодействия
- Образец выражения
- Расположение и роли важных доменов и сайтов
- Ион- , субстрат- и кофактор-связывающие сайты
- Вариантные формы белка, полученные путем естественной генетической изменчивости, редактирования РНК , альтернативного сплайсинга, протеолитического процессинга и посттрансляционной модификации.
Аннотированные записи проходят проверку качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.
УниПротКБ/ТрЕМБЛ
[ редактировать ]UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате проектов по геному, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB/Swiss-Prot не мог быть расширен, чтобы включить все доступные белковые последовательности. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL.UniProtKB/TrEMBL также содержит последовательности из PDB и предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]
ЮниПарк
[ редактировать ]UniProt Archive (UniParc) — это комплексная и неизбыточная база данных, которая содержит все белковые последовательности из основных общедоступных баз данных белковых последовательностей. [17] Белки могут существовать в нескольких разных исходных базах данных и в нескольких копиях в одной базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотаций. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.
Исходные базы данных
[ редактировать ]В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:
- INSDC EMBL -Bank/ DDBJ / GenBank Базы данных нуклеотидных последовательностей
- Вместе
- Европейское патентное ведомство (ЕПВ)
- FlyBase: основное хранилище генетических и молекулярных данных семейства насекомых Drosophilidae (FlyBase).
- База данных H-Invitational (H-Inv)
- Международный белковый индекс (IPI)
- Патентное ведомство Японии (JPO)
- Информационный ресурс о белках (PIR-PSD)
- Банк данных белков (PDB)
- Фонд исследования белка (PRF) [18]
- RefSeq
- База данных геномов сахаромицетов (SGD)
- Информационный ресурс арабидопсиса (TAIR)
- ТРОМ [19]
- Патентное ведомство США (USPTO)
- UniProtKB/Swiss-Prot, изоформы белка UniProtKB/Swiss-Prot, UniProtKB/TrEMBL
- База данных аннотаций геномов и позвоночных (VEGA)
- Червячная база
UniRef
[ редактировать ]Эталонные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов белковых последовательностей из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. последовательность репрезентативного белка, инвентарные номера Отображаются всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% или 50% идентичности последовательностей соответственно до самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.
UniRef доступен на FTP-сайте UniProt .
Финансирование
[ редактировать ]UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]
Ссылки
[ редактировать ]- ^ ЮниПрот, Консорциум. (январь 2015 г.). «UniProt: центр информации о белках» . Исследования нуклеиновых кислот . 43 (Проблема с базой данных): D204–12. дои : 10.1093/nar/gku989 . ПМЦ 4384041 . ПМИД 25348405 .
- ^ Дайхофф, Маргарет О. (1965). Атлас последовательности и структуры белков . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
- ^ «Выпуск 2002 г.: Глобальная база данных по белкам, финансируемая NHGRI» . Национальный институт исследования генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Проверено 14 апреля 2018 г.
- ^ О'Донован, К.; Мартин, MJ; Гаттикер, А.; Гастайгер, Э.; Байрох, А.; Апвейлер, Р. (2002). «Ресурс знаний о высококачественных белках: SWISS-PROT и TrEMBL» . Брифинги по биоинформатике . 3 (3): 275–284. дои : 10.1093/нагрудник/3.3.275 . ПМИД 12230036 .
- ^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар Дж.; Чен, Ю.; Ху, З.; Куртезис, П.; Ледли, РС; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках» . Исследования нуклеиновых кислот . 31 (1): 345–347. дои : 10.1093/нар/gkg040 . ПМК 165487 . ПМИД 12520019 .
- ^ Бекманн, Б.; Байрох, А.; Апвейлер, Р.; Блаттер, MC; Эстрайхер, А.; Гастайгер, Э.; Мартин, MJ; Мишуд, К.; О'Донован, К.; Фан, И.; Пилбоут, С.; Шнайдер, М. (2003). «База знаний по белкам SWISS-PROT и ее дополнение TrEMBL в 2003 году» . Исследования нуклеиновых кислот . 31 (1): 365–370. дои : 10.1093/нар/gkg095 . ПМК 165542 . ПМИД 12520024 .
- ^ Байрох, А.; Апвейлер, Р. (1996). «Банк данных последовательностей белков SWISS-PROT и его новое дополнение TREMBL» . Исследования нуклеиновых кислот . 24 (1): 21–25. дои : 10.1093/нар/24.1.21 . ПМЦ 145613 . ПМИД 8594581 .
- ^ Байрох, А. (2000). «Интуиция в биоинформатике: невзгоды швейцарского биоинформатика в захватывающие времена!» . Биоинформатика . 16 (1): 48–64. дои : 10.1093/биоинформатика/16.1.48 . ПМИД 10812477 .
- ^ Северин Альтаирак, « Рождение базы данных: Интервью с профессором Амосом Байрохом ». Белки в центре внимания , август 2006 г. ISSN 1660-9824 .
- ^ Jump up to: а б с Апвейлер, Р.; Байрох, А.; Ву, CH (2004). «База данных последовательностей белков». Современное мнение в области химической биологии . 8 (1): 76–80. дои : 10.1016/j.cbpa.2003.12.004 . ПМИД 15036160 .
- ^ Jump up to: а б Юнипрот, К. (2009). «Универсальный ресурс белка (UniProt) в 2010 году» . Исследования нуклеиновых кислот . 38 (Проблема с базой данных): D142–D148. дои : 10.1093/nar/gkp846 . ПМК 2808944 . ПМИД 19843607 .
- ^ «Статистика UniProtKB/Swiss-Prot Release 2023_01» . web.expasy.org . Проверено 31 марта 2023 г.
- ^ Jump up to: а б с «Как вручную аннотировать запись UniProtKB?» . ЮниПрот . 21 сентября 2011 г. Архивировано из оригинала 13 декабря 2013 г. Проверено 14 апреля 2018 г.
- ^ Jump up to: а б Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, К.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний о белках» . Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК 308865 . ПМИД 14681372 .
- ^ «Откуда берутся белковые последовательности UniProtKB?» . ЮниПрот . 21 сентября 2011 года. Архивировано из оригинала 15 декабря 2013 года . Проверено 14 апреля 2018 г.
- ^ Хассабис, Демис (22 июля 2022 г.). «Передача силы AlphaFold в руки всего мира» . Глубокий разум . Архивировано из оригинала 24 июля 2021 года . Проверено 24 июля 2021 г.
- ^ Лейнонен, Р.; Диес, ФГ; Биннс, Д.; Флейшманн, В.; Лопес, Р.; Апвейлер, Р. (2004). «Архив ЮниПрот» . Биоинформатика . 20 (17): 3236–3237. doi : 10.1093/биоинформатика/bth191 . ПМИД 15044231 . Архивировано (PDF) из оригинала 30 марта 2024 г.
- ^ «Фонд исследования белка» .
- ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ постоянная мертвая ссылка ]
- ^ Jump up to: а б Сузек, Б.Е.; Хуанг, Х.; МакГарви, П.; Мазумдер, Р.; Ву, CH (2007). «UniRef: Комплексные и неизбыточные эталонные кластеры UniProt». Биоинформатика . 23 (10): 1282–1288. doi : 10.1093/биоинформатика/btm098 . ПМИД 17379688 .
- ^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282–283. дои : 10.1093/биоинформатика/17.3.282 . ПМИД 11294794 .