Jump to content

ЮниПрот

(Перенаправлено с TrEMBL )
ЮниПрот
Содержание
Описание UniProt — это универсальный ресурс по белкам , центральное хранилище данных о белках, Swiss-Prot, TrEMBL и PIR-PSD созданное путем объединения баз данных .
Типы данных
захвачен
Белковая аннотация
Организмы Все
Контакт
Исследовательский центр EMBL-EBI , Великобритания; СИБ , Швейцария; ПИР , США.
Первичное цитирование Консорциум ЮниПрот [ 1 ]
Доступ
Формат данных Пользовательский плоский файл, FASTA , GFF , RDF , XML .
Веб-сайт www .uniprot .org
www .uniprot .org /новости /
URL-адрес загрузки www .uniprot .org /downloads и для загрузки полных наборов данных по FTP .uniprot .org
веб-службы URL-адрес Да – JAVA API см. информацию здесь , а REST см. информацию здесь.
Инструменты
Интернет Расширенный поиск, BLAST , Clustal O, массовое извлечение/загрузка, сопоставление идентификаторов
Разнообразный
Лицензия Creative Commons с указанием авторства – без производных
Управление версиями Да
Выпуск данных
частота
8 недель
Политика курирования Да, ручной и автоматический. Правила автоматического аннотирования, генерируемые кураторами базы данных и вычислительными алгоритмами.
Добавить в закладки
сущности
Да – как отдельные записи белков, так и поиск

UniProt — это свободно доступная база данных последовательностей белков и функциональной информации, многие записи взяты из проектов секвенирования генома . Он содержит большой объем информации о биологической функции белков, полученной из научной литературы. Его поддерживает консорциум UniProt, в который входят несколько европейских биоинформатических организаций и фонд из Вашингтона, округ Колумбия , США.

Консорциум UniProt

[ редактировать ]

В консорциум UniProt входят Европейский институт биоинформатики (EBI), Швейцарский институт биоинформатики (SIB) и Информационный ресурс по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, содержит большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Экспертная система анализа белков), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, организованный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Маргарет Дэйхофф , впервые опубликованного в 1965 году. Атласа последовательности и структуры белков [ 2 ] В 2002 году EBI, SIB и PIR объединили свои усилия в консорциум UniProt. [ 3 ]

Корни баз данных UniProt

[ редактировать ]

Каждый член консорциума активно участвует в ведении и аннотировании базы данных белков. До недавнего времени EBI и SIB вместе создавали базы данных Swiss-Prot и TrEMBL, а PIR создавал базу данных белковых последовательностей (PIR-PSD). [ 4 ] [ 5 ] [ 6 ] Эти базы данных сосуществовали с разным охватом последовательностей белков и приоритетами аннотаций.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики , а затем разработан Рольфом Апвейлером в Европейском институте биоинформатики . [ 7 ] [ 8 ] [ 9 ] Swiss-Prot стремилась предоставить надежные белковые последовательности, связанные с высоким уровнем аннотации (например, описанием функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высокой уровень интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей возможности Swiss-Prot, была создана TrEMBL (Библиотека данных транслированных нуклеотидных последовательностей EMBL) для предоставления автоматических аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные с ним базы данных, включая iProClass , базу данных белковых последовательностей и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [ 10 ]

Организация баз данных UniProt

[ редактировать ]

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

УниПротКБ

[ редактировать ]

База знаний UniProt (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные записи с аннотациями вручную) и UniProtKB/TrEMBL (содержащая непроверенные записи с автоматическими аннотациями). [ 11 ] По состоянию на 22 февраля 2023 г. , версия UniProtKB/Swiss-Prot «2023_01» содержит 569 213 записей последовательностей (содержащих 205 728 242 аминокислоты, извлеченных из 291 046 ссылок), а версия UniProtKB/TrEMBL «2023_01» содержит 245 871 724 записи последовательностей (содержащих 85 739 380 194 аминокислоты). кислоты). [ 12 ]

UniProtKB/Swiss-Prot

[ редактировать ]

UniProtKB/Swiss-Prot — это аннотированная вручную неизбыточная база данных последовательностей белков. Он сочетает в себе информацию, извлеченную из научной литературы, и биокуратором компьютерный анализ, оцененный . Целью UniProtKB/Swiss-Prot является предоставление всей известной соответствующей информации о конкретном белке. Аннотация регулярно пересматривается, чтобы быть в курсе последних научных открытий. Ручная аннотация записи включает подробный анализ последовательности белка и научной литературы. [ 13 ]

Последовательности одного и того же гена и одного и того же вида объединяются в одну и ту же запись базы данных. Выявляются различия между последовательностями и документируются их причины (например, альтернативный сплайсинг , естественные вариации , неправильные инициации сайты , неправильные границы экзонов , сдвиг рамки считывания , неидентифицированные конфликты). В аннотациях записей UniProtKB/Swiss-Prot используется ряд инструментов анализа последовательностей. Компьютерные прогнозы оцениваются вручную, и соответствующие результаты отбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [ 13 ] [ 14 ]

Соответствующие публикации идентифицируются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, информация извлекается и добавляется к записи. Аннотация, вытекающая из научной литературы, включает, помимо прочего: [ 10 ] [ 13 ] [ 14 ]

Аннотированные записи проходят проверку качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

УниПротКБ/ТрЕМБЛ

[ редактировать ]

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые дополнены автоматическими аннотациями. Он был введен в ответ на увеличение потока данных в результате проектов по геному, поскольку трудоемкий и трудоемкий процесс ручного аннотирования UniProtKB/Swiss-Prot не мог быть расширен, чтобы включить все доступные белковые последовательности. [ 10 ] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и предсказания генов, включая Ensembl , RefSeq и CCDS . [ 15 ] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [ 16 ]

UniProt Archive (UniParc) — это комплексная и неизбыточная база данных, которая содержит все белковые последовательности из основных общедоступных баз данных белковых последовательностей. [ 17 ] Белки могут существовать в нескольких разных исходных базах данных и в нескольких копиях в одной базе данных. Чтобы избежать избыточности, UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), позволяющий идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только белковые последовательности без аннотаций. Перекрестные ссылки базы данных в записях UniParc позволяют получить дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

[ редактировать ]

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

Эталонные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов белковых последовательностей из UniProtKB и выбранных записей UniParc. [ 20 ] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. последовательность репрезентативного белка, инвентарные номера Отображаются всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [ 20 ] [ 21 ] Каждый кластер состоит из последовательностей, которые имеют по меньшей мере 90% или 50% идентичности последовательностей соответственно до самой длинной последовательности. Кластеризация последовательностей значительно уменьшает размер базы данных, обеспечивая более быстрый поиск последовательностей.

UniRef доступен на FTP-сайте UniProt .

Финансирование

[ редактировать ]

UniProt финансируется за счет грантов Национального института исследования генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [ 11 ]

  1. ^ ЮниПрот, Консорциум. (январь 2015 г.). «UniProt: центр информации о белках» . Исследования нуклеиновых кислот . 43 (Проблема с базой данных): D204–12. дои : 10.1093/nar/gku989 . ПМЦ   4384041 . ПМИД   25348405 .
  2. ^ Дайхофф, Маргарет О. (1965). Атлас последовательности и структуры белков . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
  3. ^ «Выпуск 2002 г.: Глобальная база данных по белкам, финансируемая NHGRI» . Национальный институт исследования генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Проверено 14 апреля 2018 г.
  4. ^ О'Донован, К.; Мартин, MJ; Гаттикер, А.; Гастайгер, Э.; Байрох, А.; Апвейлер, Р. (2002). «Ресурс знаний о высококачественных белках: SWISS-PROT и TrEMBL» . Брифинги по биоинформатике . 3 (3): 275–284. дои : 10.1093/нагрудник/3.3.275 . ПМИД   12230036 .
  5. ^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар, Дж.; Чен, Ю.; Ху, З.; С уважением, П.; Ледли, RS; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках» . Исследования нуклеиновых кислот . 31 (1): 345–347. дои : 10.1093/нар/gkg040 . ПМК   165487 . ПМИД   12520019 .
  6. ^ Бекманн, Б.; Байрох, А.; Апвейлер, Р.; Блаттер, MC; Эстрайхер, А.; Гастайгер, Э.; Мартин, MJ; Мишуд, К.; О'Донован, К.; Фан, И.; Пилбоут, С.; Шнайдер, М. (2003). «База знаний по белкам SWISS-PROT и ее дополнение TrEMBL в 2003 году» . Исследования нуклеиновых кислот . 31 (1): 365–370. дои : 10.1093/нар/gkg095 . ПМК   165542 . ПМИД   12520024 .
  7. ^ Байрох, А.; Апвейлер, Р. (1996). «Банк данных последовательностей белков SWISS-PROT и его новое дополнение TREMBL» . Исследования нуклеиновых кислот . 24 (1): 21–25. дои : 10.1093/нар/24.1.21 . ПМЦ   145613 . ПМИД   8594581 .
  8. ^ Байрох, А. (2000). «Интуиция в биоинформатике: невзгоды швейцарского биоинформатика в захватывающие времена!» . Биоинформатика . 16 (1): 48–64. дои : 10.1093/биоинформатика/16.1.48 . ПМИД   10812477 .
  9. ^ Северин Альтаирак, « Рождение базы данных: интервью с профессором Амосом Байрохом ». Белки в центре внимания , август 2006 г. ISSN   1660-9824 .
  10. ^ Перейти обратно: а б с Апвейлер, Р.; Байрох, А.; Ву, CH (2004). «База данных последовательностей белков». Современное мнение в области химической биологии . 8 (1): 76–80. дои : 10.1016/j.cbpa.2003.12.004 . ПМИД   15036160 .
  11. ^ Перейти обратно: а б Юнипрот, К. (2009). «Универсальный ресурс белка (UniProt) в 2010 году» . Исследования нуклеиновых кислот . 38 (Проблема с базой данных): D142–D148. дои : 10.1093/nar/gkp846 . ПМК   2808944 . ПМИД   19843607 .
  12. ^ «Статистика UniProtKB/Swiss-Prot Release 2023_01» . web.expasy.org . Проверено 31 марта 2023 г.
  13. ^ Перейти обратно: а б с «Как вручную аннотировать запись UniProtKB?» . ЮниПрот . 21 сентября 2011 года. Архивировано из оригинала 13 декабря 2013 года . Проверено 14 апреля 2018 г.
  14. ^ Перейти обратно: а б Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, Дж.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний о белках» . Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК   308865 . ПМИД   14681372 .
  15. ^ «Откуда берутся белковые последовательности UniProtKB?» . ЮниПрот . 21 сентября 2011 г. Архивировано из оригинала 15 декабря 2013 г. Проверено 14 апреля 2018 г.
  16. ^ Хассабис, Демис (22 июля 2022 г.). «Передача силы AlphaFold в руки всего мира» . Глубокий разум . Архивировано из оригинала 24 июля 2021 года . Проверено 24 июля 2021 г.
  17. ^ Лейнонен, Р.; Диес, ФГ; Биннс, Д.; Флейшманн, В.; Лопес, Р.; Апвейлер, Р. (2004). «Архив ЮниПрот» . Биоинформатика . 20 (17): 3236–3237. doi : 10.1093/биоинформатика/bth191 . ПМИД   15044231 . Архивировано (PDF) из оригинала 30 марта 2024 г.
  18. ^ «Фонд исследования белка» .
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ постоянная мертвая ссылка ]
  20. ^ Перейти обратно: а б Сузек, Б.Е.; Хуанг, Х.; МакГарви, П.; Мазумдер, Р.; Ву, CH (2007). «UniRef: комплексные и неизбыточные эталонные кластеры UniProt». Биоинформатика . 23 (10): 1282–1288. doi : 10.1093/биоинформатика/btm098 . ПМИД   17379688 .
  21. ^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282–283. дои : 10.1093/биоинформатика/17.3.282 . ПМИД   11294794 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d3adc09121951bef492680bb5d96068d__1721127660
URL1:https://arc.ask3.ru/arc/aa/d3/8d/d3adc09121951bef492680bb5d96068d.html
Заголовок, (Title) документа по адресу, URL1:
UniProt - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)