Jump to content

Пфам

Пфам
Содержание
Описание База данных Pfam предоставляет выравнивания и скрытые модели Маркова для белковых доменов.
Типы данных
захвачен
Белковые семейства
Организмы все
Контакт
Исследовательский центр СЕМЬЯ
Первичное цитирование ПМИД   19920124
Доступ
Формат данных Стокгольмский формат
Веб-сайт www .семья .uk /интерпро /вход /пфам / #стол
URL-адрес загрузки FTP
Разнообразный
Лицензия Меньшая стандартная общественная лицензия GNU
Версия 36.0
Добавить в закладки
сущности
да

Pfam — это база данных семейств белков , которая включает их аннотации и множественные выравнивания последовательностей, созданные с использованием скрытых моделей Маркова . [1] [2] [3] Последняя версия Pfam, 36.0, была выпущена в сентябре 2023 года и содержит 20 795 семейств. [4] В настоящее время он предоставляется через базу данных InterPro .

Использование

[ редактировать ]

Основная цель базы данных Pfam — предоставить полную и точную классификацию белковых семейств и доменов. [5] Первоначально целью создания базы данных было создание полуавтоматического метод сбора информации об известных семействах белков для повышения эффективности аннотирования геномов. [6] Классификация семейств белков Pfam получила широкое признание биологов из-за широкого охвата белки и разумные соглашения об именах. [7]

Он используется биологами-экспериментаторами, исследующими конкретные белки, биологами-структуристами для определения новых целей для определения структуры, биологами-вычислителями для организации последовательностей и биологами-эволюционистами, отслеживающими происхождение белков. [8] Ранние проекты генома, такие как исследование генома человека и мух, широко использовали Pfam для функциональной аннотации геномных данных. [9] [10] [11]

Веб-сайт Pfam позволяет пользователям отправлять последовательности белков или ДНК для поиска совпадений с семьями в базе данных. шестикадровая трансляция , затем производится поиск каждого кадра. Если представлена ​​ДНК, выполняется [12] Вместо выполнения типичного поиска BLAST Pfam использует скрытые модели Маркова профиля , которые придают больший вес совпадениям в консервативных сайтах, что позволяет лучше обнаруживать гомологии на расстоянии, что делает их более подходящими для аннотирования геномов организмов, не имеющих хорошо аннотированных близких родственников. [13]

Pfam также использовался при создании других ресурсов, таких как iPfam, который каталогизирует взаимодействия доменов внутри белков и между ними на основе информации в базах данных структур и сопоставления доменов Pfam с этими структурами. [14]

Для каждой семьи в Pfam можно:

  • Посмотреть описание семьи
  • Посмотрите на несколько выравниваний
  • Посмотреть архитектуры белковых доменов
  • Изучить распространение видов
  • Следуйте ссылкам на другие базы данных
  • Просмотр известных белковых структур

Записи могут быть нескольких типов: семейные, доменные, повторы или мотивы. Семья — это класс по умолчанию, который просто указывает на то, что члены связаны между собой. Домены определяются как автономная структурная единица или единица последовательности многократного использования, которую можно найти в различных белковых контекстах. Повторы обычно не стабильны изолированно, а скорее необходимы для образования тандемных повторов, чтобы сформировать домен или расширенную структуру. Мотивы обычно представляют собой более короткие единицы последовательности, находящиеся за пределами глобулярных доменов. [9]

Описания семейств Pfam доступны широкой публике с помощью Википедии (см. #Курирование сообщества ).

По состоянию на версию 29.0 76,1% белковых последовательностей в UniprotKB соответствовали хотя бы одному домену Pfam. [15]

Создание новых записей

[ редактировать ]

Новые семейства происходят из разных источников, в первую очередь из PDB и анализа полных протеомов для поиска генов, не имеющих совпадений с Pfam. [16]

Для каждого семейства репрезентативное подмножество последовательностей выровнено в высококачественное исходное выравнивание. Последовательности для выравнивания семян взяты в основном из pfamseq (неизбыточная база данных эталонных протеомов) с некоторыми дополнениями из UniprotKB . [15] Это начальное выравнивание затем используется для построения скрытой модели Маркова профиля с использованием HMMER . Затем этот HMM просматривается в базах данных последовательностей, и все совпадения, достигающие заданного порога сбора, классифицируются как члены семейства белков. Полученный набор элементов затем выравнивается по профилю HMM для создания полного согласования.

Для каждого семейства назначается вручную определяемый порог сбора данных, который максимизирует количество истинных совпадений с семейством, исключая при этом любые ложноположительные совпадения. Ложные срабатывания оцениваются путем наблюдения за совпадениями между попаданиями семейства Pfam, не принадлежащими к одному и тому же клану. Этот порог используется для оценки того, должно ли соответствие семейству HMM быть включено в семейство белков. При каждом обновлении Pfam пороговые значения сбора пересматриваются, чтобы предотвратить дублирование между новыми и существующими семействами. [16]

Домены неизвестной функции

[ редактировать ]

Домены неизвестной функции (DUF) представляют собой растущую часть базы данных Pfam. Семейства названы так потому, что было обнаружено, что они сохраняются у разных видов, но выполняют неизвестную роль. Каждому вновь добавленному DUF присваивается имя в порядке добавления. Названия этих записей обновляются по мере определения их функций. Обычно, когда определена функция хотя бы одного белка, принадлежащего DUF, функция всего DUF обновляется и семейство переименовывается. Некоторые названные семейства до сих пор представляют собой домены с неизвестной функцией и названы в честь репрезентативного белка, например YbbR. Ожидается, что количество DUF будет продолжать расти, поскольку в данных о последовательностях продолжают выявляться консервативные последовательности с неизвестной функцией. Ожидается, что DUF в конечном итоге превзойдут по численности семейства с известными функциями. [16]

Со временем охват как последовательностей, так и остатков увеличился, и по мере роста семей было обнаружено больше эволюционных связей, позволяющих группировать семейства в кланы. [8] Кланы были впервые представлены в базе данных Pfam в 2005 году. Они представляют собой группы родственных семейств, имеющих единое эволюционное происхождение, что подтверждается структурными, функциональными, последовательностями и сравнениями HMM. [5] В версии 29.0 примерно треть семейств белков принадлежала к клану. [15] К 2019 году эта часть выросла примерно до трех четвертей (версия 32.0). [17]

Для выявления возможных клановых связей кураторы Pfam используют программу Simple Comparison Of Outputs (SCOOP), а также информацию из базы данных ECOD . [17] ECOD представляет собой полуавтоматическую иерархическую базу данных семейств белков с известными структурами, семейства которых легко сопоставляются с записями Pfam, а уровни гомологии обычно сопоставляются с кланами Pfam. [18]

Pfam была основана в 1995 году Эриком Зоннхаммером, Шоном Эдди и Ричардом Дурбином как коллекция часто встречающихся белковых доменов, которые можно было использовать для аннотирования генов, кодирующих белки многоклеточных животных. [6] Одной из основных целей проекта на момент его создания было оказание помощи в аннотации генома C. elegans . [6] Частично проект был обусловлен утверждением Сайруса Чотиа в книге «Тысяча семейств для молекулярного биолога» о том, что существует около 1500 различных семейств белков и что большинство белков попадает всего лишь в 1000 из них. [5] [19] Вопреки этому утверждению, база данных Pfam в настоящее время содержит 16 306 записей, соответствующих уникальным белковым доменам и семействам. Однако многие из этих семейств содержат структурные и функциональные сходства, указывающие на общее эволюционное происхождение (см. Кланы ). [5]

Основным отличием между Pfam и другими базами данных на момент его создания было использование двух типов выравнивания для записей: меньшего, проверяемого вручную начального выравнивания, а также полного выравнивания, построенного путем выравнивания последовательностей по скрытой марковской модели профиля. построено на основе семенного выравнивания. Это меньшее выравнивание исходных данных было легче обновлять по мере выхода новых версий баз данных последовательностей, и, таким образом, оно представляло собой многообещающее решение дилеммы о том, как поддерживать базу данных в актуальном состоянии, поскольку секвенирование генома становилось более эффективным и со временем необходимо было обрабатывать больше данных. . Дальнейшее улучшение скорости обновления базы данных произошло в версии 24.0 с появлением HMMER3, который примерно в 100 раз быстрее, чем HMMER2, и более чувствителен. [8]

Поскольку записи в Pfam-A не охватывают все известные белки, была предоставлена ​​автоматически создаваемая добавка под названием Pfam-B. Pfam-B содержал большое количество небольших семейств, полученных из кластеров, созданных с помощью алгоритма ADDA. [20] Хотя семейства Pfam-B имеют более низкое качество, они могут быть полезны, если семейства Pfam-A не обнаружены. Производство Pfam-B прекращено начиная с версии 28.0. [21] затем вновь представлен в версии 33.1 с использованием нового алгоритма кластеризации MMSeqs2. [22]

Первоначально Pfam размещался на трех зеркальных сайтах по всему миру, чтобы обеспечить избыточность. Однако в период с 2012 по 2014 год ресурс Pfam был перенесен на EMBL-EBI , что позволило размещать веб-сайт с одного домена (xfam.org), используя дублирующие независимые центры обработки данных. Это позволило лучше централизовать обновления и сгруппировать их с другими проектами Xfam, такими как Rfam , TreeFam , iPfam и другими, сохраняя при этом критическую устойчивость, обеспечиваемую хостингом из нескольких центров. [23]

Примерно с 2014 по 2016 год Pfam претерпел существенную реорганизацию, чтобы еще больше сократить ручной труд, связанный с курированием, и обеспечить более частые обновления. [15] Примерно в 2022 году Pfam был интегрирован в InterPro в Европейском институте биоинформатики . [24]

Курирование сообщества

[ редактировать ]

Курирование такой большой базы данных создавало проблемы с учетом количества новых семей и обновленной информации, которую необходимо было добавлять. Чтобы ускорить выпуск базы данных, разработчики запустили ряд инициатив, позволяющих более активно вовлекать сообщество в управление базой данных.

Важным шагом в ускорении темпов обновления и улучшения записей стало открытие функциональных аннотаций доменов Pfam для сообщества Википедии в версии 26.0. [16] Для записей, у которых уже была запись в Википедии, она была связана со страницей Pfam, а для тех, у которых ее не было, сообществу было предложено создать ее и сообщить кураторам, чтобы на нее была установлена ​​ссылка. Ожидается, что хотя участие сообщества значительно повысит уровень аннотирования этих семейств, некоторые из них останутся недостаточно заметными для включения в Википедию, и в этом случае они сохранят свое исходное описание Pfam. Некоторые статьи в Википедии охватывают несколько семейств, например статья о цинковых пальцах . Также реализована автоматизированная процедура генерации статей на основе данных InterPro и Pfam, которая заполняет страницу информацией и ссылками на базы данных, а также доступные изображения, а затем, после просмотра статьи куратором, она перемещается из песочницы в Собственно Arc.Ask3.Ru. Чтобы защитить статьи от вандализма, каждая редакция Википедии проверяется кураторами, прежде чем она отображается на веб-сайте Pfam. Однако почти все случаи вандализма исправлялись сообществом еще до того, как они доходили до кураторов. [16]

Pfam управляется международным консорциумом трех групп. В более ранних версиях Pfam записи о семьях можно было изменять только на сайте в Кембридже, Великобритания, что ограничивало возможности членов консорциума участвовать в курировании сайта. В версии 26.0 разработчики перешли на новую систему, которая позволяла зарегистрированным пользователям в любой точке мира добавлять или изменять семейства Pfam. [16]

См. также

[ редактировать ]
  1. ^ Финн Р.Д., Тейт Дж., Мистри Дж., Коггилл П.С., Саммут С.Дж., Хотц Х.Р., Церик Дж., Форслунд К., Эдди С.Р., Зоннхаммер Э.Л., Бейтман А. (2008). «База данных семейств белков Pfam» . Нуклеиновые кислоты Рез . 36 (Проблема с базой данных): D281–8. дои : 10.1093/нар/gkm960 . ПМК   2238907 . ПМИД   18039703 .
  2. ^ Финн, доктор медицинских наук; Мистри, Дж.; Шустер-Беклер, Б.; Гриффитс-Джонс, С.; Холлич, В.; Лассманн, Т.; Моксон, С.; Маршалл, М.; Ханна, А.; Дурбин, Р.; Эдди, СР; Зоннхаммер, Эль; Бейтман, А. (январь 2006 г.). «Pfam: кланы, веб-инструменты и сервисы» (Бесплатный полный текст) . Исследования нуклеиновых кислот . 34 (Проблема с базой данных): D247–D251. дои : 10.1093/nar/gkj149 . ISSN   0305-1048 . ПМЦ   1347511 . ПМИД   16381856 .
  3. ^ Бейтман, А .; Монета, Л.; Дурбин, Р. ; Финн, доктор медицинских наук; Холлич, В.; Гриффитс-Джонс, С.; Ханна, А.; Маршалл, М.; Моксон, С.; Зоннхаммер, Эль; Стадхолм, диджей; Йейтс, К.; Эдди, СР (2004). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 32 (Проблема с базой данных): 138D–1141. дои : 10.1093/nar/gkh121 . ISSN   0305-1048 . ПМК   308855 . ПМИД   14681378 . Значок открытого доступа
  4. ^ «Выпуск Pfam 36.0» . Блог Xfam . 18 сентября 2023 г. Проверено 24 ноября 2023 г.
  5. ^ Jump up to: а б с д Саммут, Стивен; Финн, Роберт Д.; Бейтман, Алекс (2008). «Pfam 10 лет спустя: 10 000 семей и продолжает расти» . Брифинги по биоинформатике . 9 (3): 210–219. дои : 10.1093/нагрудник/bbn010 . ПМИД   18344544 .
  6. ^ Jump up to: а б с Зоннхаммер, Эрик Л.Л.; Эдди, Шон Р.; Дурбин, Ричард (1997). «Pfam: Комплексная база данных семейств белковых доменов на основе выравнивания семян». Белки . 28 (3): 405–420. doi : 10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l . ПМИД   9223186 . S2CID   9569028 .
  7. ^ Сюй, Цифан; Данбрэк, Роланд Л. (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB» . Биоинформатика . 28 (21): 2763–2772. doi : 10.1093/биоинформатика/bts533 . ПМЦ   3476341 . ПМИД   22942020 .
  8. ^ Jump up to: а б с Финн, доктор медицинских наук; Мистри, Дж.; Тейт, Дж.; Коггилл, П.; Хегер, А.; Поллингтон, Дж. Э.; Гэвин, Огайо; Гунасекаран, П.; Церик, Г.; Форслунд, К.; Холм, Л.; Зоннхаммер, ELL; Эдди, СР; Бейтман, А. (2009). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 38 (База данных): D211–D222. дои : 10.1093/nar/gkp985 . ISSN   0305-1048 . ПМЦ   2808889 . ПМИД   19920124 .
  9. ^ Jump up to: а б Бейтман А., Бирни Э., Черрути Л., Дурбин Р., Этвиллер Л., Эдди С.Р., Гриффитс-Джонс С., Хоу К.Л., Маршалл М., Зоннхаммер Э.Л. (2002). «База данных семейств белков Pfam» . Нуклеиновые кислоты Рез . 30 (1): 276–80. дои : 10.1093/нар/30.1.276 . ПМК   99071 . ПМИД   11752314 .
  10. ^ Адамс М.Д., Селникер С.Е., Холт Р.А., Эванс К.А., Гокейн Дж.Д. и др. (2000). «Последовательность генома Drosophila melanogaster». Наука . 287 (5461): 2185–95. Бибкод : 2000Sci...287.2185. . CiteSeerX   10.1.1.549.8639 . дои : 10.1126/science.287.5461.2185 . ПМИД   10731132 .
  11. ^ Ландер, Эрик С.; Линтон, Лорен М.; Биррен, Брюс; Нусбаум, Чад; Зоди, Майкл С.; и др. (2001). «Первичное секвенирование и анализ генома человека» . Природа . 409 (6822): 860–921. дои : 10.1038/35057062 . hdl : 2027.42/62798 . ISSN   0028-0836 . ПМИД   11237011 .
  12. ^ Финн, Роберт Д.; Бейтман, Алекс; Клементс, Джоди; Коггилл, Пенелопа; Эберхардт, Рут Ю.; Эдди, Шон Р.; Хегер, Андреас; Хетерингтон, Кирсти; Холм, Лийза; Мистри, Джайна; Зоннхаммер, Эрик Л.Л.; Тейт, Джон; Пунта, Марко (2014). «Pfam: база данных семейств белков» . Исследования нуклеиновых кислот . 42 (Д1): Д222–Д230. дои : 10.1093/нар/gkt1223 . ISSN   0305-1048 . ПМЦ   3965110 . ПМИД   24288371 .
  13. ^ Зоннхаммер Э.Л., Эдди С.Р., Бирни Э., Бейтман А., Дурбин Р. (1998). «Pfam: множественное выравнивание последовательностей и HMM-профили белковых доменов» . Нуклеиновые кислоты Рез . 26 (1): 320–2. дои : 10.1093/нар/26.1.320 . ПМК   147209 . ПМИД   9399864 .
  14. ^ Финн, доктор медицинских наук; Маршалл, М.; Бейтман, А. (2004). «iPfam: визуализация белок-белковых взаимодействий в PDB с разрешением доменов и аминокислот» . Биоинформатика . 21 (3): 410–412. doi : 10.1093/биоинформатика/bti011 . ISSN   1367-4803 . ПМИД   15353450 .
  15. ^ Jump up to: а б с д Финн, Роберт Д.; Коггилл, Пенелопа; Эберхардт, Рут Ю.; Эдди, Шон Р.; Мистри, Джайна; Митчелл, Алекс Л.; Поттер, Саймон С.; Пунта, Марко; Куреши, Матлуб; Санградор-Вегас, Амайя; Салазар, Густаво А.; Тейт, Джон; Бейтман, Алекс (2016). «База данных семейств белков Pfam: к более устойчивому будущему» . Исследования нуклеиновых кислот . 44 (Д1): Д279–Д285. дои : 10.1093/нар/gkv1344 . ISSN   0305-1048 . ПМК   4702930 . ПМИД   26673716 .
  16. ^ Jump up to: а б с д и ж Пунта, М.; Коггилл, ПК; Эберхардт, РЮ; Мистри, Дж.; Тейт, Дж.; Бурснелл, К.; Панг, Н.; Форслунд, К.; Церич, Г.; Клементс, Дж.; Хегер, А.; Холм, Л.; Зоннхаммер, ELL; Эдди, СР; Бейтман, А.; Финн, Р.Д. (2011). «База данных семейств белков Pfam» . Исследования нуклеиновых кислот . 40 (Д1): Д290–Д301. дои : 10.1093/nar/gkr1065 . ISSN   0305-1048 . ПМЦ   3245129 . ПМИД   22127870 .
  17. ^ Jump up to: а б Эль-Гебали, Сара; Мистри, Джайна; Бейтман, Алекс; Эдди, Шон Р.; Лучани, Орельен; Поттер, Саймон С; Куреши, Матлуб; Ричардсон, Лорна Дж; Салазар, Густаво А; Умный, Альфредо; Зоннхаммер, Эрик Л.Л.; Хирш, Лейла; Паладин, Лисанна; Пиовесан, Дамиано; Тосатто, Сильвио CE; Финн, Роберт Д. (8 января 2019 г.). «База данных семейств белков Pfam в 2019 году» . Исследования нуклеиновых кислот . 47 (Д1): Д427–Д432. дои : 10.1093/nar/gky995 . ПМК   6324024 . ПМИД   30357350 .
  18. ^ «Эволюционная классификация белковых доменов» . prodata.swmed.edu . Проверено 18 мая 2019 г.
  19. ^ Чотия, Сайрус (1992). «Тысяча семей для молекулярного биолога» . Природа . 357 (6379): 543–544. Бибкод : 1992Natur.357..543C . дои : 10.1038/357543a0 . ISSN   0028-0836 . ПМИД   1608464 . S2CID   4355476 .
  20. ^ Хегер, А.; Уилтон, Калифорния; Сивакумар, А.; Холм, Л. (январь 2005 г.). «ADDA: база данных доменов с глобальным охватом белковой вселенной» (бесплатный полный текст) . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D188–D191. дои : 10.1093/nar/gki096 . ISSN   0305-1048 . ПМК   540050 . ПМИД   15608174 .
  21. ^ «Примечания к выпуску Pfam 28.0» . Проверено 30 июня 2015 г.
  22. ^ «Выпущен новый Pfam-B» . Блог Xfam . 30 июня 2020 г.
  23. ^ «Переезд на xfam.org» . Проверено 25 ноября 2016 г. .
  24. ^ имя=""> Пейсан-Лафосс, Тифан (2023). «ИнтерПро в 2022 году» . Исследования нуклеиновых кислот . 51 (Д1): Д418–Д427. дои : 10.1093/nar/gkac993 . ПМЦ   9825450 .
  25. ^ Данбрэк, Роланд. «ПДБфам» . Онкологический центр Фокса Чейза . Проверено 9 марта 2013 г.
  26. ^ Сюй, Цифан; Данбрэк, Роланд (2012). «Отнесение белковых последовательностей к существующим системам классификации доменов и семейств: Pfam и PDB» . Биоинформатика . 28 (21): 2763–72. doi : 10.1093/биоинформатика/bts533 . ПМЦ   3476341 . ПМИД   22942020 .
[ редактировать ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 518f0e71c9262900da542c34e52eea7f__1715817120
URL1:https://arc.ask3.ru/arc/aa/51/7f/518f0e71c9262900da542c34e52eea7f.html
Заголовок, (Title) документа по адресу, URL1:
Pfam - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)