База данных суперсемейств
Содержание | |
---|---|
Описание | База данных SUPERFAMILY предоставляет структурные и функциональные аннотации для всех белков и геномов. |
Типы данных захвачен | Семейства белков, аннотация генома, выравнивание, скрытые модели Маркова (HMM) |
Организмы | все |
Контакт | |
Исследовательский центр | Бристольский университет |
Лаборатория | |
Первичное цитирование | ПМИД 19036790 |
Доступ | |
Формат данных | ФИКСИРОВАННЫЙ формат |
Веб-сайт | супфам |
URL-адрес загрузки | супфам |
Разнообразный | |
Лицензия | Стандартная общественная лицензия GNU |
Версия | 1.75 |
SUPERFAMILY — это база данных и поисковая платформа структурных и функциональных аннотаций всех белков и геномов. [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ] Он классифицирует аминокислотные последовательности в известные структурные домены , особенно в SCOP . суперсемейства [ 8 ] [ 9 ] Домены — это функциональные, структурные и эволюционные единицы, образующие белки. Домены общего происхождения сгруппированы в суперсемейства. Домены и суперсемейства доменов определены и описаны в SCOP. [ 8 ] [ 10 ] Суперсемейства — это группы белков, структурные доказательства которых подтверждают наличие общего эволюционного предка, но которые могут не иметь обнаруживаемой гомологии последовательностей . [ 11 ]
Аннотации
[ редактировать ]Аннотация SUPERFAMILY основана на наборе скрытых марковских моделей (HMM), которые представляют собой структурные белковые домены на SCOP уровне суперсемейства . [ 12 ] [ 13 ] Суперсемейство объединяет домены, находящиеся в эволюционной взаимосвязи. Аннотация создается путем сканирования белковых последовательностей полностью секвенированных геномов по скрытым марковским моделям.
Для каждого белка вы можете:
- Отправьте последовательности для классификации SCOP
- Просмотр организации доменов, выравниваний последовательностей и сведений о последовательностях белков.
Для каждого генома вы можете:
- Изучите назначения надсемейств, филогенетические деревья , списки организаций доменов и сети.
- Проверьте наличие чрезмерно или недостаточно представленных суперсемейств в геноме.
Для каждого суперсемейства вы можете:
- Проверьте классификацию SCOP, функциональную аннотацию, генной онтологии , аннотацию [ 6 ] [ 14 ] Реферативные и геномные задания ИнтерПро
- Изучите таксономическое распределение суперсемейства на древе жизни.
Все аннотации, модели и дамп базы данных доступны для скачивания всем желающим в свободном доступе.
Функции
[ редактировать ]Последовательный поиск
Отправьте последовательность белка или ДНК для классификации на уровне суперсемейства и семейства SCOP, используя HMM SUPERFAMILY. Последовательности можно отправлять либо в виде необработанных данных, либо путем загрузки файла, но все они должны быть в формате FASTA . Последовательности могут представлять собой аминокислоты, нуклеотидную последовательность с фиксированной рамкой или все рамки представленной нуклеотидной последовательности. Одновременно можно запускать до 1000 последовательностей.
Поиск по ключевым словам
Выполняйте поиск в базе данных, используя название надсемейства, семейства или вида, а также идентификаторы последовательности, SCOP, PDB или HMM. Успешный поиск дает класс, складки, суперсемейства, семейства и отдельные белки, соответствующие запросу.
Назначение домена
В базе данных есть назначения доменов, выравнивания и архитектуры для полностью секвенированных эукариотических и прокариотических организмов, а также коллекции последовательностей.
Инструменты сравнительной геномики
Просмотрите необычные (чрезмерно или недостаточно представленные) суперсемейства и семейства, списки и графики пар смежных доменов, уникальные пары доменов, комбинации доменов, сети совместного возникновения доменной архитектуры и распределение доменов по таксономическим царствам для каждого организма.
Статистика генома
Для каждого генома: количество последовательностей, количество последовательностей с присвоением, процент последовательностей с присвоением, процент общего покрытия последовательностей, количество назначенных доменов, количество назначенных суперсемейств, количество назначенных семейств, средний размер суперсемейства, процент, полученный в результате дупликации, среднее значение. длина последовательности, средняя согласованная длина, количество пар доменов и количество уникальных архитектур доменов.
Генная онтология
Доменно-ориентированная онтология генов (GO) автоматически аннотируется.
Из-за растущего разрыва между секвенированными белками и известными функциями белков становится все более важным разработать более автоматизированный метод функционального аннотирования белков, особенно для белков с известными доменами. SUPERFAMILY использует аннотации GO на уровне белка, взятые из проекта Genome Ontology Annotation (GOA), который предлагает высококачественные аннотации GO, напрямую связанные с белками в UniprotKB для широкого спектра видов. [ 15 ] SUPERFAMILY создала аннотации GO для эволюционно закрытых доменов (на уровне семейства SCOP) и удаленных доменов (на уровне суперсемейства SCOP).
Онтология фенотипа
Доменно-ориентированный фенотип /онтология анатомии, включая онтологию заболеваний, фенотип человека, фенотип мыши, фенотип червя, фенотип дрожжей, фенотип мух, анатомию мух, анатомию рыбок данио, анатомию Xenopus и растение Arabidopsis.
Аннотация к суперсемейству
Рефераты InterPro для более чем 1000 суперсемейств и аннотации Gene Ontology (GO) для более чем 700 суперсемейств. Эта функция позволяет напрямую аннотировать ключевые особенности, функции и структуры суперсемейства.
Функциональная аннотация
Функциональная аннотация суперсемейств SCOP 1.73.
В базе данных SUPERFAMILY используется схема из 50 подробных категорий функций, которые соответствуют 7 общим категориям функций, аналогично схеме, используемой в базе данных COG. [ 16 ] Общая функция, присвоенная надсемейству, использовалась для отражения основной функции этого надсемейства. Общие категории функций:
- Информация: хранение, поддержание генетического кода; репликация и репарация ДНК; общая транскрипция и перевод .
- Регуляция: Регуляция экспрессии генов и активности белков; обработка информации в ответ на воздействие окружающей среды; передача сигнала ; общая регуляторная или рецепторная активность.
- Метаболизм : Анаболические и катаболические процессы; поддержание клеток и гомеостаз ; вторичный метаболизм.
- Внутриклеточные процессы: подвижность и деление клеток; гибель клеток ; внутриклеточный транспорт ; секреция .
- Внеклеточные процессы: меж- и внеклеточные процессы, такие как клеточная адгезия; организменный процесс, такой как свертывание крови или иммунная система.
- Общие: общие и множественные функции; взаимодействия с белками , липидами , малыми молекулами и ионами .
- Другое/неизвестно: неизвестная функция, вирусные белки или токсины .
Каждое суперсемейство доменов в классах SCOP от a до g было аннотировано вручную с использованием этой схемы. [ 17 ] [ 18 ] [ 19 ] и использованная информация была предоставлена SCOP , [ 10 ] ИнтерПро , [ 20 ] [ 21 ] Пфам , [ 22 ] Швейцарский Прот , [ 23 ] и различные литературные источники.
Филогенетические деревья
Создавайте собственные филогенетические деревья , выбрав 3 или более доступных геномов на сайте SUPERFAMILY. Деревья создаются с использованием эвристических методов экономии и основаны на данных об архитектуре белковых доменов для всех геномов в SUPERFAMILY. Комбинации геномов или определенные клады могут отображаться в виде отдельных деревьев.
Похожие доменные архитектуры
Эта функция позволяет пользователю найти 10 доменных архитектур, которые наиболее похожи на интересующую доменную архитектуру.
Скрытые марковские модели
Выполните присвоение домена SCOP для последовательности, используя скрытые марковские модели SUPERFAMILY .
Сравнение профилей
Найдите совпадения с удаленным доменом, если поиск HMM не может найти существенное совпадение. Сравнение профилей (КНР) [ 24 ] для выравнивания и надрезки используются два профиля HMM.
Веб-сервисы
Распределенный сервер аннотаций и ссылка на SUPERFAMILY.
Загрузки
Последовательности, задания, модели, база данных MySQL и скрипты — обновляются еженедельно.
Использование в исследованиях
[ редактировать ]База данных SUPERFAMILY имеет множество исследовательских приложений и использовалась многими исследовательскими группами для различных исследований. Он может служить либо базой данных для белков, которые пользователь хочет исследовать с помощью других методов, либо присваивать функцию и структуру новому или неохарактеризованному белку. Одно исследование показало, что SUPERFAMILY очень хорошо умеет правильно назначать соответствующую функцию и структуру большому количеству областей неизвестных функций путем сравнения их со скрытыми моделями Маркова в базах данных. [ 25 ] В другом исследовании SUPERFAMILY использовалось для создания набора данных из 1733 доменов суперсемейства Fold (FSF) с использованием сравнения протеомов и функционаломов для определения происхождения клеточной диверсификации. [ 26 ]
Ссылки
[ редактировать ]- ^ Уилсон, Д; Петика, Р; Чжоу, Ю; Талбот, К; Фогель, К ; Мадера, М; Чотия, К ; Гоф, Дж. (январь 2009 г.). «СУПЕРСЕМЬЯ — сложная сравнительная геномика, интеллектуальный анализ данных, визуализация и филогения» . Исследования нуклеиновых кислот . 37 (Проблема с базой данных): D380-6. дои : 10.1093/NAR/GKN762 . ISSN 0305-1048 . ПМК 2686452 . ПМИД 19036790 . Викиданные Q26781958 .
- ^ Мадера, Мартин; Фогель, Кристина; Куммерфельд, Сара К.; Чотия, Кир; Гоф, Джулиан (1 января 2004 г.). «База данных SUPERFAMILY 2004: дополнения и улучшения» . Исследования нуклеиновых кислот . 32 (приложение 1): Д235–Д239. дои : 10.1093/nar/gkh117 . ISSN 0305-1048 . ПМК 308851 . ПМИД 14681402 .
- ^ Уилсон, Д.; Мадера, М.; Фогель, К.; Чотия, К. ; Гоф, Дж. (2007). «База данных SUPERFAMILY в 2007 году: Семейства и функции» . Исследования нуклеиновых кислот . 35 (Проблема с базой данных): D308–D313. дои : 10.1093/nar/gkl910 . ПМЦ 1669749 . ПМИД 17098927 .
- ^ Гоф, Дж. (2002). «База данных SUPERFAMILY по структурной геномике» . Acta Crystallographica Раздел D. 58 (Часть 11): 1897–1900. дои : 10.1107/s0907444902015160 . ПМИД 12393919 .
- ^ Гоф, Дж .; Чотия, К. (2002). «СУПЕРСЕМЕЙСТВО: HMM, представляющие все белки известной структуры. Поиск последовательностей SCOP, выравнивание и назначение генома» . Исследования нуклеиновых кислот . 30 (1): 268–272. дои : 10.1093/нар/30.1.268 . ПМК 99153 . ПМИД 11752312 .
- ^ Перейти обратно: а б Де Лима Мораис, окружной прокурор; Фанг, Х.; Рэкхэм, OJL; Уилсон, Д.; Петика, Р.; Чотия, К. ; Гоф, Дж. (2010). «СУПЕРСЕМЕЙСТВО 1.75, включая доменно-ориентированный метод онтологии генов» . Исследования нуклеиновых кислот . 39 (Проблема с базой данных): D427–D434. дои : 10.1093/nar/gkq1130 . ПМК 3013712 . ПМИД 21062816 .
- ^ Оутс, Мэн; Штальхаке, Дж; Вавулис, Д.В.; Смитерс, Б; Рэкхэм, О.Дж.; Сардар, Эй Джей; Зауча, Дж; Терлби, Н.; Фанг, Х; Гоф, Дж (2015). «База данных SUPERFAMILY 1.75 в 2014 году: удвоение данных» . Исследования нуклеиновых кислот . 43 (Проблема с базой данных): D227–33. дои : 10.1093/nar/gku1041 . ПМЦ 4383889 . ПМИД 25414345 .
- ^ Перейти обратно: а б Хаббард, Ти Джей ; Эйли, Б.; Бреннер, SE ; Мурзин, А.Г.; Чотия, К. (1999). «SCOP: база данных структурной классификации белков» . Исследования нуклеиновых кислот . 27 (1): 254–256. дои : 10.1093/нар/27.1.254 . ПМЦ 148149 . ПМИД 9847194 .
- ^ История, Л.; Эйли, Б.; Хаббард, Ти Джей; Бреннер, SE; Мурзин, А.Г.; Чотия, К. (2000). «SCOP: база данных структурной классификации белков» . Исследования нуклеиновых кислот . 28 (1): 257–259. дои : 10.1093/нар/28.1.257 . ПМЦ 102479 . ПМИД 10592240 .
- ^ Перейти обратно: а б Андреева, Антонина; Ховорт, Дэйв; Бреннер, Стивен Э.; Хаббард, Тим Дж. П.; Чотия, Кир; Мурзин, Алексей Георгиевич (1 января 2004 г.). «База данных SCOP в 2004 году: уточнения объединяют данные о структуре и семействе последовательностей» . Исследования нуклеиновых кислот . 32 (Проблема с базой данных): D226–D229. дои : 10.1093/nar/gkh039 . ISSN 0305-1048 . ПМК 308773 . ПМИД 14681400 .
- ^ Дайхофф, Миссури; Маклафлин, П.Дж.; Баркер, туалет; Хант, LT (1 апреля 1975 г.). «Эволюция последовательностей внутри суперсемейств белков». Naturwissenschaften . 62 (4): 154–161. Бибкод : 1975NW.....62..154D . дои : 10.1007/BF00608697 . ISSN 0028-1042 . S2CID 40304076 .
- ^ Гоф, Дж.; Карплюс, К.; Хьюи, Р.; Чотия, К. (2001). «Присвоение гомологии последовательностям генома с использованием библиотеки скрытых моделей Маркова, которые представляют все белки известной структуры1». Журнал молекулярной биологии . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . дои : 10.1006/jmbi.2001.5080 . ПМИД 11697912 .
- ^ Карплюс, К.; Барретт, К.; Хьюи, Р. (1 января 1998 г.). «Скрытые марковские модели для обнаружения отдаленных гомологий белков» . Биоинформатика . 14 (10): 846–856. дои : 10.1093/биоинформатика/14.10.846 . ISSN 1367-4803 . ПМИД 9927713 .
- ^ Ботштейн, Д .; Черри, Дж. М.; Эшбернер, М .; Болл, Калифорния; Блейк, Дж.А.; Батлер, Х.; Дэвис, AP; Долински, К.; Дуайт, СС; Эппиг, Дж. Т.; Харрис, Массачусетс; Хилл, ДП; Иссель-Тарвер, Л.; Касарскис А.; Льюис, С .; Матезе, Дж. К.; Ричардсон, Дж. Э.; Рингвальд, М.; Рубин, генеральный менеджер ; Шерлок, Г. (2000). «Онтология генов: инструмент для объединения биологии. Консорциум генной онтологии» . Природная генетика . 25 (1): 25–29. дои : 10.1038/75556 . ПМК 3037419 . ПМИД 10802651 .
- ^ Баррелл, Дэниел; Диммер, Эмили; Хантли, Рэйчел П.; Биннс, Дэвид; О'Донован, Клэр; Апвейлер, Рольф (1 января 2009 г.). «База данных GOA в 2009 году — интегрированный ресурс аннотаций генной онтологии» . Исследования нуклеиновых кислот . 37 (приложение 1): Д396–Д403. дои : 10.1093/нар/gkn803 . ISSN 0305-1048 . ПМЦ 2686469 . ПМИД 18957448 .
- ^ Татусов Роман Л; Федорова, Наталья Д; Джексон, Джон Д.; Джейкобс, Авива Р; Кирютин Борис; Кунин, Евгений В.; Крылов Дмитрий М; Мазумдер, Раджа; Мехедов, Сергей Л (11 сентября 2003 г.). «База данных COG: обновленная версия включает эукариотов» . БМК Биоинформатика . 4:41 . дои : 10.1186/1471-2105-4-41 . ISSN 1471-2105 . ПМК 222959 . ПМИД 12969510 .
- ^ Фогель, Кристина; Берзуини, Карло; Баштон, Мэтью; Гоф, Джулиан; Тейхманн, Сара А. (20 февраля 2004 г.). «Супрадомены: эволюционные единицы, превышающие отдельные белковые домены». Журнал молекулярной биологии . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . дои : 10.1016/j.jmb.2003.12.026 . ISSN 0022-2836 . ПМИД 15095989 .
- ^ Фогель, Кристина; Тейхманн, Сара А.; Перейра-Леал, Хосе (11 февраля 2005 г.). «Взаимосвязь между дублированием доменов и рекомбинацией». Журнал молекулярной биологии . 346 (1): 355–365. дои : 10.1016/j.jmb.2004.11.050 . ISSN 0022-2836 . ПМИД 15663950 .
- ^ Фогель, Кристина; Чотия, Сайрус (1 мая 2006 г.). «Расширение семейства белков и биологическая сложность» . PLOS Вычислительная биология . 2 (5): е48. Бибкод : 2006PLSCB...2...48В . дои : 10.1371/journal.pcbi.0020048 . ISSN 1553-734X . ПМЦ 1464810 . ПМИД 16733546 .
- ^ Малдер, Никола Дж.; Апвайлер, Рольф; Эттвуд, Тереза К.; Байрох, Амос; Баррелл, Дэниел; Бейтман, Алекс; Биннс, Дэвид; Бисвас, Маргарет; Брэдли, Пол (1 января 2003 г.). «База данных InterPro 2003 года обеспечивает расширенный охват и новые функции» . Исследования нуклеиновых кислот . 31 (1): 315–318. дои : 10.1093/нар/gkg046 . ISSN 0305-1048 . ПМК 165493 . ПМИД 12520011 .
- ^ Малдер, Никола Дж.; Апвейлер, Рольф; Эттвуд, Тереза К.; Байрох, Амос; Бейтман, Алекс; Биннс, Дэвид; Брэдли, Пол; Борк, Пер; Бухер, Филипп (1 января 2005 г.). «ИнтерПро, прогресс и состояние в 2005 году» . Исследования нуклеиновых кислот . 33 (Проблема с базой данных): D201–D205. дои : 10.1093/nar/gki106 . ISSN 0305-1048 . ПМК 540060 . ПМИД 15608177 .
- ^ Финн, Роберт Д.; Мистри, Джайна; Шустер-Беклер, Бенджамин; Гриффитс-Джонс, Сэм; Холлих, Волкер; Лассманн, Тимо; Моксон, Саймон; Маршалл, Мхайри; Ханна, Аджай (1 января 2006 г.). «Pfam: кланы, веб-инструменты и сервисы» . Исследования нуклеиновых кислот . 34 (Проблема с базой данных): D247–D251. дои : 10.1093/nar/gkj149 . ISSN 0305-1048 . ПМЦ 1347511 . ПМИД 16381856 .
- ^ Бекманн, Бриджит; Блаттер, Мари-Клод; Фамильетти, Ливия; Хинц, Урсула; Лейн, Лиди; Рехерт, Бернд; Байрох, Амос (1 ноября 2005 г.). «Изменчивость и функциональное разнообразие белков: аннотация Swiss-Prot в биологическом контексте» . Счета Биологии . 328 (10–11): 882–899. дои : 10.1016/j.crvi.2005.06.001 . ISSN 1631-0691 . ПМИД 16286078 .
- ^ Мадера, Мартин (15 ноября 2008 г.). «Profile Comparer: программа для оценки и выравнивания профилей скрытых марковских моделей» . Биоинформатика . 24 (22): 2630–2631. doi : 10.1093/биоинформатика/btn504 . ISSN 1367-4803 . ПМК 2579712 . ПМИД 18845584 .
- ^ Мудгал, Рича; Сандхья, Шанкаран; Чандра, Нагасума; Шринивасан, Нараянасвами (31 июля 2015 г.). «Де-DUFing DUF: расшифровка отдаленных эволюционных связей доменов неизвестной функции с использованием чувствительных методов обнаружения гомологии» . Биология Директ . 10 (1): 38. дои : 10.1186/s13062-015-0069-2 . ПМК 4520260 . ПМИД 26228684 .
- ^ Насир, Аршан; Каэтано-Аноллес, Густаво (2013). «Сравнительный анализ протеомов и функционаломов дает представление о причинах клеточной диверсификации» . Архея . 2013 : 648746. doi : 10.1155/2013/648746 . ПМЦ 3892558 . ПМИД 24492748 .