ПАНТЕРА
Содержание | |
---|---|
Описание | База данных PANTHER классифицирует генные продукты по семействам. |
Типы данных захвачен | Генные семьи |
Контакт | |
Исследовательский центр | Университет Южной Калифорнии |
Авторы | Пол Д. Томас |
Первичное цитирование | ПМИД 12520017 |
Доступ | |
Веб-сайт | [1] |
Разнообразный | |
Добавить в закладки сущности | да |
В биоинформатике система классификации PANTHER ) представляет собой большую тщательно подобранную биологическую базу данных семейств генов/белков и их функционально связанных ( анализ белков через эволюционные связи подсемейств, которую можно использовать для классификации и определения функций генных продуктов. [1] PANTHER является частью проекта Gene Ontology Reference Genome. [2] предназначен для классификации белков и их генов для высокопроизводительного анализа.
Проект состоит как из ручного курирования, так и из биоинформатических алгоритмов. [3] Белки классифицируются по семейству (и подсемейству), молекулярной функции, биологическому процессу и пути. Европейского института биоинформатики Это одна из баз данных, входящих в базу данных InterPro . [4] —Применение PANTHER. Наиболее важным применением PANTHER является точное определение функции неохарактеризованных генов любого организма на основе их эволюционных связей с генами с известными функциями. [3] Объединив функции генов, онтологию , пути и инструменты статистического анализа, PANTHER позволяет биологам анализировать крупномасштабные данные по всему геному, полученные с помощью современных передовых технологий, включая: секвенирование, протеомику или по экспрессии генов . эксперименты [5] В скором времени, используя данные и инструменты PANTHER, пользователи смогут: [6]
- Получите информацию о конкретном интересующем гене.
- Откройте для себя семейства и подсемейства белков, пути, биологические процессы, молекулярные функции и клеточные компоненты.
- Создавайте списки генов, относящихся к определенному семейству/подсемейству белков, молекулярной функции, биологическому процессу или пути.
- Анализируйте списки генов, белков или транскриптов.
История ПАНТЕРЫ
[ редактировать ]- 1998: Проект запущен в Molecular Application Group.
- 1999: Приобретена компанией Celera Genomics.
- 2000: PANTHER 1 выпущен в Celera Discovery Systems (CDS).
- 2001: Выпущен PANTHER 2, который используется в аннотации к первому опубликованному геному человека Celera.
- 2002: Выпущена «ПАНТЕРА 3». Аннотации PANTHER интегрированы в FlyBase . Перешел в АБИ.
- 2003: Выпущена PANTHER 4 с публичной версией системы классификации PANTHER.
- 2005: Выпущен PANTHER 5 с PANTHER Pathway и инструментом анализа. Наладить сотрудничество с ИнтерПро.
- 2006: Выпущена ПАНТЕРА 6. Перейдите в НИИ.
- 2010: Выпущена ПАНТЕРА 7.
- 2011: Переезд в Университет Южной Калифорнии.
- 2012: Выпущена ПАНТЕРА 8.
- 2014: Выпущена ПАНТЕРА 9. [6]
- 2015: Выпущена ПАНТЕРА 10.
- 2016: Выпущена ПАНТЕРА 11. [7]
Филогенетическое дерево
[ редактировать ]В PANTHER существует филогенетическое дерево для каждого семейства белков. Аннотация дерева выполняется на основе следующих критериев:
- Каждый узел аннотирован атрибутами гена, включая «членство в подсемействе», «класс белка», «функция гена». Эти атрибуты передаются по наследству. [3] Названия белков Swiss-Prot обычно используются для обозначения подсемейств. [8] Поскольку PANTHER является частью проекта эталонного генома GO, [2] [9] Генная Онтология [10] Термины (GO) используются для обозначения функции гена. Термины онтологии PANTHER/X используются для класса белков.
- Каждый внутренний узел отмечен эволюционными событиями, такими как « видообразование », « дупликация генов » и « горизонтальный перенос генов ». [3]
Для создания филогенетических деревьев PANTHER использует алгоритм GIGA. GIGA использует деревья пород для разработки конструкций деревьев. На каждой итерации он пытается согласовать дерево в форме событий видообразования и дупликации генов.
Процесс генерации данных библиотеки PANTHER
[ редактировать ]Процесс генерации данных разделен на три этапа:
- Семейная кластеризация
- Пифологенетическое древовидное построение
- Аннотация узлов дерева
Семейная кластеризация
[ редактировать ]Набор последовательностей
[ редактировать ]Деревья PANTHER отображают эволюцию семейства генов на основе широкого набора геномов, которые полностью секвенированы. У PANTHER есть одна последовательность на каждый ген, так что дерево может отражать события, произошедшие в ходе эволюции, то есть дупликацию, видообразование.Набор геномов PANTHER отбирается по следующим критериям:
- В набор должна входить крупная экспериментальная модель организма , это поможет отобразить функциональную информацию об организме, которая менее изучена.
- Набор должен включать широкий таксономический диапазон других геномов, желательно полностью секвенированных и аннотированных, это поможет соотнести экспериментальные модельные организмы.
Семейные кластеры
[ редактировать ]Ниже приведены требования для создания семейных кластеров в PANTHER:
- Семья должна состоять как минимум из пяти членов, среди которых хотя бы один ген должен быть из эталонного генома GO.
- Чтобы поддержать филогенетический вывод, семейство должно содержать высококачественное выравнивание последовательностей .
- Оценка множественно выровненной последовательности проводится путем оценки длины выровненной последовательности, по меньшей мере, 30 сайтов, выровненных у 75% или более членов семьи.
Построение филогенетического дерева
[ редактировать ]Для каждого семейства множественные последовательности выравниваются с использованием настройки по умолчанию MAFFT , любой столбец, который выровнен менее чем на 75% последовательности, удаляется. Эти данные затем используются в качестве входных данных для программы GIGA. Выходное дерево от GIGA помечено. Каждый внутренний узел помечен в зависимости от того, произошло ли событие дивергенции в виде видообразования или дупликации гена.
Аннотация узлов дерева
[ редактировать ]Каждый узел в дереве PANTHER помечен наследуемым атрибутом. Наследственный признак может быть трех типов: членство в подсемействе, функция гена и членство в классе белков. Эти аннотации узлов относятся к первичной последовательности, которая использовалась для построения дерева. При применении этих аннотаций к первичной последовательности используется простой эволюционный принцип, т.е. аннотация каждого узла распространяется его ушедшим узлом. [3]
Компоненты ПАНТЕРЫ
[ редактировать ]PANTHER/LIB (библиотека PANTHER): Библиотека состоит из коллекции книг. Каждая из этих книг представляет семейство белков. есть скрытая марковская модель (HMM), множественное выравнивание последовательностей (MSA) и генеалогическое древо для каждого семейства белков. В библиотеке [1]
PANTHER/X (индекс PANTEHR): Индекс содержит сокращенную онтологию, которая помогает обобщать и перемещаться по молекулярным и биологическим функциям. Хотя онтология PANTHER/X имеет иерархическую организацию, она представляет собой направленный ациклический граф , поэтому, когда это биологически оправдано, дочерние категории появляются более чем под одним родительским элементом. PANTHER/X был сопоставлен с GO и организован по-другому, чтобы облегчить крупномасштабный анализ белков. [1]
ПАНТЕРНЫЕ тропы
[ редактировать ]PANTHER включает 176 путей с использованием инструмента CellDesigner. Дорожки PANTHER можно загрузить в следующих форматах файлов.
- Язык разметки системной биологии ( SBML )
- Графическая нотация системной биологии (SBGN - ML)
- БиоПАКС [3]
Последние версии PANTHER, их статистика и обновления
[ редактировать ]Версия 6.0
[ редактировать ]Версия 6 использует UniProt [11] последовательности как обучающие последовательности. Существует 19132 обучающих последовательностей UniProt, непосредственно связанных с компонентами пути. Эта версия имеет ~ 1500 реакций по 130 путям, а количество путей, связанных с подсемействами, было расширено. ПАНТЕРА стала членом Консорциума ИнтерПро. Доступность данных PANTHER была улучшена (HMM можно загрузить по FTP ). Версия PANTHER/LIB 6.1 содержит 221609 последовательностей UniProt из 53 организмов, сгруппированных в 5546 семейств и 24561 подсемейство. [12] (2006)
Версия 7.0
[ редактировать ]В этой версии филогенетические деревья представляют собой события видообразования и дупликации генов. идентификация ортологов Возможна генов. Существует дополнительная поддержка альтернативных идентификаторов баз данных для генов, белков и на микрочипах зондов . PANTHER версии 7 использует стандарт SBGN для описания биологических путей. Он включает в себя 48 наборов геномов. Чтобы определить новые семейства и в сотрудничестве с группой InterPro Европейского института биоинформатики, [4] В эту версию было добавлено около 1000 семейств геномов неживотных. Источниками наборов генов послужили базы данных модельных организмов Ensembl [13] аннотация генома и Entrez Gene. [14] Начиная с этой версии, для каждого узла дерева используется стабильный идентификатор. Этот стабильный идентификатор представляет собой девятизначное число с префиксом PTN (сокращение от PANTHER Tree Node). [3] [15] (2009)
Версия 8.0 (2012 г.)
[ редактировать ]Эталонный протеом [16] В этой версии PANTHER используется набор, поддерживаемый ресурсом UniProt, поэтому источником наборов генов является UniProt. Он включает в себя 82 набора геномов (примерно вдвое больше по сравнению с версией 7) и 991985 генов, кодирующих белки, из которых 642319 генов (64,75%) были использованы для семейных кластеров. Веб-сайт PANTHER переработан для облегчения рабочего процесса обычного пользователя. [3]
Версия 9.0 (2014 г.)
[ редактировать ]Эта версия содержит 7180 семейств белков, разделенных на 52 768 функционально различных подсемейств белков. Версия 9.0 содержит геномы всех 85 организмов. [17] [6]
Версия 11.1 (2016 г.)
[ редактировать ]Эта версия содержит 78 442 подсемейства и 1 064 054 аннотированных гена.
Сайт ПАНТЕРЫ
[ редактировать ]На домашней странице веб-сайта PANTHER показано несколько вкладок папок для основных рабочих процессов, в том числе: анализ списка генов, просмотр, поиск последовательностей, оценка cSNP и поиск по ключевым словам. Подробная информация о каждом из этих рабочих процессов представлена ниже.
Анализ списка генов
[ редактировать ]Эта вкладка выбрана по умолчанию, поскольку это наиболее часто используемый параметр. Вы можете ввести действительные идентификаторы в поле или загрузить файл, затем выбрать тип списка, выбрать интересующий организм и выбрать тип анализа.
Практический пример: Давайте попробуем этот рабочий процесс на примере небольшого списка генов, содержащего три гена AKT1, AKT2, AKT3. Сначала мы вводим названия этих генов в поле и разделяем их запятой (или пробелом). Мы выбираем «Список идентификаторов» в качестве типа списка, «Homo Sapiens» (человек) в качестве организма и «Функциональную классификацию, рассматриваемую в списке генов» в качестве типа операции; затем нажмите «Отправить». Он дает вам информацию обо всех трех генах:
- Идентификаторы генов из Ensembl и идентификаторы белков из Uniprot: в этом примере вы должны видеть «ENSG00000142208» и «P31749».
- Сопоставленные идентификаторы: это просто имена генов, которые были сопоставлены с вашим запросом (AKT1, AKT2 и AKT3).
- Названия генов, символы генов и ортологи: ортологи кликабельны, щелкнув по ним, вы можете увидеть список других организмов и их идентификаторы, а также тип ортологов («LDO» для наименее разошедшегося ортолога, «O» для другие, которые являются более разошедшимися ортологами, и «P» для паралогов).
- Семейство и подсемейство ПАНТЕР: это даст вам название семейства и подсемейства для ваших генов. Есть несколько ссылок, например, ссылка на генеалогическое древо, которая кликабельна. Наконец, вы получите гены разных видов, отнесенные к этому подсемейству. В этом примере у вас есть подсемейство PANTHER «PTHR24352:SF30» для AKT1.
- Молекулярная функция GO: она расскажет вам, каковы функции вашего гена запроса; например, AKT1 обладает протеинкиназной активностью и может избирательно и нековалентно взаимодействовать с ионами кальция, кальмодулином и фосфолипидами.
- Биологический процесс GO. Посмотрев эту колонку, вы поймете, в каких биологических процессах участвует ген; например, AKT1 играет роль в генерации гамет, апоптозе, клеточном цикле и т. д.
- Клеточный компонент GO: он сообщает вам, где в клетке вы можете найти нужный белок. В нашем примере информация недоступна, но если вы попробуете другие примеры (например, ген p53), вы увидите некоторые клеточные компоненты, такие как «ядро», «цитоплазма», «хромосомы» и т. д.
- Класс белка PANTHER: здесь указаны имена и идентификаторы класса белка PANTHER для каждого из генов; например, AKT1 относится к классу белков PANTHER «нерецепторная серин/треониновая протеинкиназа» с идентификатором класса «PC00167». Вы также можете увидеть его родительскую и дочернюю линию.
- Пути: будет показан список кликабельных названий путей, в которых существует ваш запрашиваемый ген; например, AKT1 участвует в нескольких путях, таких как «реакция на гипоксию через HIF», «сигнальный путь апоптоза», «путь киназы PI3» и т. д.
- Виды: это название выбранного вами вида; в данном случае мы выбрали «Homo sapiens».
Просматривать
[ редактировать ]Используя эту вкладку папки и выбрав интересующую вас онтологию, вы можете просмотреть различные классификации. Также возможно выбрать более одной онтологии; в этом случае результаты будут соответствовать критериям всех вариантов выбора. Вы можете увидеть связь между терминами онтологии и семействами, подсемействами и обучающими последовательностями PANTHER.
Последовательный поиск
[ редактировать ]Поместив последовательность белка в поле «Поиск последовательности», PANTHER выполнит поиск в библиотеке HMM семейства и подсемейства и вернет подсемейство, которое лучше всего соответствует последовательности. Если вы щелкнете по названию подсемейства, вы увидите некоторые подробности, например, гены, относящиеся к этому подсемейству, и возможность просмотреть подсемейство в рамках более крупного генеалогического древа. Загрузив инструмент оценки PANTHER со страницы загрузки, вы сможете оценить множество последовательностей по PANTHER HMM.
оценка cSNP
[ редактировать ]Используя эту вкладку папки, вы можете выполнить анализ эволюции кодирования SNP . Вы должны ввести последовательность белка в первое поле, а замены, относящиеся к этой последовательности белка, во второе поле; эти замены следует вводить в стандартном формате аминокислотных замен, например L46P. PANTHER будет использовать выравнивание эволюционно родственных белков, рассчитывать эволюционную консервативность, специфичную для позиции замены (subPSEC), и оценивать вероятность того, что этот несинонимичный кодирующий SNP окажет функциональное воздействие на белок. Этот инструмент использует данные PANTHER версии 6.1 по техническим причинам. Одна из новых функций PANTHER заключается в том, что если вы хотите проанализировать множество SNP, вы можете перейти на страницу загрузки и загрузить инструмент PANTHER Coding Snp Analysis.
Поиск по ключевым словам
[ редактировать ]Введя поисковый запрос в поле поиска по ключевым словам, PANTHER предоставит вам количество записей, соответствующих вашему ключевому слову, для генов, семейств, путей и терминов онтологии. Вы можете отфильтровать их, определив интересующие виды или уточнив поиск по другим критериям. Чтобы просмотреть подробную информацию о гене, необходимо нажать на идентификатор гена.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Томас, доктор медицинских наук; Кеджаривал, А.; Кэмпбелл, МЮ; Ми, Х.; Димер, К.; Го, Н.; Ладунга, И.; Улицкий-Лазарева, Б.; и др. (январь 2003 г.). «PANTHER: доступная для просмотра база данных генных продуктов, организованная по биологическим функциям с использованием курируемой классификации белковых семейств и подсемейств» . Нуклеиновые кислоты Рез . 31 (1): 334–41. дои : 10.1093/нар/gkg115 . ПМК 165562 . ПМИД 12520017 .
- ^ Jump up to: а б «Проект аннотации эталонного генома GO» .
- ^ Jump up to: а б с д и ж г час Ми, Х.; Муругануджан, А.; Томас, PD. (январь 2013 г.). «ПАНТЕРА в 2013 году: моделирование эволюции функции генов и других атрибутов генов в контексте филогенетических деревьев» . Нуклеиновые кислоты Рез . 41 (Проблема с базой данных): D377–86. дои : 10.1093/nar/gks1118 . ПМЦ 3531194 . ПМИД 23193289 .
- ^ Jump up to: а б Хантер, С.; Джонс, П.; Митчелл, А.; Апвейлер, Р.; Эттвуд, Теннесси; Бейтман, А.; Бернард, Т.; Биннс, Д.; и др. (январь 2012 г.). «ИнтерПро в 2011 году: новые разработки в базе данных прогнозирования семейств и доменов» . Нуклеиновые кислоты Рез . 40 (Проблема с базой данных): D306–12. дои : 10.1093/nar/gkr948 . ПМК 3245097 . ПМИД 22096229 .
- ^ Ми, Х.; Муругануджан, А.; Томас, PD. (август 2013 г.). «Крупномасштабный анализ функций генов с использованием системы классификации PANTHER» . Нуклеиновые кислоты Рез . 8 (8): 1551–66. дои : 10.1038/nprot.2013.092 . ПМК 6519453 . ПМИД 23868073 .
- ^ Jump up to: а б с «ПАНТЕРДБ» .
- ^ Ми, Х; Хуанг, X; Муругануджан, А; Тан, Х; Миллс, К; Канг, Д; Томас, PD (29 ноября 2016 г.). «PANTHER версия 11: расширенные данные аннотаций из путей Gene Ontology и Reactome, а также усовершенствования инструментов анализа данных» . Исследования нуклеиновых кислот . 45 (Д1): Д183–Д189. дои : 10.1093/nar/gkw1138 . ПМК 5210595 . ПМИД 27899595 .
- ^ Консорциум UniProt (январь 2012 г.). «Реорганизация белкового пространства в Универсальном белковом ресурсе (UniProt)» . Нуклеиновые кислоты Рез . 40 (Д1): Д71–Д75. дои : 10.1093/nar/gkr981 . ПМК 3245120 . ПМИД 22102590 .
- ^ Годе, П.; Ливстон, штат Массачусетс; Льюис, SE; Томас, доктор медицинских наук (сентябрь 2011 г.). «Распространение функциональных аннотаций на основе филогенетики внутри консорциума Gene Ontology» . Краткий Биоинформ . 12 (5): 449–62. дои : 10.1093/нагрудник/bbr042 . ПМК 3178059 . ПМИД 21873635 .
- ^ Консорциум онтологии генов (январь 2012 г.). «Онтология генов: улучшения на 2011 год» . Нуклеиновые кислоты Рез . 40 (Д1): Д559–Д564. дои : 10.1093/nar/gkr1028 . ПМК 3245151 . ПМИД 22102568 .
- ^ Ву, CH; Апвейлер, Р.; Байрох, А.; Натале, округ Колумбия; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; и др. (январь 2006 г.). «Универсальный ресурс белка (UniProt): расширяющаяся вселенная информации о белках» . Нуклеиновые кислоты Рез . 34 (Проблема с базой данных): D187–D191. дои : 10.1093/nar/gkj161 . ПМЦ 1347523 . ПМИД 16381842 .
- ^ Ми, Х.; Го, Н.; Томас, доктор медицинских наук (январь 2007 г.). «PANTHER версия 6: данные по последовательности белков и эволюции функций с расширенным представлением биологических путей» . Нуклеиновые кислоты Рез . 35 (Проблема с базой данных): D247–D252. дои : 10.1093/nar/gkl869 . ПМЦ 1716723 . ПМИД 17130144 .
- ^ Фличек, П.; Амоде, MR; Баррелл, Д.; Бил, К.; Брент, С.; Чен, Ю.; Клэпхэм, П.; Коутс, Г.; и др. (январь 2011 г.). «Ансамбль» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D800–D806. дои : 10.1093/нар/gkq1064 . ПМК 3013672 . ПМИД 21045057 .
- ^ Маглотт, Д .; Остелл, Дж.; Прюитт, К.Д.; Татусова, Т. (январь 2011 г.). «Энтрез Джин: генно-ориентированная информация в NCBI» . Нуклеиновые кислоты Рез . 39 (Проблема с базой данных): D52–D57. дои : 10.1093/нар/gkq1237 . ПМК 3013746 . ПМИД 21115458 .
- ^ Ми, Х.; Донг, К.; Муругануджан, А.; Годе, П.; Льюис, С.; Томас, доктор медицинских наук (январь 2010 г.). «PANTHER версия 7: улучшенные филогенетические деревья, ортологи и сотрудничество с Консорциумом генной онтологии» . Нуклеиновые кислоты Рез . 38 (Проблема с базой данных): D204–D210. дои : 10.1093/nar/gkp1019 . ПМЦ 2808919 . ПМИД 20015972 .
- ^ «эталонный протеом» .
- ^ Подробности статистики PANTHER 9 можно найти здесь ( http://www.pantherdb.org/panther/summaryStats.jsp ).