HH-люкс
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Разработчик(и) | Йоханнес Зёдинг, Михаэль Реммерт, Андреас Бигерт, Андреас Хаузер, Маркус Мейер, Мартин Штайнеггер |
---|---|
Стабильная версия | 3.3.0
/ 25 августа 2020 г. |
Репозиторий | |
Написано в | С++ |
Операционная система | Unix-подобный ; Debian Доступен пакет [1] |
Доступно в | Английский |
Тип | биоинформатики Инструмент |
Лицензия | Лицензия GPL v3 |
Веб-сайт | https://github.com/soedinglab/hh-suite |
HH -suite — это пакет программного обеспечения с открытым исходным кодом для поиска чувствительных последовательностей белков . Он содержит программы, которые могут искать похожие последовательности белков в базах данных последовательностей белков. Поиск последовательностей — стандартный инструмент в современной биологии, с помощью которого можно сделать вывод о функции неизвестных белков на основе функций белков со схожими последовательностями. HHsearch и HHblits — две основные программы в пакете и точка входа в его функцию поиска, причем последняя является более быстрой итерацией. [2] [3] HHpred — это онлайн-сервер для прогнозирования структуры белков , который использует информацию о гомологии из HH-suite. [4]
Пакет HH ищет последовательности, используя скрытые модели Маркова (HMM). Название происходит от того факта, что он выполняет выравнивание HMM-HMM. , среди наиболее популярных методов сопоставления последовательностей белков программы упоминались в общей сложности более 5000 раз По данным Google Scholar . [5]
Фон
[ редактировать ]Белки играют центральную роль во всех жизненных процессах. Их понимание имеет решающее значение для понимания молекулярных процессов в клетках. Это особенно важно для понимания происхождения заболеваний. Но для значительной части из примерно 20 000 белков человека структуры и функции остаются неизвестными. Многие белки были исследованы на модельных организмах, таких как многие бактерии, пекарские дрожжи, плодовые мухи, данио и мыши, с которыми эксперименты зачастую проводить легче, чем с человеческими клетками. Чтобы предсказать функцию, структуру или другие свойства белка, для которого известна только его последовательность аминокислот, последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных. Если обнаружен белок с достаточно похожей последовательностью, эти два белка, вероятно, будут эволюционно родственными ( «гомологичными» ). В этом случае они, скорее всего, будут иметь схожие структуры и функции. Следовательно, если с помощью поиска последовательностей можно найти белок с достаточно сходной последовательностью и с известными функциями и/или структурой, можно предсказать функции, структуру и состав домена неизвестного белка. Такие прогнозы значительно облегчают определение функции или структуры с помощью целевых проверочных экспериментов.
Биологи часто выполняют поиск последовательностей, чтобы сделать вывод о функции неизвестного белка по его последовательности. Для этого последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных и определяют его функцию на основе функций наиболее похожих последовательностей. Часто при таком поиске не удается найти последовательности с аннотированными функциями. В этом случае требуются более чувствительные методы для идентификации более отдаленно родственных белков или семейств белков . белка предположения о функциях, структуре и доменном составе На основе этих взаимосвязей можно сделать . HHsearch выполняет поиск последовательности белков в базах данных. Сервер HHpred и пакет программного обеспечения HH-suite предлагают множество популярных, регулярно обновляемых баз данных, таких как Protein Data Bank , а также базы данных InterPro , Pfam , COG и SCOP .
Алгоритм
[ редактировать ]Современные чувствительные методы поиска белков используют профили последовательностей. Их можно использовать для сравнения последовательности с профилем или, в более сложных случаях, таких как HH-набор, для сопоставления профилей. [2] [6] [7] [8] Профили и выравнивания сами по себе получаются на основе совпадений, например, с использованием PSI-BLAST или HHblits. Профиль оценочной матрицы для конкретной позиции (PSSM) содержит для каждой позиции в последовательности запроса показатель сходства для 20 аминокислот. Профили получаются в результате множественного выравнивания последовательностей (MSA), при котором родственные белки записываются вместе (выравниваются), так что частоты аминокислот в каждом положении можно интерпретировать как вероятности появления аминокислот в новых родственных белках и использовать для вывести «оценки сходства». Поскольку профили содержат гораздо больше информации, чем одна последовательность (например, степень консервации для конкретной позиции), методы сравнения профиля-профиля гораздо более эффективны, чем методы сравнения последовательность-последовательность, такие как BLAST , или методы сравнения профиля-последовательность, такие как PSI-BLAST. [6]
HHpred и HHsearch представляют белки запроса и базы данных с помощью скрытых моделей Маркова профиля (HMM), расширения профилей последовательностей PSSM, которое также записывает частоты вставок и делеций специфичных для положения аминокислот. HHsearch выполняет поиск в базе данных HMM с помощью запроса HMM. Прежде чем начать поиск в фактической базе данных HMM, HHsearch/HHpred создает множественное выравнивание последовательностей, связанных с последовательностью запроса/MSA, с использованием программы HHblits. На основании этого выравнивания рассчитывается профиль HMM. Базы данных содержат HMM, которые предварительно рассчитываются таким же образом с помощью PSI-BLAST. Результатом работы HHpred и HHsearch является ранжированный список совпадений базы данных (включая E-значения и вероятности истинной связи) и парные выравнивания последовательностей запроса и базы данных.
HHblits, входящий в состав пакета HH с 2001 года, создает высококачественные множественные выравнивания последовательностей (MSA), начиная с одной последовательности запроса или MSA. Как и в PSI-BLAST, он работает итеративно, неоднократно создавая новые профили запросов, добавляя результаты, найденные в предыдущем раунде. Он сопоставляется с предварительно созданными базами данных HMM, полученными из баз данных последовательностей белков, каждая из которых представляет собой «кластер» родственных белков. В случае HHblits такие совпадения выполняются на уровне профилей HMM-HMM, что обеспечивает дополнительную чувствительность. Его предварительная фильтрация сокращает десятки миллионов HMM до нескольких тысяч, тем самым ускоряя медленный процесс сравнения HMM-HMM. [3]
Пакет HH включает в себя ряд предварительно созданных профилей HMM, поиск по которым можно осуществлять с помощью HHblits и HHsearch, в том числе кластерную версию базы данных UniProt , Банка данных белков с известными структурами, выравниваний семейства белков Pfam , доменов структурных белков SCOP и многое другое. [9]
Приложения
[ редактировать ]Приложения HHpred и HHsearch включают прогнозирование структуры белков, прогнозирование сложной структуры, прогнозирование функций, прогнозирование доменов, прогнозирование границ доменов и эволюционную классификацию белков. [10]
HHsearch часто используется для моделирования гомологии , то есть для построения модели структуры интересующего белка, для которого известна только последовательность: для этой цели в базе данных белков с известными структурами, например в банке данных белков. выполняется поиск «шаблонные» белки, подобные белку запроса. Если такой матричный белок обнаружен, структуру интересующего белка можно предсказать на основе попарного выравнивания последовательности запроса с последовательностью матричного белка. Например, поиск белков с решенной 3D-структурой в базе данных PDB занимает несколько минут. Если в базе данных PDB обнаружено значительное совпадение с белком известной структуры («шаблон»), HHpred позволяет пользователю построить модель гомологии с помощью программного обеспечения MODELLER , начиная с парного выравнивания запроса и шаблона.
Серверы HHpred были признаны одними из лучших серверов в ходе CASP 7, 8 и 9 за эксперименты по слепому предсказанию структуры белков. В CASP9 HHpredA, B и C заняли 1-е, 2-е и 3-е места из 81 участвовавшего сервера автоматического прогнозирования структуры в моделировании на основе шаблонов. [11] и 6-е, 7-е, 8-е места на всех 147 целях, при этом значительно быстрее 20 лучших серверов. [12] В CASP 8 HHpred занял 7-е место по всем целям и 2-е место по подмножеству однодоменных белков, при этом оставаясь более чем в 50 раз быстрее, чем серверы с самым высоким рейтингом. [4]
Содержание
[ редактировать ]Помимо HHsearch и HHblits, пакет HH содержит программы и Perl-скрипты для преобразования форматов, фильтрации MSA, генерации HMM профилей, добавления прогнозов вторичной структуры в MSA, извлечения выравниваний из выходных данных программы и генерации индивидуальные базы данных.
ххблиц | (Итеративно) выполнить поиск в базе данных HHblits с помощью последовательности запросов или MSA. |
---|---|
ххпоиск | Выполните поиск в базе данных HHsearch HMM с помощью запроса MSA или HMM. |
хммэйк | Создайте HMM из входного MSA. |
hhфильтр | Фильтрация MSA по максимальной идентичности последовательностей, охвату и другим критериям. |
hhalign | Рассчитать парные выравнивания, точечные графики и т. д. для двух HMM/MSA. |
reformat.pl | Переформатировать один или несколько MSA |
addss.pl | Добавьте предсказанную вторичную структуру Psipred в файл MSA или HHM. |
hhmakemodel.pl | Создание MSA или грубых 3D-моделей на основе результатов HHsearch или HHblits. |
hhblitsdb.pl | Создайте базу данных HHblits с предварительной фильтрацией, упакованными MSA/HMM и индексными файлами. |
multithread.pl | Запустите команду для множества файлов параллельно, используя несколько потоков. |
splitfasta.pl | Разделить файл FASTA с несколькими последовательностями на несколько файлов с одной последовательностью. |
renumberpdb.pl | Сгенерируйте файл PDB с индексами, перенумерованными в соответствии с индексами входной последовательности. |
Алгоритм выравнивания HMM-HMM в HHblits и HHsearch был значительно ускорен с использованием векторных инструкций в версии 3 пакета HH. [13]
См. также
[ редактировать ]- Программное обеспечение для выравнивания последовательностей
- Прогнозирование структуры белка
- Матрица оценок для конкретной позиции
- Множественное выравнивание последовательностей
- CASP - Критическая оценка методов прогнозирования структуры белка
- BLAST (базовый инструмент поиска локального выравнивания)
- Контекстно-зависимый BLAST (CS-BLAST)
Ссылки
[ редактировать ]- ^ Пакет Debian hhsuite
- ^ Jump up to: а б Сёдинг Дж. (2005). «Обнаружение гомологии белков путем сравнения HMM-HMM» . Биоинформатика . 21 (7): 951–960. doi : 10.1093/биоинформатика/bti125 . hdl : 11858/00-001M-0000-0017-EC7A-F . ПМИД 15531603 .
- ^ Jump up to: а б Реммерт М., Бигерт А., Хаузер А., Сёдинг Дж. (2011). «HHblits: молниеносный итеративный поиск белковых последовательностей путем выравнивания HMM-HMM» (PDF) . Нат. Методы . 9 (2): 173–175. дои : 10.1038/NMETH.1818 . hdl : 11858/00-001M-0000-0015-8D56-A . ПМИД 22198341 . S2CID 205420247 .
- ^ Jump up to: а б Сёдинг Дж., Бигерт А., Лупас А.Н. (2005). «Интерактивный сервер HHpred для обнаружения гомологии белков и прогнозирования структуры» . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W244–248. дои : 10.1093/nar/gki408 . ПМК 1160169 . ПМИД 15980461 .
- ^ Цитаты на HHpred , HHsearch , HHblits
- ^ Jump up to: а б Ярошевский Л., Рыхлевский Л., Годзик А. (2000). «Улучшение качества выравнивания сумеречных зон» . Белковая наука . 9 (8): 1487–1496. дои : 10.1110/ps.9.8.1487 . ПМК 2144727 . ПМИД 10975570 .
- ^ Садреев Р.И., Бейкер Д., Гришин Н.В. (2003). «Сравнение профилей с помощью COMPASS предсказывает сложную гомологию между семействами белков» . Белковая наука . 12 (10): 2262–2272. дои : 10.1110/ps.03197403 . ПМК 2366929 . ПМИД 14500884 .
- ^ Данбрек Р.Л. младший (2006). «Сравнение последовательностей и предсказание структуры белка». Современное мнение в области структурной биологии . 16 (3): 374–384. дои : 10.1016/j.sbi.2006.05.006 . ПМИД 16713709 .
- ^ Ли, Чжаоюй. «Некоторые заметки о HHSuite» . Архивировано из оригинала 3 апреля 2019 года . Проверено 3 апреля 2019 г.
- ^ Герлер А., Говиндараджо Б., Чжан Ю. (2013). «Сопоставление мономерной нити с прогнозированием структуры белка» . Журнал химической информации и моделирования . 53 (3): 717–25. дои : 10.1021/ci300579r . ПМК 4076494 . ПМИД 23413988 .
- ^ Официальные результаты CASP9 для категории моделирования на основе шаблонов (121 цель)
- ^ Официальные результаты CASP9 для всех 147 объектов.
- ^ Штайнеггер М., Мейер М., Мирдита М., Ферингер Х., Хаунсбергер С., Сёдинг Дж. (2019). «HH-suite3 для быстрого дистанционного обнаружения гомологии и глубокой аннотации белков» . БМК Биоинформатика . 20 (1): 473. doi : 10.1186/s12859-019-3019-7 . ПМК 6744700 . ПМИД 31521110 .
Внешние ссылки
[ редактировать ]- Лаборатория Зёдинга в Институте Макса Планка в Геттингене - разработчики HH-suite
- Загрузка предварительно скомпилированных двоичных файлов и баз данных HH-suite от разработчиков
- HHpred — бесплатный сервер в Институте Макса Планка в Тюбингене
- HHblits — бесплатный сервер в Институте Макса Планка в Тюбингене
- Веб-сайт КАСП
- Результаты моделирования на основе шаблона CASP9
- Пакет Debian HH-suite
- Пакет HH-suite Ubuntu
- Пользовательский репозиторий HH-suite Arch Linux