Jump to content

HH-люкс

(Перенаправлено с HHpred/HHsearch )
HH-люкс
Разработчик(и) Йоханнес Зёдинг, Михаэль Реммерт, Андреас Бигерт, Андреас Хаузер, Маркус Мейер, Мартин Штайнеггер
Стабильная версия
3.3.0 / 25 августа 2020 г. ( 25.08.2020 )
Репозиторий
Написано в С++
Операционная система Unix-подобный ; Debian Доступен пакет [1]
Доступно в Английский
Тип биоинформатики Инструмент
Лицензия Лицензия GPL v3
Веб-сайт https://github.com/soedinglab/hh-suite

HH -suite — это пакет программного обеспечения с открытым исходным кодом для поиска чувствительных последовательностей белков . Он содержит программы, которые могут искать похожие последовательности белков в базах данных последовательностей белков. Поиск последовательностей — стандартный инструмент в современной биологии, с помощью которого можно сделать вывод о функции неизвестных белков на основе функций белков со схожими последовательностями. HHsearch и HHblits — две основные программы в пакете и точка входа в его функцию поиска, причем последняя является более быстрой итерацией. [2] [3] HHpred — это онлайн-сервер для прогнозирования структуры белков , который использует информацию о гомологии из HH-suite. [4]

Пакет HH ищет последовательности, используя скрытые модели Маркова (HMM). Название происходит от того факта, что он выполняет выравнивание HMM-HMM. , среди наиболее популярных методов сопоставления последовательностей белков программы упоминались в общей сложности более 5000 раз По данным Google Scholar . [5]

Белки играют центральную роль во всех жизненных процессах. Их понимание имеет решающее значение для понимания молекулярных процессов в клетках. Это особенно важно для понимания происхождения заболеваний. Но для значительной части из примерно 20 000 белков человека структуры и функции остаются неизвестными. Многие белки были исследованы на модельных организмах, таких как многие бактерии, пекарские дрожжи, плодовые мухи, данио и мыши, с которыми эксперименты зачастую проводить легче, чем с человеческими клетками. Чтобы предсказать функцию, структуру или другие свойства белка, для которого известна только его последовательность аминокислот, последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных. Если обнаружен белок с достаточно похожей последовательностью, эти два белка, вероятно, будут эволюционно родственными ( «гомологичными» ). В этом случае они, скорее всего, будут иметь схожие структуры и функции. Следовательно, если с помощью поиска последовательностей можно найти белок с достаточно сходной последовательностью и с известными функциями и/или структурой, можно предсказать функции, структуру и состав домена неизвестного белка. Такие прогнозы значительно облегчают определение функции или структуры с помощью целевых проверочных экспериментов.

Биологи часто выполняют поиск последовательностей, чтобы сделать вывод о функции неизвестного белка по его последовательности. Для этого последовательность белка сравнивают с последовательностями других белков в общедоступных базах данных и определяют его функцию на основе функций наиболее похожих последовательностей. Часто при таком поиске не удается найти последовательности с аннотированными функциями. В этом случае требуются более чувствительные методы для идентификации более отдаленно родственных белков или семейств белков . белка предположения о функциях, структуре и доменном составе На основе этих взаимосвязей можно сделать . HHsearch выполняет поиск последовательности белков в базах данных. Сервер HHpred и пакет программного обеспечения HH-suite предлагают множество популярных, регулярно обновляемых баз данных, таких как Protein Data Bank , а также базы данных InterPro , Pfam , COG и SCOP .

Алгоритм

[ редактировать ]
Схема итеративного поиска последовательности HHblits

Современные чувствительные методы поиска белков используют профили последовательностей. Их можно использовать для сравнения последовательности с профилем или, в более сложных случаях, таких как HH-набор, для сопоставления профилей. [2] [6] [7] [8] Профили и выравнивания сами по себе получаются на основе совпадений, например, с использованием PSI-BLAST или HHblits. Профиль оценочной матрицы для конкретной позиции (PSSM) содержит для каждой позиции в последовательности запроса показатель сходства для 20 аминокислот. Профили получаются в результате множественного выравнивания последовательностей (MSA), при котором родственные белки записываются вместе (выравниваются), так что частоты аминокислот в каждом положении можно интерпретировать как вероятности появления аминокислот в новых родственных белках и использовать для вывести «оценки сходства». Поскольку профили содержат гораздо больше информации, чем одна последовательность (например, степень консервации для конкретной позиции), методы сравнения профиля-профиля гораздо более эффективны, чем методы сравнения последовательность-последовательность, такие как BLAST , или методы сравнения профиля-последовательность, такие как PSI-BLAST. [6]

HHpred и HHsearch представляют белки запроса и базы данных с помощью скрытых моделей Маркова профиля (HMM), расширения профилей последовательностей PSSM, которое также записывает частоты вставок и делеций специфичных для положения аминокислот. HHsearch выполняет поиск в базе данных HMM с помощью запроса HMM. Прежде чем начать поиск в фактической базе данных HMM, HHsearch/HHpred создает множественное выравнивание последовательностей, связанных с последовательностью запроса/MSA, с использованием программы HHblits. На основании этого выравнивания рассчитывается профиль HMM. Базы данных содержат HMM, которые предварительно рассчитываются таким же образом с помощью PSI-BLAST. Результатом работы HHpred и HHsearch является ранжированный список совпадений базы данных (включая E-значения и вероятности истинной связи) и парные выравнивания последовательностей запроса и базы данных.

HHblits, входящий в состав пакета HH с 2001 года, создает высококачественные множественные выравнивания последовательностей (MSA), начиная с одной последовательности запроса или MSA. Как и в PSI-BLAST, он работает итеративно, неоднократно создавая новые профили запросов, добавляя результаты, найденные в предыдущем раунде. Он сопоставляется с предварительно созданными базами данных HMM, полученными из баз данных последовательностей белков, каждая из которых представляет собой «кластер» родственных белков. В случае HHblits такие совпадения выполняются на уровне профилей HMM-HMM, что обеспечивает дополнительную чувствительность. Его предварительная фильтрация сокращает десятки миллионов HMM до нескольких тысяч, тем самым ускоряя медленный процесс сравнения HMM-HMM. [3]

Пакет HH включает в себя ряд предварительно созданных профилей HMM, поиск по которым можно осуществлять с помощью HHblits и HHsearch, в том числе кластерную версию базы данных UniProt , Банка данных белков с известными структурами, выравниваний семейства белков Pfam , доменов структурных белков SCOP и многое другое. [9]

Приложения

[ редактировать ]

Приложения HHpred и HHsearch включают прогнозирование структуры белков, прогнозирование сложной структуры, прогнозирование функций, прогнозирование доменов, прогнозирование границ доменов и эволюционную классификацию белков. [10]

HHsearch часто используется для моделирования гомологии , то есть для построения модели структуры интересующего белка, для которого известна только последовательность: для этой цели в базе данных белков с известными структурами, например в банке данных белков. выполняется поиск «шаблонные» белки, подобные белку запроса. Если такой матричный белок обнаружен, структуру интересующего белка можно предсказать на основе попарного выравнивания последовательности запроса с последовательностью матричного белка. Например, поиск белков с решенной 3D-структурой в базе данных PDB занимает несколько минут. Если в базе данных PDB обнаружено значительное совпадение с белком известной структуры («шаблон»), HHpred позволяет пользователю построить модель гомологии с помощью программного обеспечения MODELLER , начиная с парного выравнивания запроса и шаблона.

Серверы HHpred были признаны одними из лучших серверов в ходе CASP 7, 8 и 9 за эксперименты по слепому предсказанию структуры белков. В CASP9 HHpredA, B и C заняли 1-е, 2-е и 3-е места из 81 участвовавшего сервера автоматического прогнозирования структуры в моделировании на основе шаблонов. [11] и 6-е, 7-е, 8-е места на всех 147 целях, при этом значительно быстрее 20 лучших серверов. [12] В CASP 8 HHpred занял 7-е место по всем целям и 2-е место по подмножеству однодоменных белков, при этом оставаясь более чем в 50 раз быстрее, чем серверы с самым высоким рейтингом. [4]

Содержание

[ редактировать ]

Помимо HHsearch и HHblits, пакет HH содержит программы и Perl-скрипты для преобразования форматов, фильтрации MSA, генерации HMM профилей, добавления прогнозов вторичной структуры в MSA, извлечения выравниваний из выходных данных программы и генерации индивидуальные базы данных.

ххблиц (Итеративно) выполнить поиск в базе данных HHblits с помощью последовательности запросов или MSA.
ххпоиск Выполните поиск в базе данных HHsearch HMM с помощью запроса MSA или HMM.
хммэйк Создайте HMM из входного MSA.
hhфильтр Фильтрация MSA по максимальной идентичности последовательностей, охвату и другим критериям.
hhalign Рассчитать парные выравнивания, точечные графики и т. д. для двух HMM/MSA.
reformat.pl Переформатировать один или несколько MSA
addss.pl Добавьте предсказанную вторичную структуру Psipred в файл MSA или HHM.
hhmakemodel.pl Создание MSA или грубых 3D-моделей на основе результатов HHsearch или HHblits.
hhblitsdb.pl Создайте базу данных HHblits с предварительной фильтрацией, упакованными MSA/HMM и индексными файлами.
multithread.pl Запустите команду для множества файлов параллельно, используя несколько потоков.
splitfasta.pl Разделить файл FASTA с несколькими последовательностями на несколько файлов с одной последовательностью.
renumberpdb.pl Сгенерируйте файл PDB с индексами, перенумерованными в соответствии с индексами входной последовательности.

Алгоритм выравнивания HMM-HMM в HHblits и HHsearch был значительно ускорен с использованием векторных инструкций в версии 3 пакета HH. [13]

См. также

[ редактировать ]
  1. ^ Пакет Debian hhsuite
  2. ^ Jump up to: а б Сёдинг Дж. (2005). «Обнаружение гомологии белков путем сравнения HMM-HMM» . Биоинформатика . 21 (7): 951–960. doi : 10.1093/биоинформатика/bti125 . hdl : 11858/00-001M-0000-0017-EC7A-F . ПМИД   15531603 .
  3. ^ Jump up to: а б Реммерт М., Бигерт А., Хаузер А., Сёдинг Дж. (2011). «HHblits: молниеносный итеративный поиск белковых последовательностей путем выравнивания HMM-HMM» (PDF) . Нат. Методы . 9 (2): 173–175. дои : 10.1038/NMETH.1818 . hdl : 11858/00-001M-0000-0015-8D56-A . ПМИД   22198341 . S2CID   205420247 .
  4. ^ Jump up to: а б Сёдинг Дж., Бигерт А., Лупас А.Н. (2005). «Интерактивный сервер HHpred для обнаружения гомологии белков и прогнозирования структуры» . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W244–248. дои : 10.1093/nar/gki408 . ПМК   1160169 . ПМИД   15980461 .
  5. ^ Цитаты на HHpred , HHsearch , HHblits
  6. ^ Jump up to: а б Ярошевский Л., Рыхлевский Л., Годзик А. (2000). «Улучшение качества выравнивания сумеречных зон» . Белковая наука . 9 (8): 1487–1496. дои : 10.1110/ps.9.8.1487 . ПМК   2144727 . ПМИД   10975570 .
  7. ^ Садреев Р.И., Бейкер Д., Гришин Н.В. (2003). «Сравнение профилей с помощью COMPASS предсказывает сложную гомологию между семействами белков» . Белковая наука . 12 (10): 2262–2272. дои : 10.1110/ps.03197403 . ПМК   2366929 . ПМИД   14500884 .
  8. ^ Данбрек Р.Л. младший (2006). «Сравнение последовательностей и предсказание структуры белка». Современное мнение в области структурной биологии . 16 (3): 374–384. дои : 10.1016/j.sbi.2006.05.006 . ПМИД   16713709 .
  9. ^ Ли, Чжаоюй. «Некоторые заметки о HHSuite» . Архивировано из оригинала 3 апреля 2019 года . Проверено 3 апреля 2019 г.
  10. ^ Герлер А., Говиндараджо Б., Чжан Ю. (2013). «Сопоставление мономерной нити с прогнозированием структуры белка» . Журнал химической информации и моделирования . 53 (3): 717–25. дои : 10.1021/ci300579r . ПМК   4076494 . ПМИД   23413988 .
  11. ^ Официальные результаты CASP9 для категории моделирования на основе шаблонов (121 цель)
  12. ^ Официальные результаты CASP9 для всех 147 объектов.
  13. ^ Штайнеггер М., Мейер М., Мирдита М., Ферингер Х., Хаунсбергер С., Сёдинг Дж. (2019). «HH-suite3 для быстрого дистанционного обнаружения гомологии и глубокой аннотации белков» . БМК Биоинформатика . 20 (1): 473. doi : 10.1186/s12859-019-3019-7 . ПМК   6744700 . ПМИД   31521110 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: eea8b3ebb779638e812d75fcd0f78985__1720000140
URL1:https://arc.ask3.ru/arc/aa/ee/85/eea8b3ebb779638e812d75fcd0f78985.html
Заголовок, (Title) документа по адресу, URL1:
HH-suite - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)