ХММЕР

ХММЕР
Разработчик(и)	Шон Эдди, Трэвис Уиллер, команда разработчиков HMMER
Стабильная версия	3.4 / 15 августа 2023 г .; 10 месяцев назад
Репозиторий	github .с /ЭддиРивасЛаб /хммер ;
Написано в	С
Доступно в	Английский
Тип	биоинформатики Инструмент
Лицензия	БСД-3
Веб-сайт	хммер .org

HMMER — это бесплатный и широко используемый пакет программного обеспечения для анализа последовательностей, написанный Шоном Эдди . ^[2] Его обычное использование заключается в идентификации гомологичных белковых или нуклеотидных последовательностей и выполнении выравнивания последовательностей. Он обнаруживает гомологию путем сравнения профиля-HMM ( скрытой марковской модели, созданной явно для конкретного поиска) либо с одной последовательностью, либо с базой данных последовательностей. Последовательности, которые значительно лучше оцениваются по профилю-HMM по сравнению с нулевой моделью, считаются гомологичными последовательностям, которые использовались для построения профиля-HMM. Profile-HMM создаются путем множественного выравнивания последовательностей в пакете HMMER с использованием программы hmmbuild . Реализация Profile-HMM, используемая в программном обеспечении HMMER, была основана на работе Крога и его коллег. ^[3] HMMER — консольная утилита, портированная на все основные операционные системы , включая различные версии Linux , Windows и macOS .

HMMER — это основная утилита, базы данных семейств белков, такие как Pfam и InterPro на которой основаны . Некоторые другие инструменты биоинформатики, такие как UGENE, также используют HMMER.

HMMER3 также широко использует векторные инструкции для увеличения скорости вычислений. Эта работа основана на более ранней публикации, показывающей значительное ускорение алгоритма Смита-Уотермана для выравнивания двух последовательностей. ^[4]

Профиль HMMs [ править ]

Профиль HMM представляет собой вариант HMM, относящийся конкретно к биологическим последовательностям. Профильные HMM превращают множественное выравнивание последовательностей в систему оценки по положению, которую можно использовать для выравнивания последовательностей и поиска в базах данных отдаленно гомологичных последовательностей. ^[5] Они извлекают выгоду из того факта, что определенные позиции в выравнивании последовательностей имеют тенденцию иметь предвзятость, в которой остатки встречаются с наибольшей вероятностью, и, вероятно, различаются по вероятности содержать вставку или делецию. Сбор этой информации дает им лучшую способность обнаруживать истинных гомологов, чем традиционные подходы, основанные на BLAST , которые одинаково наказывают замены, вставки и делеции, независимо от того, в каком месте выравнивания они происходят. ^[6]

Профильные HMM сосредоточены вокруг линейного набора состояний совпадения (M), причем одно состояние соответствует каждому столбцу консенсуса в выравнивании последовательностей. Каждое состояние М испускает один остаток (аминокислоту или нуклеотид). Вероятность выделения определенного остатка определяется в основном частотой, с которой этот остаток наблюдался в этом столбце выравнивания, но также включает в себя предварительную информацию о шаблонах остатков, которые имеют тенденцию одновременно встречаться в одних и тех же столбцах выравнивания последовательностей. Эта строка состояний соответствия, испускающих аминокислоты на определенных частотах, аналогична матрицам оценок для конкретной позиции или матрицам весов. ^[5]

Профиль HMM развивает это моделирование выравнивания последовательностей, моделируя вставки и делеции, используя состояния I и D соответственно. Состояния D не выделяют остаток, тогда как состояния I выделяют остаток. Множественные состояния I могут возникать последовательно, что соответствует множеству остатков между консенсусными столбцами при выравнивании. Состояния M, I и D связаны вероятностями перехода состояний, которые также различаются в зависимости от положения в выравнивании последовательностей, чтобы отразить различную частоту вставок и делеций при выравнивании последовательностей. ^[5]

В выпусках HMMER2 и HMMER3 использовалась архитектура для построения профильных HMM, называемая архитектурой Plan 7, названная в честь семи состояний, охватываемых моделью. В дополнение к трем основным состояниям (M, I и D), шесть дополнительных состояний захватывают негомологичную фланкирующую последовательность в выравнивании. Эти 6 состояний в совокупности важны для контроля того, как последовательности соответствуют модели, например, может ли последовательность иметь несколько последовательных совпадений с одной и той же моделью (в случае последовательностей с несколькими экземплярами одного и того же домена). ^[7]

Программы в пакете HMMER [ править ]

Пакет HMMER состоит из набора программ для выполнения функций с использованием профильных скрытых марковских моделей. ^[8] В программы входят:

Профиль здания HMM [ править ]

hmmbuild — построить профиль HMM из нескольких выравниваний последовательностей.

Поиск гомологии [ править ]

hmmscan — поиск последовательностей белков в базе данных профиля HMM.
hmmsearch — профиль поиска HMM по базе данных последовательностей.
jackhmmer — итеративный поиск последовательностей в базе данных белков
nhmmer — поиск запросов ДНК/РНК в базе данных последовательностей ДНК/РНК.
nhmmscan — поиск нуклеотидных последовательностей по нуклеотидному профилю
phmmer — поиск последовательностей белков в базе данных белков

Другие функции [ править ]

hmmalign - выравнивает последовательности по профилю HMM
hmmemit — создавать выборочные последовательности из профиля HMM
hmmlogo — создает данные для логотипа HMM из файла HMM.

Пакет содержит множество других специализированных функций.

Веб-сервер HMMER [ править ]

Помимо пакета программного обеспечения, функция поиска HMMER доступна в виде веб-сервера. ^[9] Служба облегчает поиск по ряду баз данных, включая базы данных последовательностей, такие как UniProt , SwissProt и Protein Data Bank , а также базы данных HMM, такие как Pfam , TIGRFAMs и SUPERFAMILY . Поддерживаются четыре типа поиска: phmmer, hmmsearch, hmmscan и jackhmmer (см. «Программы» ). Функция поиска принимает отдельные последовательности, а также выравнивания последовательностей или профильные HMM. ^[10]

Результаты поиска сопровождаются отчетом о таксономической разбивке и доменной организации совпадений. Результаты поиска затем можно фильтровать по любому параметру.

Веб-сервис в настоящее время поддерживается Европейским институтом биоинформатики (EBI) в Великобритании, а разработкой алгоритма по-прежнему занимается команда Шона Эдди в США. ^[9] Основными причинами перемещения веб-службы было использование вычислительной инфраструктуры EBI и перекрестное связывание поисков HMMER с соответствующими базами данных, которые также поддерживаются EBI.

Релиз HMMER3 [ править ]

Последней стабильной версией HMMER является версия 3.0. HMMER3 — это полная переработка более раннего пакета HMMER2 с целью повышения скорости поиска по профилям HMM. Основные изменения изложены ниже:

Улучшения в скорости [ править ]

Основной целью проекта HMMER3, начатого в 2004 году, было повышение скорости поиска HMMER. Хотя поиск гомологии на основе профиля HMM был более точным, чем подходы на основе BLAST, их более медленная скорость ограничивала их применимость. ^[8] Основной прирост производительности достигается за счет эвристического фильтра , который находит в последовательностях базы данных неразрывные совпадения с профилем запроса. Эта эвристика приводит к времени вычислений, сравнимому с BLAST, с небольшим влиянием на точность. Дальнейший прирост производительности обусловлен моделью логарифмического правдоподобия , которая не требует калибровки для оценки значений E и позволяет использовать более точные прямые оценки для вычисления значимости гомологичной последовательности. ^[11]^[6]

HMMER по-прежнему отстает от BLAST по скорости поиска по ДНК; однако поиск на основе ДНК можно настроить таким образом, что повышение скорости будет происходить за счет точности. ^[12]

в удаленном Улучшения поиске гомологии

Значительный прогресс в скорости стал возможен благодаря разработке подхода к расчету значимости результатов, интегрированных по ряду возможных сопоставлений. ^[11] При обнаружении удаленных гомологов совпадения между запрашиваемыми и попадающими белками часто очень неопределенны. В то время как большинство инструментов выравнивания последовательностей рассчитывают баллы совпадения, используя только наилучшее выравнивание баллов, HMMER3 вычисляет баллы совпадения путем интегрирования всех возможных сопоставлений, чтобы учесть неопределенность, в которой выравнивание является лучшим. Выравнивания последовательностей HMMER сопровождаются аннотациями апостериорной вероятности, указывающими, каким частям выравнивания присвоена высокая степень достоверности, а каким - более неопределенным.

ДНК Сравнение последовательностей

Основным улучшением HMMER3 стало включение инструментов сравнения ДНК/ДНК. HMMER2 имел функцию только для сравнения белковых последовательностей.

Ограничение на локальное выравнивание [ править ]

В то время как HMMER2 может выполнять локальное выравнивание (согласовать полную модель с подпоследовательностью целевой) и глобальное выравнивание (согласовать полную модель с полной целевой последовательностью), HMMER3 выполняет только локальное выравнивание. Это ограничение связано со сложностью расчета значимости совпадений при выполнении локального/глобального выравнивания с использованием нового алгоритма.

См. также [ править ]

Доступны несколько реализаций профильных методов HMM и связанных с ними методов матрицы оценок для конкретной позиции. Некоторые из них перечислены ниже:

Ссылки [ править ]

^ «Выпуск 3.4» . 15 августа 2023 г. Проверено 18 сентября 2023 г.
^ Дурбин, Ричард; Шон Р. Эдди; Андерс Крог ; Грэм Митчисон (1998). Анализ биологических последовательностей: вероятностные модели белков и нуклеиновых кислот . Издательство Кембриджского университета. ISBN 0-521-62971-3 .
^ Крог А., Браун М., Миан И.С., Шёландер К., Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». Дж. Мол. Биол . 235 (5): 1501–31. дои : 10.1006/jmbi.1994.1104 . ПМИД 8107089 .
^ Фаррар М. (январь 2007 г.). «Striped Smith-Waterman ускоряет поиск в базе данных в шесть раз по сравнению с другими реализациями SIMD» . Биоинформатика . 23 (2): 156–61. doi : 10.1093/биоинформатика/btl582 . ПМИД 17110365 .
↑ Перейти обратно: Перейти обратно: ^а ^б ^с Эдди, СР (1998). «Профиль скрытых марковских моделей» . Биоинформатика . 14 (9): 755–63. дои : 10.1093/биоинформатика/14.9.755 . ПМИД 9918945 .
↑ Перейти обратно: Перейти обратно: ^а ^б Эдди, Шон Р.; Пирсон, Уильям Р. (20 октября 2011 г.). «Ускоренный поиск профиля HMM» . PLOS Вычислительная биология . 7 (10): е1002195. Бибкод : 2011PLSCB...7E2195E . CiteSeerX 10.1.1.290.1476 . дои : 10.1371/journal.pcbi.1002195 . ПМК 3197634 . ПМИД 22039361 .
^ Эдди, Шон. «Руководство пользователя HMMER2» (PDF) .
↑ Перейти обратно: Перейти обратно: ^а ^б Шон Р. Эдди; Трэвис Дж. Уиллер. «Руководство пользователя HMMER» (PDF) . и команда разработчиков HMMER . Проверено 23 июля 2017 г.
↑ Перейти обратно: Перейти обратно: ^а ^б Финн, Роберт Д.; Клементс, Джоди; Арндт, Уильям; Миллер, Бенджамин Л.; Уиллер, Трэвис Дж.; Шрайбер, Фабиан; Бейтман, Алекс; Эдди, Шон Р. (1 июля 2015 г.). «Веб-сервер HMMER: обновление 2015 г.» . Исследования нуклеиновых кислот . 43 (П1): П30–П38. дои : 10.1093/нар/gkv397 . ПМЦ 4489315 . ПМИД 25943547 .
^ Финн, Роберт Д.; Клементс, Джоди; Эдди, Шон Р. (1 июля 2011 г.). «Веб-сервер HMMER: интерактивный поиск сходства последовательностей» . Исследования нуклеиновых кислот . 39 (проблема с веб-сервером): W29–W37. дои : 10.1093/nar/gkr367 . ISSN 0305-1048 . ПМК 3125773 . ПМИД 21593126 .
↑ Перейти обратно: Перейти обратно: ^а ^б Эдди С.Р. (2008). Рост, Буркхард (ред.). «Вероятностная модель локального выравнивания последовательностей, упрощающая оценку статистической значимости» . ПЛОС Компьютерная Биол . 4 (5): e1000069. Бибкод : 2008PLSCB...4E0069E . дои : 10.1371/journal.pcbi.1000069 . ПМК 2396288 . ПМИД 18516236 .
^ Шон Р. Эдди; Трэвис Дж. Уиллер. «Примечания к выпуску HMMER3.1b2» . и команда разработчиков HMMER . Проверено 23 июля 2017 г.

Внешние ссылки [ править ]

[wikidata-ddef60f87bafaf936e726c460e5bfcfca6faed7c-v13-1] «Выпуск 3.4» . 15 августа 2023 г. Проверено 18 сентября 2023 г.

[2] Дурбин, Ричард; Шон Р. Эдди; Андерс Крог ; Грэм Митчисон (1998). Анализ биологических последовательностей: вероятностные модели белков и нуклеиновых кислот . Издательство Кембриджского университета. ISBN 0-521-62971-3 .

[pmid8107089-3] Крог А., Браун М., Миан И.С., Шёландер К., Хаусслер Д. (февраль 1994 г.). «Скрытые марковские модели в вычислительной биологии. Приложения к моделированию белков». Дж. Мол. Биол . 235 (5): 1501–31. дои : 10.1006/jmbi.1994.1104 . ПМИД 8107089 .

[pmid17110365-4] Фаррар М. (январь 2007 г.). «Striped Smith-Waterman ускоряет поиск в базе данных в шесть раз по сравнению с другими реализациями SIMD» . Биоинформатика . 23 (2): 156–61. doi : 10.1093/биоинформатика/btl582 . ПМИД 17110365 .

[Eddy1998-5] Перейти обратно: Перейти обратно: ^а ^б ^с Эдди, СР (1998). «Профиль скрытых марковских моделей» . Биоинформатика . 14 (9): 755–63. дои : 10.1093/биоинформатика/14.9.755 . ПМИД 9918945 .

[Eddy2011-6] Перейти обратно: Перейти обратно: ^а ^б Эдди, Шон Р.; Пирсон, Уильям Р. (20 октября 2011 г.). «Ускоренный поиск профиля HMM» . PLOS Вычислительная биология . 7 (10): е1002195. Бибкод : 2011PLSCB...7E2195E . CiteSeerX 10.1.1.290.1476 . дои : 10.1371/journal.pcbi.1002195 . ПМК 3197634 . ПМИД 22039361 .

[7] Эдди, Шон. «Руководство пользователя HMMER2» (PDF) .

[HMMER_manual-8] Перейти обратно: Перейти обратно: ^а ^б Шон Р. Эдди; Трэвис Дж. Уиллер. «Руководство пользователя HMMER» (PDF) . и команда разработчиков HMMER . Проверено 23 июля 2017 г.

[Finn2015-9] Перейти обратно: Перейти обратно: ^а ^б Финн, Роберт Д.; Клементс, Джоди; Арндт, Уильям; Миллер, Бенджамин Л.; Уиллер, Трэвис Дж.; Шрайбер, Фабиан; Бейтман, Алекс; Эдди, Шон Р. (1 июля 2015 г.). «Веб-сервер HMMER: обновление 2015 г.» . Исследования нуклеиновых кислот . 43 (П1): П30–П38. дои : 10.1093/нар/gkv397 . ПМЦ 4489315 . ПМИД 25943547 .

[10] Финн, Роберт Д.; Клементс, Джоди; Эдди, Шон Р. (1 июля 2011 г.). «Веб-сервер HMMER: интерактивный поиск сходства последовательностей» . Исследования нуклеиновых кислот . 39 (проблема с веб-сервером): W29–W37. дои : 10.1093/nar/gkr367 . ISSN 0305-1048 . ПМК 3125773 . ПМИД 21593126 .

[pmid18516236-11] Перейти обратно: Перейти обратно: ^а ^б Эдди С.Р. (2008). Рост, Буркхард (ред.). «Вероятностная модель локального выравнивания последовательностей, упрощающая оценку статистической значимости» . ПЛОС Компьютерная Биол . 4 (5): e1000069. Бибкод : 2008PLSCB...4E0069E . дои : 10.1371/journal.pcbi.1000069 . ПМК 2396288 . ПМИД 18516236 .

[12] Шон Р. Эдди; Трэвис Дж. Уиллер. «Примечания к выпуску HMMER3.1b2» . и команда разработчиков HMMER . Проверено 23 июля 2017 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

v т и Биоинформатика
Базы данных	Базы данных последовательностей: GenBank , Европейский архив нуклеотидов , Банк данных ДНК Японии и Национальный банк генов Китая. Вторичные базы данных: UniProt , база данных последовательностей белков, группирующихся вместе Swiss-Prot , TrEMBL и ресурс информации о белках. Другие базы данных: BioNumbers , Protein Data Bank , Ensembl , InterPro , KEGG и Gene Ontology. Специализированные геномные базы данных: BOLD , База данных генома Saccharomyces , FlyBase , VectorBase , WormBase , База данных генома крысы , PHI-база , Информационный ресурс Arabidopsis , GISAID и Информационная сеть данио.
Программное обеспечение	ВЗРЫВ Галстук-бабочка Кластал ЭМБОСС ХММЕР МЫШЦЫ ЯЩЕР SAMtools Мыльный пакет Цилиндр
Другой	Сервер: ExPASy Розалинда (образовательная платформа)
Учреждения	Броуд Институт Департамент вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр баз данных по наукам о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтайрон Институт Дж. Крейга Вентера (JCVI) Институт молекулярно-клеточной биологии и генетики Макса Планка (MPI-CBG) Национальный центр биотехнологической информации США (NCBI) Японский институт генетики Нидерландский центр биоинформатики (NBIC) Филиппинский геномный центр (PGC) Исследования Скриппса Швейцарский институт биоинформатики (SIB) Добро пожаловать в Институт Сэнгера Институт Уайтхеда
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Австралийский ресурс по биоинформатике (EMBL-AR) Европейская сеть молекулярной биологии (EMBnet) Международное сотрудничество по базам данных нуклеотидных последовательностей (INSDC) Международное общество биокурации (ISB) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBi)
Встречи	Базельская конференция по вычислительной биологии ‎ ([BC ²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы молекулярной биологии (ISMB) Международная конференция по биоинформатике (InCoB) Международная конференция по методам вычислительного интеллекта для биоинформатики и биостатистики (CIBB) ISCB Africa Конференция ABCCB по биоинформатике Тихоокеанский симпозиум по биокомпьютингу (PSB) Исследования в области вычислительной молекулярной биологии (RECOMB)
Форматы файлов	Формат CRAM ФИКСИРОВАННЫЙ формат Формат FASTQ Формат NeXML Формат Нексуса Формат Пайлапа Формат SAM Стокгольмский формат Формат VCF формат GFF формат GTF
Связанные темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Секвенирование База данных последовательностей Выравнивание последовательности
Категория Коммонс