ШаблонОхотник
PatternHunter — это коммерчески доступное программное обеспечение для поиска гомологии , которое использует выравнивания последовательностей методы . Первоначально он был разработан в 2002 году тремя учеными: Бин Ма, Джоном Трампом и Мин Ли. [1] : 440 Этими учеными двигало желание решить проблему, с которой сталкиваются многие исследователи во время исследований, связанных с геномикой и протеомикой . Эти ученые поняли, что такие исследования во многом опирались на исследования гомологии, которые установили короткие совпадения семян, которые впоследствии были удлинены. Описание гомологичных генов было важной частью большинства эволюционных исследований и имело решающее значение для понимания эволюции семейств генов, взаимоотношений между доменами и семействами. [2] : 7 Гомологичные гены можно было эффективно изучать только с использованием инструментов поиска, которые устанавливали сходство частей или локальное расположение между двумя белками или последовательностями нуклеиновых кислот . [3] : 15 Гомологию количественно оценивали по баллам, полученным из совпадающих последовательностей, «оценкам несоответствия и разрыва». [4] : 164
Разработка
[ редактировать ]Например, в сравнительной геномике необходимо сравнивать огромные хромосомы, подобные тем, которые обнаружены в геноме человека. Однако огромное расширение геномных данных затрудняет использование доступных методов поиска гомологии. Например, увеличение размера начального значения снижает чувствительность, а уменьшение размера начального значения снижает скорость вычислений. несколько программ выравнивания последовательностей Для определения гомологии между генами было разработано . К ним относятся FASTA , семейство BLAST , QUASAR, MUMmer , SENSEI, SIM и REPuter. [1] : 440 В основном они используют технику выравнивания Смита-Уотермана , которая сравнивает базы с другими базами, но работает слишком медленно. BLAST совершенствует эту технику, устанавливая краткие и точные начальные совпадения, которые позже объединяются для формирования более длинных сопоставлений. [5] : 737 Однако при работе с длинными последовательностями вышеупомянутые методы чрезвычайно медлительны и требуют значительных объемов памяти. SENSEI, однако, более эффективен, чем другие методы, но некомпетентен в других формах выравнивания, поскольку его сила заключается в работе с неразрывными выравниваниями. С другой стороны, качество продукции Megablast низкое и плохо адаптируется к большим последовательностям. Такие методы, как MUMmer и QUASAR, используют суффиксные деревья, которые должны обрабатывать точные совпадения. Однако эти методы могут применяться только для сравнения последовательностей, демонстрирующих повышенное сходство. Все вышеупомянутые проблемы требуют разработки быстрого и надежного инструмента, который сможет эффективно обрабатывать все типы последовательностей, не потребляя слишком много ресурсов компьютера.
Подход
[ редактировать ]PatternHunter использует множество начальных значений (крошечных строк поиска) с оптимальными интервалами между ними. Поиски с использованием семян выполняются чрезвычайно быстро, поскольку они определяют гомологию только в тех местах, где установлены совпадения. На чувствительность строки поиска сильно влияет расстояние между соседними строками. Большие начальные числа не способны найти изолированные гомологии, тогда как мелкие генерируют множество произвольных совпадений, которые задерживают вычисления. PatternHunter обеспечивает тонкий баланс в этой области, обеспечивая оптимальное расстояние между строками поиска. Он использует альтернативные k ( k = 11) букв в качестве начальных чисел в отличие от BLAST, который использует последовательные k букв в качестве начальных чисел. Первый этап анализа PatternHunter включает этап фильтрации, на котором программа ищет совпадения в k чередующихся точках, обозначенных наиболее выгодным шаблоном. [6] : 11 Второй этап — это этап выравнивания, который идентичен BLAST. Кроме того, с помощью PatternHunter можно использовать более одного начального значения одновременно. Это повышает чувствительность инструмента, не влияя на его скорость.
Скорость
[ редактировать ]PatternHunter за короткое время анализирует все типы последовательностей. может занять несколько секунд На современном компьютере обработка геномов прокариот , обработку последовательностей Arabidopsis thaliana — несколько минут , а обработку хромосомы человека — несколько часов. [1] : 440 По сравнению с другими инструментами, PatternHunter демонстрирует скорость примерно в сто раз выше, чем BLAST и Mega BLAST. [7] Эти скорости в 3000 раз превышают скорости, достигаемые с помощью алгоритма Смита-Уотермана . Кроме того, программа имеет удобный интерфейс, позволяющий настраивать параметры поиска.
Чувствительность
[ редактировать ]Что касается чувствительности, с помощью PatternHunter можно достичь оптимальной чувствительности, сохраняя при этом ту же скорость, что и при обычном поиске BLAST.
Технические характеристики
[ редактировать ]При разработке PatternHunter используется технология Java . Следовательно, программа работает без сбоев при установке в любой среде Java 1.4. [7]
Будущие достижения
[ редактировать ]Поиск гомологии – очень длительная процедура, требующая много времени. Проблемы с обработкой поиска ДНК-ДНК, а также поиска транслированной ДНК-белка по-прежнему остаются из-за огромных размеров баз данных и крошечного используемого запроса. PatternHunter был улучшен до обновленной версии PatternHunter II, которая ускоряет поиск ДНК-белков в сто раз без изменения чувствительности. Однако существуют планы по улучшению PatternHunter для достижения высокой чувствительности инструмента Смита-Уотермана при сохранении скорости BLAST. Переведенный роман PatternHunter, призванный ускорить tBLASTx. [4] : 174 также находится на стадии разработки.
Ссылки
[ редактировать ]- ^ Jump up to: а б с Ма, Бин; Тромп, Джон; Ли, Мин (2002). «PatternHunter: более быстрый и чувствительный поиск гомологии» . Биоинформатика . 18 (2): 440–445. дои : 10.1093/биоинформатика/18.3.440 . ПМИД 11934743 .
- ^ Джозеф, Джейкоб М. (2012). Об идентификации и исследовании семейств гомологичных генов с особым упором на точность многодоменных семейств (PDF) (доктор философии). Университет Карнеги-Меллон.
- ^ Певснер, Джонатан (2009). Биоинформатика и функциональная геномика (2-е изд.). Нью-Джерси: Уайли Блэквелл. ISBN 9780470451489 .
- ^ Jump up to: а б Ли, М.; Ма, Б.; Кисман, Д.; Тромп, Дж. (2003). «PatternHunter II: Высокочувствительный и быстрый поиск гомологии». Геномная информатика. Международная конференция по геномной информатике . 14 : 164–175. ПМИД 15706531 .
- ^ Пирсон, WR (1991). «Поиск в библиотеках последовательностей белков: сравнение чувствительности и селективности алгоритмов Смита-Уотермана и FASTA». Геномика . 11 (3): 635–650. дои : 10.1016/0888-7543(91)90071-L . ПМИД 1774068 .
- ^ Чжан, Лусинь. «Методы поиска в базе данных последовательностей I: инструменты Blast и PatternHunter» (PDF) . Проверено 6 декабря 2013 г.
- ^ Jump up to: а б «Брошюра PatternHunter» (PDF) . Архивировано из оригинала (PDF) 11 декабря 2013 года . Проверено 30 ноября 2013 г.