Jump to content

ШаблонОхотник

PatternHunter — это коммерчески доступное программное обеспечение для поиска гомологии , которое использует выравнивания последовательностей методы . Первоначально он был разработан в 2002 году тремя учеными: Бин Ма, Джоном Трампом и Мин Ли. [1] : 440  Этими учеными двигало желание решить проблему, с которой сталкиваются многие исследователи во время исследований, связанных с геномикой и протеомикой . Эти ученые поняли, что такие исследования во многом опирались на исследования гомологии, которые установили короткие совпадения семян, которые впоследствии были удлинены. Описание гомологичных генов было важной частью большинства эволюционных исследований и имело решающее значение для понимания эволюции семейств генов, взаимоотношений между доменами и семействами. [2] : 7  Гомологичные гены можно было эффективно изучать только с использованием инструментов поиска, которые устанавливали сходство частей или локальное расположение между двумя белками или последовательностями нуклеиновых кислот . [3] : 15  Гомологию количественно оценивали по баллам, полученным из совпадающих последовательностей, «оценкам несоответствия и разрыва». [4] : 164 

Разработка

[ редактировать ]

Например, в сравнительной геномике необходимо сравнивать огромные хромосомы, подобные тем, которые обнаружены в геноме человека. Однако огромное расширение геномных данных затрудняет использование доступных методов поиска гомологии. Например, увеличение размера начального значения снижает чувствительность, а уменьшение размера начального значения снижает скорость вычислений. несколько программ выравнивания последовательностей Для определения гомологии между генами было разработано . К ним относятся FASTA , семейство BLAST , QUASAR, MUMmer , SENSEI, SIM и REPuter. [1] : 440  В основном они используют технику выравнивания Смита-Уотермана , которая сравнивает базы с другими базами, но работает слишком медленно. BLAST совершенствует эту технику, устанавливая краткие и точные начальные совпадения, которые позже объединяются для формирования более длинных сопоставлений. [5] : 737  Однако при работе с длинными последовательностями вышеупомянутые методы чрезвычайно медлительны и требуют значительных объемов памяти. SENSEI, однако, более эффективен, чем другие методы, но некомпетентен в других формах выравнивания, поскольку его сила заключается в работе с неразрывными выравниваниями. С другой стороны, качество продукции Megablast низкое и плохо адаптируется к большим последовательностям. Такие методы, как MUMmer и QUASAR, используют суффиксные деревья, которые должны обрабатывать точные совпадения. Однако эти методы могут применяться только для сравнения последовательностей, демонстрирующих повышенное сходство. Все вышеупомянутые проблемы требуют разработки быстрого и надежного инструмента, который сможет эффективно обрабатывать все типы последовательностей, не потребляя слишком много ресурсов компьютера.

PatternHunter использует множество начальных значений (крошечных строк поиска) с оптимальными интервалами между ними. Поиски с использованием семян выполняются чрезвычайно быстро, поскольку они определяют гомологию только в тех местах, где установлены совпадения. На чувствительность строки поиска сильно влияет расстояние между соседними строками. Большие начальные числа не способны найти изолированные гомологии, тогда как мелкие генерируют множество произвольных совпадений, которые задерживают вычисления. PatternHunter обеспечивает тонкий баланс в этой области, обеспечивая оптимальное расстояние между строками поиска. Он использует альтернативные k ( k = 11) букв в качестве начальных чисел в отличие от BLAST, который использует последовательные k букв в качестве начальных чисел. Первый этап анализа PatternHunter включает этап фильтрации, на котором программа ищет совпадения в k чередующихся точках, обозначенных наиболее выгодным шаблоном. [6] : 11  Второй этап — это этап выравнивания, который идентичен BLAST. Кроме того, с помощью PatternHunter можно использовать более одного начального значения одновременно. Это повышает чувствительность инструмента, не влияя на его скорость.

Скорость

[ редактировать ]

PatternHunter за короткое время анализирует все типы последовательностей. может занять несколько секунд На современном компьютере обработка геномов прокариот , обработку последовательностей Arabidopsis thaliana — несколько минут , а обработку хромосомы человека — несколько часов. [1] : 440  По сравнению с другими инструментами, PatternHunter демонстрирует скорость примерно в сто раз выше, чем BLAST и Mega BLAST. [7] Эти скорости в 3000 раз превышают скорости, достигаемые с помощью алгоритма Смита-Уотермана . Кроме того, программа имеет удобный интерфейс, позволяющий настраивать параметры поиска.

Чувствительность

[ редактировать ]

Что касается чувствительности, с помощью PatternHunter можно достичь оптимальной чувствительности, сохраняя при этом ту же скорость, что и при обычном поиске BLAST.

Технические характеристики

[ редактировать ]

При разработке PatternHunter используется технология Java . Следовательно, программа работает без сбоев при установке в любой среде Java 1.4. [7]

Будущие достижения

[ редактировать ]

Поиск гомологии – очень длительная процедура, требующая много времени. Проблемы с обработкой поиска ДНК-ДНК, а также поиска транслированной ДНК-белка по-прежнему остаются из-за огромных размеров баз данных и крошечного используемого запроса. PatternHunter был улучшен до обновленной версии PatternHunter II, которая ускоряет поиск ДНК-белков в сто раз без изменения чувствительности. Однако существуют планы по улучшению PatternHunter для достижения высокой чувствительности инструмента Смита-Уотермана при сохранении скорости BLAST. Переведенный роман PatternHunter, призванный ускорить tBLASTx. [4] : 174  также находится на стадии разработки.

  1. ^ Jump up to: а б с Ма, Бин; Тромп, Джон; Ли, Мин (2002). «PatternHunter: более быстрый и чувствительный поиск гомологии» . Биоинформатика . 18 (2): 440–445. дои : 10.1093/биоинформатика/18.3.440 . ПМИД   11934743 .
  2. ^ Джозеф, Джейкоб М. (2012). Об идентификации и исследовании семейств гомологичных генов с особым упором на точность многодоменных семейств (PDF) (доктор философии). Университет Карнеги-Меллон.
  3. ^ Певснер, Джонатан (2009). Биоинформатика и функциональная геномика (2-е изд.). Нью-Джерси: Уайли Блэквелл. ISBN  9780470451489 .
  4. ^ Jump up to: а б Ли, М.; Ма, Б.; Кисман, Д.; Тромп, Дж. (2003). «PatternHunter II: Высокочувствительный и быстрый поиск гомологии». Геномная информатика. Международная конференция по геномной информатике . 14 : 164–175. ПМИД   15706531 .
  5. ^ Пирсон, WR (1991). «Поиск в библиотеках последовательностей белков: сравнение чувствительности и селективности алгоритмов Смита-Уотермана и FASTA». Геномика . 11 (3): 635–650. дои : 10.1016/0888-7543(91)90071-L . ПМИД   1774068 .
  6. ^ Чжан, Лусинь. «Методы поиска в базе данных последовательностей I: инструменты Blast и PatternHunter» (PDF) . Проверено 6 декабря 2013 г.
  7. ^ Jump up to: а б «Брошюра PatternHunter» (PDF) . Архивировано из оригинала (PDF) 11 декабря 2013 года . Проверено 30 ноября 2013 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: db813bf932517d3ac8e4316e9397aa8e__1702356840
URL1:https://arc.ask3.ru/arc/aa/db/8e/db813bf932517d3ac8e4316e9397aa8e.html
Заголовок, (Title) документа по адресу, URL1:
PatternHunter - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)