Взрыв (биотехнология)

ВЗРЫВ
Оригинальный автор (ы)	Стивен Альтчул , Уоррен Гиш , Уэбб Миллер , Юджин Майерс и Дэвид Липман
Разработчик (ы)	NCBI
Стабильный релиз	2.16.0+ / 25 июня 2024 года ; 2 месяца назад
Написано в	C и C ++
Операционная система	Unix , Linux , Mac , MS-Windows
Тип	биоинформатики Инструмент
Лицензия	Общественный достояние
Веб -сайт	взрыв .ncbi .nlm .nih .gov /Взрыв .cgi

В биоинформатике , Blast ( базовый локальный инструмент поиска выравнивания ) ^{[ 3 ]} является алгоритмом и программой для сравнения информации о первичной биологической последовательности, такой как аминокислотные последовательности белков или нуклеотиды последовательностей ДНК и/или РНК . Поиск взрыва позволяет исследователю сравнивать субъектный белок или нуклеотидную последовательность (называемую запросом) с библиотекой или базой последовательностей, и идентифицировать последовательности баз данных, которые напоминают последовательность запроса выше определенного порога. Например, после обнаружения ранее неизвестного гена у мыши ученый, как правило, выполняет взрыв генома человека, чтобы увидеть, несут ли люди аналогичный ген; BLAST идентифицирует последовательности в геноме человека, которые напоминают ген мыши на основе сходства последовательности.

Фон

BLAST является одной из наиболее широко используемых программ биоинформатики для поиска последовательностей. ^{[ 4 ]} Он решает фундаментальную проблему в исследованиях биоинформатики. алгоритм Эвристический , который он использует, намного быстрее, чем другие подходы, такие как расчет оптимального выравнивания. Этот акцент на скорости жизненно важен для того, чтобы сделать алгоритм практичным на огромных базах данных генома, доступных в настоящее время, хотя последующие алгоритмы могут быть еще быстрее.

Программа BLAST была разработана Юджином Майерсом, Стивеном Альтчулом, Уорреном Гишем, Дэвидом Дж. Липманом и Уэббом Миллером в NIH и была опубликована в J. Mol. Биол. В 1990 году. BLAST расширил работу по выравниванию ранее разработанной программы для поиска сходства последовательностей белков и ДНК, FASTA , добавив новую стохастическую модель, разработанную Сэмюэлем Карлином и Стивеном Альтчулом . ^{[ 5 ]} Они предложили «метод оценки сходства между известной последовательности ДНК одного организма с помощью другого другого», », ^{[ 3 ]} и их работа была описана как «статистическая основа для взрыва». ^{[ 6 ]} Впоследствии Альтчул, Гиш, Миллер, Майерс и Липман разработали и внедрили программу взрыва, которая была опубликована в журнале « Молекулярная биология» в 1990 году и с тех пор была цитирована более 100 000 раз. ^{[ 7 ]}

Хотя взрыв быстрее, чем любая реализация Смит-Уэтермана для большинства случаев, он не может «гарантировать оптимальные выравнивания последовательностей запроса и баз данных», как это делает алгоритм Смита-Ватермана. Алгоритм Смит-Уэтермана был расширением предыдущего оптимального метода, алгоритма «Иглл-и-Вунша» , который был первым алгоритмом выравнивания последовательности, который гарантированно обнаружил наилучшее выравнивание. Однако требования к времени и пространству этих оптимальных алгоритмов намного превышают требования взрыва.

Взрыв более эффективен по времени, чем FASTA, поиск только для более значимых паттернов в последовательностях, но с сравнительной чувствительностью. Это может быть дополнительно реализовано путем понимания алгоритма взрыва, представленного ниже.

Примеры других вопросов, которые исследователи используют взрыв, чтобы ответить:

Какие бактерий виды имеют белок, который связан в линии с определенным белком с известной аминокислотой последовательности
Какие другие гены кодируют белки, которые демонстрируют структуры или мотивы, такие как только что определены

Взрыв также часто используется как часть других алгоритмов, которые требуют приблизительного сопоставления последовательностей .

Blast доступен в Интернете на веб -сайте NCBI. Различные типы взрывов доступны в соответствии с последовательностями запросов и целевыми базами данных. Альтернативные реализации включают AB-Blast (ранее известный как Wu-Blast), FSA-Blast (последний обновлен в 2006 году) и Scalablast. ^{[ 8 ]}^{[ 9 ]}

Оригинальная статья Altschul, et al. ^{[ 7 ]} был наиболее широко цитируемой статьей, опубликованной в 1990 -х годах. ^{[ 10 ]}

Вход

Входные последовательности (в формате FASTA или GenBank ), базу данных для поиска и другие дополнительные параметры, такие как матрица оценки. ^{[ нужно разъяснения ]}

Выход

Выход взрыва может быть доставлен в различных форматах. Эти форматы включают HTML , простой текст и XML форматирование . Для веб -страницы NCBI формат по умолчанию для вывода - HTML. При выполнении взрыва на NCBI результаты приведены в графическом формате, показывающем обнаруженные хиты, таблицу, показывающая идентификаторы последовательностей для попаданий с данными, связанными с оценкой, а также выравнивания для интересующей последовательности и полученных результатов с соответствующими баллами взрыва для этого. Самый простой для чтения и наиболее информативным из них является, вероятно, таблица.

Если кто -то пытается найти проприетарную последовательность или просто ту, которая недоступна в базах данных, доступных для широкой общественности, с помощью таких источников, как NCBI, существует программа взрыва для загрузки на любой компьютер, бесплатно. Это можно найти в Blast+ Execute. Есть также коммерческие программы, доступные для покупки. Базы данных можно найти на сайте NCBI, а также в индексе баз данных BLAST (FTP).

Процесс

Используя эвристический метод, BLAST находит похожие последовательности, определяя короткие совпадения между двумя последовательностями. Этот процесс поиска похожих последовательностей называется посевами. После этого первого матча взрыв начинает делать местные выравнивания. При попытке найти сходство в последовательностях, наборы общих букв, известные как слова, очень важны. Например, предположим, что последовательность содержит следующий участок букв, GLKFA. Если бы взрыв проводился в нормальных условиях, размер слова будет 3 буквы. В этом случае, используя заданный участок букв, поисковыми словами будут GLK, LKF и KFA. Эвристический алгоритм взрыва обнаруживает все общие трехбуквенные слова между интересующей последовательности и последовательности попадания или последовательностей из базы данных. Этот результат будет использоваться для построения выравнивания. Сделав слова для последовательности интереса, остальные слова также собираются. Эти слова должны удовлетворить требование иметь оценку, по крайней мере, порог T , по сравнению с использованием матрицы зачетов.

Одной из часто используемых матриц оценки для поиска взрыва является Blosum62 , ^{[ 11 ]} Хотя матрица оптимальной оценки зависит от сходства последовательностей. Как только слова и слова соседства собираются и скомпилируются, они сравниваются с последовательностями в базе данных, чтобы найти совпадения. Пороговая оценка t определяет, будет ли конкретное слово включено в выравнивание. После того, как посевы были проведены, выравнивание, которое составляет всего 3 остатка, расширяется в обоих направлениях алгоритмом, используемым взрывом. Каждое расширение влияет на оценку выравнивания за счет увеличения или уменьшения его. Если эта оценка выше, чем заранее определенное T , выравнивание будет включено в результаты, данные BLAST. Однако, если этот балл ниже, чем этот заранее определенный T , выравнивание перестанет расширяться, предотвращая включение областей плохого выравнивания в результаты взрыва. Обратите внимание, что увеличение балла T ограничивает количество доступного места для поиска, уменьшая количество слов по соседству, в то же время ускоряя процесс взрыва

Алгоритм

Чтобы запустить программное обеспечение, Blast требует последовательности запроса для поиска и последовательность для поиска (также называемой целевой последовательности) или базы данных последовательностей, содержащей несколько таких последовательностей. BLAST найдет подпоследовательности в базе данных, которые похожи на последующие последствия в запросе. При типичном использовании последовательность запроса намного меньше базы данных, например, запрос может составлять тысячу нуклеотидов, в то время как база данных составляет несколько миллиардов нуклеотидов.

Основная идея взрыва заключается в том, что часто существуют пары сегментов с высокой оценкой (HSP), содержащиеся в статистически значимом выравнивании. BLAST ищет выравнивания последовательностей высокой оценки между последовательности запросов и существующими последовательностями в базе данных с использованием эвристического подхода, который приближается к алгоритму Смита-Ватермана . Тем не менее, исчерпывающий подход Smith-Waterman слишком медленный для поиска больших геномных баз данных, таких как GenBank . Следовательно, алгоритм взрыва использует эвристический подход, который является менее точным, чем алгоритм Смит-Уэтермана, но в 50 раз быстрее. ^{[ 12 ]} Скорость и относительно хорошая точность взрыва являются одними из ключевых технических инноваций программ взрыва.

Обзор алгоритма взрыва (поиск белка в белок) выглядит следующим образом: ^{[ 12 ]}

Удалить область низкой комплексности или повторения последовательности в последовательности запросов.
«Область с низкой комплексностью» означает область последовательности, состоящей из нескольких видов элементов. Эти регионы могут дать высокие оценки, которые путают программу, чтобы найти фактические важные последовательности в базе данных, поэтому их следует отфильтровать. Области будут отмечены x (белковые последовательности) или N (последовательности нуклеиновых кислот), а затем будут игнорироваться программой взрыва. Чтобы отфильтровать области низкой комплексности, программа SEG используется для белковых последовательностей, а программная пыль используется для последовательностей ДНК. С другой стороны, программа XNU используется для маскировки от тандемных повторов в белковых последовательностях.
Сделайте k -буквенный список слов последовательности запроса.
Возьмем k = 3, например, мы перечислим слова длины 3 в последовательности белка запроса ( K обычно составляет 11 для последовательности ДНК) «последовательно», пока не будет включена последняя буква последовательности запроса. Метод показан на рисунке 1.
Рис. 1 Метод для установления списка слов k -букв. ^{[ 13 ]}
Перечислите возможные соответствующие слова.
Этот шаг является одним из основных различий между взрывом и FASTA. FASTA заботится обо всех общих словах в последовательностях базы данных и запросов, которые перечислены на шаге 2; Тем не менее, взрыв заботится только о высоких словах. Оценки создаются путем сравнения слова в списке на шаге 2 со всеми 3-буквенными словами. Используя матрицу оценки ( матрица замены ) для оценки сравнения каждой пары остатков, существует 20^3 возможных показателей соответствия для 3-буквного слова. Например, оценка, полученная путем сравнения PQG с PEG и PQA, составляет соответственно 15 и 12 с схемой взвешивания Blosum62 . Для слов ДНК матч оценивается как +5 и несоответствие как -4, или как +2 и -3. После этого порог баллов Слова по соседству используется для уменьшения количества возможных подходящих слов. Слова, чьи оценки больше, чем порог t, останутся в возможном списке соответствующих слов, в то время как слова с более низкими оценками, будут отброшены. Например, PEG сохраняется, но PQA отброшен, когда T составляет 13.
Организуйте оставшиеся слова с высокой оценкой в эффективное дерево поиска.
Это позволяет программе быстро сравнивать слова с высокой оценкой с последовательностями базы данных.
Повторите шаг с 3 по 4 для каждого слова k -букв в последовательности запроса.
Сканируйте последовательности базы данных для точных совпадений с оставшимися словами с высокой оценкой.
Программа BLAST сканирует последовательности базы данных для оставшегося слова с высокой оценкой, например, PEG, каждой позиции. Если найдено точное совпадение, этот матч используется для заселения возможного выравнивания не вытянутой между последовательностями запроса и базы данных.
Расширить точные совпадения до пары сегментов с высокой оценкой (HSP).
- Оригинальная версия взрыва растягивает более длинное выравнивание между запросом и последовательности базы данных в левом и правом направлениях, из положения, где произошло точное совпадение. Расширение не останавливается, пока накопленный общий балл HSP не начнет уменьшаться. Упрощенный пример представлен на рисунке 2.
  Рис. 2 Процесс для расширения точного совпадения. Адаптировано из анализа биологических последовательностей I, текущие темы по анализу генома [2] .
  
  Рис. 3 Положения точных совпадений.
- Чтобы сэкономить больше времени, была разработана более новая версия Blast, называемая Blast2 или Bepant Blast. BLAST2 принимает более низкий порог баллов по соседству для поддержания того же уровня чувствительности для обнаружения сходства последовательностей. Следовательно, список возможных соответствующих слов на шаге 3 становится длиннее. Затем точные соответствующие области, находящиеся в пределах расстояния A друг от друга на одной диагонали на рисунке 3, будут объединены в качестве более длинной новой области. Наконец, новые области затем расширяются тем же методом, что и в исходной версии Blast, и оценки HSP (пара сегментов) расширенных областей затем создается с использованием матрицы замещения, как и раньше.
Перечислите все HSP в базе данных, оценка которой достаточно высок, чтобы быть рассмотренным.
Мы перечислим HSP, чьи оценки больше, чем эмпирически определенные оценки . отсечения Изучив распределение баллов выравнивания, смоделированных путем сравнения случайных последовательностей, можно определить показатели отсечения, так что его значение достаточно велика, чтобы гарантировать значимость оставшихся HSP.
Оценить значение оценки HSP.
Далее Blast оценивает статистическую значимость каждой оценки HSP, используя распределение экстремальных значений Gumbel (EVD). (Доказано, что распределение баллов местного выравнивания Смит-Уэтермана между двумя случайными последовательностями следует за ев. Гумбеля для местных выравниваний, содержащих пробелы, это не доказано.). В соответствии с EVD Gumbel, вероятность наблюдения за оценкой S, равной или превышающей x, определяется уравнением
$p\left(S\geq x\right)=1-\exp \left(-e^{-\lambda \left(x-\mu \right)}\right)$

где
$\mu ={\frac {\log \left(Km'n'\right)}{\lambda }}\;$

Статистические параметры $\lambda$ и $\mathrm {K}$ оцениваются путем соответствия распределению баллов локального выравнивания, последовательности, последовательности запросов и множества перетасованных версий (глобальное или локальное перетасование) последовательности базы данных, к экстремальному распределению ценностей Gumbel. Обратите внимание, что $\lambda$ и $\mathrm {K}$ В зависимости от матрицы замещения, штрафов зазора и состава последовательности (частоты букв). $m'$ и $n'$ эффективные длины последовательностей запроса и базы данных соответственно. Оригинальная длина последовательности сокращается до эффективной длины, чтобы компенсировать эффект края (выравнивание начинается ближе к концу одной из последовательности запроса или базы данных, вероятно, не будет иметь достаточной последовательности для построения оптимального выравнивания). Они могут быть рассчитаны как
$m'\approx m-{\frac {\ln Kmn}{H}}\;$

$n'\approx n-{\frac {\ln Kmn}{H}}\;$

где $\mathrm {H}$ является средним ожидаемым баллом на согласованную пару остатков при выравнивании двух случайных последовательностей. Альтчул и Гиш дали типичные ценности, $\lambda =0.318$ , $\mathrm {K} =0.13$ , и $\mathrm {H} =0.40$ , для локального выравнивания с использованием Blosum62 в качестве матрицы замещения. Использование типичных значений для оценки значимости называется методом Lookup Table; это не точно. Ожидаемая оценка E матча базы данных - это количество раз, когда неродственная последовательность базы данных может получить оценку выше , чем x случайно. Ожидание E, полученное в поиске базы данных D -последовательностей, определяется как
$E\approx 1-e^{-p\left(s>x\right)D}$

Кроме того, когда $p<0.1$ , E может быть аппроксимировано распределением Пуассона как
$E\approx pD$

Это ожидание или ожидание значения «e» (часто называемое E -оценкой или E -значение или E -значение), оценивающее значимость оценки HSP для локального выравнивания UN -захвата, сообщается в результатах взрыва. Расчет, показанный здесь, модифицируется, если объединяются отдельные HSP, например, при создании выравнивания закупок (описанный ниже), из -за изменения статистических параметров.
Сделайте две или более регионов HSP в более длительное выравнивание.
Иногда мы находим две или более областей HSP в одной последовательности базы данных, которые можно превратить в более длительное выравнивание. Это предоставляет дополнительные доказательства связи между последовательности запроса и базы данных. Существует два метода, метод Пуассона и метод суммы оценки, для сравнения значимости вновь комбинированных областей HSP. Предположим, есть две комбинированные области HSP с парами баллов (65, 40) и (52, 45) соответственно. Метод Пуассона придает большую значимость для набора с максимальной нижней оценкой (45> 40). Тем не менее, метод суммы баллов предпочитает первый набор, потому что 65+40 (105) больше 52+45 (97). Оригинальный взрыв использует метод Пуассона; Beated Blast и Wu-Blast используют метод суммы баллов.
Покажите локальные выравнивания Smith-Waterman за запрос и каждая из соответствующих последовательностей базы данных.
- Оригинальный взрыв генерирует только выравнивания без охватывания, включая первоначально найденные HSP индивидуально, даже если в одной последовательности базы данных обнаружено более одного HSP.
- BLAST2 производит единое выравнивание с пробелами, которые могут включать все первоначально найденные области HSP. Обратите внимание, что вычисление оценки и соответствующего E -значения включает в себя использование адекватных штрафов зазора.
Сообщите каждый матч, оценка, оценка которого ниже, чем пороговый параметр e .

Типы взрыва

Blastn (нуклеотидный взрыв)

Blastn сравнивает одну или несколько нуклеотидных последовательности с базой данных или другой последовательности. Это полезно при попытке выявить эволюционные отношения между организмами. ^{[ 14 ]}

tblastn

TBLASTN использовал для поиска белков в последовательностях, которые еще не были переведены в белки. Он берет белковую последовательность и сравнивает ее со всеми возможными переводами последовательности ДНК. Это полезно при поиске сходных областей кодирования белка в последовательностях ДНК, которые не были полностью аннотированы, такие как EST (короткие одноверные последовательности кДНК) и HTG (черновые последовательности генома). Поскольку эти последовательности не имеют известных переводов белка, мы можем искать их только с помощью TBLASTN. ^{[ 15 ]}

Blastx

Blastx сравнивает последовательность нуклеотидных запросов, которая может быть преобразована в шесть различных белковых последовательностей с базой данных известных белковых последовательностей. Этот инструмент полезен, когда кадр считывания последовательности ДНК является неопределенным или содержит ошибки, которые могут вызвать ошибки в кодировании белка. Blastx предоставляет комбинированную статистику для попаданий по всем кадрам, что делает его полезным для первоначального анализа новых последовательностей ДНК. ^{[ 16 ]}

Бласт

Белковая последовательность сравнивается с базой данных NR с использованием BLASTP.

BLASTP, или белковой взрыв, используется для сравнения белковых последовательностей. Вы можете ввести одну или несколько белковых последовательностей, которые вы хотите сравнить с одной последовательности для одного белка или базы данных белковых последовательностей. Это полезно, когда вы пытаетесь идентифицировать белок, обнаружив подобные последовательности в существующих базах данных белков. ^{[ 17 ]}

Параллельный взрыв

Параллельные взрывные версии разделенных баз данных реализованы с использованием MPI и Pthreads и были перенесены на различные платформы, включая Windows , Linux , Solaris , Mac OS X и AIX . Популярные подходы к параллелизации взрыва включают распределение запросов, сегментацию хэш -таблицы, параллелизация вычислений и сегментацию базы данных (разделение). Базы данных разделены на части равенного размера и хранятся локально на каждом узле. Каждый запрос запускается на всех узлах параллельно, а результирующие выходные файлы взрыва из всех узлов объединяются, чтобы получить конечный выход. Конкретные реализации включают MPIBLAST, ScalaBlast, DCBLAST и так далее. ^{[ 18 ]}

MPIBLAST использует метод сегментации базы данных для параллелизации процесса вычисления. ^{[ 19 ]} Это обеспечивает значительное улучшение производительности при проведении поиска взрыва по набору узлов в кластере. В некоторых сценариях суперлинейное ускорение достижимо. Это делает MPIBLAST подходящим для обширных наборов геномных данных, которые обычно используются в биоинформатике.

Взрыв обычно работает со скоростью O (n) , где n - размер базы данных. ^{[ 20 ]} Время завершения поиска увеличивается линейно по мере увеличения размера базы данных. Mpiblast использует параллельную обработку для ускорения поиска. Идеальная скорость для любого параллельного вычисления - сложность O (N/P), причем N является размер базы данных, а P - количество процессоров. Это указывает на то, что работа равномерно распределена по количеству процессоров. Это визуализируется в включенном графике. Сверхлинеарное ускорение, которое иногда может происходить с помощью mpiblast, может иметь сложность лучше, чем O (N/P). Это происходит потому, что кеш -память может использоваться для уменьшения времени выполнения. ^{[ 21 ]}

Альтернативы взрыву

Предшественник для взрыва, FASTA , также может использоваться для поиска сходства белка и ДНК. FASTA предоставляет аналогичный набор программ для сравнения белков с базами данных белков и ДНК, баз данных ДНК -ДНК и белков и включает в себя дополнительные программы для работы с неупорядоченными короткими пептидами и последовательностями ДНК. Кроме того, пакет FASTA предоставляет SSEARCH, векторизованную реализацию строгого алгоритма Смит-Уэтермана . FASTA медленнее, чем взрыв, но обеспечивает гораздо более широкий диапазон матриц с оценкой, что облегчает адаптацию поиска на определенное эволюционное расстояние.

чувствительная альтернатива взрывам - блаженная ( b Последний разжирание Чрезвычайно быстрая , но значительно менее это ) . В то время как Blast выполняет линейный поиск, BLAT полагается на K-MER , индексирующую базу данных и, таким образом, может часто быстрее обнаруживать семена. ^{[ 22 ]} Еще одна альтернатива программного обеспечения, похожая на Blat, - это Patternhunter .

Достижения в области технологии секвенирования в конце 2000 -х годов сделали поиск очень похожих нуклеотидов, соответствующих важной проблеме. Новые программы выравнивания, адаптированные для этого использования, обычно используют BWT -индексирование целевой базы данных (обычно геном). Входные последовательности могут затем быть отображены очень быстро, а вывод обычно находится в форме файла BAM. Пример программ выравнивания - BWA , SOAP и Bowtie .

Для идентификации белка поиск известных доменов (например, из PFAM ) путем сопоставления с скрытыми моделями Маркова является популярной альтернативой, такой как HMMER .

Альтернативой для сравнения двух банков последовательностей является пласт. Plast предоставляет высокопроизводительный банк общего назначения для банка для банковских последовательностей инструмент поиска сходства, основанный на пластах ^{[ 23 ]} и Oris ^{[ 24 ]} алгоритмы. Результаты Plast очень похожи на взрыв, но Plast значительно быстрее и способен сравнивать большие наборы последовательностей с небольшим количеством памяти (то есть RAM).

Для применений в области метагеномики, где задача состоит в том, чтобы сравнить миллиарды коротких чтения ДНК с десятками миллионов белковых ссылок, алмаза ^{[ 25 ]} Проходит в 20 000 раз быстрее, чем BlastX, сохраняя при этом высокий уровень чувствительности.

Программное обеспечение с открытым исходным кодом MMSEQS является альтернативой Blast/PSI-Blast, которая улучшает текущие инструменты поиска в течение всего диапазона компромисса чувствительности к скорости, достигая чувствительности лучше, чем PSI-Blast, более чем в 400 раз большей скорости. ^{[ 26 ]}

Оптические вычислительные подходы были предложены в качестве многообещающих альтернативы текущей электрической реализации. OPTCAM является примером таких подходов и, как показано, является быстрее, чем взрыв. ^{[ 27 ]}

Сравнение процесса Blast и Smith-Waterman

В то время как и Смит-Уэтерман , и Взлудание используются для поиска гомологичных последовательностей, поиска и сравнения последовательности запросов с последователями в базах данных, они имеют свои различия.

В связи с тем, что BLAST основан на эвристическом алгоритме, результаты, полученные через BLAST, не будут включать все возможные попадания в базу данных. Взрыв не сильно пропускает, чтобы найти спички.

Альтернативой для того, чтобы найти все возможные хиты, будет использование алгоритма Смита-Ватермана. Этот метод варьируется от метода взрыва в двух областях, точности и скорости. Опция Smith-Waterman обеспечивает лучшую точность, поскольку он обнаруживает, что матчи, которые не могут взрываться, потому что он не исключает никакой информации. Следовательно, это необходимо для отдаленной гомологии. Однако по сравнению с взрывом это больше времени занимает много времени и требует большого количества вычислительной мощности и памяти. Тем не менее, были достигнуты достижения для резкого ускорения процесса поиска Смит-Уэтермана. Эти достижения включают в себя чипы FPGA и SIMD технологию .

Для получения более полных результатов BLAST настройки могут быть изменены из их настроек по умолчанию. Однако оптимальные настройки для данной последовательности могут варьироваться. Настройки, которые можно изменить,-это электронная стоимость, затраты на разрыв, фильтры, размер слова и матрица замещения.

Обратите внимание, что алгоритм, используемый для взрыва, был разработан из алгоритма, используемого для Смита-Уэтермана. В Blast используется выравнивание, которое обнаруживает «локальные выравнивания между последовательностями путем поиска коротких совпадений и из этих начальных матчей (локальные) созданы выравнивания». ^{[ 28 ]}

Визуализация вывода взрыва

Чтобы помочь пользователям интерпретировать результаты взрыва, доступно различное программное обеспечение. В соответствии с установкой и использованием, функциями анализа и технологий, вот несколько доступных инструментов: ^{[ 29 ]}

NCBI Blast Service
Общие переводчики вывода взрыва, на основе графического интерфейса: Jamblast, Blast Viewer, Blastgrabber
Интегрированные взрывные среды: план, безразличный, последовательный сервер
Проанализ Blast Output: Museqbox, Zerg, Bioparser, Blast-Explorer, Sequenceenserver
Специализированные инструменты, связанные с взрывом: Меган , Blast2gene, Bov, Circoletto

Примеры визуализации результатов взрыва показаны на рисунке 4 и 5.

Рис. 4 Визуализация результатов взрыва в стиле цирки, сгенерированных с использованием программного обеспечения Sequenceserver .

Рис. 5 Распределение длины взрыва, сгенерированные с использованием программного обеспечения для последовательностей, показывающая, что запрос (прогнозируемый генный продукт) более длиннее по сравнению с аналогичными последовательностями базы данных.

Использование взрыва

Взрыв может быть использован для нескольких целей. К ним относятся идентификация видов, расположение доменов, установление филогения, картирование ДНК и сравнение.

Идентификация видов: При использовании взрыва вы можете правильно идентифицировать вид или найти гомологичных видов. Это может быть полезно, например, когда вы работаете с последовательности ДНК от неизвестного вида.

Расположение доменов: При работе с белковой последовательности вы можете ввести его в взрыв, чтобы найти известные домены в интересующей последовательности.

Установление филогения: Используя результаты, полученные в результате взрыва, вы можете создать филогенетическое дерево, используя блазную веб-страницу. Филогения, основанные только на взрыве, менее надежны, чем другие специально построенные вычислительные филогенетические методы, поэтому следует полагаться только на филогенетический анализ «первого прохода».

Картирование ДНК: При работе с известными видами и стремясь последовательно последовательно ген в неизвестном месте, взрыв может сравнить хромосомное положение представляющей интерес, с соответствующими последовательностями в базе данных. У NCBI есть инструмент «волшебного взрыва», построенный вокруг взрыва для этой цели. ^{[ 30 ]}

Сравнение: При работе с генами взрыв может найти общие гены у двух родственных видов и может использоваться для отображения аннотаций от одного организма к другому.

Классификация таксономии: BLAST может использовать генетические последовательности для сравнения нескольких таксонов с известными таксономическими данными. Делая это, это может дать картину эволюционных отношений между различными видами (рис.6). Это полезный способ идентифицировать гены сирот , поскольку, если ген появляется в организме за пределами наследственной линии, то он не будет классифицирован как ген -сирот.
Рис. 6 Вывод поиска BLASTP, показывающий, что ген, обнаруженный в Bufo Japonicus , также обнаружен во многих других видах линии лягушки ( Anura ).; Хотя этот метод полезен, некоторые более точные варианты для поиска гомологов были бы посредством парного выравнивания последовательности и выравнивания нескольких последовательностей .

Смотрите также

Ссылки

^ Заметки на выпуск взрыва . Национальный центр информации о биотехнологии (США). 24 июня 2024 года.
^ «Бластого разработчика Информация» . blast.ncbi.nlm.nih.gov .
^ Jump up to: ^а ^{беременный} Дуглас Мартин (21 февраля 2008 г.). «Сэмюэль Карлин, универсальный математик, умирает в 83» . New York Times .
^ RM Casey (2005). «Последовательности взрыва в геномике и протеомике» . Сеть бизнес -аналитики.
^ «Взрывные темы» .
^ Дэн Стобер (16 января 2008 г.). «Сэм Карлин, математик, который улучшил анализ ДНК, умер в 83» . Стэнфорд.edu . Архивировано с оригинала 12 июня 2016 года . Получено 16 июля 2019 года .
^ Jump up to: ^а ^{беременный} Стивен Альтчул ; Уоррен Гиш ; Уэбб Миллер ; Юджин Майерс ; Дэвид Дж. Липман (1990). «Основной локальный инструмент поиска выравнивания» . Журнал молекулярной биологии . 215 (3): 403–410. doi : 10.1016/s0022-2836 (05) 80360-2 . PMID 2231712 . S2CID 14441902 .
^ Oehmen, C.; Nieplocha, J. (2006). «Scalablast: масштабируемая реализация взрыва для высокоэффективного анализа биоинформатики» . IEEE транзакции на параллельных и распределенных системах . 17 (8): 740. DOI : 10.1109/TPDS.2006.112 . S2CID 11122366 .
^ Oehmen, CS; Бакстер, DJ (2013). «Scalablast 2.0: быстрые и надежные расчеты взрыва по многопроцессорным системам» . Биоинформатика . 29 (6): 797–798. doi : 10.1093/bioinformatics/btt013 . PMC 3597145 . PMID 23361326 .
^ «Смысл из последовательностей: Стивен Ф. Альтчул при улучшении взрыва» . ScienceWatch. Июль -август 2000. Архивировано из оригинала 7 октября 2007 года.
^ Стивен Хеникофф ; Джорджа Хеникофф (1992). «Аминокислотные матрицы замещения из белковых блоков» . ПНА . 89 (22): 10915–10919. Bibcode : 1992pnas ... 8910915H . doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID 1438297 .
^ Jump up to: ^а ^{беременный} Mount, DW (2004). Биоинформатика: анализ последовательности и генома (2 -е изд.). Cold Spring Harbour Press. ISBN 978-0-87969-712-9 .
^ Адаптировано из анализа биологических последовательностей I, текущие темы по анализу генома [1] .
^ «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .
^ «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .
^ «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .
^ «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .
^ Yim, WC; Cushman, JC (2017). «Разделите и победите (DC) взрыв: быстрое и легкое выполнение взрыва в средах HPC» . ПЕРЕЙ . 5 : E3486. doi : 10.7717/peerj.3486 . PMC 5483034 . PMID 28652936 .
^ Дорогая, туз; Кэри, Льюис; Feng, Wei-Chun (2003). «Проектирование, реализация и оценка MPIBLAST» (PDF) . Университет Висконсин-Мэдисон . Получено 2023-04-17 .
^ Келлис, Манолис (5 октября 2020 г.). «Алгоритм взрыва (базовый инструмент поиска выравнивания» . Libretexts . Получено 2023-04-17 .
^ Дорогая, туз; Кэри, Льюис; Feng, Wei-Chun (2003). «Проектирование, реализация и оценка MPIBLAST» (PDF) . Университет Висконсин-Мэдисон . Получено 2023-04-17 .
^ Кент, В. Джеймс (2002-04-01). «Блат-инструмент для выравнивания взрыва» . Исследование генома . 12 (4): 656–664. doi : 10.1101/gr.229202 . ISSN 1088-9051 . PMC 187518 . PMID 11932250 .
^ Lavenier, D.; Lavenier, Dominique (2009). «Пласт: параллельный инструмент поиска локального выравнивания для сравнения базы данных» . BMC Bioinformatics . 10 : 329. DOI : 10.1186/1471-2105-10-329 . PMC 2770072 . PMID 19821978 .
^ Lavenier, D. (2009). «Упорядоченный алгоритм семян индекса для интенсивного сравнения последовательностей ДНК» (PDF) . 2008 IEEE Международный симпозиум по параллельной и распределенной обработке (PDF) . С. 1–8. Citeseerx 10.1.1.155.3633 . doi : 10.1109/ipdps.2008.4536172 . ISBN 978-1-4244-1693-6 Полем S2CID 10804289 .
^ Buchfink, Xie and Huson (2015). «Быстрое и чувствительное выравнивание белка с помощью алмаза». Природные методы . 12 (1): 59–60. doi : 10.1038/nmeth.3176 . PMID 25402007 . S2CID 5346781 .
^ Steinegger, Martin; Soeding, Johannes (2017-10-16). «MMSEQS2 обеспечивает чувствительные белковые последовательности, поиск анализа массивных наборов данных». Nature Biotechnology . 35 (11): 1026–1028. doi : 10.1038/nbt.3988 . HDL : 11858/00-001M-0000-002E-1967-3 . PMID 29035372 . S2CID 402352 .
^ Прыщи, Эсан; Кохи, Сомайех; Кавеваш, Захра; Машаги, Алиреза (2020). «OPTCAM: сверхбыстрый всеоптический архитектура для открытия варианта ДНК » Журнал биофотоники 13 (1): E201900227. Doi : 10.1002/ jbio.201900227 31397961PMID
^ «Биоинформатика объяснена: взрыв против Смита-Уэтермана» (PDF) . 4 июля 2007 г.
^ Neumann, Kumar и Shalchian-Tabrizi (2014). «Визуализация вывода взрыва в новую эру секвенирования» . Брифинги в биоинформатике . 15 (4): 484–503. doi : 10.1093/bib/bbt009 . PMID 23603091 .
^ "NCBI Magic Blast" . ncbi.github.io . Получено 16 мая 2019 года .

Внешние ссылки

Библиотечные ресурсы о
Выравнивание последовательности

Официальный сайт
Blast+ Executabdeade - бесплатные загрузки источников

[1] Заметки на выпуск взрыва . Национальный центр информации о биотехнологии (США). 24 июня 2024 года.

[2] «Бластого разработчика Информация» . blast.ncbi.nlm.nih.gov .

[KarlinObit.NYT-3] Jump up to: ^а ^{беременный} Дуглас Мартин (21 февраля 2008 г.). «Сэмюэль Карлин, универсальный математик, умирает в 83» . New York Times .

[4] RM Casey (2005). «Последовательности взрыва в геномике и протеомике» . Сеть бизнес -аналитики.

[FASTA.NIH-5] «Взрывные темы» .

[Stanford8-6] Дэн Стобер (16 января 2008 г.). «Сэм Карлин, математик, который улучшил анализ ДНК, умер в 83» . Стэнфорд.edu . Архивировано с оригинала 12 июня 2016 года . Получено 16 июля 2019 года .

[Altschul1990-7] Jump up to: ^а ^{беременный} Стивен Альтчул ; Уоррен Гиш ; Уэбб Миллер ; Юджин Майерс ; Дэвид Дж. Липман (1990). «Основной локальный инструмент поиска выравнивания» . Журнал молекулярной биологии . 215 (3): 403–410. doi : 10.1016/s0022-2836 (05) 80360-2 . PMID 2231712 . S2CID 14441902 .

[8] Oehmen, C.; Nieplocha, J. (2006). «Scalablast: масштабируемая реализация взрыва для высокоэффективного анализа биоинформатики» . IEEE транзакции на параллельных и распределенных системах . 17 (8): 740. DOI : 10.1109/TPDS.2006.112 . S2CID 11122366 .

[9] Oehmen, CS; Бакстер, DJ (2013). «Scalablast 2.0: быстрые и надежные расчеты взрыва по многопроцессорным системам» . Биоинформатика . 29 (6): 797–798. doi : 10.1093/bioinformatics/btt013 . PMC 3597145 . PMID 23361326 .

[10] «Смысл из последовательностей: Стивен Ф. Альтчул при улучшении взрыва» . ScienceWatch. Июль -август 2000. Архивировано из оригинала 7 октября 2007 года.

[11] Стивен Хеникофф ; Джорджа Хеникофф (1992). «Аминокислотные матрицы замещения из белковых блоков» . ПНА . 89 (22): 10915–10919. Bibcode : 1992pnas ... 8910915H . doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID 1438297 .

[Sequence&GenomeAnalysis-12] Jump up to: ^а ^{беременный} Mount, DW (2004). Биоинформатика: анализ последовательности и генома (2 -е изд.). Cold Spring Harbour Press. ISBN 978-0-87969-712-9 .

[13] Адаптировано из анализа биологических последовательностей I, текущие темы по анализу генома [1] .

[14] «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .

[15] «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .

[16] «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .

[17] «Руководство библиотеки: NCBI Bioinformatics Resources: Введение: Взрыв: Сравните и идентифицируйте последовательности» .

[18] Yim, WC; Cushman, JC (2017). «Разделите и победите (DC) взрыв: быстрое и легкое выполнение взрыва в средах HPC» . ПЕРЕЙ . 5 : E3486. doi : 10.7717/peerj.3486 . PMC 5483034 . PMID 28652936 .

[19] Дорогая, туз; Кэри, Льюис; Feng, Wei-Chun (2003). «Проектирование, реализация и оценка MPIBLAST» (PDF) . Университет Висконсин-Мэдисон . Получено 2023-04-17 .

[20] Келлис, Манолис (5 октября 2020 г.). «Алгоритм взрыва (базовый инструмент поиска выравнивания» . Libretexts . Получено 2023-04-17 .

[21] Дорогая, туз; Кэри, Льюис; Feng, Wei-Chun (2003). «Проектирование, реализация и оценка MPIBLAST» (PDF) . Университет Висконсин-Мэдисон . Получено 2023-04-17 .

[22] Кент, В. Джеймс (2002-04-01). «Блат-инструмент для выравнивания взрыва» . Исследование генома . 12 (4): 656–664. doi : 10.1101/gr.229202 . ISSN 1088-9051 . PMC 187518 . PMID 11932250 .

[23] Lavenier, D.; Lavenier, Dominique (2009). «Пласт: параллельный инструмент поиска локального выравнивания для сравнения базы данных» . BMC Bioinformatics . 10 : 329. DOI : 10.1186/1471-2105-10-329 . PMC 2770072 . PMID 19821978 .

[24] Lavenier, D. (2009). «Упорядоченный алгоритм семян индекса для интенсивного сравнения последовательностей ДНК» (PDF) . 2008 IEEE Международный симпозиум по параллельной и распределенной обработке (PDF) . С. 1–8. Citeseerx 10.1.1.155.3633 . doi : 10.1109/ipdps.2008.4536172 . ISBN 978-1-4244-1693-6 Полем S2CID 10804289 .

[25] Buchfink, Xie and Huson (2015). «Быстрое и чувствительное выравнивание белка с помощью алмаза». Природные методы . 12 (1): 59–60. doi : 10.1038/nmeth.3176 . PMID 25402007 . S2CID 5346781 .

[26] Steinegger, Martin; Soeding, Johannes (2017-10-16). «MMSEQS2 обеспечивает чувствительные белковые последовательности, поиск анализа массивных наборов данных». Nature Biotechnology . 35 (11): 1026–1028. doi : 10.1038/nbt.3988 . HDL : 11858/00-001M-0000-002E-1967-3 . PMID 29035372 . S2CID 402352 .

[27] Прыщи, Эсан; Кохи, Сомайех; Кавеваш, Захра; Машаги, Алиреза (2020). «OPTCAM: сверхбыстрый всеоптический архитектура для открытия варианта ДНК » Журнал биофотоники 13 (1): E201900227. Doi : 10.1002/ jbio.201900227 31397961PMID

[28] «Биоинформатика объяснена: взрыв против Смита-Уэтермана» (PDF) . 4 июля 2007 г.

[29] Neumann, Kumar и Shalchian-Tabrizi (2014). «Визуализация вывода взрыва в новую эру секвенирования» . Брифинги в биоинформатике . 15 (4): 484–503. doi : 10.1093/bib/bbt009 . PMID 23603091 .

[30] "NCBI Magic Blast" . ncbi.github.io . Получено 16 мая 2019 года .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

v Т и Биоинформатика
Базы данных	Базы данных последовательностей: Genbank , Европейский нуклеотидный архив , Банк данных ДНК в Японии и Китай Национальный Генебанк Вторичные базы данных: Uniprot , база данных белковых последовательностей, группирующих по швейцарскому протоколу , Trembl и белке ресурс Другие базы данных: Bionumbers , Bloten Data Bank , Ensembl , InterPro , Kegg и Gene Ontology Специализированные геномные базы данных: BOLD , база данных генома Saccharomyces , Flybase , Vectorbase , Wormbase , база данных генома крысы , PHI-база , информационный ресурс Arabidopsis , Gisaid и рыбок данио
Программное обеспечение	ВЗРЫВ Галстук-бабочка Класт Пробел ХММЕР Мышца ЯЩЕР Самтул Мыльный набор Топхат
Другой	Сервер: расширение Rosalind (образовательная платформа)
Учреждения	Широкий институт Отдел вычислительной биологии (CBD) Microsoft Research - Центр вычислительной и системной биологии Университета Тренто (COSBI) Центр базы данных по науке о жизни (DBCLS) Банк данных ДНК Японии (DDBJ) Европейский институт биоинформатики (EMBL-EBI) Европейская лаборатория молекулярной биологии (EMBL) Институт Флэтрон Дж. Крейг Вентер Институт (JCVI) Макс Планк Институт молекулярной клеточной биологии и генетики (MPI-CBG) Национальный центр биотехнологии США (NCBI) Японский институт генетики Центр биоинформатики Нидерландов (NBIC) Филиппинский центр генома (PGC) Scripps Research Швейцарский институт биоинформатики (SIB) Wellcome Sanger Institute Уайтхед Институт
Организации	Африканское общество биоинформатики и вычислительной биологии (ASBCB) Австралийский ресурс биоинформатики (EMBL-AR) Европейская сеть молекулярной биологии (EMBNE) Международная нуклеотидная база данных базы данных (INSDC) Международное общество биографии (ISB) Международное общество вычислительной биологии (ISCB) Студенческий совет (ISCB-SC) Институт геномики и интегративной биологии (CSIR-IGIB) Японское общество биоинформатики (JSBI)
Встречи	Базельская конференция по вычислительной биологии ([BC ²]) Европейская конференция по вычислительной биологии (ECCB) Интеллектуальные системы для молекулярной биологии (ISMB) Международная конференция по биоинформатике (UNPOB) Международная конференция по методам вычислительной разведки для биоинформатики и биостатистики (CIBB) Конференция ASBCB ASBCB ISCB по биоинформатике Тихоокеанский симпозиум по биокомпьютированию (PSB) Исследования в области вычислительной молекулярной биологии (рекомбинг)
Форматы файлов	Крамм формат Фиксированный формат Формат FASTQ Nexml формат Формат Nexus Формат накапливания Сэм Формат Стокгольм формат Формат VCF Формат GFF GTF формат
Связанные темы	Вычислительная биология Список биобанков Список биологических баз данных Молекулярная филогенетика Секвенирование База данных последовательности Выравнивание последовательности
Категория Общеизвестное