БЛАСТ (биотехнология)
Эта статья нуждается в дополнительных цитатах для проверки . ( апрель 2024 г. ) |
Оригинальный автор(ы) | Стивен Альтшул , Уоррен Гиш , Уэбб Миллер , Юджин Майерс и Дэвид Липман |
---|---|
Разработчик(и) | NCBI |
Стабильная версия | 2.15.0+ [1] / 23 октября 2023 г |
Написано в | С и С++ [2] |
Операционная система | UNIX , Linux , Mac , MS-Windows |
Тип | биоинформатики Инструмент |
Лицензия | Общественное достояние |
Веб-сайт | взрыв |
В биоинформатике . BLAST ( базовый инструмент поиска локального выравнивания ) [3] представляет собой алгоритм и программу для сравнения информации о первичных биологических последовательностях, таких как аминокислотные последовательности белков или нуклеотиды последовательностей ДНК и/или РНК . Поиск BLAST позволяет исследователю сравнить исследуемый белок или нуклеотидную последовательность (называемую запросом) с библиотекой или базой данных последовательностей и идентифицировать последовательности базы данных, которые напоминают последовательность запроса, превышающую определенный порог. Например, после открытия ранее неизвестного гена у мыши ученый обычно выполняет BLAST-поиск человеческого генома, чтобы увидеть, несут ли люди аналогичный ген; BLAST будет идентифицировать последовательности в геноме человека, которые напоминают ген мыши, на основе сходства последовательностей.
Фон
[ редактировать ]BLAST — одна из наиболее широко используемых биоинформатических программ для поиска последовательностей. [4] Он решает фундаментальную проблему биоинформатических исследований. алгоритм Используемый им эвристический намного быстрее, чем другие подходы, такие как вычисление оптимального выравнивания. Этот акцент на скорости жизненно важен для того, чтобы сделать алгоритм практичным в огромных геномных базах данных, доступных в настоящее время, хотя последующие алгоритмы могут быть еще быстрее.
Программа BLAST была разработана Юджином Майерсом, Стивеном Альтшулом, Уорреном Гишем, Дэвидом Дж. Липманом и Уэббом Миллером в НИЗ и опубликована в журнале J. Mol. Биол. в 1990 году. BLAST расширил работу по согласованию ранее разработанной программы поиска сходства последовательностей белков и ДНК, FASTA , добавив новую стохастическую модель, разработанную Сэмюэлем Карлином и Стивеном Альтшулом . [5] Они предложили «метод оценки сходства между известной последовательностью ДНК одного организма и другой». [3] и их работа была описана как «статистическая основа BLAST». [6] Впоследствии Альтшул, Гиш, Миллер, Майерс и Липман разработали и внедрили программу BLAST, которая была опубликована в Журнале молекулярной биологии в 1990 году и с тех пор цитировалась более 100 000 раз. [7]
Хотя в большинстве случаев BLAST быстрее, чем любая реализация Смита-Уотермана , он не может «гарантировать оптимальное выравнивание последовательностей запросов и базы данных», как это делает алгоритм Смита-Уотермана. Алгоритм Смита-Уотермана был расширением предыдущего оптимального метода, алгоритма Нидлмана-Вунша , который был первым алгоритмом выравнивания последовательностей, который гарантированно находил наилучшее возможное выравнивание. Однако требования к времени и пространству этих оптимальных алгоритмов намного превышают требования BLAST.
BLAST более экономичен по времени, чем FASTA, поскольку ищет только наиболее важные закономерности в последовательностях, но при этом обладает сравнительной чувствительностью. Это можно реализовать, поняв алгоритм BLAST, представленный ниже.
Примеры других вопросов, для ответа на которые исследователи используют BLAST:
- У каких бактерий видов есть белок, родственный по линии определенному белку с известной аминокислотной последовательностью?
- Какие еще гены кодируют белки, обладающие структурами или мотивами, например, которые только что были определены?
BLAST также часто используется как часть других алгоритмов, требующих приблизительного сопоставления последовательностей .
BLAST доступен в Интернете на веб-сайте NCBI. Доступны различные типы BLAST в зависимости от последовательностей запросов и целевых баз данных. Альтернативные реализации включают AB-BLAST (ранее известный как WU-BLAST), FSA-BLAST (последнее обновление в 2006 году) и ScalaBLAST. [8] [9]
Оригинальная статья Альтшула и др. [7] была самой цитируемой статьей, опубликованной в 1990-х годах. [10]
Вход
[ редактировать ]Входные последовательности (в формате FASTA или Genbank ), база данных для поиска и другие дополнительные параметры, такие как матрица оценок. [ нужны разъяснения ]
Выход
[ редактировать ]Вывод BLAST может быть доставлен в различных форматах. К этим форматам относятся форматирование HTML , обычный текст и XML . Для веб-страницы NCBI формат вывода по умолчанию — HTML. При выполнении BLAST на NCBI результаты предоставляются в графическом формате, показывающем найденные совпадения, в таблице показаны идентификаторы последовательностей для совпадений с данными, связанными с оценкой, а также сопоставление интересующей последовательности и полученных совпадений с соответствующими оценками BLAST. для этих. Вероятно, самой простой для чтения и информативной из них является таблица.
Если кто-то пытается найти запатентованную последовательность или просто ту, которая недоступна в базах данных, доступных широкой публике через такие источники, как NCBI, существует программа BLAST, которую можно бесплатно загрузить на любой компьютер. Его можно найти в исполняемых файлах BLAST+. Есть также коммерческие программы, доступные для покупки. Базы данных можно найти на сайте NCBI, а также в Индексе баз данных BLAST (FTP).
Процесс
[ редактировать ]Используя эвристический метод, BLAST находит похожие последовательности, находя короткие совпадения между двумя последовательностями. Этот процесс поиска похожих последовательностей называется посевом. Именно после этого первого совпадения BLAST начинает выполнять локальные выравнивания. При попытке найти сходство в последовательностях очень важны наборы общих букв, известных как слова. Например, предположим, что последовательность содержит следующий фрагмент букв: GLKFA. Если бы BLAST проводился в нормальных условиях, размер слова был бы 3 буквы. В этом случае, используя заданный фрагмент букв, искомыми словами будут GLK, LKF и KFA. Эвристический алгоритм BLAST находит все общие трехбуквенные слова между интересующей последовательностью и последовательностью или последовательностями совпадений из базы данных. Этот результат затем будет использован для построения выравнивания. После составления слов по интересующей последовательности собираются и остальные слова. Эти слова должны удовлетворять требованию иметь балл не ниже порогового значения. T при сравнении с использованием матрицы оценок.
Одной из часто используемых оценочных матриц для поиска BLAST является BLOSUM62 . [11] хотя оптимальная матрица оценки зависит от сходства последовательностей. После того как слова и соседние слова собраны и скомпилированы, они сравниваются с последовательностями в базе данных, чтобы найти совпадения. Пороговая оценка T определяет, будет ли определенное слово включено в выравнивание. После проведения посева выравнивание длиной всего 3 остатка расширяется в обоих направлениях с помощью алгоритма, используемого BLAST. Каждое расширение влияет на оценку выравнивания, увеличивая или уменьшая ее. Если этот балл выше заранее определенного T , выравнивание будет включено в результаты, предоставляемые BLAST. Однако если этот показатель ниже, чем заранее определенное T , выравнивание перестанет расширяться, что предотвратит включение областей с плохим выравниванием в результаты BLAST. Обратите внимание, что увеличение показателя T ограничивает объем пространства, доступного для поиска, уменьшая количество соседних слов и в то же время ускоряя процесс BLAST.
Алгоритм
[ редактировать ]Для запуска программного обеспечения BLAST требуется последовательность запроса для поиска и последовательность для поиска (также называемая целевой последовательностью) или база данных последовательностей, содержащая несколько таких последовательностей. BLAST найдет в базе данных подпоследовательности, похожие на подпоследовательности в запросе. При типичном использовании последовательность запроса намного меньше базы данных, например, запрос может составлять одну тысячу нуклеотидов, а база данных - несколько миллиардов нуклеотидов.
Основная идея BLAST заключается в том, что часто существуют пары сегментов с высокими показателями (HSP), содержащиеся в статистически значимом выравнивании. BLAST ищет совпадения последовательностей с высокой оценкой между последовательностью запроса и существующими последовательностями в базе данных, используя эвристический подход, который аппроксимирует алгоритм Смита-Уотермана . Однако исчерпывающий подход Смита-Уотермана слишком медленный для поиска в больших геномных базах данных, таких как GenBank . Таким образом, алгоритм BLAST использует эвристический подход, который менее точен, чем алгоритм Смита-Уотермана, но более чем в 50 раз быстрее. [8] Скорость и относительно хорошая точность BLAST являются одними из ключевых технических инноваций программ BLAST.
Обзор алгоритма BLAST (поиск белков по белкам) выглядит следующим образом: [12]
- Удалите повторы областей или последовательностей низкой сложности в последовательности запроса.
- «Область низкой сложности» означает область последовательности, состоящую из нескольких типов элементов. Эти регионы могут давать высокие оценки, что затруднит поиск действительных значимых последовательностей в базе данных, поэтому их следует отфильтровать. Области будут отмечены X (белковые последовательности) или N (последовательности нуклеиновой кислоты), а затем будут проигнорированы программой BLAST. Чтобы отфильтровать области низкой сложности, программа SEG используется для последовательностей белков, а программа DUST — для последовательностей ДНК. С другой стороны, программа XNU используется для маскировки тандемных повторов в белковых последовательностях.
- Составьте список слов из k -буквы последовательности запроса.
- Возьмем , к примеру, k = 3, мы перечисляем слова длиной 3 в последовательности белка запроса ( k обычно равен 11 для последовательности ДНК) «последовательно», пока не будет включена последняя буква последовательности запроса. Способ проиллюстрирован на рисунке 1.
- Перечислите возможные совпадающие слова.
- Этот шаг является одним из основных различий между BLAST и FASTA. FASTA заботится обо всех общих словах в базе данных и последовательностях запросов, перечисленных на шаге 2; однако BLAST заботится только о словах с высоким рейтингом. Очки создаются путем сравнения слова в списке на шаге 2 со всеми трехбуквенными словами. Используя матрицу подсчета ( матрицу подстановки ) для оценки сравнения каждой пары остатков, можно получить 20^3 возможных оценок соответствия для трехбуквенного слова. Например, оценка, полученная путем сравнения PQG с PEG и PQA, составляет соответственно 15 и 12 по схеме взвешивания BLOSUM62 . Для слов ДНК совпадение оценивается как +5, а несовпадение - как -4 или как +2 и -3. После этого используется пороговое значение оценки соседних слов T , чтобы уменьшить количество возможных совпадающих слов. Слова, баллы которых превышают порог T, останутся в списке возможных совпадающих слов, а слова с более низкими баллами будут отброшены. Например, PEG сохраняется, но PQA прекращается, когда T равен 13.
- Организуйте оставшиеся слова с высокими оценками в эффективное дерево поиска.
- Это позволяет программе быстро сравнивать слова с высокой оценкой с последовательностями базы данных.
- Повторите шаги 3–4 для каждого слова из k -буквы в последовательности запроса.
- Сканируйте последовательности базы данных на предмет точных совпадений с оставшимися словами с высоким рейтингом.
- Программа BLAST сканирует последовательности базы данных на предмет оставшегося слова с высокой оценкой, такого как PEG, в каждой позиции. Если обнаружено точное совпадение, это совпадение используется для определения возможного неразрывного выравнивания между последовательностями запроса и базы данных.
- Расширьте точные совпадения до пары сегментов с высокой оценкой (HSP).
- Исходная версия BLAST растягивает более длинное выравнивание между запросом и последовательностью базы данных в левом и правом направлениях, начиная с места, где произошло точное совпадение. Расширение не прекращается до тех пор, пока накопленный общий балл HSP не начнет уменьшаться. Упрощенный пример представлен на рисунке 2.
- Чтобы сэкономить больше времени, была разработана новая версия BLAST, названная BLAST2 или BLAST с пробелами. BLAST2 использует более низкий порог оценки слов соседства, чтобы поддерживать тот же уровень чувствительности для обнаружения сходства последовательностей. Таким образом, список возможных совпадающих слов на шаге 3 становится длиннее. Затем точно совпадающие регионы, находящиеся на расстоянии A друг от друга на одной диагонали на рисунке 3, будут объединены в новый более длинный регион. Наконец, новые регионы затем расширяются тем же методом, что и в исходной версии BLAST, а затем создаются оценки HSP (пары сегментов с высокой оценкой) расширенных регионов с использованием матрицы замены, как и раньше.
- Перечислите всех HSP в базе данных, чей балл достаточно высок, чтобы их можно было принять во внимание.
- чьи баллы превышают эмпирически определенный пороговый балл S. Мы перечисляем HSP , Изучая распределение оценок выравнивания, смоделированных путем сравнения случайных последовательностей, можно определить пороговый показатель S , чтобы его значение было достаточно большим, чтобы гарантировать значимость остальных HSP.
- Оцените значимость показателя HSP.
- Затем BLAST оценивает статистическую значимость каждого показателя HSP, используя распределение экстремальных значений Гамбеля (EVD). (Доказано, что распределение оценок локального выравнивания Смита-Уотермана между двумя случайными последовательностями соответствует EVD Гамбеля. Для локальных выравниваний, содержащих пробелы, это не доказано.). В соответствии с EVD Гамбеля вероятность p наблюдения показателя S, равного или превышающего x, определяется уравнением
- где
- Статистические параметры и оцениваются путем подгонки распределения оценок локального выравнивания без пропусков, последовательности запроса и множества перетасованных версий (глобальное или локальное перетасовывание) последовательности базы данных к распределению экстремальных значений Gumbel. Обратите внимание, что и зависят от матрицы замены, штрафов за пробелы и состава последовательности (частоты букв). и — эффективная длина последовательностей запроса и базы данных соответственно. Исходная длина последовательности сокращается до эффективной длины, чтобы компенсировать краевой эффект (начало выравнивания ближе к концу одной из последовательностей запроса или базы данных, скорее всего, не будет иметь достаточной последовательности для построения оптимального выравнивания). Их можно рассчитать как
- где представляет собой средний ожидаемый балл на выровненную пару остатков при выравнивании двух случайных последовательностей. Альтшуль и Гиш дали типичные значения: , , и , для локального выравнивания без пробелов с использованием BLOSUM62 в качестве матрицы замены. Использование типичных значений для оценки значимости называется методом справочной таблицы; это не точно. Ожидаемая оценка E совпадения с базой данных — это количество раз, когда несвязанная последовательность базы данных получит оценку S выше, чем x случайно . Ожидание E, полученное при поиске базы данных последовательностей D, определяется выражением
- Кроме того, когда , E можно аппроксимировать распределением Пуассона как
- Это ожидание или ожидаемое значение «E» (часто называемое E - значением или E -значением или e -значением), оценивающее значимость показателя HSP для непревзойденного локального выравнивания, сообщается в результатах BLAST. Показанный здесь расчет изменяется, если объединяются отдельные HSP, например, при создании выравниваний с пробелами (описанных ниже), из-за изменения статистических параметров.
- Затем BLAST оценивает статистическую значимость каждого показателя HSP, используя распределение экстремальных значений Гамбеля (EVD). (Доказано, что распределение оценок локального выравнивания Смита-Уотермана между двумя случайными последовательностями соответствует EVD Гамбеля. Для локальных выравниваний, содержащих пробелы, это не доказано.). В соответствии с EVD Гамбеля вероятность p наблюдения показателя S, равного или превышающего x, определяется уравнением
- Сделайте два или более региона HSP более длинными.
- Иногда мы находим два или более региона HSP в одной последовательности базы данных, которые можно объединить в более длинное выравнивание. Это обеспечивает дополнительное свидетельство связи между запросом и последовательностью базы данных. Существует два метода: метод Пуассона и метод суммы баллов, для сравнения значимости вновь объединенных регионов HSP. Предположим, что существуют два объединенных региона HSP с парами оценок (65, 40) и (52, 45) соответственно. Метод Пуассона придает большую значимость набору с максимальным нижним баллом (45>40). Однако метод суммы баллов предпочитает первый набор, поскольку 65+40 (105) больше, чем 52+45(97). Оригинальный BLAST использует метод Пуассона; BLAST с пробелами, а WU-BLAST использует метод суммы баллов.
- Покажите локальные выравнивания Смита-Уотермана с пробелами в запросе и каждую из совпадающих последовательностей базы данных.
- Исходный BLAST генерирует только выравнивания без пропусков, включая индивидуально найденные HSP, даже если в одной последовательности базы данных обнаружено более одного HSP.
- BLAST2 производит единое выравнивание с пробелами, которое может включать все изначально обнаруженные регионы HSP. Обратите внимание, что вычисление оценки и соответствующего ей значения E предполагает использование адекватных штрафов за пропуски.
- ожидаемая оценка которого ниже порогового параметра E. Сообщайте о каждом совпадении ,
Виды ВЗРЫВА
[ редактировать ]- BLASTn (Нуклеотидный БЛАСТ)
BLASTn сравнивает одну или несколько нуклеотидных последовательностей с базой данных или другой последовательностью. Это полезно при попытке определить эволюционные связи между организмами. [14]
- tBLASTn
tBLASTn используется для поиска белков в последовательностях, которые еще не транслировались в белки. Он берет последовательность белка и сравнивает ее со всеми возможными трансляциями последовательности ДНК. Это полезно при поиске схожих кодирующих белок областей в последовательностях ДНК, которые не были полностью аннотированы, например, EST (короткие последовательности кДНК, предназначенные для однократного чтения) и HTG (черновики последовательностей генома). Поскольку эти последовательности не имеют известных трансляций белков, мы можем искать их только с помощью tBLASTn. [15]
- BLASTx
BLASTx сравнивает запрашиваемую нуклеотидную последовательность, которую можно транслировать в шесть различных белковых последовательностей, с базой данных известных белковых последовательностей. Этот инструмент полезен, когда рамка считывания последовательности ДНК неопределенна или содержит ошибки, которые могут вызвать ошибки при кодировании белка. BLASTx предоставляет комбинированную статистику совпадений по всем кадрам, что делает ее полезной для первоначального анализа новых последовательностей ДНК. [16]
- БЛАСТп
BLASTp или Protein BLAST используется для сравнения последовательностей белков. Вы можете ввести одну или несколько белковых последовательностей, которые хотите сравнить с одной белковой последовательностью или с базой данных белковых последовательностей. Это полезно, когда вы пытаетесь идентифицировать белок, находя похожие последовательности в существующих базах данных белков. [17]
Параллельный взрыв
[ редактировать ]Параллельные версии разделенных баз данных BLAST реализованы с использованием MPI и Pthreads и портированы на различные платформы, включая Windows , Linux , Solaris , Mac OS X и AIX . Популярные подходы к распараллеливанию BLAST включают распределение запросов, сегментацию хеш-таблицы, распараллеливание вычислений и сегментацию (разделение) базы данных. Базы данных разбиваются на части одинакового размера и хранятся локально на каждом узле. Каждый запрос выполняется на всех узлах параллельно, и результирующие выходные файлы BLAST со всех узлов объединяются для получения окончательного результата. Конкретные реализации включают MPIblast, ScalaBLAST, DCBLAST и т. д. [18]
MPIblast использует технику сегментации базы данных для распараллеливания процесса вычислений. [19] Это позволяет значительно повысить производительность при проведении поиска BLAST по набору узлов в кластере. В некоторых сценариях достижимо сверхлинейное ускорение. Это делает MPIblast подходящим для обширных наборов геномных данных, которые обычно используются в биоинформатике.
BLAST обычно работает со скоростью O(n) , где n — размер базы данных. [20] Время завершения поиска увеличивается линейно с увеличением размера базы данных. MPIblast использует параллельную обработку для ускорения поиска. Идеальная скорость для любых параллельных вычислений — это сложность O(n/p), где n — размер базы данных, а p — количество процессоров. Это будет означать, что задание равномерно распределено между p процессоров. Это показано на прилагаемом графике. Сверхлинейное ускорение, которое иногда может происходить с помощью MPIblast, может иметь сложность лучше, чем O(n/p). Это происходит потому, что кэш-память может использоваться для уменьшения времени выполнения. [21]
Альтернативы ВЗРЫВУ
[ редактировать ]Предшественник BLAST, FASTA , также может использоваться для поиска сходства белков и ДНК. FASTA предоставляет аналогичный набор программ для сравнения белков с базами данных белков и ДНК, ДНК с ДНК и базами данных белков, а также включает дополнительные программы для работы с неупорядоченными короткими пептидами и последовательностями ДНК. Кроме того, пакет FASTA предоставляет SSEARCH, векторную реализацию строгого алгоритма Смита-Уотермана . FASTA работает медленнее, чем BLAST, но предоставляет гораздо более широкий диапазон оценочных матриц, что упрощает адаптацию поиска к определенному эволюционному расстоянию.
Чрезвычайно быстрая, но значительно менее чувствительная альтернатива BLAST BLAT ( Blast Like ligment Tool A — ) . В то время как BLAST выполняет линейный поиск, BLAT полагается на k-мерную индексацию базы данных и, таким образом, часто может найти начальные числа быстрее. [22] Еще одна программная альтернатива, похожая на BLAT, — это PatternHunter .
Достижения в технологии секвенирования в конце 2000-х годов сделали поиск очень похожих нуклеотидов важной проблемой. Новые программы выравнивания, предназначенные для этого использования, обычно используют BWT -индексацию целевой базы данных (обычно генома). Затем входные последовательности можно очень быстро сопоставить, а выходные данные обычно имеют форму файла BAM. Примерами программ выравнивания являются BWA , SOAP и Bowtie .
поиск известных доменов (например, из Pfam ) путем сопоставления со скрытыми марковскими моделями Для идентификации белка популярной альтернативой является , такими как HMMER .
Альтернативой BLAST для сравнения двух банков последовательностей является PLAST. PLAST предоставляет высокопроизводительный универсальный инструмент поиска сходства последовательностей между банками, основанный на PLAST. [23] и ОРИС [24] алгоритмы. Результаты PLAST очень похожи на BLAST, но PLAST значительно быстрее и способен сравнивать большие наборы последовательностей с небольшим объемом памяти (т. е. ОЗУ).
Для приложений в метагеномике, где задачей является сравнение миллиардов коротких чтений ДНК с десятками миллионов эталонных белков, DIAMOND [25] работает в 20 000 раз быстрее, чем BLASTX, сохраняя при этом высокий уровень чувствительности.
Программное обеспечение с открытым исходным кодом MMseqs является альтернативой BLAST/PSI-BLAST, которое совершенствует существующие инструменты поиска по всему диапазону компромисса между скоростью и чувствительностью, обеспечивая более высокую чувствительность, чем PSI-BLAST, более чем в 400 раз превышающую его скорость. [26]
Подходы к оптическим вычислениям были предложены как многообещающая альтернатива нынешним электрическим реализациям. OptCAM является примером таких подходов и оказался быстрее, чем BLAST. [27]
Сравнение BLAST и процесса Смита-Уотермана
[ редактировать ]Тон или стиль этой статьи могут не отражать энциклопедический тон , используемый в Википедии . ( декабрь 2023 г. ) |
Хотя и Смит-Уотерман , и BLAST используются для поиска гомологичных последовательностей путем поиска и сравнения последовательности запроса с последовательностями в базах данных, у них есть свои различия.
Поскольку BLAST основан на эвристическом алгоритме, результаты, полученные с помощью BLAST, не будут включать все возможные совпадения в базе данных. BLAST пропускает трудно находимые совпадения.
Альтернативой для поиска всех возможных совпадений может быть использование алгоритма Смита-Уотермана. Этот метод отличается от метода BLAST в двух областях: точности и скорости. Опция Смита-Уотермана обеспечивает более высокую точность, поскольку она находит совпадения, чего не может сделать BLAST, поскольку не исключает никакой информации. Следовательно, это необходимо для отдаленной гомологии. Однако по сравнению с BLAST он отнимает больше времени и требует больших вычислительных мощностей и памяти. Однако были достигнуты успехи в значительном ускорении процесса поиска Смита-Уотермана. Эти достижения включают в себя чипы FPGA и SIMD технологию .
Для получения более полных результатов от BLAST можно изменить настройки по умолчанию. Однако оптимальные настройки для данной последовательности могут различаться. Настройки, которые можно изменить, включают E-значение, стоимость пробелов, фильтры, размер слова и матрицу замены.
Обратите внимание, что алгоритм, используемый для BLAST, был разработан на основе алгоритма, используемого для Смита-Уотермана. BLAST использует выравнивание, которое находит «локальные совпадения между последовательностями путем поиска коротких совпадений, и на основе этих начальных совпадений создаются (локальные) выравнивания». [28]
Визуализация результатов BLAST
[ редактировать ]Чтобы помочь пользователям интерпретировать результаты BLAST, доступно различное программное обеспечение. В зависимости от установки и использования, особенностей анализа и технологии, вот некоторые доступные инструменты: [29]
- Служба NCBI BLAST
- общие интерпретаторы вывода BLAST, на основе графического интерфейса: JAMBLAST, Blast Viewer, BLASTGrabber
- интегрированные среды BLAST: PLAN, BlastStation-Free, SequenceServer
- Парсеры вывода BLAST: MuSeqBox, Zerg, BioParser, BLAST-Explorer, SequenceServer
- специализированные инструменты для BLAST: MEGAN , BLAST2GENE, BOV, Circoletto.
Примеры визуализации результатов BLAST показаны на рисунках 4 и 5.
Использование BLAST
[ редактировать ]BLAST можно использовать для нескольких целей. К ним относятся идентификация видов, обнаружение доменов, установление филогении, картирование ДНК и сравнение.
- Определение видов
- С помощью BLAST вы сможете правильно идентифицировать вид или найти гомологичные виды. Это может быть полезно, например, когда вы работаете с последовательностью ДНК неизвестного вида.
- Поиск доменов
- При работе с последовательностью белка вы можете ввести ее в BLAST, чтобы найти известные домены в интересующей последовательности.
- Установление филогении
- Используя результаты, полученные с помощью BLAST, вы можете создать филогенетическое дерево с помощью веб-страницы BLAST. Филогении, основанные только на BLAST, менее надежны, чем другие специально разработанные вычислительные филогенетические методы, поэтому на них следует полагаться только для филогенетического анализа «первого прохода».
- Картирование ДНК
- При работе с известным видом и попытке секвенировать ген в неизвестном месте BLAST может сравнить хромосомное положение интересующей последовательности с соответствующими последовательностями в базе данных (базах данных). Для этой цели у NCBI есть инструмент Magic-BLAST, созданный на основе BLAST. [30]
- Сравнение
- При работе с генами BLAST может находить общие гены у двух родственных видов и использоваться для сопоставления аннотаций одного организма с другим.
- Классификация таксономии
- BLAST может использовать генетические последовательности для сравнения нескольких таксонов с известными таксономическими данными. Сделав это, можно получить представление об эволюционных взаимоотношениях между различными видами (рис.6). Это полезный способ идентификации генов-сирот , поскольку, если ген обнаруживается в организме за пределами наследственной линии, он не будет классифицироваться как ген-сирота.
- Хотя этот метод полезен, некоторые более точные варианты поиска гомологов — это парное выравнивание последовательностей и множественное выравнивание последовательностей .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Примечания к выпуску BLAST . Национальный центр биотехнологической информации (США). 24 октября 2023 г.
- ^ «Информация для разработчиков BLAST» . blast.ncbi.nlm.nih.gov .
- ^ Перейти обратно: а б Дуглас Мартин (21 февраля 2008 г.). «Сэмюэл Карлин, универсальный математик, умер в возрасте 83 лет» . Нью-Йорк Таймс .
- ^ Р. М. Кейси (2005). «Последовательности BLAST помогают в геномике и протеомике» . Сеть бизнес-аналитики.
- ^ «ВЗРЫВНЫЕ темы» .
- ^ Дэн Стобер (16 января 2008 г.). «Сэм Карлин, математик, усовершенствовавший анализ ДНК, умер в возрасте 83 лет» . Стэнфорд.edu . Архивировано из оригинала 12 июня 2016 года . Проверено 16 июля 2019 г.
- ^ Перейти обратно: а б Стивен Альтшул ; Уоррен Гиш ; Уэбб Миллер ; Юджин Майерс ; Дэвид Дж. Липман (1990). «Базовый инструмент поиска локального выравнивания» . Журнал молекулярной биологии . 215 (3): 403–410. дои : 10.1016/S0022-2836(05)80360-2 . ПМИД 2231712 . S2CID 14441902 .
- ^ Омен, К.; Неплоча, Дж. (2006). «ScalaBLAST: масштабируемая реализация BLAST для высокопроизводительного биоинформатического анализа с интенсивным использованием данных» . Транзакции IEEE в параллельных и распределенных системах . 17 (8): 740. doi : 10.1109/TPDS.2006.112 . S2CID 11122366 .
- ^ Омен, CS; Бакстер, диджей (2013). «ScalaBLAST 2.0: быстрые и надежные вычисления BLAST в многопроцессорных системах» . Биоинформатика . 29 (6): 797–798. doi : 10.1093/биоинформатика/btt013 . ПМЦ 3597145 . ПМИД 23361326 .
- ^ «Смысл последовательностей: Стивен Ф. Альтшул об улучшении BLAST» . Научные часы. Июль – август 2000 г. Архивировано из оригинала 7 октября 2007 г.
- ^ Стивен Хеникофф ; Джорджа Хеникофф (1992). «Матрицы аминокислотных замен из белковых блоков» . ПНАС . 89 (22): 10915–10919. Бибкод : 1992PNAS...8910915H . дои : 10.1073/pnas.89.22.10915 . ПМК 50453 . ПМИД 1438297 .
- ^ Маунт, Д.В. (2004). Биоинформатика: анализ последовательностей и генома (2-е изд.). Пресса Колд-Спринг-Харбор. ISBN 978-0-87969-712-9 .
- ^ Адаптировано из «Анализ биологических последовательностей I», «Актуальные темы анализа генома» [1] .
- ^ «Библиотечные справочники: Ресурсы NCBI по биоинформатике: Введение: BLAST: Сравните и идентифицируйте последовательности» .
- ^ «Библиотечные справочники: Ресурсы NCBI по биоинформатике: Введение: BLAST: Сравните и идентифицируйте последовательности» .
- ^ «Библиотечные справочники: Ресурсы NCBI по биоинформатике: Введение: BLAST: Сравните и идентифицируйте последовательности» .
- ^ «Библиотечные справочники: Ресурсы NCBI по биоинформатике: Введение: BLAST: Сравните и идентифицируйте последовательности» .
- ^ Йим, туалет; Кушман, Дж. К. (2017). «Разделяй и властвуй (DC) BLAST: быстрое и простое выполнение BLAST в средах HPC» . ПерДж . 5 : е3486. дои : 10.7717/peerj.3486 . ПМЦ 5483034 . ПМИД 28652936 .
- ^ Дорогая, Эйс; Кэри, Льюис; Фэн, Вэй-Чун (2003). «Разработка, реализация и оценка mpiBLAST» (PDF) . Университет Висконсин-Мэдисон . Проверено 17 апреля 2023 г.
- ^ Келлис, Манолис (5 октября 2020 г.). «Алгоритм взрыва (инструмент базового поиска выравнивания») . LibreTexts . Проверено 17 апреля 2023 г.
- ^ Дорогая, Эйс; Кэри, Льюис; Фэн, Вэй-Чун (2003). «Разработка, реализация и оценка mpiBLAST» (PDF) . Университет Висконсин-Мэдисон . Проверено 17 апреля 2023 г.
- ^ Кент, В. Джеймс (1 апреля 2002 г.). «BLAT — инструмент выравнивания типа BLAST» . Геномные исследования . 12 (4): 656–664. дои : 10.1101/гр.229202 . ISSN 1088-9051 . ПМК 187518 . ПМИД 11932250 .
- ^ Лавенье, Д.; Лавенье, Доминик (2009). «PLAST: инструмент параллельного локального поиска для сравнения баз данных» . БМК Биоинформатика . 10 :329. дои : 10.1186/1471-2105-10-329 . ПМК 2770072 . ПМИД 19821978 .
- ^ Лавенье, Д. (2009). «Алгоритм упорядоченного индексного затравки для интенсивного сравнения последовательностей ДНК» (PDF) . Международный симпозиум IEEE по параллельной и распределенной обработке, 2008 г. (PDF) . стр. 1–8. CiteSeerX 10.1.1.155.3633 . дои : 10.1109/IPDPS.2008.4536172 . ISBN 978-1-4244-1693-6 . S2CID 10804289 .
- ^ Бухфинк, Се и Хьюсон (2015). «Быстрое и чувствительное выравнивание белков с использованием DIAMOND». Природные методы . 12 (1): 59–60. дои : 10.1038/nmeth.3176 . ПМИД 25402007 . S2CID 5346781 .
- ^ Штайнеггер, Мартин; Соединг, Йоханнес (16 октября 2017 г.). «MMseqs2 позволяет осуществлять поиск чувствительных белковых последовательностей для анализа огромных наборов данных». Природная биотехнология . 35 (11): 1026–1028. дои : 10.1038/nbt.3988 . hdl : 11858/00-001M-0000-002E-1967-3 . ПМИД 29035372 . S2CID 402352 .
- ^ Малчи, Эхсан; Тренер Сомайе; Кавехваш, Захра; Машаги, Алиреза (2020). «OptCAM: сверхбыстрая полностью оптическая архитектура для обнаружения вариантов ДНК» . Журнал биофотоники . 13 (1):e201900227. дои : 10.1002/jbio.201900227 . ПМИД 31397961 .
- ^ «Объяснение биоинформатики: BLAST против Смита-Уотермана» (PDF) . 4 июля 2007 г.
- ^ Нойманн, Кумар и Шалчиан-Тебризи (2014). «Визуализация результатов BLAST в новую эпоху секвенирования» . Брифинги по биоинформатике . 15 (4): 484–503. дои : 10.1093/нагрудник/bbt009 . ПМИД 23603091 .
- ^ «NCBI Magic-BLAST» . ncbi.github.io . Проверено 16 мая 2019 г.
Внешние ссылки
[ редактировать ]- Официальный сайт
- Исполняемые файлы BLAST+ — бесплатная загрузка исходного кода