ГОСТ

ГОСТ
Разработчик(и)	Уильям Р. Пирсон ; Дэвид Дж. Липман ;
Стабильная версия	36
Репозиторий	github .с /wrpearson /fasta36 ;
Операционная система	UNIX ; Линукс ; Мак ; MS-Windows ;
Тип	Биоинформатика
Лицензия	апач2.0
Веб-сайт	пост .Я бы .Вирджиния .edu ; www .семья .и .uk /Инструменты /сссс /голодание ;

FASTA — это ДНК и белков пакет программного обеспечения для выравнивания последовательностей , впервые описанный Дэвидом Дж. Липманом и Уильямом Р. Пирсоном в 1985 году. ^{[ 1 ]} Его наследием является формат FASTA , который сейчас повсеместно используется в биоинформатике .

История

Оригинальная программа FASTA была разработана для поиска сходства последовательностей белков. Из-за экспоненциально расширяющейся генетической информации и ограниченной скорости и памяти компьютеров в 1980-х годах были введены эвристические методы, выравнивающие последовательность запросов по целым базам данных. FASTA, опубликованная в 1987 году, добавила возможность выполнять поиск ДНК:ДНК, транслированный поиск белок:ДНК, а также предоставила более сложную программу перетасовки для оценки статистической значимости. ^{[ 2 ]} В этом пакете есть несколько программ, позволяющих выравнивать последовательности белков и последовательности ДНК. В настоящее время возросшая производительность компьютеров позволяет выполнять поиск по обнаружению локального выравнивания в базе данных с использованием алгоритма Смита-Уотермана .

FASTA произносится как «быстрый А» и означает «FAST-All», поскольку он работает с любым алфавитом и является расширением исходных инструментов выравнивания «FAST-P» (белок) и «FAST-N» (нуклеотид).

Хронология картографов (с 2001 г.). Картографы ДНК показаны синим цветом, картографы РНК - красным, картографы микроРНК - зеленым, а картографы бисульфита - фиолетовым. Серые пунктирные линии соединяют связанные сопоставители (расширения или новые версии). Временная шкала включает только картографов с рецензируемыми публикациями, а дата соответствует самой ранней дате публикации (например, дате предварительной публикации, а не дате публикации).

Использование

Текущий пакет FASTA содержит программы для поиска белок:белок, ДНК:ДНК, белок:транслируемая ДНК (со сдвигом рамки), а также упорядоченного или неупорядоченного поиска пептидов. Последние версии пакета FASTA включают специальные алгоритмы транслированного поиска, которые правильно обрабатывают ошибки сдвига кадра (с которыми поиск с трансляцией шести кадров не очень хорошо справляется) при сравнении данных о последовательностях нуклеотидов и белков.

Помимо методов быстрого эвристического поиска, пакет FASTA предоставляет SSEARCH — реализацию оптимального алгоритма Смита–Уотермана .

Основное внимание в пакете уделяется расчету точной статистики сходства, чтобы биологи могли судить о том, произошло ли совпадение случайно или его можно использовать для вывода о гомологии . Пакет FASTA доступен в Университете Вирджинии. ^{[ 3 ]} и Европейский институт биоинформатики . ^{[ 4 ]}

Формат файла FASTA, используемый в качестве входных данных для этого программного обеспечения, в настоящее время широко используется другими инструментами поиска в базе данных последовательностей (такими как BLAST ) и программами выравнивания последовательностей ( Clustal , T-Coffee и т. д.).

Метод поиска

FASTA берет данную нуклеотидную или аминокислотную последовательность и осуществляет поиск в соответствующей базе данных последовательностей, используя локальное выравнивание последовательностей для поиска совпадений сходных последовательностей базы данных.

Программа FASTA использует преимущественно эвристический метод, что способствует высокой скорости ее выполнения. Сначала он наблюдает за шаблоном совпадений слов, пословными совпадениями заданной длины и отмечает потенциальные совпадения, прежде чем выполнять более трудоемкий оптимизированный поиск с использованием Смита-Уотермана алгоритма типа .

Размер слова, заданный параметром kmer, управляет чувствительностью и скоростью программы. Увеличение значения k-mer уменьшает количество обнаруженных фоновых совпадений. В возвращенных совпадениях по словам программа ищет сегменты, содержащие кластер соседних совпадений. Затем он исследует эти сегменты на предмет возможного совпадения.

Между fastn и fastp существуют некоторые различия, связанные с типом используемых последовательностей, но оба используют четыре шага и вычисляют три оценки для описания и форматирования результатов сходства последовательностей. Это:

Определите регионы с наибольшей плотностью в каждом сравнении последовательностей. Принимая k-мер равным 1 или 2.

На этом этапе все или группа идентичностей между двумя последовательностями находятся с помощью справочной таблицы. Значение k-mer определяет, сколько последовательных идентификаторов требуется для объявления совпадения. Таким образом, чем меньше значение k-мера, тем более чувствителен поиск. k-mer=2 часто используется пользователями для белковых последовательностей, а kmer=4 или 6 для нуклеотидных последовательностей. Короткие олигонуклеотиды обычно обрабатываются с k-мером = 1. Затем программа находит все сходные локальные области , представленные в виде диагоналей определенной длины на точечном графике, между двумя последовательностями, подсчитывая совпадения k-меров и наказывая за промежуточные несоответствия. Таким образом, локальные области совпадений с наибольшей плотностью по диагонали изолируются от фоновых совпадений. Для белковых последовательностей значения BLOSUM50 используются для оценки совпадений k-меров. Это гарантирует, что группы идентичностей с высокими показателями сходства вносят больший вклад в локальную диагональную оценку, чем группы идентичностей с низкими показателями сходства. Нуклеотидные последовательности используют идентификационную матрицу с той же целью. Затем сохраняются 10 лучших локальных регионов, выбранных из всех диагоналей вместе взятых.

Повторно отсканируйте регионы, взятые с помощью оценочных матриц. обрезка концов региона, чтобы включить только те, которые набрали наивысший балл.

Пересканируйте 10 взятых регионов. На этот раз используйте соответствующую матрицу оценки при повторной оценке, чтобы разрешить серии идентичностей короче значения k-мера. Также при пересчете принимаются консервативные замены, которые способствуют увеличению показателя сходства. Хотя для белковых последовательностей используется матрица BLOSUM50 , в программе также можно использовать оценочные матрицы, основанные на минимальном количестве изменений оснований, необходимых для конкретной замены, только на основе идентичности или на альтернативной мере сходства , такой как PAM . Для каждой из диагональных областей, повторно просканированных таким образом, идентифицируется подобласть с максимальным баллом. Начальные оценки, полученные на этапе 1, используются для ранжирования библиотечных последовательностей. Наивысшая оценка называется оценкой init1 .

Если при выравнивании обнаружено несколько начальных регионов с баллами, превышающими значение CUTOFF, проверьте, можно ли соединить обрезанные начальные регионы для формирования приблизительного выравнивания с пробелами. Рассчитайте показатель сходства, который представляет собой сумму соединенных регионов, штрафуя за каждый разрыв 20 баллов. Эта первоначальная оценка сходства ( initn ) используется для ранжирования последовательностей библиотеки. Сообщается оценка единственного лучшего начального региона, найденного на шаге 2 ( init1 ).

Здесь программа вычисляет оптимальное выравнивание исходных регионов как комбинацию совместимых регионов с максимальным баллом. Это оптимальное выравнивание начальных регионов можно быстро рассчитать с помощью алгоритма динамического программирования. Полученная в результате оценка initn используется для ранжирования библиотечных последовательностей. Этот процесс соединения увеличивает чувствительность, но снижает селективность. Таким образом, для контроля того, где будет реализован этот шаг, используется тщательно рассчитанное пороговое значение, значение, которое примерно на одно стандартное отклонение превышает средний балл, ожидаемый для несвязанных последовательностей в библиотеке. Последовательность запроса из 200 остатков с k-мером 2 использует значение 28.

Используйте полосовой алгоритм Смита – Уотермана, чтобы вычислить оптимальную оценку выравнивания.

На этом этапе используется полосовой алгоритм Смита-Уотермана для создания оптимизированной оценки ( opt ) для каждого сопоставления последовательности запроса с последовательностью базы данных (библиотеки). требуется полоса из 32 остатков с центром в области init1 Для расчета оптимального выравнивания на этапе 2. После поиска всех последовательностей программа отображает начальные оценки каждой последовательности базы данных в виде гистограммы и вычисляет статистическую значимость оценки «opt». Для белковых последовательностей окончательное выравнивание производится с использованием полного выравнивания Смита-Уотермана . Для последовательностей ДНК предусмотрено выравнивание по полосам.

FASTA может удалять области сложности перед выравниванием последовательностей, кодируя области низкой сложности строчными буквами и используя опцию -S. Однако программа BLAST предлагает больше возможностей для исправления смещенной статистики состава. Поэтому программа PRSS добавлена в дистрибутив FASTA. PRSS перемешивает совпадающие последовательности в базе данных либо на уровне одной буквы, либо перемешивает короткие сегменты, длину которых может определить пользователь. Перетасованные последовательности теперь снова выровнены, и если оценка по-прежнему выше ожидаемой, это вызвано тем, что области низкой сложности перепутаны, но все еще сопоставляются с запросом. По сумме оценок перетасованные последовательности все еще достигают PRSS, теперь можно предсказать значимость оценки исходных последовательностей. Чем выше оценка перетасованных последовательностей, тем менее значимы совпадения, обнаруженные между исходной базой данных и последовательностью запроса. ^{[ 5 ]}

Программы FASTA находят области локального или глобального сходства между последовательностями белков или ДНК либо путем поиска в базах данных белков или ДНК, либо путем выявления локальных дупликаций внутри последовательности. Другие программы предоставляют информацию о статистической значимости выравнивания. Как и BLAST, FASTA можно использовать для определения функциональных и эволюционных связей между последовательностями, а также для идентификации членов семейств генов.

См. также

Ссылки

^ Липман, диджей; Пирсон, WR (1985). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .
^ Пирсон, WR; Липман, диджей (1988). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .
^ «Программы FASTA» . Архивировано из оригинала 4 марта 2000 г.
^ «FASTA/SSEARCH/GGSEARCH/GLSEARCH <Поиск сходства последовательностей <EMBL-EBI» .
^ Дэвид В. Маунт: Биоинформатический анализ последовательности и генома , издание 1, Cold Spring Harbor Laboratory Press, 2001, стр. 295–297.

[1] Липман, диджей; Пирсон, WR (1985). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .

[2] Пирсон, WR; Липман, диджей (1988). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .

[3] «Программы FASTA» . Архивировано из оригинала 4 марта 2000 г.

[4] «FASTA/SSEARCH/GGSEARCH/GLSEARCH <Поиск сходства последовательностей <EMBL-EBI» .

[5] Дэвид В. Маунт: Биоинформатический анализ последовательности и генома , издание 1, Cold Spring Harbor Laboratory Press, 2001, стр. 295–297.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]