Фрап
Phrap — широко используемая программа для сборки последовательностей ДНК . Это часть пакета Phred -Phrap- Consed .
История
[ редактировать ]Первоначально Phrap был разработан профессором Филом Грином для сборки космид в крупномасштабном секвенировании космид в рамках проекта «Геном человека» . Phrap широко использовался для множества различных проектов сборки последовательностей, включая сборки бактериального генома и сборки EST.
Phrap был написан как программа командной строки для простой интеграции в автоматизированные рабочие процессы обработки данных в центрах секвенирования генома. Для пользователей, которые хотят использовать Phrap из графического интерфейса, коммерческие программы MacVector (только для Mac OS X ) и CodonCode Aligner (для Mac OS X и Microsoft Windows доступны ).
Методы
[ редактировать ]Подробное (хотя и частично устаревшее) описание алгоритмов Phrap можно найти в документации Phrap . Постоянной темой в алгоритмах Phrap является использование оценок качества Phred . Phrap использовал показатели качества, чтобы смягчить проблему, с которой другие программы сборки боролись в начале проекта «Геном человека» : правильная сборка частых несовершенных повторов, в частности последовательностей Alu . Phrap использует показатели качества, чтобы определить, связаны ли какие-либо наблюдаемые различия в повторяющихся регионах со случайной неоднозначностью в процессе секвенирования или, что более вероятно, с тем, что последовательности взяты из разных копий повтора Alu. Обычно у Phrap не было проблем с дифференциацией разных копий Alu в космиде и с правильной сборкой космид (или, позже, BAC ). Логика проста: вызов базы с высокой вероятностью быть правильным никогда не должен быть сопоставлен с другой базой высокого качества, но другой. Однако Phrap не исключает такие выравнивания полностью, а разрыв выравнивания cross_match и штрафы за выравнивание, используемые при поиске локальных выравниваний, не всегда оптимальны для типичных ошибок секвенирования и поиска перекрывающихся (непрерывных) последовательностей. (Аффинные пробелы полезны для поиска гомологии, но обычно не для выравнивания ошибок секвенирования). Phrap пытается классифицировать химеры, векторные последовательности и концевые области низкого качества с помощью единого сопоставления и иногда допускает ошибки. Кроме того, Phrap имеет более одного этапа сборки сборки внутри, а последующие этапы менее строгие — жадный алгоритм.
Эти варианты дизайна были полезны в 1990-х годах, когда программа была первоначально написана (в Вашингтонском университете в Сент-Луисе ), но сейчас они менее полезны. Phrap кажется склонным к ошибкам по сравнению с новыми ассемблерами, такими как Euler, и не может использовать информацию о сопряженных парах непосредственно для руководства сборкой и сборки прошлых совершенных повторов. Phrap не является свободным программным обеспечением, поэтому он не расширялся и не улучшался, как менее ограниченное программное обеспечение с открытым исходным кодом Sequence Assembly .
Консенсусные последовательности, основанные на качестве
[ редактировать ]Еще одним использованием показателей качества Phred Phrap, которое способствовало успеху программы, было определение консенсусных последовательностей с использованием качеств последовательностей. По сути, Phrap автоматизировал шаг, который был основным узким местом на ранних этапах проекта «Геном человека» : определение правильной консенсусной последовательности во всех позициях, где собранные последовательности имели несовпадающие основания. Этот подход был предложен Бонфилдом и Стаденом в 1995 году. [1] и был реализован и дополнительно оптимизирован в Phrap. По сути, в любой консенсусной позиции с несовпадающими основаниями Phrap проверяет показатели качества выровненных последовательностей, чтобы найти последовательность самого высокого качества. При этом Phrap принимает во внимание подтверждение локальной последовательности другими прочтениями после рассмотрения направления и химии секвенирования.
Математика этого подхода была довольно простой, поскольку показатели качества Phred логарифмически связаны с вероятностью ошибки. Это означает, что показатели качества подтверждающих считываний можно просто суммировать, если распределения ошибок достаточно независимы. Чтобы удовлетворить этому критерию независимости, чтения обычно должны осуществляться в разных направлениях, поскольку шаблоны пиков, которые вызывают ошибки вызова оснований, часто идентичны, когда область секвенируется несколько раз в одном и том же направлении.
Если консенсусная база покрыта как последовательностью высокого качества, так и (несовместимой) последовательностью низкого качества, выбор Phrap последовательности более высокого качества в большинстве случаев будет правильным. Затем Phrap присваивает подтвержденное качество основания основанию консенсусной последовательности. Это позволяет легко (а) найти консенсусные области, которые не покрыты последовательностью высокого качества (которая также будет иметь низкое качество), и (б) быстро вычислить достаточно точную оценку частоты ошибок консенсусной последовательности. Эту информацию затем можно использовать для управления отделочными работами, например, для изменения последовательности проблемных участков.
Сочетание точных, специфичных для конкретной базы показателей качества и согласованной последовательности, основанной на качестве, стало решающим элементом успеха проекта «Геном человека» . Phred и Phrap, а также аналогичные программы, которые подхватили идеи, предложенные этими двумя программами, позволили собрать большие части человеческого генома (и многих других геномов) с точностью, которая была значительно выше (менее 1 ошибки на 10 000 оснований). ), чем типичная точность тщательно отредактированных вручную последовательностей, которые ранее были отправлены в базу данных GenBank . [2]
Ссылки
[ редактировать ]- ^ Бонфилд Дж. К., Стаден Р. (1995): Применение численных оценок точности определения оснований к проектам секвенирования ДНК. Нуклеиновые кислоты Рез. 25 апреля 1995 г.; 23(8):1406-10. ПМИД 7753633
- ^ Krawetz SA (1989): Ошибки последовательности, описанные в GenBank: средство определения точности интерпретации последовательности ДНК. Нуклеиновые кислоты Рез. 1989, 25 мая; 17 (10): 3951-7.