Jump to content

Фрап

Phrap — широко используемая программа для сборки последовательностей ДНК . Это часть пакета Phred -Phrap- Consed .

Первоначально Phrap был разработан профессором Филом Грином для сборки космид в крупномасштабном секвенировании космид в рамках проекта «Геном человека» . Phrap широко использовался для множества различных проектов сборки последовательностей, включая сборки бактериального генома и сборки EST.

Phrap был написан как программа командной строки для простой интеграции в автоматизированные рабочие процессы обработки данных в центрах секвенирования генома. Для пользователей, которые хотят использовать Phrap из графического интерфейса, коммерческие программы MacVector (только для Mac OS X ) и CodonCode Aligner (для Mac OS X и Microsoft Windows доступны ).

Подробное (хотя и частично устаревшее) описание алгоритмов Phrap можно найти в документации Phrap . Постоянной темой в алгоритмах Phrap является использование оценок качества Phred . Phrap использовал показатели качества, чтобы смягчить проблему, с которой другие программы сборки боролись в начале проекта «Геном человека» : правильная сборка частых несовершенных повторов, в частности последовательностей Alu . Phrap использует показатели качества, чтобы определить, связаны ли какие-либо наблюдаемые различия в повторяющихся регионах со случайной неоднозначностью в процессе секвенирования или, что более вероятно, с тем, что последовательности взяты из разных копий повтора Alu. Обычно у Phrap не было проблем с дифференциацией разных копий Alu в космиде и с правильной сборкой космид (или, позже, BAC ). Логика проста: вызов базы с высокой вероятностью быть правильным никогда не должен быть сопоставлен с другой базой высокого качества, но другой. Однако Phrap не исключает такие выравнивания полностью, а разрыв выравнивания cross_match и штрафы за выравнивание, используемые при поиске локальных выравниваний, не всегда оптимальны для типичных ошибок секвенирования и поиска перекрывающихся (непрерывных) последовательностей. (Аффинные пробелы полезны для поиска гомологии, но обычно не для выравнивания ошибок секвенирования). Phrap пытается классифицировать химеры, векторные последовательности и концевые области низкого качества с помощью единого сопоставления и иногда допускает ошибки. Кроме того, Phrap имеет более одного этапа сборки сборки внутри, а последующие этапы менее строгие — жадный алгоритм.

Эти варианты дизайна были полезны в 1990-х годах, когда программа была первоначально написана (в Вашингтонском университете в Сент-Луисе ), но сейчас они менее полезны. Phrap кажется склонным к ошибкам по сравнению с новыми ассемблерами, такими как Euler, и не может использовать информацию о сопряженных парах непосредственно для руководства сборкой и сборки прошлых совершенных повторов. Phrap не является свободным программным обеспечением, поэтому он не расширялся и не улучшался, как менее ограниченное программное обеспечение с открытым исходным кодом Sequence Assembly .

Консенсусные последовательности, основанные на качестве

[ редактировать ]

Еще одним использованием показателей качества Phred Phrap, которое способствовало успеху программы, было определение консенсусных последовательностей с использованием качеств последовательностей. По сути, Phrap автоматизировал шаг, который был основным узким местом на ранних этапах проекта «Геном человека» : определение правильной консенсусной последовательности во всех позициях, где собранные последовательности имели несовпадающие основания. Этот подход был предложен Бонфилдом и Стаденом в 1995 году. [1] и был реализован и дополнительно оптимизирован в Phrap. По сути, в любой консенсусной позиции с несовпадающими основаниями Phrap проверяет показатели качества выровненных последовательностей, чтобы найти последовательность самого высокого качества. При этом Phrap принимает во внимание подтверждение локальной последовательности другими прочтениями после рассмотрения направления и химии секвенирования.

Математика этого подхода была довольно простой, поскольку показатели качества Phred логарифмически связаны с вероятностью ошибки. Это означает, что показатели качества подтверждающих считываний можно просто суммировать, если распределения ошибок достаточно независимы. Чтобы удовлетворить этому критерию независимости, чтения обычно должны осуществляться в разных направлениях, поскольку шаблоны пиков, которые вызывают ошибки вызова оснований, часто идентичны, когда область секвенируется несколько раз в одном и том же направлении.

Если консенсусная база покрыта как последовательностью высокого качества, так и (несовместимой) последовательностью низкого качества, выбор Phrap последовательности более высокого качества в большинстве случаев будет правильным. Затем Phrap присваивает подтвержденное качество основания основанию консенсусной последовательности. Это позволяет легко (а) найти консенсусные области, которые не покрыты последовательностью высокого качества (которая также будет иметь низкое качество), и (б) быстро вычислить достаточно точную оценку частоты ошибок консенсусной последовательности. Эту информацию затем можно использовать для управления отделочными работами, например, для изменения последовательности проблемных участков.

Сочетание точных, специфичных для конкретной базы показателей качества и согласованной последовательности, основанной на качестве, стало решающим элементом успеха проекта «Геном человека» . Phred и Phrap, а также аналогичные программы, которые подхватили идеи, предложенные этими двумя программами, позволили собрать большие части человеческого генома (и многих других геномов) с точностью, которая была значительно выше (менее 1 ошибки на 10 000 оснований). ), чем типичная точность тщательно отредактированных вручную последовательностей, которые ранее были отправлены в базу данных GenBank . [2]

  1. ^ Бонфилд Дж. К., Стаден Р. (1995): Применение численных оценок точности определения оснований к проектам секвенирования ДНК. Нуклеиновые кислоты Рез. 25 апреля 1995 г.; 23(8):1406-10. ПМИД   7753633
  2. ^ Krawetz SA (1989): Ошибки последовательности, описанные в GenBank: средство определения точности интерпретации последовательности ДНК. Нуклеиновые кислоты Рез. 1989, 25 мая; 17 (10): 3951-7.
[ редактировать ]

Другое программное обеспечение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8692835bd483370ec5f993844780c8e9__1660400100
URL1:https://arc.ask3.ru/arc/aa/86/e9/8692835bd483370ec5f993844780c8e9.html
Заголовок, (Title) документа по адресу, URL1:
Phrap - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)