Оценка качества Фреда

Показатель качества Phred является мерой качества идентификации нуклеиновых оснований, полученных с помощью автоматического секвенирования ДНК . [1] [2] Первоначально он был разработан для компьютерной программы Phred , чтобы помочь в автоматизации секвенирования ДНК в проекте «Геном человека» . Оценки качества Phred присваиваются каждому вызову нуклеотидных оснований в трассировках автоматического секвенатора. [1] [2] Формат FASTQ кодирует оценки phred как символы ASCII вместе с последовательностями чтения. Показатель качества Phred получил широкое распространение для характеристики качества последовательностей ДНК и может использоваться для сравнения эффективности различных методов секвенирования. Возможно, наиболее важным применением показателей качества Phred является автоматическое определение точных консенсусных последовательностей на основе качества .
Определение
[ редактировать ]Оценка качества Phred логарифмически связаны с вероятностями ошибок при вызове оснований и определяется как [2]
.
Это соотношение также можно записать как
.
Например, если Фред присвоит базе показатель качества 30, вероятность того, что эта база будет названа неправильно, составит 1 из 1000.
Оценка качества Фреда | Вероятность неправильного базового вызова | Точность базового вызова |
---|---|---|
10 | 1 из 10 | 90% |
20 | 1 из 100 | 99% |
30 | 1 из 1000 | 99.9% |
40 | 1 из 10 000 | 99.99% |
50 | 1 из 100 000 | 99.999% |
60 | 1 из 1 000 000 | 99.9999% |
Показатель качества phred представляет собой отрицательное отношение вероятности ошибки к эталонному уровню выражается в децибелах (дБ) .
История
[ редактировать ]Идея оценки качества последовательности восходит к первоначальному описанию формата файла SCF, сделанному Роджера Стадена в 1992 году. группой [3] В 1995 году Бонфилд и Стаден предложили метод использования показателей качества, специфичных для оснований, для повышения точности консенсусных последовательностей в проектах секвенирования ДНК. [4]
Однако первые попытки разработать специфичные для базы показатели качества [5] [6] имел лишь ограниченный успех.
Первой программой, которая разработала точные и мощные показатели качества для конкретных баз, была программа Phred . Фред смог очень точно рассчитать показатели качества, которые были логарифмически связаны с вероятностью ошибки. Phred был быстро принят всеми крупными центрами секвенирования генома, а также многими другими лабораториями; подавляющее большинство последовательностей ДНК, полученных в ходе проекта «Геном человека», было обработано с помощью Phred.
После того, как показатели качества Phred стали обязательным стандартом в секвенировании ДНК, другие производители инструментов для секвенирования ДНК, включая Li-Cor и ABI , разработали аналогичные показатели качества для своего программного обеспечения для вызова оснований. [7]
Методы
[ редактировать ]Подход Фреда к определению оснований и расчету показателей качества был изложен Юингом и др. . Чтобы определить показатели качества, Фред сначала рассчитывает несколько параметров, связанных с формой пика и разрешением пика на каждом основании. Затем Фред использует эти параметры для поиска соответствующего показателя качества в огромных таблицах поиска. Эти таблицы поиска были созданы на основе трассировок последовательностей, в которых была известна правильная последовательность, и жестко запрограммированы в Phred; разные справочные таблицы используются для разных химикатов и машин секвенирования. Оценка точности показателей качества Phred для ряда вариантов химического состава секвенирования и оборудования показала, что показатели качества Phred очень точны. [8]
Первоначально Phred был разработан для секвенаторов с «пластинчатым гелем», таких как ABI373. При первоначальной разработке Phred имел более низкий уровень ошибок при вызове баз, чем программное обеспечение производителя, которое также не давало оценок качества. Однако Фред был лишь частично адаптирован к ставшим популярными позднее секвенаторам капиллярной ДНК. Напротив, производители инструментов, такие как ABI, продолжали адаптировать изменения в своем программном обеспечении для вызова баз в химическом секвенировании и включили возможность создавать показатели качества, подобные Phred. Таким образом, потребность в использовании Phred для определения оснований следов секвенирования ДНК уменьшилась, а использование текущих версий программного обеспечения производителя часто может дать более точные результаты.
Приложения
[ редактировать ]Оценки качества Phred используются для оценки качества последовательностей, распознавания и удаления последовательностей низкого качества (отсечение концов), а также определения точных консенсусных последовательностей.
Первоначально показатели качества Phred в основном использовались программой сборки последовательностей Phrap . Phrap регулярно использовался в некоторых крупнейших проектах секвенирования генома человека и в настоящее время является одной из наиболее широко используемых программ сборки последовательностей ДНК в биотехнологической промышленности. Phrap использует показатели качества Phred для определения высокоточных консенсусных последовательностей и оценки качества консенсусных последовательностей. Phrap также использует показатели качества Phred, чтобы оценить, являются ли расхождения между двумя перекрывающимися последовательностями более вероятными из-за случайных ошибок или из-за разных копий повторяющейся последовательности.
В рамках проекта «Геном человека» наиболее важным применением показателей качества Phred было автоматическое определение консенсусных последовательностей. До появления Phred и Phrap ученым приходилось тщательно изучать несоответствия между перекрывающимися фрагментами ДНК; часто это включало ручное определение последовательности высочайшего качества и ручное редактирование любых ошибок. Использование Phrap показателей качества Phred эффективно автоматизировало поиск консенсусной последовательности высочайшего качества; в большинстве случаев это полностью устраняет необходимость ручного редактирования. В результате расчетная частота ошибок в сборках, созданных автоматически с помощью Phred и Phrap, обычно существенно ниже, чем частота ошибок в последовательности, отредактированной вручную.
В 2009 году многие широко используемые пакеты программного обеспечения использовали показатели качества Phred, хотя и в разной степени. Такие программы, как Sequencher, используют показатели качества для отображения, обрезки концов и определения консенсуса; другие программы, такие как CodonCode Aligner, также реализуют методы консенсуса, основанные на качестве.
Сжатие
[ редактировать ]Оценки качества обычно хранятся вместе с нуклеотидной последовательностью в широко распространенном формате FASTQ . На их долю приходится около половины необходимого дискового пространства в формате FASTQ (до сжатия), поэтому сжатие значений качества позволяет существенно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. как сжатие без потерь , так и сжатие с потерями В последнее время в литературе рассматриваются . Например, алгоритм QualComp [9] выполняет сжатие с потерями со скоростью (количество бит на значение качества), указанной пользователем. На основе результатов теории искажений скорости он распределяет количество битов таким образом, чтобы минимизировать MSE (среднеквадратическую ошибку) между исходным (несжатым) и восстановленным (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают SCALCE, [10] Фасткз [11] и совсем недавно QVZ, [12] АКВА [13] и стандарт MPEG-G, который в настоящее время разрабатывается рабочей группой по стандартизации MPEG . Оба являются алгоритмами сжатия без потерь, которые обеспечивают дополнительный подход к управляемому преобразованию с потерями. Например, SCALCE уменьшает размер алфавита, основываясь на наблюдении, что «соседние» значения качества в целом схожи.
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Юинг Б; Хиллер Л ; Вендл MC ; Грин П. (1998). «Вызов оснований трассировок автоматического секвенатора с использованием phred. I. Оценка точности» . Геномные исследования . 8 (3): 175–185. дои : 10.1101/гр.8.3.175 . ПМИД 9521921 .
- ^ Перейти обратно: а б с Юинг Б., Грин П. (1998). «Базовый вызов трассировок автоматического секвенатора с использованием phred. II. Вероятности ошибок» . Геномные исследования . 8 (3): 186–194. дои : 10.1101/гр.8.3.186 . ПМИД 9521922 .
- ^ Дорогой С., Стаден Р. (1992). «Стандартный формат файла для данных инструментов секвенирования ДНК». Последовательность ДНК . 3 (2): 107–110. дои : 10.3109/10425179209034003 . ПМИД 1457811 .
- ^ Бонфилд Дж. К., Стаден Р. (25 апреля 1995 г.). «Применение численных оценок точности определения оснований в проектах секвенирования ДНК» . Исследования нуклеиновых кислот . 23 (8): 1406–1410. дои : 10.1093/нар/23.8.1406 . ПМК 306869 . ПМИД 7753633 .
- ^ Черчилль Г.А., Уотерман М.С. (сентябрь 1992 г.). «Точность последовательностей ДНК: оценка качества последовательностей». Геномика . 14 (1): 89–98. дои : 10.1016/S0888-7543(05)80288-5 . hdl : 1813/31678 . ПМИД 1358801 .
- ^ Лоуренс С.Б., Соловьев В.В. (1994). «Присвоение вероятности ошибки для конкретной позиции данным первичной последовательности ДНК» . Исследования нуклеиновых кислот . 22 (7): 1272–1280. дои : 10.1093/нар/22.7.1272 . ПМК 523653 . ПМИД 8165143 .
- ^ «Life Technologies – США» (PDF) .
- ^ Рихтерих П. (1998). «Оценка ошибок в «необработанных» последовательностях ДНК: валидационное исследование» . Геномные исследования . 8 (3): 251–259. дои : 10.1101/гр.8.3.251 . ПМК 310698 . ПМИД 9521928 .
- ^ Очоа, Идоя; Аснани, Химаншу; Бхарадия, Динеш; Чоудхури, Майнак; Вайсман, Цахи; Йона, Голаны (2013). «Qual Comp : новый компрессор с потерями для показателей качества, основанный на теории искажений скорости» . БМК Биоинформатика . 14 :187. дои : 10.1186/1471-2105-14-187 . ПМК 3698011 . ПМИД 23758828 .
- ^ Хач, Ф; Нуманаджик, я; Алкан, К; Сахинальп, Южная Каролина (2012). «SCALCE: усиление алгоритмов сжатия последовательностей с использованием локально согласованного кодирования» . Биоинформатика . 28 (23): 3051–3057. doi : 10.1093/биоинформатика/bts593 . ПМЦ 3509486 . ПМИД 23047557 .
- ^ «fastqz — компрессор FASTQ» .
- ^ Малиса, Грег; Эрнаес, Микель; Очоа, Идоя; Рао, Милинд; Ганесан, Картик; Вайсман, Цахи (01 октября 2015 г.). «QVZ: сжатие значений качества с потерями» . Биоинформатика . 31 (19): 3122–3129. doi : 10.1093/биоинформатика/btv330 . ISSN 1367-4803 . ПМК 5856090 . ПМИД 26026138 .
- ^ Паридаенс, Том; Ван Валлендаль, Гленн; Де Неве, Уэсли; Ламберт, Питер (2018). «AQUa: адаптивная платформа для сжатия показателей качества секвенирования с функцией произвольного доступа» . Биоинформатика . 34 (3): 425–433. doi : 10.1093/биоинформатика/btx607 . ПМИД 29028894 .
Внешние ссылки
[ редактировать ]- Длинное чтение с помощью KB Basecaller Сравнение точности Phred с конкурирующей программой KB Basecaller от ABI
- Домашняя страница лаборатории Фила Грина Фрапа.