Jump to content

N50, L50 и соответствующая статистика

(Перенаправлено из статистики N50 )

В вычислительной биологии N50 и L50 представляют собой статистику набора длин контигов или каркасов . N50 . аналогичен среднему значению или медиане длин, но имеет больший вес, придаваемый более длинным контигам Он широко используется при сборке генома , особенно в отношении длины контигов в черновой сборке. Существуют также соответствующие статистические данные U50 , UL50 , UG50 , UG50% , N90 , NG50 и D50 .

Чтобы обеспечить лучшую оценку результатов сборки наборов вирусных и микробных данных, новую метрику под названием U50 следует использовать . U50 идентифицирует уникальные контиги, специфичные для конкретной цели , используя эталонный геном в качестве базового уровня, стремясь обойти некоторые ограничения, присущие метрике N50 . Использование метрики U50 позволяет более точно измерить производительность сборки за счет анализа только уникальных, непересекающихся контигов. Большинство вирусных и микробных секвенаций имеют высокий фоновый шум (т. е. хозяин и другие немишени), что способствует получению искаженного, неверно представленного значения N50 — это корректируется с помощью U50 . [1]

Определение

[ редактировать ]

Статистика N50 определяет качество сборки с точки зрения смежности . Учитывая набор контигов, N50 определяется как длина последовательности самого короткого контига, составляющая 50% от общей длины сборки. Ее можно рассматривать как точку половины массы распределения; количество оснований всех контигов длиннее N50 будет близко к числу оснований всех контигов короче N50 . Например, рассмотрим 9 контигов длиной 2,3,4,5,6,7,8,9 и 10; их сумма равна 54, половина суммы равна 27, а размер генома тоже равен 54. 50% этой сборки будет 10 + 9 + 8 = 27 (половина длины последовательности). Таким образом, N50=8 — это размер контига, который, наряду с более крупными контигами, содержит половину последовательности конкретного генома. Примечание. При сравнении значений N50 для разных сборок размеры сборок должны быть одинаковыми, чтобы N50 имел смысл.

N50 можно описать как взвешенную медианную статистику, при которой 50% всей сборки содержится в контигах или каркасах, равных или превышающих это значение.

Учитывая набор контигов, каждый из которых имеет свою длину, L50 определяется как количество наименьшего числа контигов, сумма длин которых составляет половину размера генома. В приведенном выше примере L50=3.

Статистика N90 меньше или равна статистике N50 ; это длина, для которой совокупность всех контигов такой длины или больше содержит не менее 90% суммы длин всех контигов.

Обратите внимание, что N50 рассчитывается в контексте размера сборки, а не размера генома. Поэтому сравнения значений N50, полученных из сборок существенно разной длины, обычно неинформативны, даже если для одного и того же генома. Чтобы решить эту проблему, авторы конкурса Assemblathon придумали новую меру под названием NG50 . Статистика NG50 такая же, как и N50, за исключением того, что она составляет 50% от известного или предполагаемого размера генома, который должен иметь длину NG50 или больше. Это позволяет проводить содержательные сравнения между различными сборками. В типичном случае, когда размер сборки не превышает размера генома, статистика NG50 не будет превышать статистику N50.

Статистика D50 (также называемая тестом D50 ) по определению аналогична статистике N50 , хотя обычно она не используется для описания сборок генома. Статистика D50 — это наименьшее значение d, для которого сумма длин наибольших d длин составляет не менее 50% суммы всех длин. [2]

U50  — это длина наименьшего контига, при которой 50 % суммы всех уникальных целевых контигов содержится в контигах размером U50 или больше. [1]

UL50 — это количество контигов, сумма длин которых дает U50.

UG50 — это длина наименьшего контига, при которой 50% эталонного генома содержится в уникальных, целевых контигах размером UG50 или больше.

UG50% представляет собой расчетную процентную длину покрытия UG50 в прямой зависимости от длины эталонного генома. Расчет: (100 × (UG50/длина эталонного генома). UG50% как процентный показатель можно использовать для сравнения результатов сборки из разных образцов или исследований.

Рассмотрим две вымышленные, сильно упрощенные сборки генома, A и B, происходящие от двух разных видов. Сборка A содержит шесть контигов длиной 80 кбит/с , 70 кбит/с, 50 ​​кбит/с, 40 кбит/с, 30 кбит/с и 20 кбит/с. Суммарный размер сборки A составляет 290 кбит/с, длина контига N50 – 70 кбит/с, поскольку 80 + 70 больше 50 % от 290, а количество контигов L50 — 2 контига. Длины контигов сборки B такие же, как и у сборки A, за исключением наличия двух дополнительных контигов длиной 10 кб и 5 кб. Размер сборки B составляет 305 кбит/с, длина контига N50 уменьшается до 50 кбит/с, поскольку 80 + 70 + 50 больше, чем 50% от 305, а количество контигов L50 составляет 3 контига. Этот пример показывает, что иногда можно увеличить длину N50, просто удалив из сборки несколько самых коротких контигов или каркасов.

Если предполагаемый или известный размер генома вымышленного вида А составляет 500 кб, то длина контига NG50 равна 30 кб, потому что 80 + 70 + 50 + 40 + 30 больше, чем 50% от 500. Напротив, если предполагаемый или известный размер генома вида B составляет 350 кб, тогда длина контига NG50 равна 50 кб, поскольку 80 + 70 + 50 больше, чем 50% от 350.

Альтернативное вычисление

[ редактировать ]

N50 можно найти математически для списка L натуральных чисел следующим образом:

  1. Создайте еще один список L' , который идентичен L , за исключением того, что каждый элемент n в L был заменен n копиями самого себя.
  2. Медиана это N50 L. L — (10%-ный квантиль L ' представляет собой статистику N90 .)

Например: Если L = (2, 2, 2, 3, 3, 4, 8, 8), то L' состоит из шести двоек, шести троек, четырех четверок и шестнадцати восьмерок. То есть в L' в два раза больше двоек, чем в L ; в нем в три раза больше троек, чем в L ; в нем в четыре раза больше четверок; и т. д. Медиана набора из 32 элементов L' представляет собой среднее значение 16-го наименьшего элемента, 4, и 17-го наименьшего элемента, 8, поэтому N50 равно 6. Мы можем видеть, что сумма всех значений в списке L , которая меньше или равны N50 из 6, равно 16 = 2+2+2+3+3+4, а сумма всех значений в списке L, которые больше или равны 6, также равна 16 = 8+8. Для сравнения с N50, равным 6, обратите внимание, что среднее значение списка L равно 4, а медиана — 3.Если резюмировать более наглядно, у нас есть:

Values of the list       L =  (2,    2,    2,    3,       3,       4,          8,                      8)

Values of the new list   L' = (2  2  2  2  2  2  3  3  3  3  3  3  4  4  4  4  8  8  8  8  8  8  8  8  8  8  8  8  8  8  8  8)

Ranks of L' values =           1  2  3  4  5  6  7  8  9  10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Кастро, Кристина Дж.; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения производительности сборки на основе непересекающихся целевых контигов» . Журнал вычислительной биологии . 24 (11): 1071–1080. дои : 10.1089/cmb.2017.0013 . ПМЦ   5783553 . ПМИД   28418726 .
  2. ^ Хан, Дж.; Сандерс, КМ; Ван, К.; Ян, К.; Уимбиш, Дж.; Бун, БЭ; Томас, С.Дж.; Леви, SE (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокопроизводительного секвенирования . МипТек . Базель Швейцария. Архивировано из оригинала 5 октября 2015 года . Проверено 5 октября 2015 г.
[ редактировать ]
  • contig_info : инструмент для оценки стандартной описательной статистики по последовательностям контигов, например N(G)50 , N(G)75, N(G)90 , L(G)50 , L(G)75, L(G)90, ауН ...
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5a2a2e10afbf6f889b0046a0687c908a__1704989340
URL1:https://arc.ask3.ru/arc/aa/5a/8a/5a2a2e10afbf6f889b0046a0687c908a.html
Заголовок, (Title) документа по адресу, URL1:
N50, L50, and related statistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)