N50, L50 и соответствующая статистика

В вычислительной биологии N50 и L50 представляют собой статистику набора длин контигов или каркасов . N50 . аналогичен среднему значению или медиане длин, но имеет больший вес, придаваемый более длинным контигам Он широко используется при сборке генома , особенно в отношении длины контигов в черновой сборке. Существуют также соответствующие статистические данные U50 , UL50 , UG50 , UG50% , N90 , NG50 и D50 .

Чтобы обеспечить лучшую оценку результатов сборки наборов вирусных и микробных данных, новую метрику под названием U50 следует использовать . U50 идентифицирует уникальные контиги, специфичные для конкретной цели , используя эталонный геном в качестве базового уровня, стремясь обойти некоторые ограничения, присущие метрике N50 . Использование метрики U50 позволяет более точно измерить производительность сборки за счет анализа только уникальных, непересекающихся контигов. Большинство вирусных и микробных секвенаций имеют высокий фоновый шум (т. е. хозяин и другие немишени), что способствует получению искаженного, неверно представленного значения N50 — это корректируется с помощью U50 . ^[1]

Определение

Н50

Статистика N50 определяет качество сборки с точки зрения смежности . Учитывая набор контигов, N50 определяется как длина последовательности самого короткого контига, составляющая 50% от общей длины сборки. Ее можно рассматривать как точку половины массы распределения; количество оснований всех контигов длиннее N50 будет близко к числу оснований всех контигов короче N50 . Например, рассмотрим 9 контигов длиной 2,3,4,5,6,7,8,9 и 10; их сумма равна 54, половина суммы равна 27, а размер генома тоже равен 54. 50% этой сборки будет 10 + 9 + 8 = 27 (половина длины последовательности). Таким образом, N50=8 — это размер контига, который, наряду с более крупными контигами, содержит половину последовательности конкретного генома. Примечание. При сравнении значений N50 для разных сборок размеры сборок должны быть одинаковыми, чтобы N50 имел смысл.

N50 можно описать как взвешенную медианную статистику, при которой 50% всей сборки содержится в контигах или каркасах, равных или превышающих это значение.

Л50

Учитывая набор контигов, каждый из которых имеет свою длину, L50 определяется как количество наименьшего числа контигов, сумма длин которых составляет половину размера генома. В приведенном выше примере L50=3.

N90

Статистика N90 меньше или равна статистике N50 ; это длина, для которой совокупность всех контигов такой длины или больше содержит не менее 90% суммы длин всех контигов.

НГ50

Обратите внимание, что N50 рассчитывается в контексте размера сборки, а не размера генома. Поэтому сравнения значений N50, полученных из сборок существенно разной длины, обычно неинформативны, даже если для одного и того же генома. Чтобы решить эту проблему, авторы конкурса Assemblathon придумали новую меру под названием NG50 . Статистика NG50 такая же, как и N50, за исключением того, что она составляет 50% от известного или предполагаемого размера генома, который должен иметь длину NG50 или больше. Это позволяет проводить содержательные сравнения между различными сборками. В типичном случае, когда размер сборки не превышает размера генома, статистика NG50 не будет превышать статистику N50.

Д50

Статистика D50 (также называемая тестом D50 ) по определению аналогична статистике N50 , хотя обычно она не используется для описания сборок генома. Статистика D50 — это наименьшее значение d, для которого сумма длин наибольших d длин составляет не менее 50% суммы всех длин. ^[2]

U50

U50 — это длина наименьшего контига, при которой 50 % суммы всех уникальных целевых контигов содержится в контигах размером U50 или больше. ^[1]

UL50

UL50 — это количество контигов, сумма длин которых дает U50.

УГ50

UG50 — это длина наименьшего контига, при которой 50% эталонного генома содержится в уникальных, целевых контигах размером UG50 или больше.

УГ50%

UG50% представляет собой расчетную процентную длину покрытия UG50 в прямой зависимости от длины эталонного генома. Расчет: (100 × (UG50/длина эталонного генома). UG50% как процентный показатель можно использовать для сравнения результатов сборки из разных образцов или исследований.

Примеры

Рассмотрим две вымышленные, сильно упрощенные сборки генома, A и B, происходящие от двух разных видов. Сборка A содержит шесть контигов длиной 80 кбит/с , 70 кбит/с, 50 кбит/с, 40 кбит/с, 30 кбит/с и 20 кбит/с. Суммарный размер сборки A составляет 290 кбит/с, длина контига N50 – 70 кбит/с, поскольку 80 + 70 больше 50 % от 290, а количество контигов L50 — 2 контига. Длины контигов сборки B такие же, как и у сборки A, за исключением наличия двух дополнительных контигов длиной 10 кб и 5 кб. Размер сборки B составляет 305 кбит/с, длина контига N50 уменьшается до 50 кбит/с, поскольку 80 + 70 + 50 больше, чем 50% от 305, а количество контигов L50 составляет 3 контига. Этот пример показывает, что иногда можно увеличить длину N50, просто удалив из сборки несколько самых коротких контигов или каркасов.

Если предполагаемый или известный размер генома вымышленного вида А составляет 500 кб, то длина контига NG50 равна 30 кб, потому что 80 + 70 + 50 + 40 + 30 больше, чем 50% от 500. Напротив, если предполагаемый или известный размер генома вида B составляет 350 кб, тогда длина контига NG50 равна 50 кб, поскольку 80 + 70 + 50 больше, чем 50% от 350.

Альтернативное вычисление

N50 можно найти математически для списка L натуральных чисел следующим образом:

Создайте еще один список L' , который идентичен L , за исключением того, что каждый элемент n в L был заменен n копиями самого себя.
Медиана ’ это N50 L. L — (10%-ный квантиль L ' представляет собой статистику N90 .)

Например: Если L = (2, 2, 2, 3, 3, 4, 8, 8), то L' состоит из шести двоек, шести троек, четырех четверок и шестнадцати восьмерок. То есть в L' в два раза больше двоек, чем в L ; в нем в три раза больше троек, чем в L ; в нем в четыре раза больше четверок; и т. д. Медиана набора из 32 элементов L' представляет собой среднее значение 16-го наименьшего элемента, 4, и 17-го наименьшего элемента, 8, поэтому N50 равно 6. Мы можем видеть, что сумма всех значений в списке L , которая меньше или равны N50 из 6, равно 16 = 2+2+2+3+3+4, а сумма всех значений в списке L, которые больше или равны 6, также равна 16 = 8+8. Для сравнения с N50, равным 6, обратите внимание, что среднее значение списка L равно 4, а медиана — 3.Если резюмировать более наглядно, у нас есть:

Values of the list L = (2, 2, 2, 3, 3, 4, 8, 8)

Values of the new list L' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8)

Ranks of L' values = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

См. также

Индекс Херфиндаля-Хиршмана

Ссылки

^ Перейти обратно: ^а ^б Кастро, Кристина Дж.; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения производительности сборки на основе непересекающихся целевых контигов» . Журнал вычислительной биологии . 24 (11): 1071–1080. дои : 10.1089/cmb.2017.0013 . ПМЦ 5783553 . ПМИД 28418726 .
^ Хан, Дж.; Сандерс, КМ; Ван, К.; Ян, К.; Уимбиш, Дж.; Бун, БЭ; Томас, С.Дж.; Леви, SE (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокопроизводительного секвенирования . МипТек . Базель Швейцария. Архивировано из оригинала 5 октября 2015 года . Проверено 5 октября 2015 г.

Вики Арахны в Институте Броуда
Миллер-младший; Корен, С; Саттон, Дж. (2010). «Алгоритмы сборки данных секвенирования нового поколения» . Геномика . 95 (6): 315–327. дои : 10.1016/j.ygeno.2010.03.001 . ПМЦ 2874646 . ПМИД 20211242 .
Эрл, Д; Брэднэм, К; Сент-Джон, Дж; Дарлинг, А; Лин, Д; Фасс, Дж; Ю, ХОК; Буффало, В.; Зербино, ДР; Диканс, М; Нгуен, Н; Арияратне, Пенсильвания; Сунг, ВК; Нин, З; Хаймель, М; Симпсон, Джей Ти; Фонсека, Северная Каролина; Бироль, я; Стыковка, ТР; Хо, IY; Рохсар, Д.С.; Чихи, Р; Лавенье, Д; Шапюи, Ж; Накин, Д; Майе, Н.; Шац, MC; Келли, доктор медицинских наук; Филиппи, AM; Корен, С (2011). «Ассамблея 1: Конкурсная оценка методов сборки короткого чтения de novo» . Геномные исследования . 21 (12): 2224–2241. дои : 10.1101/гр.126599.111 . ПМК 3227110 . ПМИД 21926179 .
Сообщение в блоге L50-vs-N50 (7 октября 2015 г.)

Внешние ссылки

contig_info : инструмент для оценки стандартной описательной статистики по последовательностям контигов, например N(G)50 , N(G)75, N(G)90 , L(G)50 , L(G)75, L(G)90, ауН ...

[Castro2017-1] Перейти обратно: ^а ^б Кастро, Кристина Дж.; Нг, Терри Фей Фан (ноябрь 2017 г.). «U50: новая метрика для измерения производительности сборки на основе непересекающихся целевых контигов» . Журнал вычислительной биологии . 24 (11): 1071–1080. дои : 10.1089/cmb.2017.0013 . ПМЦ 5783553 . ПМИД 28418726 .

[2] Хан, Дж.; Сандерс, КМ; Ван, К.; Ян, К.; Уимбиш, Дж.; Бун, БЭ; Томас, С.Дж.; Леви, SE (25 сентября 2012 г.). Измерение разнообразия репертуара Т-клеток в периферической крови с помощью новых методов мультиплексной ПЦР и высокопроизводительного секвенирования . МипТек . Базель Швейцария. Архивировано из оригинала 5 октября 2015 года . Проверено 5 октября 2015 г.

[1]

[2]