Квантильная нормализация
В статистике квантильная нормализация — это метод, позволяющий сделать два распределения идентичными по статистическим свойствам. Чтобы квантильно нормализовать тестовое распределение до эталонного распределения той же длины, отсортируйте тестовое распределение и отсортируйте эталонное распределение. Затем самая высокая запись в тестовом распределении принимает значение самой высокой записи в эталонном распределении, следующей по величине записи в эталонном распределении и так далее, пока тестовое распределение не станет возмущением эталонного распределения.
Чтобы квантильно нормализовать два или более распределений друг к другу без опорного распределения, выполните сортировку, как и раньше, а затем установите среднее (обычно среднее арифметическое ) распределений. Таким образом, наивысшее значение во всех случаях становится средним из самых высоких значений, второе по величине значение становится средним из вторых по величине значений и так далее.
Обычно эталонным распределением является одно из стандартных статистических распределений, например, распределение Гаусса или распределение Пуассона . Эталонное распределение может быть сгенерировано случайным образом или путем взятия регулярных выборок из кумулятивной функции распределения распределения. Однако можно использовать любое эталонное распределение.
Квантильная нормализация часто используется при анализе данных микрочипов . Он был введен как квантильная стандартизация. [1] а затем переименован в квантильную нормализацию . [2]
Пример
[ редактировать ]Быстрая иллюстрация такой нормализации на очень маленьком наборе данных:
Массивы 1–3, гены от A до D
A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8
Для каждого столбца определите ранг от низшего к высшему и присвойте номер i-iv.
A iv iii i B i i ii C ii iii iii D iii ii iv
Эти ранговые значения откладываются для использования позже. Вернитесь к первому набору данных. Переставьте этот первый набор значений столбцов так, чтобы каждый столбец располагался в порядке от наименьшего к наибольшему значению. (Первый столбец состоит из 5,2,3,4. Он переставляется на 2,3,4,5. Второй столбец 4,1,4,2 переставляется на 1,2,4,4, а столбец 3 состоит из 3,4,6,8 остаются прежними, поскольку они уже расположены в порядке от наименьшего к наибольшему значению.) Результат:
A 5 4 3 becomes A 2 1 3 B 2 1 4 becomes B 3 2 4 C 3 4 6 becomes C 4 4 6 D 4 2 8 becomes D 5 4 8
Теперь найдите среднее значение для каждой строки, чтобы определить ранги.
A (2 + 1 + 3)/3 = 2.00 = rank i B (3 + 2 + 4)/3 = 3.00 = rank ii C (4 + 4 + 6)/3 = 4.67 = rank iii D (5 + 4 + 8)/3 = 5.67 = rank iv
Теперь возьмите порядок ранжирования и замените его новыми значениями.
A iv iii i B i i ii C ii iii iii D iii ii iv
становится:
A 5.67 4.67 2.00 B 2.00 2.00 3.00 C 3.00 4.67 4.67 D 4.67 3.00 5.67
Это новые нормализованные значения.
Однако обратите внимание, что когда, как во втором столбце, значения привязаны по рангу, вместо этого им следует присвоить среднее значение значений, соответствующих рангам, которые они обычно представляли бы, если бы они были разными. В случае столбца 2 они представляют ранги iii и iv. Таким образом, мы присваиваем двум связанным записям ранга iii среднее значение 4,67 для ранга iii и 5,67 для ранга iv, что составляет 5,17. Итак, мы приходим к следующему набору нормализованных значений:
A 5.67 5.17 2.00 B 2.00 2.00 3.00 C 3.00 5.17 4.67 D 4.67 3.00 5.67
Новые значения имеют такое же распределение, и теперь их можно легко сравнивать. Вот сводная статистика по каждому из трех столбцов:
Min. :2.000 Min. :2.000 Min. :2.000 1st Qu.:2.750 1st Qu.:2.750 1st Qu.:2.750 Median :3.833 Median :4.083 Median :3.833 Mean :3.833 Mean :3.833 Mean :3.833 3rd Qu.:4.917 3rd Qu.:5.167 3rd Qu.:4.917 Max. :5.667 Max. :5.167 Max. :5.667
Ссылки
[ редактировать ]- ^ Амаратунга, Д.; Кабрера, Дж. (2001). «Анализ данных с микрочипов вирусной ДНК». Журнал Американской статистической ассоциации . 96 (456): 1161. дои : 10.1198/016214501753381814 . S2CID 18154109 .
- ^ Болстад, БМ; Иризарри, РА; Астранд, М.; Скорость, ТП (2003). «Сравнение методов нормализации данных массива олигонуклеотидов высокой плотности на основе дисперсии и систематической ошибки» . Биоинформатика . 19 (2): 185–193. дои : 10.1093/биоинформатика/19.2.185 . ПМИД 12538238 .
Внешние ссылки
[ редактировать ]- Нормализация чипов Affymetrix, заархивировано 23 апреля 2016 г. на Wayback Machine.