Jump to content

Квантильная нормализация

В статистике квантильная нормализация — это метод, позволяющий сделать два распределения идентичными по статистическим свойствам. Чтобы квантильно нормализовать тестовое распределение до эталонного распределения той же длины, отсортируйте тестовое распределение и отсортируйте эталонное распределение. Затем самая высокая запись в тестовом распределении принимает значение самой высокой записи в эталонном распределении, следующей по величине записи в эталонном распределении и так далее, пока тестовое распределение не станет возмущением эталонного распределения.

Чтобы квантильно нормализовать два или более распределений друг к другу без опорного распределения, выполните сортировку, как и раньше, а затем установите среднее (обычно среднее арифметическое ) распределений. Таким образом, наивысшее значение во всех случаях становится средним из самых высоких значений, второе по величине значение становится средним из вторых по величине значений и так далее.

Обычно эталонным распределением является одно из стандартных статистических распределений, например, распределение Гаусса или распределение Пуассона . Эталонное распределение может быть сгенерировано случайным образом или путем взятия регулярных выборок из кумулятивной функции распределения распределения. Однако можно использовать любое эталонное распределение.

Квантильная нормализация часто используется при анализе данных микрочипов . Он был введен как квантильная стандартизация. [1] а затем переименован в квантильную нормализацию . [2]

Быстрая иллюстрация такой нормализации на очень маленьком наборе данных:

Массивы 1–3, гены от A до D

A    5    4    3
B    2    1    4
C    3    4    6
D    4    2    8

Для каждого столбца определите ранг от низшего к высшему и присвойте номер i-iv.

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

Эти ранговые значения откладываются для использования позже. Вернитесь к первому набору данных. Переставьте этот первый набор значений столбцов так, чтобы каждый столбец располагался в порядке от наименьшего к наибольшему значению. (Первый столбец состоит из 5,2,3,4. Он переставляется на 2,3,4,5. Второй столбец 4,1,4,2 переставляется на 1,2,4,4, а столбец 3 состоит из 3,4,6,8 остаются прежними, поскольку они уже расположены в порядке от наименьшего к наибольшему значению.) Результат:

A    5    4    3    becomes A 2 1 3
B    2    1    4    becomes B 3 2 4
C    3    4    6    becomes C 4 4 6
D    4    2    8    becomes D 5 4 8

Теперь найдите среднее значение для каждой строки, чтобы определить ранги.

A (2 + 1 + 3)/3 = 2.00 = rank i
B (3 + 2 + 4)/3 = 3.00 = rank ii
C (4 + 4 + 6)/3 = 4.67 = rank iii
D (5 + 4 + 8)/3 = 5.67 = rank iv

Теперь возьмите порядок ранжирования и замените его новыми значениями.

A    iv    iii   i
B    i     i     ii
C    ii    iii   iii
D    iii   ii    iv

становится:

A    5.67    4.67    2.00
B    2.00    2.00    3.00
C    3.00    4.67    4.67
D    4.67    3.00    5.67

Это новые нормализованные значения.

Однако обратите внимание, что когда, как во втором столбце, значения привязаны по рангу, вместо этого им следует присвоить среднее значение значений, соответствующих рангам, которые они обычно представляли бы, если бы они были разными. В случае столбца 2 они представляют ранги iii и iv. Таким образом, мы присваиваем двум связанным записям ранга iii среднее значение 4,67 для ранга iii и 5,67 для ранга iv, что составляет 5,17. Итак, мы приходим к следующему набору нормализованных значений:

A    5.67    5.17    2.00
B    2.00    2.00    3.00
C    3.00    5.17    4.67
D    4.67    3.00    5.67

Новые значения имеют такое же распределение, и теперь их можно легко сравнивать. Вот сводная статистика по каждому из трех столбцов:

Min.   :2.000   Min.   :2.000   Min.   :2.000  
1st Qu.:2.750   1st Qu.:2.750   1st Qu.:2.750  
Median :3.833   Median :4.083   Median :3.833  
Mean   :3.833   Mean   :3.833   Mean   :3.833  
3rd Qu.:4.917   3rd Qu.:5.167   3rd Qu.:4.917  
Max.   :5.667   Max.   :5.167   Max.   :5.667
  1. ^ Амаратунга, Д.; Кабрера, Дж. (2001). «Анализ данных с микрочипов вирусной ДНК». Журнал Американской статистической ассоциации . 96 (456): 1161. дои : 10.1198/016214501753381814 . S2CID   18154109 .
  2. ^ Болстад, БМ; Иризарри, РА; Астранд, М.; Скорость, ТП (2003). «Сравнение методов нормализации данных массива олигонуклеотидов высокой плотности на основе дисперсии и систематической ошибки» . Биоинформатика . 19 (2): 185–193. дои : 10.1093/биоинформатика/19.2.185 . ПМИД   12538238 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e14f32a521f52eda10f10d85178fe8d2__1714574880
URL1:https://arc.ask3.ru/arc/aa/e1/d2/e14f32a521f52eda10f10d85178fe8d2.html
Заголовок, (Title) документа по адресу, URL1:
Quantile normalization - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)