Сюжет вулкана (статистика)
В статистике график вулкана — это тип диаграммы рассеяния , который используется для быстрого выявления изменений в больших наборах данных, состоящих из повторяющихся данных. [1] [2] Он отображает значимость в зависимости от кратности изменения по осям y и x соответственно. Эти графики все чаще встречаются в омических экспериментах, таких как геномика , протеомика и метаболомика , где часто имеется список из многих тысяч повторяющихся точек данных между двумя условиями и хочется быстро определить наиболее значимые изменения. График вулкана сочетает в себе показатель статистической значимости, полученный в результате статистического теста (например, значение p из модели ANOVA ) с величиной изменения, что позволяет быстро визуально идентифицировать те точки данных (гены и т. д.), которые отображают большую величину. изменения, которые также являются статистически значимыми .
График вулкана строится путем нанесения отрицательного логарифма значения p на ось y (обычно по основанию 10). Это приводит к тому, что точки данных с низкими значениями p (очень значимыми) появляются в верхней части графика. Ось X представляет собой логарифм кратности изменения между двумя условиями. Логарифм изменения кратности используется так, чтобы изменения в обоих направлениях казались равноудаленными от центра. Построение точек таким способом приводит к появлению двух областей интереса на графике: точек, находящихся в верхней части графика и находящихся далеко либо в левой, либо в правой части графика. Они представляют собой значения, которые отображают большие кратные изменения (следовательно, находятся слева или справа от центра), а также высокую статистическую значимость (следовательно, находятся вверху).
Дополнительную информацию можно добавить, раскрасив точки в соответствии с третьим измерением данных (например, интенсивностью сигнала), но это не используется повсеместно. Графики вулкана также используются для графического отображения критерия выбора гена анализа значимости микрочипов (SAM), примера регуляризации . [3]
Понятие графика вулкана можно обобщить на другие приложения, где ось x связана с мерой вулканической активности.сила статистического сигнала, а ось y связана с мерой статистической значимости сигнала.Например, в генетических ассоциаций исследовании «случай-контроль» , таком как полногеномное исследование ассоциаций ,точка на графике вулкана представляет собой однонуклеотидный полиморфизм .Его значение x может быть логарифмом отношения шансов , а его значение y может быть -log 10 значения p из теста хи-квадрат. Хи-квадрат или статистика теста . [4]
Графики вулканов демонстрируют характерную форму двух рукавов вверх, потому что ось x, т.е. лежащие в основе log 2 -кратные изменения, обычно представляют собой нормальное распределение, тогда как ось y, значения log 10 -p, имеют тенденцию к большей значимости для кратных изменений, которые отклоняются сильнее. сильно с нуля.Плотность нормального распределения принимает вид
- .
Итак, из этого
и негатив является
это парабола, ветви которой тянутся вверхс левой и правой стороны.Верхняя граница данных — одна параболаа нижняя граница — еще одна парабола.
Ссылки
[ редактировать ]- ^ Джин, В; Райли, РМ; Вулфингер, РД; Уайт, КП; Пассадор-Гургель, Г; Гибсон, Дж. (2001). «Вклад пола, генотипа и возраста в изменчивость транскрипции у Drosophila melanogaster». Природная генетика . 29 (4): 389–395. дои : 10.1038/ng766 . ПМИД 11726925 . S2CID 16841881 .
- ^ Кюи, X.; Черчилль, Джорджия (2003). «Статистические тесты дифференциальной экспрессии в экспериментах с микрочипами кДНК» . Геномная биология . 4 (4): 210. doi : 10.1186/gb-2003-4-4-210 . ПМК 154570 . ПМИД 12702200 .
- ^ Ли, В. (2012). «Графики вулкана при анализе дифференциальной экспрессии с помощью микрочипов мРНК». Журнал биоинформатики и вычислительной биологии . 10 (6): 1231003. arXiv : 1103.3434 . дои : 10.1142/S0219720012310038 . ПМИД 23075208 . S2CID 204899379 .
- ^ Ли, В .; Фройденберг, Дж.; Эх, YJ; Ян, Ю. (2014). «Использование графиков вулканов и регуляризованной статистики чи в исследованиях генетических ассоциаций». Вычислительная биология и химия . 48 : 77–83. arXiv : 1308.6245 . doi : 10.1016/j.compbiolchem.2013.02.003 . ПМИД 23602812 . S2CID 12399345 .