ANOVA – одновременный компонентный анализ

В биологии и биоинформатике вычислительной дисперсионный анализ — одновременный компонентный анализ ( ASCA или ANOVA-SCA ) — это метод, который разделяет вариации и позволяет интерпретировать эти разделы с помощью SCA, метода, который аналогичен анализу главных компонентов (PCA) . Дисперсионный анализ ( ANOVA ) — это набор статистических моделей и связанных с ними процедур оценки, используемых для анализа различий. Статистический анализ сопряжения (SCA) — это метод, используемый в биоинформатике для измерения ковариации между парами аминокислот при множественном выравнивании последовательностей белков (MSA).

Этот метод представляет собой многомерное или даже мегамерное расширение дисперсионного анализа (ANOVA) . Разделение вариаций аналогично ANOVA. Каждый раздел соответствует всем вариациям, вызванным эффектом или фактором , обычно режимом лечения или условиями эксперимента. Рассчитанные разделы эффекта называются оценками эффекта. Поскольку даже оценки эффекта являются многомерными, интерпретация этих оценок эффектов не является интуитивной. Применяя SCA к оценкам эффекта, можно получить простой интерпретируемый результат. ^[1]^[2]^[3] В случае более чем одного эффекта этот метод оценивает эффекты таким образом, что различные эффекты не коррелируют.

Подробности

Во многих областях исследований наблюдается все большее количество переменных только в небольшом количестве выборок . Низкое соотношение выборки к переменной создает проблемы, известные как мультиколлинеарность и сингулярность . По этой причине большинство традиционных многомерных статистических методов не могут быть применены.

Алгоритм ASCA

В этом разделе подробно описано, как рассчитать модель ASCA в случае двух основных эффектов с одним эффектом взаимодействия. Заявленное обоснование легко распространить на большее количество основных эффектов и эффектов взаимодействия. Если первый эффект — это время, а второй эффект — дозировка, существует только взаимодействие между временем и дозировкой. Мы предполагаем, что существует четыре временных точки и три уровня дозировки.

Пусть X — матрица , содержащая данные. X центрирован по среднему значению, поэтому имеет нулевые средние столбцы . Пусть А и В обозначают основные эффекты, а АВ — взаимодействие этих эффектов. Двумя основными эффектами в биологическом эксперименте могут быть время (A) и pH (B), и эти два эффекта могут взаимодействовать. При планировании таких экспериментов основные эффекты контролируются на нескольких (по крайней мере двух) уровнях. Различные уровни эффекта можно обозначить как А1, А2, А3 и А4, что соответствует 2, 3, 4, 5 часам от начала эксперимента. То же самое справедливо и для эффекта B: например, уровнями эффекта можно считать pH 6, pH 7 и pH 8.

A и B должны быть сбалансированы, если оценки эффекта должны быть ортогональными, а разделение уникальным. Матрица E содержит информацию, не связанную с каким-либо эффектом. Разбиение дает следующие обозначения:

X=A+B+AB+E\,

Расчет оценки основного эффекта A (или B)

Найдите все строки, соответствующие эффекту А уровня 1, и усредните эти строки. Результатом является вектор . Повторите это для других уровней эффекта. Создайте новую матрицу того же размера X и поместите вычисленные средние значения в соответствующие строки. То есть, дайте всем строкам, которые соответствуют эффекту (т. е.) уровень 1, среднее значение эффекта уровня 1. После завершения оценки уровня эффекта выполните SCA. Оценки этого SCA представляют собой выборочные отклонения для эффекта, важные переменные этого эффекта находятся в весах вектора нагрузки SCA.

Расчет оценки эффекта взаимодействия AB

Оценка эффекта взаимодействия аналогична оценке основных эффектов. Разница заключается в том, что для оценок взаимодействия строки, соответствующие уровню эффекта A 1, объединяются с эффектом B уровня 1, и циклически перебираются все комбинации эффектов и уровней. В нашем примере с четырьмя временными точками и тремя уровнями дозировки имеется 12 наборов взаимодействий {A1-B1, A1B2, A2B1, A2B2 и так далее}. Перед оценкой эффекта взаимодействия важно дефлировать (удалить) основные эффекты.

SCA на разделах A, B и AB

Анализ одновременных компонентов математически идентичен PCA, но семантически отличается тем, что моделирует разные объекты или субъекты одновременно. Стандартное обозначение моделей SCA и PCA:

X=TP^{'}+E\,

где X — данные, T — оценки компонентов, а P — нагрузки компонентов. E — матрица остатков или ошибок . Поскольку ASCA моделирует разбиения вариантов с помощью SCA, модель оценки эффекта выглядит следующим образом:

A=T_{a}P_{a}^{'}+E_{a}\,

B=T_{b}P_{b}^{'}+E_{b}\,

AB=T_{ab}P_{ab}^{'}+E_{ab}\,

E=T_{e}P_{e}^{'}+E_{e}\,

Обратите внимание, что каждый раздел имеет свою собственную матрицу ошибок. Однако алгебра требует, чтобы в сбалансированном среднецентрированном наборе данных каждая двухуровневая система имела ранг 1. Это приводит к нулевым ошибкам, поскольку любая матрица ранга 1 может быть записана как произведение оценки одного компонента и вектора нагрузки.

Полная модель ASCA с двумя эффектами и взаимодействием, включая SCA, выглядит следующим образом:

Разложение:

X=A+B+AB+E\,

X=T_{a}P_{a}^{'}+T_{b}P_{b}^{'}+T_{ab}P_{ab}^{'}+T_{e}P_{e}^{'}+E_{a}+E_{b}+E_{ab}+E_{e}+E\,

Время как эффект

Поскольку «время» рассматривается как качественный фактор в разложении ANOVA, предшествующем ASCA, можно смоделировать нелинейную многомерную временную траекторию. Пример этого показан на рисунке 10 данного справочника. ^[4]

Ссылки

^ Смилде, Эйдж К.; Янсен, Йерун Дж.; Хуфслот, Хууб CJ; Ламерс, Роберт-Ян АН; ван дер Гриф, Ян; Тиммерман, Марике Э. (2005) «ANOVA-одновременный компонентный анализ (ASCA): новый инструмент для анализа данных метаболомики», Bioinformatics , 21 (13), 3043-3048. doi : 10.1093/биоинформатика/bti476
^ Янсен, Джей-Джей; Хофслот, HCJ; ван дер Гриф, Дж.; Карпентер, Мэн; Вестерхейс, Дж. А.; Смилде, АК (2005) «ASCA: анализ многомерных данных, полученных в результате экспериментального плана». Журнал хемометрики , 19: 469–481. два : 10.1002/сем.952
^ Дэниел Дж. Вис, Йохан А. Вестерхейс, Возраст К. Смилде: Ян ван дер Гриф (2007) «Статистическая проверка мегавариантных эффектов в ASCA», BMC Bioinformatics, 8:322 дои : 10.1186/1471-2105-8-322
^ Смилде, А.К., Хофслот, ХК и Вестерхейс, Дж.А. (2008), «Геометрия ASCA». Журнал хемометрики , 22, 464–471. два : 10.1002/cem.1175

[1] Смилде, Эйдж К.; Янсен, Йерун Дж.; Хуфслот, Хууб CJ; Ламерс, Роберт-Ян АН; ван дер Гриф, Ян; Тиммерман, Марике Э. (2005) «ANOVA-одновременный компонентный анализ (ASCA): новый инструмент для анализа данных метаболомики», Bioinformatics , 21 (13), 3043-3048. doi : 10.1093/биоинформатика/bti476

[2] Янсен, Джей-Джей; Хофслот, HCJ; ван дер Гриф, Дж.; Карпентер, Мэн; Вестерхейс, Дж. А.; Смилде, АК (2005) «ASCA: анализ многомерных данных, полученных в результате экспериментального плана». Журнал хемометрики , 19: 469–481. два : 10.1002/сем.952

[3] Дэниел Дж. Вис, Йохан А. Вестерхейс, Возраст К. Смилде: Ян ван дер Гриф (2007) «Статистическая проверка мегавариантных эффектов в ASCA», BMC Bioinformatics, 8:322 дои : 10.1186/1471-2105-8-322

[4] Смилде, А.К., Хофслот, ХК и Вестерхейс, Дж.А. (2008), «Геометрия ASCA». Журнал хемометрики , 22, 464–471. два : 10.1002/cem.1175

[1]

[2]

[3]

[4]