Двусторонний дисперсионный анализ
В статистике двусторонний дисперсионный анализ ( ANOVA ) является расширением однофакторного дисперсионного анализа , который исследует влияние двух разных категориальных независимых переменных на одну непрерывную зависимую переменную . Двусторонний дисперсионный анализ направлен не только на оценку основного эффекта каждой независимой переменной, но также на то, существует ли какое-либо взаимодействие между ними.
История
[ редактировать ]В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была выпущена обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши . [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]
Набор данных
[ редактировать ]Давайте представим себе набор данных , для которого на зависимую переменную могут влиять два фактора , которые являются потенциальными источниками вариаций. Первый фактор имеет уровни ( ), а второй имеет уровни ( ) . Каждая комбинация определяет лечение , в общей сложности методы лечения. Представляем количество повторов для лечения к , и пусть быть индексом реплики в этой обработке ( ) .
По этим данным мы можем построить таблицу сопряженности , где и , а общее количество повторов равно .
План эксперимента является сбалансированным, если каждая обработка имеет одинаковое количество повторов. . В таком случае план также называют ортогональным , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем написать , и .
Модель
[ редактировать ]Наблюдая вариации среди всех точки данных, например, с помощью гистограммы , « вероятность может быть использована для описания такого изменения». [4] Поэтому обозначим через случайная величина, наблюдаемое значение которой это -е мероприятие по лечению . Двусторонний дисперсионный анализ моделирует все эти переменные как изменяющиеся независимо и обычно вокруг среднего значения. , с постоянной дисперсией, ( гомоскедастичность ):
.
В частности, среднее значение переменной ответа моделируется как линейная комбинация объясняющих переменных:
,
где это среднее значение, является аддитивным основным эффектом уровня от первого фактора ( i -я строка таблицы сопряженности), является аддитивным основным эффектом уровня от второго фактора ( j -й столбец таблицы сопряженности) и - эффект неаддитивного взаимодействия лечения для образцов от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств).
Другой эквивалентный способ описания двустороннего дисперсионного анализа — это упоминание о том, что помимо вариаций, объясняемых факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной величины в каждую точку данных. , называется ошибкой . Эти случайные величины рассматриваются как отклонения от среднего значения и считаются независимыми и нормально распределенными:
.
Предположения
[ редактировать ]Согласно Гельману и Хиллу , предположения ANOVA и, в более общем смысле, общей линейной модели , расположены в порядке убывания важности: [5]
- данные имеют отношение к исследуемому научному вопросу;
- на среднее значение переменной ответа влияют факторы аддитивно (если не на фактор взаимодействия) и линейно;
- ошибки независимы;
- ошибки имеют одинаковую дисперсию;
- ошибки распределены нормально.
Оценка параметров
[ редактировать ]Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:
Проверка гипотез
[ редактировать ]В классическом подходе проверка нулевых гипотез (о том, что факторы не оказывают влияния) достигается через их значимость , что требует вычисления суммы квадратов .
Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]
Пример
[ редактировать ]Следующий гипотетический пример показывает урожайность 15 растений, подверженных двум различным изменениям окружающей среды и трем различным удобрениям.
Дополнительный CO 2 | Дополнительная влажность | |
---|---|---|
Без удобрений | 7, 2, 1 | 7, 6 |
Нитрат | 11, 6 | 10, 7, 3 |
Фосфат | 5, 3, 4 | 11, 4 |
Рассчитываются пять сумм квадратов:
Фактор | Расчет | Сумма | |
---|---|---|---|
Индивидуальный | 641 | 15 | |
Удобрения × Окружающая среда | 556.1667 | 6 | |
Удобрения | 525.4 | 3 | |
Среда | 519.2679 | 2 | |
Композитный | 504.6 | 1 |
суммы квадратов отклонений, необходимые для дисперсионного анализа Наконец, можно рассчитать .
Фактор | Сумма | Общий | Среда | Удобрения | Удобрения × Окружающая среда | Остаточный | |
---|---|---|---|---|---|---|---|
Индивидуальный | 641 | 15 | 1 | 1 | |||
Удобрения × Окружающая среда | 556.1667 | 6 | 1 | −1 | |||
Удобрения | 525.4 | 3 | 1 | −1 | |||
Среда | 519.2679 | 2 | 1 | −1 | |||
Композитный | 504.6 | 1 | −1 | −1 | −1 | 1 | |
Квадратные отклонения | 136.4 | 14.668 | 20.8 | 16.099 | 84.833 | ||
Степени свободы | 14 | 1 | 2 | 2 | 9 |
См. также
[ редактировать ]- Дисперсионный анализ
- F-тест ( включает пример однофакторного дисперсионного анализа )
- Смешанная модель
- Многомерный дисперсионный анализ (MANOVA)
- Односторонний дисперсионный анализ
- Повторные измерения ANOVA
- Тест аддитивности Тьюки
Примечания
[ редактировать ]- ^ Йейтс, Фрэнк (март 1934 г.). «Анализ нескольких классификаций с неодинаковым количеством в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. дои : 10.1080/01621459.1934.10502686 . JSTOR 2278459 .
- ^ Фудзикоси, Ясунори (1993). «Двусторонние модели ANOVA с несбалансированными данными» . Дискретная математика . 116 (1): 315–334. дои : 10.1016/0012-365X(93)90410-U .
- ^ Гельман, Эндрю (февраль 2005 г.). «Дисперсионный анализ? Почему он важен как никогда». Анналы статистики . 33 (1): 1–53. arXiv : math/0504499 . дои : 10.1214/009053604000001048 . S2CID 125025956 .
- ^ Касс, Роберт Э (1 февраля 2011 г.). «Статистический вывод: общая картина» . Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . дои : 10.1214/10-стс337 . ПМК 3153074 . ПМИД 21841892 .
- ^ Гельман, Эндрю; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых/иерархических моделей . Издательство Кембриджского университета . стр. 45–46. ISBN 978-0521867061 .
- ^ Йи-Ан Ко; и др. (сентябрь 2013 г.). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-окружающая среда с использованием несбалансированных данных повторных измерений» . Генетическая эпидемиология . 37 (6): 581–591. дои : 10.1002/gepi.21744 . ПМК 4009698 . ПМИД 23798480 .
Ссылки
[ редактировать ]- Джордж Казелла (18 апреля 2008 г.). Статистический дизайн . Тексты Спрингера в статистике. Спрингер . ISBN 978-0-387-75965-4 .