Jump to content

Двусторонний дисперсионный анализ

В статистике двусторонний дисперсионный анализ ( ANOVA ) является расширением однофакторного дисперсионного анализа , который исследует влияние двух разных категориальных независимых переменных на одну непрерывную зависимую переменную . Двусторонний дисперсионный анализ направлен не только на оценку основного эффекта каждой независимой переменной, но также на то, существует ли какое-либо взаимодействие между ними.

В 1925 году Рональд Фишер упоминает двусторонний дисперсионный анализ в своей знаменитой книге «Статистические методы для научных работников» (главы 7 и 8). В 1934 году Фрэнк Йейтс опубликовал процедуры для несбалансированного случая. [1] С тех пор была выпущена обширная литература. Тема была рассмотрена в 1993 году Ясунори Фудзикоши . [2] В 2005 году Эндрю Гельман предложил другой подход ANOVA, рассматриваемый как многоуровневая модель . [3]

Набор данных

[ редактировать ]

Давайте представим себе набор данных , для которого на зависимую переменную могут влиять два фактора , которые являются потенциальными источниками вариаций. Первый фактор имеет уровни ( ), а второй имеет уровни ( ) . Каждая комбинация определяет лечение , в общей сложности методы лечения. Представляем количество повторов для лечения к , и пусть быть индексом реплики в этой обработке ( ) .

По этим данным мы можем построить таблицу сопряженности , где и , а общее количество повторов равно .

План эксперимента является сбалансированным, если каждая обработка имеет одинаковое количество повторов. . В таком случае план также называют ортогональным , что позволяет полностью различать влияние обоих факторов. Следовательно, мы можем написать , и .

Наблюдая вариации среди всех точки данных, например, с помощью гистограммы , « вероятность может быть использована для описания такого изменения». [4] Поэтому обозначим через случайная величина, наблюдаемое значение которой это -е мероприятие по лечению . Двусторонний дисперсионный анализ моделирует все эти переменные как изменяющиеся независимо и обычно вокруг среднего значения. , с постоянной дисперсией, ( гомоскедастичность ):

.

В частности, среднее значение переменной ответа моделируется как линейная комбинация объясняющих переменных:

,

где это среднее значение, является аддитивным основным эффектом уровня от первого фактора ( i -я строка таблицы сопряженности), является аддитивным основным эффектом уровня от второго фактора ( j -й столбец таблицы сопряженности) и - эффект неаддитивного взаимодействия лечения для образцов от обоих факторов (ячейка в строке i и столбце j в таблице непредвиденных обстоятельств).

Другой эквивалентный способ описания двустороннего дисперсионного анализа — это упоминание о том, что помимо вариаций, объясняемых факторами, остается некоторый статистический шум . Такое количество необъяснимых вариаций обрабатывается путем введения одной случайной величины в каждую точку данных. , называется ошибкой . Эти случайные величины рассматриваются как отклонения от среднего значения и считаются независимыми и нормально распределенными:

.

Предположения

[ редактировать ]

Согласно Гельману и Хиллу , предположения ANOVA и, в более общем смысле, общей линейной модели , расположены в порядке убывания важности: [5]

  1. данные имеют отношение к исследуемому научному вопросу;
  2. на среднее значение переменной ответа влияют факторы аддитивно (если не на фактор взаимодействия) и линейно;
  3. ошибки независимы;
  4. ошибки имеют одинаковую дисперсию;
  5. ошибки распределены нормально.

Оценка параметров

[ редактировать ]

Чтобы обеспечить идентифицируемость параметров, мы можем добавить следующие ограничения «сумма к нулю»:

Проверка гипотез

[ редактировать ]

В классическом подходе проверка нулевых гипотез (о том, что факторы не оказывают влияния) достигается через их значимость , что требует вычисления суммы квадратов .

Проверка значимости члена взаимодействия может быть затруднена из-за потенциально большого числа степеней свободы . [6]

Следующий гипотетический пример показывает урожайность 15 растений, подверженных двум различным изменениям окружающей среды и трем различным удобрениям.

Дополнительный CO 2 Дополнительная влажность
Без удобрений 7, 2, 1 7, 6
Нитрат 11, 6 10, 7, 3
Фосфат 5, 3, 4 11, 4

Рассчитываются пять сумм квадратов:

Фактор Расчет Сумма
Индивидуальный 641 15
Удобрения × Окружающая среда 556.1667 6
Удобрения 525.4 3
Среда 519.2679 2
Композитный 504.6 1

суммы квадратов отклонений, необходимые для дисперсионного анализа Наконец, можно рассчитать .

Фактор Сумма Общий Среда Удобрения Удобрения × Окружающая среда Остаточный
Индивидуальный 641 15 1 1
Удобрения × Окружающая среда 556.1667 6 1 −1
Удобрения 525.4 3 1 −1
Среда 519.2679 2 1 −1
Композитный 504.6 1 −1 −1 −1 1
Квадратные отклонения 136.4 14.668 20.8 16.099 84.833
Степени свободы 14 1 2 2 9

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Йейтс, Фрэнк (март 1934 г.). «Анализ нескольких классификаций с неодинаковым количеством в разных классах». Журнал Американской статистической ассоциации . 29 (185): 51–66. дои : 10.1080/01621459.1934.10502686 . JSTOR   2278459 .
  2. ^ Фудзикоси, Ясунори (1993). «Двусторонние модели ANOVA с несбалансированными данными» . Дискретная математика . 116 (1): 315–334. дои : 10.1016/0012-365X(93)90410-U .
  3. ^ Гельман, Эндрю (февраль 2005 г.). «Дисперсионный анализ? Почему он важен как никогда». Анналы статистики . 33 (1): 1–53. arXiv : math/0504499 . дои : 10.1214/009053604000001048 . S2CID   125025956 .
  4. ^ Касс, Роберт Э (1 февраля 2011 г.). «Статистический вывод: общая картина» . Статистическая наука . 26 (1): 1–9. arXiv : 1106.2895 . дои : 10.1214/10-стс337 . ПМК   3153074 . ПМИД   21841892 .
  5. ^ Гельман, Эндрю; Хилл, Дженнифер (18 декабря 2006 г.). Анализ данных с использованием регрессии и многоуровневых/иерархических моделей . Издательство Кембриджского университета . стр. 45–46. ISBN  978-0521867061 .
  6. ^ Йи-Ан Ко; и др. (сентябрь 2013 г.). «Новые тесты отношения правдоподобия для скрининга взаимодействий ген-ген и ген-окружающая среда с использованием несбалансированных данных повторных измерений» . Генетическая эпидемиология . 37 (6): 581–591. дои : 10.1002/gepi.21744 . ПМК   4009698 . ПМИД   23798480 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: adacbee5f8200774bc7e7b7557d437c1__1695755100
URL1:https://arc.ask3.ru/arc/aa/ad/c1/adacbee5f8200774bc7e7b7557d437c1.html
Заголовок, (Title) документа по адресу, URL1:
Two-way analysis of variance - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)