Дисперсионный анализ
Дисперсионный анализ ( ANOVA ) представляет собой набор статистических моделей и связанных с ними процедур оценки (таких как «вариация» между группами), используемых для анализа различий между средними значениями. ANOVA был разработан статистиком Рональдом Фишером . ANOVA основан на законе общей дисперсии , согласно которому наблюдаемая дисперсия конкретной переменной разбивается на компоненты, относящиеся к различным источникам вариаций. В своей простейшей форме ANOVA обеспечивает статистическую проверку равенства двух или более средних значений совокупности и, следовательно, обобщает t -критерий за пределы двух средних. Другими словами, ANOVA используется для проверки разницы между двумя или более средними значениями.
История
[ редактировать ]Хотя дисперсионный анализ достиг успеха в 20-м веке, согласно Стиглеру , предшественники уходят в прошлое . [1] К ним относятся проверка гипотез, разделение сумм квадратов, экспериментальные методы и аддитивная модель. Лаплас проводил проверку гипотез в 1770-х годах. [2] Около 1800 года Лаплас и Гаусс разработали метод наименьших квадратов для объединения наблюдений, который усовершенствовал методы, использовавшиеся тогда в астрономии и геодезии . Он также положил начало тщательному изучению вкладов в суммы квадратов. Лаплас знал, как оценить дисперсию по остаточной (а не общей) сумме квадратов. [3] К 1827 году Лаплас использовал методы наименьших квадратов для решения задач ANOVA, связанных с измерениями атмосферных приливов. [4] До 1800 года астрономы имели отдельные ошибки наблюдений, приводившие к от времени реакции (« личное уравнение ») и разработал методы уменьшения ошибок. [5] Экспериментальные методы, использованные при изучении личного уравнения, позже были приняты развивающейся областью психологии. [6] которые разработали сильные (полные факториальные) экспериментальные методы, к которым вскоре были добавлены рандомизация и ослепление. [7] Красноречивое нематематическое объяснение модели аддитивных эффектов было доступно в 1885 году. [8]
Рональд Фишер ввел термин «дисперсия» и предложил его формальный анализ в статье 1918 года по теоретической популяционной генетике « Корреляция между родственниками на основании предположения о менделевском наследовании» . [9] Его первое применение дисперсионного анализа к анализу данных было опубликовано в 1921 году « Исследования вариаций сельскохозяйственных культур I» . [10] Это разделило вариацию временного ряда на компоненты, представляющие ежегодные причины и медленное ухудшение. В следующей статье Фишера « Исследования вариаций сельскохозяйственных культур II» , написанной совместно с Уинифред Маккензи и опубликованной в 1923 году, изучались различия в урожайности на участках, засеянных разными сортами и подвергнутых различным обработкам удобрениями. [11] Дисперсионный анализ стал широко известен после того, как был включен в книгу Фишера « Статистические методы для научных работников» 1925 года .
Модели рандомизации были разработаны несколькими исследователями. Первая была опубликована на польском языке Ежи Нейманом в 1923 году. [12]
Пример
[ редактировать ]Дисперсионный анализ можно использовать для описания сложных отношений между переменными. Яркий пример – выставка собак. Выставка собак не является случайной выборкой породы: обычно она ограничивается взрослыми, чистопородными и образцовыми собаками. Гистограмма веса собак на выставке, вероятно, может быть довольно сложной, как желто-оранжевое распределение, показанное на иллюстрациях. Предположим, мы хотели предсказать вес собаки на основе определенного набора характеристик каждой собаки. Один из способов сделать это — объяснить распределение весов, разделив популяцию собак на группы на основе этих характеристик. Успешная группировка разделит собак так, что (а) каждая группа имеет низкую дисперсию веса собак (это означает, что группа относительно однородна) и (б) среднее значение каждой группы различно (если две группы имеют одинаковое среднее значение, то неразумно делать вывод, что эти группы фактически разделены каким-либо значимым образом).
На иллюстрациях справа группы обозначены как X 1 , X 2 и т. д. На первой иллюстрации собаки разделены в соответствии с произведением (взаимодействием) двух бинарных групп: молодые против старых и короткошерстные против длинных. -шерстные (например, 1 группа – молодые короткошерстные собаки, 2 группа – молодые длинношерстные собаки и т. д.). Поскольку распределение веса собаки внутри каждой группы (показано синим цветом) имеет относительно большую дисперсию и поскольку средние значения очень схожи в разных группах, группирование собак по этим характеристикам не дает эффективного способа объяснить различия в весе собак. : знание того, в какой группе находится собака, не позволяет нам предсказать ее вес намного лучше, чем просто знание, что собака участвует в выставке. Таким образом, эта группировка не может объяснить изменение общего распределения (желто-оранжевое).
Попытка объяснить распределение веса путем группировки собак на домашние и рабочие породы и на менее спортивную и более спортивную породу, вероятно, была бы несколько более успешной (удовлетворительное соответствие). Самые тяжелые выставочные собаки, скорее всего, будут большими, сильными и рабочими породами, тогда как породы, содержащиеся в качестве домашних питомцев, как правило, меньше по размеру и, следовательно, легче. Как показывает вторая иллюстрация, распределения имеют дисперсии значительно меньшие, чем в первом случае, а средние более различимы. Однако значительное перекрытие распределений, например, означает, что мы не можем надежно различить X 1 и X 2 . Группировка собак по принципу подбрасывания монеты может привести к схожему распределению.
Попытка объяснить вес породой, скорее всего, приведет к очень хорошему совпадению. Все чихуахуа легкие, а все сенбернары тяжелые. Разница в весе сеттеров и пойнтеров не является основанием для разделения пород. Дисперсионный анализ предоставляет формальные инструменты для обоснования этих интуитивных суждений. Обычно метод используется для анализа экспериментальных данных или разработки моделей. Этот метод имеет некоторые преимущества перед корреляцией: не все данные должны быть числовыми, и одним из результатов метода является суждение о достоверности объяснительной связи.
Классы моделей
[ редактировать ]Существует три класса моделей, используемых в дисперсионном анализе, и они описаны здесь.
Модели с фиксированными эффектами
[ редактировать ]Модель дисперсионного анализа с фиксированными эффектами (класс I) применяется к ситуациям, в которых экспериментатор применяет одно или несколько методов лечения к испытуемым эксперимента, чтобы увидеть, изменяются ли значения переменных ответа . Это позволяет экспериментатору оценить диапазоны значений переменных ответа, которые лечение будет генерировать в популяции в целом.
Модели случайных эффектов
[ редактировать ]Модель случайных эффектов (класс II) используется, когда методы лечения не фиксированы. Это происходит, когда различные уровни факторов выбираются из более крупной совокупности. Поскольку уровни сами по себе являются случайными величинами , некоторые предположения и метод сопоставления методов лечения (многопараметрическое обобщение простых различий) отличаются от модели с фиксированными эффектами. [13]
Модели со смешанными эффектами
[ редактировать ]Модель со смешанными эффектами (класс III) содержит экспериментальные факторы как с фиксированными, так и со случайными эффектами, с соответственно разными интерпретациями и анализом для этих двух типов.
Пример
[ редактировать ]Учебные эксперименты могут проводиться факультетом колледжа или университета, чтобы найти хороший вводный учебник, при этом каждый текст рассматривается как лечение. Модель с фиксированными эффектами будет сравнивать список текстов-кандидатов. Модель случайных эффектов позволит определить, существуют ли важные различия между списком случайно выбранных текстов. Модель смешанных эффектов будет сравнивать (фиксированные) действующие тексты со случайно выбранными альтернативами.
Определить фиксированные и случайные эффекты оказалось непросто, поскольку существует множество конкурирующих определений. [14]
Предположения
[ редактировать ]Дисперсионный анализ изучался с использованием нескольких подходов, наиболее распространенный из которых использует линейную модель , связывающую реакцию на лечение и блокировку. Обратите внимание, что модель линейна по параметрам, но может быть нелинейной по уровням факторов. Интерпретация проста, когда данные сбалансированы по факторам, но для несбалансированных данных требуется более глубокое понимание.
Анализ учебника с использованием нормального распределения
[ редактировать ]Дисперсионный анализ может быть представлен в виде линейной модели , которая делает следующие предположения о распределении вероятностей ответов: [15] [16] [17] [18]
- Независимость наблюдений – это допущение модели, упрощающее статистический анализ.
- Нормальность распределения остатков нормальные . –
- Равенство (или «однородность») дисперсий, называемое гомоскедастичностью — дисперсия данных в группах должна быть одинаковой.
Отдельные предположения модели учебника подразумевают, что ошибки независимы, одинаково и нормально распределяются для моделей с фиксированными эффектами, то есть, что ошибки ( ) независимы и
Анализ на основе рандомизации
[ редактировать ]В рандомизированном контролируемом эксперименте лечение случайным образом распределяется по экспериментальным единицам в соответствии с протоколом эксперимента. Эта рандомизация является объективной и объявляется до проведения эксперимента. Объективное случайное присвоение используется для проверки значимости нулевой гипотезы , следуя идеям К.С. Пирса и Рональда Фишера . Этот основанный на дизайне анализ обсуждался и разрабатывался Фрэнсисом Дж. Анскомбом на экспериментальной станции в Ротамстеде и Оскаром Кемпторном из Университета штата Айова . [19] Кемпторн и его ученики делают предположение об аддитивности единичного лечения , которое обсуждается в книгах Кемпторна и Дэвида Р. Кокса . [20] [21]
Аддитивность единицы лечения
[ редактировать ]В своей простейшей форме предположение об аддитивности единичного лечения [номер 1] утверждает, что наблюдаемая реакция из экспериментальной части при получении лечения можно записать как сумму ответа устройства и эффект лечения , то есть [22] [23] [24] Предположение об аддитивности единичных процедур подразумевает, что для каждой обработки , лечение имеет точно такой же эффект на каждой экспериментальной единице.
предположение об аддитивности единичного лечения обычно не может быть напрямую опровергнуто По мнению Кокса и Кемпторна, . Однако многие последствия аддитивности лечебных единиц можно сфальсифицировать. Для рандомизированного эксперимента предположение об аддитивности единичного лечения подразумевает , что дисперсия постоянна для всех методов лечения. Следовательно, в противоположность этому , необходимым условием аддитивности единичного лечения является постоянство дисперсии.
Использование аддитивности и рандомизации единичного лечения аналогично умозаключению на основе дизайна, которое является стандартным для выборки при обследовании конечной совокупности .
Производная линейная модель
[ редактировать ]Кемпторн использует рандомизированное распределение и предположение об аддитивности единичного лечения для создания производной линейной модели , очень похожей на модель из учебника, обсуждавшуюся ранее. [25] Статистика испытаний этой производной линейной модели близко аппроксимируется статистикой испытаний соответствующей нормальной линейной модели согласно теоремам аппроксимации и исследованиям моделирования. [26] Однако есть различия. Например, анализ на основе рандомизации приводит к небольшой, но (строго) отрицательной корреляции между наблюдениями. [27] [28] В анализе, основанном на рандомизации, не делается предположений о нормальном распределении и, тем более , о независимости . Наоборот, наблюдения зависимы !
Анализ, основанный на рандомизации, имеет тот недостаток, что его изложение требует утомительной алгебры и требует много времени. Поскольку анализ на основе рандомизации сложен и близко приближен к подходу с использованием нормальной линейной модели, большинство учителей делают упор на подход обычной линейной модели. Лишь немногие статистики возражают против модельного анализа сбалансированных рандомизированных экспериментов.
Статистические модели для данных наблюдений
[ редактировать ]Однако применительно к данным нерандомизированных экспериментов или обсервационных исследований анализ на основе моделей не требует рандомизации. [29] Для данных наблюдений при получении доверительных интервалов необходимо использовать субъективные модели, как подчеркивают Рональд Фишер и его последователи. На практике оценки эффектов лечения, полученные в ходе обсервационных исследований, как правило, часто противоречивы. На практике «статистические модели» и данные наблюдений полезны для выдвижения гипотез, к которым общественность должна относиться очень осторожно. [30]
Краткое изложение предположений
[ редактировать ]Анализ ANOVA на основе нормальной модели предполагает независимость, нормальность и однородность дисперсий остатков. Анализ на основе рандомизации предполагает только однородность дисперсий остатков (как следствие аддитивности единичного лечения) и использует процедуру рандомизации эксперимента. Оба эти анализа требуют гомоскедастичности как предположения для анализа нормальной модели и как следствие рандомизации и аддитивности для анализа на основе рандомизации.
Однако исследования процессов, которые меняют дисперсию, а не средние значения (так называемые эффекты дисперсии), были успешно проведены с использованием ANOVA. [31] F - Для ANOVA в его полной общности нет необходимых предположений, но критерий , используемый для проверки гипотез ANOVA, содержит предположения и практические рекомендации. ограничения, которые представляют постоянный интерес.
Проблемы, которые не удовлетворяют предположениям ANOVA, часто можно преобразовать, чтобы удовлетворить этим предположениям. Свойство аддитивности единичного лечения не является инвариантным при «изменении масштаба», поэтому статистики часто используют преобразования для достижения аддитивности единичного лечения. Если ожидается, что переменная ответа будет следовать параметрическому семейству вероятностных распределений, то статистик может указать (в протоколе эксперимента или наблюдательного исследования), что ответы должны быть преобразованы для стабилизации дисперсии. [32] Кроме того, статистик может указать, что к ответам, которые, как предполагается, соответствуют мультипликативной модели, следует применять логарифмические преобразования. [23] [33] Согласно теореме Коши о функциональном уравнении , логарифм — единственное непрерывное преобразование, которое превращает действительное умножение в сложение. [ нужна ссылка ]
Характеристики
[ редактировать ]ANOVA используется при анализе сравнительных экспериментов, в которых интерес представляет только разница в результатах. Статистическая значимость эксперимента определяется соотношением двух дисперсий. Это соотношение не зависит от нескольких возможных изменений экспериментальных наблюдений: добавление константы ко всем наблюдениям не меняет значимости. Умножение всех наблюдений на константу не меняет значения. Таким образом, результат статистической значимости ANOVA не зависит от постоянной систематической ошибки и ошибок масштабирования, а также от единиц, используемых при выражении наблюдений. В эпоху механических вычислений было обычным вычитать константу из всех наблюдений (что эквивалентно отбрасыванию первых цифр), чтобы упростить ввод данных. [34] [35] Это пример кодирования данных .
Алгоритм
[ редактировать ]Расчеты ANOVA можно охарактеризовать как вычисление ряда средних и дисперсий, деление двух дисперсий и сравнение отношения со справочным значением для определения статистической значимости. В этом случае расчет эффекта лечения тривиален: «эффект любого лечения оценивается путем определения разницы между средним значением наблюдений, которые получают лечение, и общим средним значением». [36]
Разделение суммы квадратов
[ редактировать ]ANOVA использует традиционную стандартизированную терминологию. Определяющее уравнение выборочной дисперсии: , где делитель называется степенями свободы (DF), суммирование называется сумма квадратов (SS), результат называется средним квадратом (MS), а квадратичные члены представляют собой отклонения от выборочного среднего. ANOVA оценивает три выборочные дисперсии: общую дисперсию, основанную на всех отклонениях наблюдения от общего среднего значения, дисперсию ошибок, основанную на всех отклонениях наблюдения от соответствующих средних значений лечения, и дисперсию лечения. Дисперсия лечения основана на отклонениях средних значений лечения от общего среднего, при этом результат умножается на количество наблюдений в каждом лечении, чтобы учесть разницу между дисперсией наблюдений и дисперсией средних значений.
Фундаментальным приемом является разбиение общей суммы квадратов SS на компоненты, связанные с эффектами, используемыми в модели. Например, модель упрощенного ANOVA с одним типом обработки на разных уровнях.
Число степеней свободы DF можно разделить аналогичным образом: один из этих компонентов (то есть для ошибки) определяет распределение хи-квадрат , которое описывает соответствующую сумму квадратов, в то время как то же самое верно для «обработок», если существует никакого лечебного эффекта.
тест F -
[ редактировать ]F - тест используется для сравнения коэффициентов общего отклонения. Например, в однофакторном или однофакторном дисперсионном анализе статистическая значимость проверяется путем сравнения статистики F-критерия.
где MS — среднеквадратичный, количество процедур и общее количество случаев
к F -распределению с являющиеся числителем степеней свободы и знаменатель степеней свободы. Использование F -распределения является естественным кандидатом, поскольку тестовая статистика представляет собой соотношение двух масштабированных сумм квадратов, каждая из которых соответствует масштабированному распределению хи-квадрат .
Ожидаемое значение F равно (где — размер выборки лечения), который равен 1 для отсутствия эффекта лечения. По мере того, как значения F превышают 1, доказательства становятся все более несовместимыми с нулевой гипотезой. Два очевидных экспериментальных метода увеличения F — это увеличение размера выборки и уменьшение дисперсии ошибок за счет жесткого экспериментального контроля.
Существует два метода завершения проверки гипотезы ANOVA, оба из которых дают один и тот же результат:
- Учебный метод заключается в сравнении наблюдаемого значения F с критическим значением F, определенным по таблицам. Критическое значение F является функцией степеней свободы числителя и знаменателя и уровня значимости ( α ). Если F ≥ F Critical , нулевая гипотеза отклоняется.
- Компьютерный метод вычисляет вероятность (р-значение) значения F, большего или равного наблюдаемому значению. Нулевая гипотеза отклоняется, если эта вероятность меньше или равна уровню значимости ( α ).
-тест ANOVA Известно, что F почти оптимален в смысле минимизации ложноотрицательных ошибок при фиксированной частоте ложноположительных ошибок (т.е. максимизации мощности при фиксированном уровне значимости). Например, чтобы проверить гипотезу о том, что различные медицинские методы лечения имеют одинаковый эффект, F -теста близко значения p приближаются к перестановочного теста : значениям p аппроксимация особенно близка, когда план сбалансирован. [26] [37] Такие перестановочные тесты характеризуют тесты с максимальной силой против всех альтернативных гипотез , как заметил Розенбаум . [номер 2] -тест ANOVA F (нулевая гипотеза о том, что все методы лечения имеют одинаковый эффект) рекомендуется в качестве практического теста из-за его устойчивости ко многим альтернативным распределениям. [38] [номер 3]
Расширенный алгоритм
[ редактировать ]ANOVA состоит из отдельных частей; Разделение источников дисперсии и проверка гипотез могут использоваться индивидуально. ANOVA используется для поддержки других статистических инструментов. Регрессия сначала используется для сопоставления более сложных моделей с данными, затем используется ANOVA для сравнения моделей с целью выбора простых моделей, которые адекватно описывают данные. «Такие модели могут быть подобраны без какой-либо ссылки на ANOVA, но затем инструменты ANOVA можно использовать, чтобы придать некоторый смысл подобранным моделям и проверить гипотезы о группах коэффициентов». [39] «[Мы] думаем об дисперсионном анализе как о способе понимания и структурирования многоуровневых моделей — не как об альтернативе регрессии, а как об инструменте для обобщения сложных многомерных выводов…» [39]
Для одного фактора
[ редактировать ]Самый простой эксперимент, подходящий для анализа ANOVA, — это полностью рандомизированный эксперимент с одним фактором. Более сложные эксперименты с одним фактором включают ограничения на рандомизацию и включают полностью рандомизированные блоки и латинские квадраты (и варианты: греко-латинские квадраты и т. д.). Более сложные эксперименты разделяют многие сложности множества факторов. относительно полное обсуждение анализа (модели, сводки данных, таблица ANOVA) полностью рандомизированного эксперимента Доступно .
Существуют некоторые альтернативы традиционному одностороннему дисперсионному анализу, например: гетероскедастический F-критерий Уэлча, гетероскедастический F-критерий Уэлча с усеченными средними и дисперсиями Винзора, тест Брауна-Форсайта, тест Александера-Говерна, тест второго порядка Джеймса и тест Крускала-Уоллиса. , доступно в onewaytests R
Полезно представить каждую точку данных в следующей форме, называемой статистической моделью: где
- я = 1, 2, 3, ..., р
- j = 1, 2, 3, ..., С
- μ = общее среднее (среднее)
- τ j = дифференциальный эффект (ответ), связанный с j -уровнем X; это предполагает, что в целом значения τ j в сумме равны нулю (т. е. )
- ε ij = шум или ошибка, связанная с конкретным ij значением данных
То есть мы представляем себе аддитивную модель, которая утверждает, что каждая точка данных может быть представлена путем суммирования трех величин: истинного среднего значения, усредненного по всем исследуемым уровням факторов, плюс приростной компонент, связанный с конкретным столбцом (уровень фактора), плюс окончательный результат. компонент, связанный со всем остальным, влияющим на это конкретное значение данных.
По нескольким факторам
[ редактировать ]ANOVA обобщает изучение влияния множества факторов. Когда эксперимент включает наблюдения на всех комбинациях уровней каждого фактора, его называют факториалом . Факторные эксперименты более эффективны, чем серия однофакторных экспериментов, и эффективность растет с увеличением числа факторов. [40] Следовательно, факторные планы широко используются.
Использование ANOVA для изучения влияния множества факторов имеет сложности. В трехфакторном дисперсионном анализе с факторами x, y и z модель ANOVA включает члены для основных эффектов (x, y, z) и условия для взаимодействий (xy, xz, yz, xyz). Все термины требуют проверки гипотез. Увеличение количества терминов взаимодействия увеличивает риск того, что некоторые проверки гипотез случайно дадут ложноположительный результат. К счастью, опыт показывает, что взаимодействия высокого порядка встречаются редко. [41] [ нужна проверка ] Способность обнаруживать взаимодействия является основным преимуществом многофакторного дисперсионного анализа. Проверка одного фактора за раз скрывает взаимодействия, но дает явно противоречивые экспериментальные результаты. [40]
При взаимодействии следует соблюдать осторожность; Сначала проверьте условия взаимодействия и расширьте анализ за пределы ANOVA, если взаимодействия обнаружены. Тексты различаются рекомендациями относительно продолжения процедуры ANOVA после обнаружения взаимодействия. Взаимодействия усложняют интерпретацию экспериментальных данных. Ни расчеты значимости, ни предполагаемые эффекты лечения не могут приниматься за чистую монету. «Значительное взаимодействие часто маскирует значимость основных эффектов». [42] Для улучшения понимания рекомендуется использовать графические методы. Регрессия часто бывает полезна. Подробное обсуждение взаимодействий доступно у Кокса (1958). [43] Некоторые взаимодействия можно удалить (с помощью преобразований), а другие — нет.
Для снижения затрат используются различные методы с многофакторным дисперсионным анализом. Одним из методов, используемых в факторных планах, является минимизация репликации (возможно, отсутствие репликации при поддержке аналитических ухищрений ) и объединение групп, когда эффекты оказываются статистически (или практически) незначительными. Эксперимент со многими незначительными факторами может превратиться в эксперимент с несколькими факторами, поддерживаемыми множеством повторений. [44]
Сопутствующий анализ
[ редактировать ]Некоторый анализ необходим для обоснования плана эксперимента, в то время как другой анализ проводится после того, как формально установлено, что изменения факторов приводят к статистически значимым изменениям в ответах. Поскольку экспериментирование является итеративным, результаты одного эксперимента меняют планы последующих экспериментов.
Подготовительный анализ
[ редактировать ]Количество экспериментальных единиц
[ редактировать ]При планировании эксперимента количество экспериментальных единиц планируется удовлетворить целям эксперимента. Эксперименты часто носят последовательный характер.
Ранние эксперименты часто предназначены для получения несмещенных к среднему оценок эффектов лечения и экспериментальных ошибок. Более поздние эксперименты часто предназначены для проверки гипотезы о том, что эффект лечения имеет важную величину; в этом случае количество экспериментальных единиц выбирается таким образом, чтобы эксперимент, помимо прочего, соответствовал бюджету и имел достаточную мощность.
Анализ размера выборки обычно требуется в психологии. «Предоставьте информацию о размере выборки и процессе, который привел к принятию решений о размере выборки». [45] Анализ, который записывается в протокол эксперимента до его проведения, рассматривается в заявках на гранты и в административных наблюдательных комиссиях.
Помимо анализа мощности, существуют менее формальные методы выбора количества экспериментальных единиц. К ним относятся графические методы, основанные на ограничении вероятности ложноотрицательных ошибок, графические методы, основанные на ожидаемом увеличении вариации (выше остатков) и методы, основанные на достижении желаемого доверительного интервала. [46]
Анализ мощности
[ редактировать ]Анализ мощности часто применяется в контексте ANOVA, чтобы оценить вероятность успешного отклонения нулевой гипотезы, если мы предполагаем определенный дизайн ANOVA, размер эффекта в популяции, размер выборки и уровень значимости. Анализ мощности может помочь в планировании исследования, определяя, какой размер выборки потребуется, чтобы иметь разумную вероятность отклонения нулевой гипотезы, когда альтернативная гипотеза верна. [47] [48] [49] [50]
Размер эффекта
[ редактировать ]Для ANOVA было предложено несколько стандартизированных показателей эффекта, чтобы суммировать силу связи между предиктором(ами) и зависимой переменной или общую стандартизированную разницу полной модели. Стандартизированные оценки размера эффекта облегчают сравнение результатов исследований и дисциплин. Однако, хотя стандартизированные размеры эффекта обычно используются в большей части профессиональной литературы, для целей отчетности может быть предпочтительнее нестандартизированная мера размера эффекта, которая имеет непосредственно «значимые» единицы. [51]
Подтверждение модели
[ редактировать ]Иногда проводятся тесты, чтобы определить, нарушены ли предположения ANOVA. Остатки исследуются или анализируются для подтверждения гомоскедастичности и общей нормальности. [52] Остатки должны иметь вид шума (нулевое среднее нормальное распределение), когда они изображаются как функция чего-либо, включая время и значения смоделированных данных. Тенденции намекают на взаимодействие между факторами или наблюдениями.
Последующие тесты
[ редактировать ]Статистически значимый эффект в ANOVA часто сопровождается дополнительными тестами. Это можно сделать для того, чтобы оценить, какие группы отличаются от других групп, или проверить различные другие целенаправленные гипотезы. Последующие тесты часто различают по тому, являются ли они «плановыми» ( априори ) или «постфактум ». Плановые тесты определяются до просмотра данных, а апостериорные тесты задуманы только после просмотра данных (хотя термин «апостериорный» используется непоследовательно).
Последующие тесты могут представлять собой «простые» попарные сравнения средних значений отдельных групп или могут быть «составными» сравнениями (например, сравнение объединенных средних значений групп A, B и C со средним значением группы D). При сравнении можно также использовать критерии тренда, такие как линейные и квадратичные зависимости, когда независимая переменная включает упорядоченные уровни. Часто последующие тесты включают метод корректировки проблемы множественных сравнений .
Последующие тесты для определения того, какие конкретные группы, переменные или факторы имеют статистически разные средние значения, включают тест диапазона Тьюки и новый тест множественных диапазонов Дункана . В свою очередь, эти тесты часто сопровождаются методологией компактного буквенного отображения (CLD) , чтобы сделать результаты упомянутых тестов более прозрачными для аудитории, не связанной со статистикой.
Дизайн исследования
[ редактировать ]Существует несколько типов ANOVA. Многие статистики основывают ANOVA на дизайне эксперимента . [53] особенно в протоколе, который определяет случайное назначение лечения субъектам; Описание механизма назначения в протоколе должно включать спецификацию структуры обработки и любой блокировки . Также принято применять ANOVA к данным наблюдений с использованием соответствующей статистической модели. [54]
В некоторых популярных проектах используются следующие типы дисперсионного анализа:
- Однофакторный дисперсионный анализ используется для проверки различий между двумя или более независимыми группами (средними), например, разные уровни применения мочевины в культуре или разные уровни действия антибиотиков на несколько разных видов бактерий. [55] или разные уровни воздействия того или иного лекарства на группы пациентов. Однако если эти группы не являются независимыми и существует порядок в группах (например, легкое, среднее и тяжелое заболевание) или в дозе препарата (например, 5 мг/мл, 10 мг/мл, 20 мг /мл) для одной и той же группы пациентов, то оценку линейного тренда следует использовать . Однако обычно однофакторный дисперсионный анализ используется для проверки различий как минимум между тремя группами, поскольку случай с двумя группами можно охватить с помощью t-критерия . [56] Когда есть только два средства для сравнения, t-критерий ANOVA и F -критерий эквивалентны; связь между ANOVA и t определяется как F = t 2 .
- Факторный дисперсионный анализ используется, когда имеется более одного фактора.
- ANOVA с повторными измерениями используется, когда для каждого фактора используются одни и те же субъекты (например, в продольном исследовании ).
- Многомерный дисперсионный анализ (MANOVA) используется, когда имеется более одной переменной отклика .
Предостережения
[ редактировать ]Сбалансированные эксперименты (с одинаковым размером выборки для каждого варианта лечения) относительно легко интерпретировать; несбалансированные эксперименты более сложны. Для однофакторного (одностороннего) ANOVA корректировка несбалансированных данных проста, но несбалансированному анализу не хватает как надежности, так и мощности. [57] В более сложных конструкциях отсутствие баланса приводит к дальнейшим осложнениям. «Свойство ортогональности основных эффектов и взаимодействий, присутствующее в сбалансированных данных, не переносится на несбалансированный случай. Это означает, что обычные методы дисперсионного анализа не применимы. Следовательно, анализ несбалансированных факториалов гораздо сложнее, чем анализ сбалансированных. конструкции». [58] В общем случае «дисперсионный анализ можно применять и к несбалансированным данным, но тогда суммы квадратов, средние квадраты и F -отношения будут зависеть от порядка, в котором рассматриваются источники вариаций». [39]
ANOVA (частично) является тестом статистической значимости. Американская психологическая ассоциация (и многие другие организации) придерживается мнения, что простого сообщения о статистической значимости недостаточно и что предпочтительнее сообщать о доверительных границах. [51]
Обобщения
[ редактировать ]ANOVA считается частным случаем линейной регрессии. [59] [60] что, в свою очередь, является частным случаем общей линейной модели . [61] Все считают наблюдения суммой модели (подгонки) и невязки (ошибки), которую необходимо минимизировать.
Критерий Крускала -Уоллиса и критерий Фридмана являются непараметрическими тестами, которые не основаны на предположении о нормальности. [62] [63]
Связь с линейной регрессией
[ редактировать ]Ниже мы поясним связь между многофакторным дисперсионным анализом и линейной регрессией.
Линейно переупорядочить данные так, чтобы -е наблюдение связано с реакцией и факторы где обозначает различные факторы и это общее количество факторов. В одностороннем дисперсионном анализе и в двустороннем дисперсионном анализе . Кроме того, мы предполагаем, что -й фактор имеет уровни, а именно . Теперь мы можем оперативно закодировать факторы в размерный вектор .
Функция горячего кодирования определяется так, что -я запись является Вектор представляет собой конкатенацию всех вышеуказанных векторов для всех . Таким образом, . Чтобы получить полностью общее -способ взаимодействия ANOVA, мы также должны объединить каждый дополнительный член взаимодействия в векторе а затем добавьте термин перехвата. Пусть этот вектор будет .
Имея эти обозначения, мы теперь имеем точную связь с линейной регрессией. Мы просто регрессируем реакцию против вектора . Однако есть опасения по поводу идентифицируемости . Чтобы преодолеть такие проблемы, мы предполагаем, что сумма параметров внутри каждого набора взаимодействий равна нулю. Отсюда можно использовать F -статистику или другие методы для определения значимости отдельных факторов.
Пример
[ редактировать ]Мы можем рассмотреть пример двустороннего взаимодействия, где мы предполагаем, что первый фактор имеет 2 уровня, а второй фактор — 3 уровня.
Определять если и если , то есть - это горячее кодирование первого фактора и — это горячее кодирование второго фактора.
При этом, где последний член является членом прерывания. Для более конкретного примера предположим, что Затем,
См. также
[ редактировать ]- ANOVA по рангам
- ANOVA-одновременный компонентный анализ
- Ковариационный анализ ( ANCOVA )
- Анализ молекулярной дисперсии (AMOVA)
- Анализ ритмической дисперсии (ANORVA)
- Ожидаемые средние квадраты
- Объясненная вариация
- Оценка линейного тренда
- Дисперсионный анализ смешанного плана
- Многомерный ковариационный анализ ( MANCOVA )
- Перестановочный анализ дисперсии
- Разложение дисперсии
Сноски
[ редактировать ]- ^ Аддитивность единичного лечения в большинстве текстов называется просто аддитивностью. Хинкельманн и Кемпторн добавляют прилагательные и различают аддитивность в строгом и широком смысле. Это позволяет подробно рассмотреть несколько источников ошибок (обработка, состояние, выбор, измерение и выборка) на стр. 161.
- ^ Розенбаум (2002, стр. 40) цитирует раздел 5.7 (Тест на перестановку), теорему 2.3 (на самом деле теорему 3, стр. 184) из Лемана книги «Проверка статистических гипотез» (1959).
- ^ - тест F для сравнения дисперсий имеет неоднозначную репутацию. Это не рекомендуется в качестве проверки гипотезы для определения того, имеют ли две разные выборки одинаковую дисперсию. Рекомендуется для ANOVA, когда две оценки дисперсии одной и той же сравниваются выборки. Хотя F -тест обычно не является устойчивым к отклонениям от нормальности, было обнаружено, что он устойчив в частном случае ANOVA. Цитаты из Moore & McCabe (2003): «Дисперсионный анализ использует статистику F, но это не то же самое, что статистика F для сравнения двух стандартных отклонений генеральной совокупности». (стр. 554) «F-тест и другие процедуры вывода о дисперсиях настолько ненадежны, что от них мало пользы на практике». -критерий ANOVA (стр. 556) «[ F ] относительно нечувствителен к умеренным отклонениям от нормы и неравным дисперсиям, особенно когда размеры выборки схожи». (стр. 763) ANOVA предполагает гомоскедастичность, но она устойчива. Статистический тест на гомоскедастичность ( F -тест) не является надежным. Мур и Маккейб рекомендуют эмпирическое правило.
Примечания
[ редактировать ]- ^ Стиглер (1986)
- ^ Стиглер (1986, стр. 134)
- ^ Стиглер (1986, стр. 153)
- ^ Стиглер (1986, стр. 154–155)
- ^ Стиглер (1986, стр. 240–242)
- ^ Стиглер (1986, Глава 7 - Психофизика как контрапункт)
- ^ Стиглер (1986, стр. 253)
- ^ Стиглер (1986, стр. 314–315)
- ^ Корреляция между родственниками на основании предположения о менделевском наследовании . Рональд А. Фишер. Философские труды Королевского общества Эдинбурга . 1918 г. (том 52, стр. 399–433).
- ^ Фишер, Рональд А. (1921). «) Исследования вариаций сельскохозяйственных культур. I. Исследование урожайности протравленного зерна из Бродбалка». Журнал сельскохозяйственных наук . 11 (2): 107–135. дои : 10.1017/S0021859600003750 . HDL : 2440/15170 . S2CID 86029217 .
- ^ Фишер, Рональд А. (1923). «) Исследования вариаций сельскохозяйственных культур. II. Реакция различных сортов картофеля на навоз». Журнал сельскохозяйственных наук . 13 (3): 311–320. дои : 10.1017/S0021859600003592 . hdl : 2440/15179 . S2CID 85985907 .
- ^ Шеффе (1959, стр. 291, «Модели рандомизации были впервые сформулированы Нейманом (1923) для полностью рандомизированного плана, Нейманом (1935) для рандомизированных блоков, Уэлчем (1937) и Питманом (1937) для латинского квадрата под определенную нулевую гипотезу, а также Кемпторна (1952, 1955) и Уилка (1955) для многих других планов».)
- ^ Монтгомери (2001, Глава 12: Эксперименты со случайными факторами)
- ^ Гельман (2005, стр. 20–21)
- ^ Снедекор, Джордж В.; Кокран, Уильям Г. (1967). Статистические методы (6-е изд.). п. 321.
- ^ Кокран и Кокс (1992, стр. 48)
- ^ Хауэлл (2002, стр. 323)
- ^ Андерсон, Дэвид Р.; Суини, Деннис Дж.; Уильямс, Томас А. (1996). Статистика для бизнеса и экономики (6-е изд.). Миннеаполис/Сент. Пол: Вест Паб. Ко, стр. 452–453. ISBN 978-0-314-06378-6 .
- ^ Анскомб (1948)
- ^ Хинкельманн, Клаус; Кемпторн, Оскар (2005). Планирование и анализ экспериментов, Том 2: Расширенный план экспериментов . Джон Уайли. п. 213. ИСБН 978-0-471-70993-0 .
- ^ Кокс, Д.Р. (1992). Планирование экспериментов . Уайли. ISBN 978-0-471-57429-3 .
- ^ Кемпторн (1979, стр. 30)
- ^ Jump up to: а б Кокс (1958, Глава 2: Некоторые ключевые предположения)
- ^ Хинкельманн и Кемпторн (2008, Том 1, повсюду. Представлено в разделе 2.3.3: Принципы планирования эксперимента; Линейная модель; Краткое описание модели)
- ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.3: Полностью рандомизированный дизайн; Производная линейная модель)
- ^ Jump up to: а б Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.6: Полностью рандомизированный дизайн; Приближение теста рандомизации)
- ^ Бэйли (2008, глава 2.14 «Более общая модель» в Бейли, стр. 38–40)
- ^ Хинкельманн и Кемпторн (2008, том 1, глава 7: Сравнение методов лечения)
- ^ Кемпторн (1979, стр. 125–126, «Экспериментатор должен решить, какую из различных причин, которые, по его мнению, будут вызывать изменения в его результатах, необходимо контролировать. экспериментально. Те причины, которые он не контролирует экспериментально, поскольку он не знает о них, он должен контролировать с помощью устройства рандомизации». «[Только] когда лечение в эксперименте применяется экспериментатором с использованием процедуры полной рандомизации, является цепочка индуктивного вывода звука. Только при таких обстоятельствах экспериментатор может приписать любые наблюдаемые им эффекты лечению и только лечению. В этих обстоятельствах его выводы надежны в статистическом смысле».)
- ^ Фридман [ нужна полная цитата ]
- ^ Монтгомери (2001, Раздел 3.8: Обнаружение эффектов дисперсии)
- ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.10: Полностью рандомизированный дизайн; Преобразования)
- ^ Бэйли (2008)
- ^ Монтгомери (2001, Раздел 3-3: Эксперименты с одним фактором: дисперсионный анализ; Анализ модели с фиксированными эффектами)
- ^ Кокран и Кокс (1992, пример, стр. 2)
- ^ Кокран и Кокс (1992, стр. 49)
- ^ Хинкельманн и Кемпторн (2008, Том 1, Раздел 6.7: Полностью рандомизированный дизайн; CRD с неравным количеством повторений)
- ^ Мур и Маккейб (2003, стр. 763)
- ^ Jump up to: а б с Гельман (2008)
- ^ Jump up to: а б Монтгомери (2001, Раздел 5-2: Введение в факторные планы; преимущества факториалов)
- ^ Belle (2008, раздел 8.4: Взаимодействия высокого порядка происходят редко)
- ^ Монтгомери (2001, Раздел 5-1: Введение в факторный план; Основные определения и принципы)
- ^ Кокс (1958, Глава 6: Основные идеи факторных экспериментов)
- ^ Монтгомери (2001, Раздел 5-3.7: Введение в факторный план; Двухфакторный факторный план; Одно наблюдение на ячейку)
- ^ Уилкинсон (1999, стр. 596)
- ^ Монтгомери (2001, Раздел 3-7: Определение размера выборки)
- ^ Хауэлл (2002, Глава 8: Власть)
- ^ Хауэлл (2002, раздел 11.12: Мощность (в ANOVA))
- ^ Хауэлл (2002, раздел 13.7: Анализ мощности факторных экспериментов)
- ^ Мур и Маккейб (2003, стр. 778–780)
- ^ Jump up to: а б Уилкинсон (1999, стр. 599)
- ^ Монтгомери (2001, Раздел 3-4: Проверка адекватности модели)
- ^ Cochran & Cox (1957, стр. 9, «Общее правило [состоит] в том, что способ проведения эксперимента определяет не только возможность сделать выводы, но и расчеты, необходимые для их выполнения».)
- ^ «АНОВА Дизайн» . bluebox.creighton.edu . Проверено 23 января 2023 г.
- ^ «Односторонний/однофакторный дисперсионный анализ» . Архивировано из оригинала 7 ноября 2014 года.
- ^ «Вероятная ошибка среднего» (PDF) . Биометрика . 6 :1–25. 1908. дои : 10.1093/biomet/6.1.1 . hdl : 10338.dmlcz/143545 .
- ^ Монтгомери (2001, раздел 3-3.4: Несбалансированные данные)
- ^ Монтгомери (2001, Раздел 14-2: Несбалансированные данные в факторном дизайне)
- ^ Гельман (2005, стр.1) (с уточнениями в более позднем тексте)
- ^ Монтгомери (2001, раздел 3.9: Регрессионный подход к дисперсионному анализу)
- ^ Хауэлл (2002, стр. 604)
- ^ Хауэлл (2002, Глава 18: Повторная выборка и непараметрические подходы к данным)
- ^ Монтгомери (2001, Раздел 3-10: Непараметрические методы дисперсионного анализа)
Ссылки
[ редактировать ]- Анскомб, Ф.Дж. (1948). «Достоверность сравнительных экспериментов». Журнал Королевского статистического общества. Серия А (Общая) . 111 (3): 181–211. дои : 10.2307/2984159 . JSTOR 2984159 . МР 0030181 .
- Бейли, РА (2008). План сравнительных экспериментов . Издательство Кембриджского университета. ISBN 978-0-521-68357-9 . Предварительные главы доступны в Интернете.
- Белль, Джеральд ван (2008). Статистические правила (2-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-14448-0 .
- Кокран, Уильям Г .; Кокс, Гертруда М. (1992). Экспериментальные конструкции (2-е изд.). Нью-Йорк: Уайли. ISBN 978-0-471-54567-5 .
- Коэн, Джейкоб (1988). Статистический анализ мощности для наук о поведении (2-е изд.). Рутледж ISBN 978-0-8058-0283-2
- Коэн, Джейкоб (1992). «Статистика – энергетический букварь». Психологический вестник . 112 (1): 155–159. дои : 10.1037/0033-2909.112.1.155 . ПМИД 19565683 . S2CID 14411587 .
- Кокс, Дэвид Р. (1958). Планирование экспериментов . Перепечатано как ISBN 978-0-471-57429-3
- Кокс, Дэвид Р. (2006). Принципы статистического вывода . Кембридж, Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-68567-2 .
- Фридман, Дэвид А. (2005). Статистические модели: теория и практика , Издательство Кембриджского университета. ISBN 978-0-521-67105-7
- Гельман, Эндрю (2005). «Дисперсионный анализ? Почему это важно как никогда». Анналы статистики . 33 : 1–53. arXiv : math/0504499 . дои : 10.1214/009053604000001048 . S2CID 13529149 .
- Гельман, Эндрю (2008). «Дисперсия, анализ». Новый экономический словарь Пэлгрейва (2-е изд.). Бейзингсток, Хэмпшир, Нью-Йорк: Пэлгрейв Макмиллан. ISBN 978-0-333-78676-5 .
- Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов . Том. I и II (Второе изд.). Уайли. ISBN 978-0-470-38551-7 .
- Хауэлл, Дэвид С. (2002). Статистические методы психологии (5-е изд.). Пасифик Гроув, Калифорния: Даксбери/Томсон Лиринг. ISBN 978-0-534-37770-0 .
- Кемпторн, Оскар (1979). Планирование и анализ экспериментов (исправленное переиздание (1952) под ред. Wiley). Роберт Э. Кригер. ISBN 978-0-88275-105-4 .
- Леманн, Э.Л. (1959) Проверка статистических гипотез. Джон Уайли и сыновья.
- Монтгомери, Дуглас К. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Уайли. ISBN 978-0-471-31649-7 .
- Мур, Дэвид С. и Маккейб, Джордж П. (2003). Введение в практику статистики (4e). WH Фриман и Ко. ISBN 0-7167-9657-0
- Розенбаум, Пол Р. (2002). Наблюдательные исследования (2-е изд.). Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98967-9
- Шеффе, Генри (1959). Дисперсионный анализ . Нью-Йорк: Уайли.
- Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press издательства Гарвардского университета. ISBN 978-0-674-40340-6 .
- Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах: рекомендации и пояснения». Американский психолог . 5 (8): 594–604. CiteSeerX 10.1.1.120.4818 . дои : 10.1037/0003-066X.54.8.594 . S2CID 428023 .
Дальнейшее чтение
[ редактировать ]- Фридман, Дэвид А .; Пизани, Роберт; Первс, Роджер (2007). Статистика (4-е изд.). WW Нортон и компания. ISBN 978-0-393-92972-0 .
- Табачник, Барбара Г.; Фиделл, Линда С. (2006). Использование многомерной статистики . Pearson International Edition (5-е изд.). Нидхэм, Массачусетс: Allyn & Bacon, Inc. ISBN 978-0-205-45938-4 .
- Вичура, Майкл Дж. (2006). Бескоординатный подход к линейным моделям . Кембриджская серия по статистической и вероятностной математике. Издательство Кембриджского университета. стр. xiv+199. ISBN 978-0-521-86842-6 . МР 2283455 .
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ) - Кристенсен, Рональд (2002). Плоские ответы на сложные вопросы: теория линейных моделей (Третье изд.). Нью-Йорк: Спрингер. ISBN 978-0-387-95361-8 .
- Калинский, Тадеуш; Кагеяма, Санпей (2000). Блочные конструкции: подход рандомизации, Том I : Анализ . Конспект лекций по статистике. Том. 150. Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98578-7 .
- Кокс, Дэвид Р .; Рид, Нэнси М. (2000). Теория планирования экспериментов . Чепмен и Холл/CRC. ISBN 978-1-58488-195-7 .
- Хеттманспергер, ТП; Маккин, JW (1998). Робастные непараметрические статистические методы . Статистическая библиотека Кендалла. Том. 5 (1-е изд.). Нью-Йорк: Публикация Ходдера Арнольда. стр. xiv+467. ISBN 978-0-340-54937-7 . МР 1604954 .
- Лентнер, Марвин; Бишоп, Томас (1993). Экспериментальный дизайн и анализ (2-е изд.). Блэксбург, Вирджиния: Книжная компания Valley. ISBN 978-0-9616255-2-8 .
- Пхадке, Мадхав С. (1989). Обеспечение качества с использованием надежной конструкции . Нью-Джерси: Прентис Холл PTR. ISBN 978-0-13-745167-8 .
- Коробка, ГЭП (1954). «Некоторые теоремы о квадратичных формах, применяемые при исследовании задач дисперсионного анализа, II. Эффекты неравенства дисперсии и корреляции между ошибками в двусторонней классификации» . Анналы математической статистики . 25 (3): 484. doi : 10.1214/aoms/1177728717 .
- Коробка, ГЭП (1954). «Некоторые теоремы о квадратичных формах, применяемые при исследовании задач дисперсионного анализа, I. Эффект неравенства дисперсии в односторонней классификации» . Анналы математической статистики . 25 (2): 290. дои : 10.1214/aoms/1177728786 .
- Коробка, ГЭП (1953). «Ненормальность и тесты на дисперсии». Биометрика . 40 (3/4): 318–335. дои : 10.1093/biomet/40.3-4.318 . JSTOR 2333350 .
- Фишер, Рональд (1918). «Исследования вариаций сельскохозяйственных культур. I. Исследование урожайности протравленного зерна из Бродбалка» (PDF) . Журнал сельскохозяйственных наук . 11 (2): 107–135. дои : 10.1017/S0021859600003750 . HDL : 2440/15170 . S2CID 86029217 . Архивировано (PDF) из оригинала 22 июня 2023 года . Проверено 5 февраля 2024 г.
Внешние ссылки
[ редактировать ]- SOCR : активность ANOVA
- Примеры всех моделей ANOVA и ANCOVA с тремя факторами обработки, включая рандомизированный блок, разделенный график, повторные измерения и латинские квадраты, а также их анализ в R (Университет Саутгемптона)
- Электронный справочник по статистическим методам NIST/SEMATECH, раздел 7.4.3: «Равны ли средние значения?»
- Дисперсионный анализ: Введение