Односторонний дисперсионный анализ
В статистике ) — это метод сравнения того , односторонний дисперсионный анализ (или однофакторный дисперсионный анализ существенно ли различаются средние значения двух или более выборок (с использованием распределения F ). Этот метод дисперсионного анализа требует числовой переменной ответа «Y» и одной объясняющей переменной «X», следовательно, «однонаправленного». [1]
ANOVA проверяет нулевую гипотезу , которая утверждает, что выборки во всех группах взяты из популяций с одинаковыми средними значениями. Для этого делаются две оценки дисперсии генеральной совокупности. Эти оценки основаны на различных предположениях ( см. ниже ). ANOVA дает F-статистику — отношение дисперсии, рассчитанной между средними значениями, к дисперсии внутри выборок. Если групповые средние значения взяты из совокупностей с одинаковыми средними значениями, дисперсия между групповыми средними должна быть ниже, чем дисперсия выборок, в соответствии с центральной предельной теоремой . Таким образом, более высокий коэффициент означает, что выборки были взяты из популяций с разными средними значениями. [1]
Однако обычно однофакторный дисперсионный анализ используется для проверки различий как минимум между тремя группами, поскольку случай двух групп можно охватить с помощью t-критерия (Gosset, 1908). Когда есть только два средства для сравнения, t-критерий и F-тест эквивалентны; связь между ANOVA и t определяется как F = t 2 . Расширением однофакторного дисперсионного анализа является двусторонний дисперсионный анализ , который исследует влияние двух разных категориальных независимых переменных на одну зависимую переменную.
Предположения
[ редактировать ]Результаты однофакторного дисперсионного анализа можно считать надежными, если выполняются следующие допущения:
- переменных ответа Остатки имеют нормальное распределение (или приблизительно нормальное распределение).
- Дисперсии популяций равны.
- Ответы для данной группы являются независимыми и одинаково распределенными нормальными случайными величинами (а не простой случайной выборкой (SRS)).
Если данные порядковые , следует использовать непараметрическую альтернативу этому тесту, например, однофакторный дисперсионный анализ Крускала-Уоллиса . обобщение t-критерия Уэлча для двух выборок. Если не известно, что дисперсии равны, можно использовать [2]
Отклонения от нормального состояния населения
[ редактировать ]ANOVA — относительно надежная процедура в отношении нарушений предположения о нормальности. [3]
Односторонний дисперсионный анализ можно обобщить на факторный и многомерный макеты, а также на ковариационный анализ. [ нужны разъяснения ]
В популярной литературе часто утверждается, что ни один из этих F -тестов не является надежным , когда имеются серьезные нарушения предположения о том, что каждая совокупность следует нормальному распределению , особенно для небольших уровней альфа и несбалансированных макетов. [4] Более того, также утверждается, что если основное предположение о гомоскедастичности нарушается, свойства ошибок типа I ухудшаются гораздо сильнее. [5]
Однако это заблуждение, основанное на работах, проведенных в 1950-х годах и ранее. Первое всестороннее исследование этой проблемы с помощью моделирования Монте-Карло было проведено Дональдсоном (1966). [6] Он показал, что при обычных отклонениях (положительная асимметрия, неравные дисперсии) « F -тест консервативен», и поэтому менее вероятно, чем должно быть, обнаружить, что переменная значима. Однако по мере увеличения размера выборки или количества ячеек «кривые мощности, похоже, сходятся к кривым, основанным на нормальном распределении». Тику (1971) обнаружил, что «степень ненормальной теории F отличается от мощности нормальной теории поправочным членом, который резко уменьшается с увеличением размера выборки». [7] Проблема ненормальности, особенно в больших выборках, гораздо менее серьезна, чем можно предположить в популярных статьях.
В настоящее время считается, что «исследования Монте-Карло широко использовались вместе с тестами, основанными на нормальном распределении, чтобы определить, насколько они чувствительны к нарушениям предположения о нормальном распределении анализируемых переменных в популяции. Общий вывод из этих исследований состоит в том, что последствия таких нарушений менее серьезны, чем считалось ранее. Хотя эти выводы не должны полностью отговаривать кого-либо от беспокойства по поводу предположения о нормальности, они увеличили общую популярность статистических тестов, зависящих от распределения, во всех областях исследований». [8]
Чтобы узнать о непараметрических альтернативах факториальной схемы, см. Савиловский. [9] Для получения дополнительной информации см. ANOVA по рангам .
Случай фиксированных эффектов, полностью рандомизированный эксперимент, несбалансированные данные.
[ редактировать ]Модель
[ редактировать ]Нормальная линейная модель описывает группы лечения с вероятностью распределения, которые представляют собой тождественные колоколообразные (нормальные) кривые с разные средства. Таким образом, для подгонки моделей требуются только средства каждой группы лечения и расчет дисперсии (средняя дисперсия в группах лечения). Расчеты средств и дисперсия выполняется как часть проверки гипотезы.
Обычно используемые нормальные линейные модели для полностью рандомизированный эксперимент: [10]
- (модель средств)
или
- (модель эффектов)
где
- это индекс экспериментальных единиц
- это индекс по группам лечения
- количество экспериментальных единиц в j-й группе лечения
- общее количество экспериментальных единиц
- это наблюдения
- среднее значение наблюдений для j-й группы лечения
- это среднее значение наблюдений
- — j-й эффект лечения, отклонение от общего среднего значения
- , представляют собой нормально распределенные случайные ошибки с нулевым средним значением.
Индекс над экспериментальными единицами можно интерпретировать несколько пути. В некоторых экспериментах одна и та же экспериментальная единица подвергаетсяспектр процедур; может указывать на конкретную единицу. В других, каждая группа лечения имеет отдельный набор экспериментальных единиц; можетпросто быть индексом в -й список.
Данные и статистические сводки данных
[ редактировать ]Одна из форм организации экспериментальных наблюдений. с группами в столбцах:
Списки групповых наблюдений | ||||||||
---|---|---|---|---|---|---|---|---|
1 | ||||||||
2 | ||||||||
3 | ||||||||
Сводная статистика группы | Общая сводная статистика | |||||||
# Соблюдается | # Соблюдается | |||||||
Сумма | Сумма | |||||||
Сумма кв. | Сумма кв. | |||||||
Иметь в виду | Иметь в виду | |||||||
Дисперсия | Дисперсия |
Сравнение модели с сводками: и . Среднее значение и большая дисперсия вычисляются на основе больших сумм: не из групповых средних и отклонений.
Проверка гипотезы
[ редактировать ]Учитывая сводную статистику, расчеты проверки гипотезы показаны в табличной форме. Хотя две колонки СС показаны для ихпояснительное значение, для отображения результатов требуется только один столбец.
Источник вариаций | Суммы квадратов | Суммы квадратов | Степени свободы | Средний квадрат | Ф |
---|---|---|---|---|---|
Пояснительная СС [11] | Вычислительная СС [12] | ДФ | РС | ||
Лечение | |||||
Ошибка | |||||
Общий |
этооценка дисперсии, соответствующая принадлежащий модель.
Сводка анализа
[ редактировать ]Основной анализ ANOVA состоит из серии вычислений. данные собираются в табличной форме. Затем
- Каждая группа лечения суммируется по количеству экспериментальных единиц, двум суммам, среднему значению и дисперсии. Сводные данные групп лечения объединяются для получения итоговых значений количества единиц и сумм. Общее среднее значение и большая дисперсия вычисляются на основе больших сумм. В модели используются лечение и основные средства.
- Три DF и SS рассчитываются на основе сводок. Затем рассчитываются MS, и соотношение определяет F.
- Компьютер обычно определяет значение p по F, которое определяет, дают ли методы лечения существенно отличающиеся результаты. Если результат значителен, то модель предварительно имеет валидность.
Если эксперимент сбалансирован, все условия равны, поэтому уравнения SS упрощаются.
В более сложном эксперименте, когда экспериментальные единицы (или воздействие на окружающую среду) неоднородны, статистика рядов также неоднородна. используется в анализе. Модель включает условия, зависящие от . Определение дополнительных членов уменьшает количествоимеющиеся степени свободы.
Пример
[ редактировать ]Рассмотрим эксперимент по изучению влияния трех разных уровней фактора на реакцию (например, трех уровней удобрения на рост растений). Если бы у нас было по 6 наблюдений для каждого уровня, мы могли бы записать результат эксперимента в такую таблицу, где a 1 , a 2 и a 3 — три уровня изучаемого фактора.
1 aа2 aа3 6 8 13 8 12 9 4 9 11 5 11 8 3 6 7 4 8 12
Нулевая гипотеза, обозначенная H 0 , для общего F -теста для этого эксперимента будет заключаться в том, что все три уровня фактора дают в среднем один и тот же ответ. Чтобы рассчитать коэффициент F :
Шаг 1. Рассчитайте среднее значение внутри каждой группы:
Шаг 2: Рассчитайте общее среднее значение:
- где а — количество групп.
Шаг 3: Рассчитайте «межгрупповую» сумму квадратов разностей:
где n — количество значений данных на группу.
Межгрупповые степени свободы на единицу меньше числа групп.
поэтому среднеквадратичное значение между группами равно
Шаг 4: Рассчитайте сумму квадратов «внутри группы». Начните с центрирования данных в каждой группе.
1 | aа2 | aа3 |
---|---|---|
6−5=1 | 8−9=−1 | 13−10=3 |
8−5=3 | 12−9=3 | 9−10=−1 |
4−5=−1 | 9−9=0 | 11−10=1 |
5−5=0 | 11−9=2 | 8−10=−2 |
3−5=−2 | 6−9=−3 | 7−10=−3 |
4−5=−1 | 8−9=−1 | 12−10=2 |
Сумма квадратов внутри группы представляет собой сумму квадратов всех 18 значений в этой таблице.
Внутригрупповые степени свободы
Таким образом, среднеквадратичное значение внутри группы равно
Шаг 5: коэффициент F -
Критическое значение — это число, которое должна превысить статистика теста, чтобы тест был отклонен. В этом случае F крит (2,15) = 3,68 при α = 0,05. Поскольку F =9,3 > 3,68, результаты значимы на уровне значимости 5%. Никто не принял бы нулевую гипотезу, заключив, что существуют убедительные доказательства того, что ожидаемые значения в трех группах различаются. Значение p для этого теста составляет 0,002.
После выполнения F -теста обычно проводится некоторый «апостериорный» анализ групповых средних. При этом средние две первых группы отличаются на 4 единицы, средние первой и третьей группы отличаются на 5 единиц, а средние второй и третьей группы отличаются всего на 1 единицу. Стандартная ошибка каждой из этих разностей равна . Таким образом, первая группа сильно отличается от других групп, поскольку разница средних значений более чем в 3 раза превышает стандартную ошибку, поэтому мы можем быть вполне уверены, что среднее значение совокупности первой группы отличается от средних значений совокупности других групп. Однако нет никаких доказательств того, что вторая и третья группы имеют разные совокупные средние значения друг от друга, поскольку их средняя разница в одну единицу сравнима со стандартной ошибкой.
Примечание. F ( x , y ) обозначает кумулятивную функцию распределения F -распределения со степенями свободы x в числителе и степенями свободы y в знаменателе.
См. также
[ редактировать ]- Дисперсионный анализ
- F-тест ( включает пример однофакторного дисперсионного анализа )
- Смешанная модель
- Многомерный дисперсионный анализ (MANOVA)
- Повторные измерения ANOVA
- Двусторонний дисперсионный анализ
- t-критерий Уэлча
Примечания
[ редактировать ]- ^ Jump up to: а б Хауэлл, Дэвид (2002). Статистические методы в психологии . Даксбери. стр. 324–325 . ISBN 0-534-37770-Х .
- ^ Уэлч, Б.Л. (1951). «О сравнении нескольких средних значений: альтернативный подход». Биометрика . 38 (3/4): 330–336. дои : 10.2307/2332579 . JSTOR 2332579 .
- ^ Кирк, Р.Э. (1995). Экспериментальный дизайн: процедуры для поведенческих наук (3-е изд.). Пасифик Гроув, Калифорния, США: Брукс/Коул.
- ^ Блер, Р.К. (1981). «Реакция на «Последствия невыполнения предположений, лежащих в основе анализа дисперсии и ковариации с фиксированными эффектами». ". Обзор образовательных исследований . 51 (4): 499–507. дои : 10.3102/00346543051004499 .
- ^ Рэндольф, Э.А.; Барчиковски, Р.С. (1989). «Коэффициент ошибок типа I, когда реальные значения исследования используются в качестве параметров популяции в исследовании Монте-Карло». Документ, представленный на 11-м ежегодном собрании Ассоциации исследований в области образования Среднего Запада, Чикаго .
- ^ Дональдсон, Теодор С. (1966). «Сила F-теста для ненормальных распределений и неравных дисперсий ошибок» . Документ подготовлен для проекта RAND ВВС США .
- ^ Тику, МЛ (1971). «Степневая функция F -теста в ненормальных ситуациях». Журнал Американской статистической ассоциации . 66 (336): 913–916. дои : 10.1080/01621459.1971.10482371 .
- ^ «Начало работы с концепциями статистики» . Архивировано из оригинала 4 декабря 2018 г. Проверено 22 сентября 2016 г.
- ^ Савиловский, С. (1990). «Непараметрические тесты взаимодействия при планировании эксперимента». Обзор образовательных исследований . 60 (1): 91–126. дои : 10.3102/00346543060001091 .
- ^ Монтгомери, Дуглас К. (2001). Планирование и анализ экспериментов (5-е изд.). Нью-Йорк: Уайли. п. Раздел 3–2. ISBN 9780471316497 .
- ^ Мур, Дэвид С.; Маккейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). WH Freeman & Co. с. 764. ИСБН 0716796570 .
- ^ Винклер, Роберт Л.; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. п. 761 .
Дальнейшее чтение
[ редактировать ]- Джордж Казелла (18 апреля 2008 г.). Статистический дизайн . Спрингер . ISBN 978-0-387-75965-4 .