Ожидаемые средние квадраты

В статистике ожидаемые средние квадраты (EMS) — это ожидаемые значения определенных статистических данных, возникающих в разделах сумм квадратов при дисперсионном анализе (ANOVA). Их можно использовать для определения того, какая статистика должна появиться в знаменателе F-теста для проверки нулевой гипотезы об отсутствии определенного эффекта.

Определение

Когда общая скорректированная сумма квадратов в ANOVA разбивается на несколько компонентов, каждый из которых связан с влиянием определенной переменной-предиктора, каждая из сумм квадратов в этом разделе является случайной величиной, имеющей ожидаемое значение . Это ожидаемое значение, разделенное на соответствующее количество степеней свободы, представляет собой ожидаемый средний квадрат для этой предикторной переменной.

Пример

Следующий пример взят из «Продольного анализа данных» Дональда Хедекера и Роберта Д. Гиббонса . ^[1]

Каждый из s курсов лечения (один из которых может быть плацебо) назначается выборке из (столичных) N случайно выбранных пациентов, у которых определены определенные измерения. ${\textstyle Y_{hij}}$ наблюдаются в каждый из (строчных) n заданных моментов времени, для ${\textstyle h=1,\ldots ,s,\quad i=1,\ldots ,N_{h}}$ (таким образом, количество пациентов, получающих различное лечение, может различаться), и ${\textstyle j=1,\ldots ,n.}$ Мы предполагаем, что наборы пациентов, получающих различное лечение, не пересекаются, поэтому пациенты вложены в лечение, а не пересекаются с лечением. У нас есть

Y_{hij}=\mu +\gamma _{h}+\tau _{j}+(\gamma \tau )_{hj}+\pi _{i(h)}+\varepsilon _{hij}

где

$\mu$ = среднее значение (фиксированное)
$\gamma _{h}$ = эффект лечения $h$ , (зафиксированный)
$\tau _{j}$ = эффект времени $j$ , (зафиксированный)
$(\gamma \tau )_{hj}$ = эффект взаимодействия лечения $h$ и время $j$ , (зафиксированный)
$\pi _{i(h)}$ = эффект индивидуальных различий для пациента $i$ вложенный в лечение $h$ , (случайный)
$\varepsilon _{hij}$ = ошибка для пациента $i$ на лечении $h$ во время $j$ . (случайный)
$\sigma _{\pi }^{2}$ = дисперсия случайного эффекта пациентов, вложенных в лечение,
$\sigma _{\varepsilon }$ = дисперсия ошибки.

Общая исправленная сумма квадратов равна

\sum _{hij}(Y_{hij}-{\overline {Y}})^{2}\quad {\text{where }}{\overline {Y}}={\frac {1}{n}}\sum _{hij}Y_{hij}.

Таблица ANOVA ниже разделяет сумму квадратов (где ${\textstyle N=\sum _{h}N_{h}}$ ):

источник изменчивости	степени свободы	сумма квадратов	средний квадрат	ожидаемый средний квадрат
уход	$s-1$	${\text{SS}}_{\text{Tr}}=n\sum _{h=1}^{s}N_{h}({\overline {Y}}_{h\cdot \cdot }-{\overline {Y}}_{\cdot \cdot \cdot })^{2}$	${\dfrac {{\text{SS}}_{\text{Tr}}}{s-1}}$	$\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}+D_{\text{Tr}}$
время	$n-1$	${\text{SS}}_{\text{T}}=N\sum _{j=1}^{n}({\overline {Y}}_{\cdot \cdot j}-{\overline {Y}}_{\cdot \cdot \cdot })^{2}$	${\dfrac {{\text{SS}}_{\text{T}}}{n-1}}$	$\sigma _{\varepsilon }^{2}+D_{\text{T}}$
лечение × время	$(s-1)(n-1)$	${\text{SS}}_{\text{Tr T}}=\sum _{h=1}^{s}\sum _{j=1}^{n}N_{h}({\overline {Y}}_{h\cdot j}-{\overline {Y}}_{h\cdot \cdot }-{\overline {Y}}_{\cdot \cdot j}+{\overline {Y}}_{\cdot \cdot \cdot })^{2}$	${\dfrac {{\text{SS}}_{\text{Tr T}}}{(n-1)(s-1)}}$	$\sigma _{\varepsilon }^{2}+D_{\text{Tr T}}$
пациенты в рамках лечения	$N-s$	${\text{SS}}_{{\text{S}}({\text{Tr}})}=n\sum _{h=1}^{s}\sum _{i=1}^{N_{h}}({\overline {Y}}_{hi\cdot }-{\overline {Y}}_{h\cdot \cdot })^{2}$	${\dfrac {{\text{SS}}_{{\text{S}}({\text{Tr}})}}{N-s}}$	$\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}$
ошибка	$(N-s)(n-1)$	${\text{SS}}_{\text{E}}=\sum _{h=1}^{s}\sum _{i=1}^{N_{h}}\sum _{j=1}^{n}(Y_{hij}-{\overline {Y}}_{h\cdot j}-{\overline {Y}}_{hi\cdot }+{\overline {Y}}_{h\cdot \cdot })^{2}$	${\dfrac {{\text{SS}}_{\text{E}}}{(N-s)(n-1)}}$	$\sigma _{\varepsilon }^{2}$

Использование в F-тестах

Нулевая гипотеза, представляющая интерес, заключается в том, что нет разницы между эффектами различных методов лечения, а значит, нет различий и между средствами лечения. Это можно выразить, сказав ${\textstyle D_{\text{Tr}}=0,}$ (с обозначениями, использованными в таблице выше). Согласно этой нулевой гипотезе ожидаемый средний квадрат эффектов лечения равен ${\textstyle \sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}.}$

Числителем F-статистики для проверки этой гипотезы является средний квадрат, обусловленный различиями между методами лечения, т.е. ${\textstyle \left.{\text{SS}}_{\text{Tr}}\right/(s-1).}$ Знаменатель, однако, не ${\textstyle \left.{\text{SS}}_{\text{E}}\right/{\big (}(N-s)(n-1){\big )}.}$ Причина в том, что приведенная ниже случайная величина, хотя при нулевой гипотезе и имеет F-распределение , не является наблюдаемой (это не статистика), поскольку ее значение зависит от ненаблюдаемых параметров. ${\textstyle \sigma _{\pi }^{2}}$ и ${\textstyle \sigma _{\varepsilon }^{2}.}$

{\frac {\left.{\frac {{\text{SS}}_{\text{Tr}}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(s-1)}{\left.{\frac {{\text{SS}}_{\text{E}}}{\sigma _{\varepsilon }^{2}}}\right/{\big (}(N-s)(n-1){\big )}}}\neq {\frac {{\text{SS}}_{\text{Tr}}/(s-1)}{{\text{SS}}_{\text{E}}/{\big (}(N-s)(n-1){\big )}}}

Вместо этого в качестве тестовой статистики используется следующая случайная величина, которая не определена в терминах ${\textstyle {\text{SS}}_{\text{E}}}$ :

F={\frac {\left.{\frac {{\text{SS}}_{\text{Tr}}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(s-1)}{\left.{\frac {{\text{SS}}_{{\text{S}}({\text{Tr}})}}{\sigma _{\varepsilon }^{2}+n\sigma _{\pi }^{2}}}\right/(N-s)}}={\frac {\left.{\text{SS}}_{\text{Tr}}\right/(s-1)}{\left.{\text{SS}}_{\text{S(Tr)}}\right/(N-s)}}

Примечания и ссылки

^ Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Уайли Интерсайенс. 2006. стр. 21–24.

[1] Дональд Хедекер, Роберт Д. Гиббонс. Продольный анализ данных. Уайли Интерсайенс. 2006. стр. 21–24.

[1]