Статистика тестирования

Тестовая статистика — это величина, полученная из выборки для проверки статистических гипотез . ^[1] Проверка гипотезы обычно определяется с точки зрения статистики теста, рассматриваемой как числовая сводка набора данных, которая сводит данные к одному значению, которое можно использовать для проверки гипотезы. В общем, тестовая статистика выбирается или определяется таким образом, чтобы количественно оценить в пределах наблюдаемых данных поведение, которое отличало бы нулевую гипотезу от альтернативной гипотезы , если такая альтернатива предписана, или которое характеризовало бы нулевую гипотезу, если она существует. нет явно сформулированной альтернативной гипотезы.

Важным свойством тестовой статистики является то, что ее выборочное распределение при нулевой гипотезе должно быть вычислено точно или приблизительно, что позволяет p -значения вычислить . Тестовая статистика имеет некоторые из тех же качеств, что и описательная статистика , и многие статистические данные могут использоваться как в качестве тестовой статистики, так и в качестве описательной статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, тогда как основное качество описательной статистики состоит в том, что ее легко интерпретировать. Некоторые информативные описательные статистические данные, такие как диапазон выборки , не являются хорошей тестовой статистикой, поскольку трудно определить распределение их выборки.

Две широко используемые тестовые статистики — это t-статистика и F-статистика .

Пример

Предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т.е. имеет ли равная вероятность выпадения орла или решки). Если монету подбросить 100 раз и результаты записать, необработанные данные можно представить в виде последовательности из 100 орлов и решек. Если вас интересует предельная вероятность получения хвоста, только число T необходимо записать из 100 бросков, в результате которых образовался хвост. Но T также можно использовать в качестве тестовой статистики одним из двух способов:

точное выборочное распределение T с параметрами 0,5 и при нулевой гипотезе представляет собой биномиальное распределение 100.
значение T можно сравнить с его ожидаемым значением при нулевой гипотезе 50, а поскольку размер выборки велик, нормальное распределение можно использовать в качестве приближения к распределению выборки либо для T , либо для пересмотренной тестовой статистики T — 50.

Используя одно из этих выборочных распределений, можно вычислить одностороннее или двустороннее значение p для нулевой гипотезы о том, что монета честная. Статистика теста в этом случае сводит набор из 100 чисел к одной числовой сводке, которую можно использовать для тестирования.

Общая статистика испытаний

Одновыборочные тесты подходят, когда выборку сравнивают с генеральной совокупностью на основе гипотезы. Характеристики популяции известны из теории или рассчитываются на основе численности населения.

Тесты с двумя выборками подходят для сравнения двух образцов, обычно экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, когда невозможно контролировать важные переменные. Вместо сравнения двух наборов элементы объединяются в пары между выборками, поэтому разница между членами становится выборкой. Обычно среднее значение разностей затем сравнивается с нулем. Типичный пример сценария, когда подходит тест парных различий, — это когда к одной группе испытуемых применяется что-то, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних значений в строгих условиях относительно нормальности и известного стандартного отклонения.

t - критерий подходит для сравнения средних значений в смягченных условиях (предполагается меньшее значение).

Тесты пропорций аналогичны тестам средних значений (доля 50%).

Тесты хи-квадрат используют одни и те же вычисления и одно и то же распределение вероятностей для разных приложений:

Критерии хи-квадрат для дисперсии используются, чтобы определить, имеет ли нормальная популяция указанную дисперсию. Нулевая гипотеза заключается в том, что это так.
Критерии независимости хи-квадрат используются для определения того, связаны ли две переменные или являются независимыми. Переменные являются категориальными, а не числовыми. Его можно использовать, чтобы решить, ли леворукость коррелирует с ростом (или нет). Нулевая гипотеза заключается в том, что переменные независимы. Числа, использованные в расчетах, представляют собой наблюдаемую и ожидаемую частоту возникновения (из таблиц непредвиденных обстоятельств ).
Критерии соответствия хи-квадрат используются для определения адекватности кривых, соответствующих данным. Нулевая гипотеза заключается в том, что аппроксимация кривой адекватна. Обычно определяют форму кривой, чтобы минимизировать среднеквадратическую ошибку, поэтому целесообразно, чтобы при расчете согласия суммировались квадраты ошибок.

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, имеет ли смысл группировка данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше, чем дисперсия всего класса, то может быть полезно изучать левшей как группу. Нулевая гипотеза заключается в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в других статьях . Существуют доказательства того, что статистика испытаний соответствует действительности. ^[2]

Имя

Формула

Предположения или примечания

Однообразный

z

-тест

z={\frac {{\overline {x}}-\mu _{0}}{({\sigma }/{\sqrt {n}})}}

(Нормальная популяция или n большое) и σ известны.

( z — расстояние от среднего значения по отношению к стандартному отклонению среднего значения ). Для ненормальных распределений можно вычислить минимальную долю населения, которая попадает в пределы k стандартных отклонений для любого k (см.: неравенство Чебышева ).

Двухвыборочный z-тест

z={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}}}}

Нормальная популяция и независимые наблюдения и σ ₁ и σ ₂ известны, где

d_{0}

это ценность

\mu _{1}-\mu _{2}

при нулевой гипотезе

Одновыборочный t -критерий

t={\frac {{\overline {x}}-\mu _{0}}{(s/{\sqrt {n}})}},

df=n-1\

(Нормальное население или n большое) и

\sigma

неизвестный

Парный t -тест

t={\frac {{\overline {d}}-d_{0}}{(s_{d}/{\sqrt {n}})}},

$df=n-1\$

(Нормальная совокупность различий или n большое) и

\sigma

неизвестный

для двух выборок Объединенный t -критерий , равные дисперсии

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{s_{p}{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}},

$s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}},$
$df=n_{1}+n_{2}-2\$ ^[3]

(Нормальные популяции или n ₁ + n ₂ > 40) и независимые наблюдения и σ ₁ = σ ₂ неизвестны.

-критерий для двух выборок Необъединенный t , неравные дисперсии ( Уэлча t -критерий )

t={\frac {({\overline {x}}_{1}-{\overline {x}}_{2})-d_{0}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}},

$df={\frac {\left({\dfrac {s_{1}^{2}}{n_{1}}}+{\dfrac {s_{2}^{2}}{n_{2}}}\right)^{2}}{{\dfrac {\left({\dfrac {s_{1}^{2}}{n_{1}}}\right)^{2}}{n_{1}-1}}+{\dfrac {\left({\dfrac {s_{2}^{2}}{n_{2}}}\right)^{2}}{n_{2}-1}}}}$ ^[3]

(Нормальные популяции или n ₁ + n ₂ > 40) и независимые наблюдения и σ ₁ ≠ σ ₂ неизвестны.

Однопропорциональный z-тест

z={\frac {{\hat {p}}-p_{0}}{\sqrt {p_{0}(1-p_{0})}}}{\sqrt {n}}

н ^.p ₀ > 10 и n (1 − p ₀ ) > 10 , и это SRS (простая случайная выборка), см. примечания .

Двухпропорциональный z-критерий, объединенный для

H_{0}\colon p_{1}=p_{2}

z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})}{\sqrt {{\hat {p}}(1-{\hat {p}})({\frac {1}{n_{1}}}+{\frac {1}{n_{2}}})}}}

${\hat {p}}={\frac {x_{1}+x_{2}}{n_{1}+n_{2}}}$

n ₁ p ₁ > 5 и n ₁ (1 − p ₁ ) > 5 и n ₂ p ₂ > 5 и n ₂ (1 − p ₂ ) > 5 и независимые наблюдения, см . примечания .

Двухпропорциональный z-критерий, не объединенный для

|d_{0}|>0

z={\frac {({\hat {p}}_{1}-{\hat {p}}_{2})-d_{0}}{\sqrt {{\frac {{\hat {p}}_{1}(1-{\hat {p}}_{1})}{n_{1}}}+{\frac {{\hat {p}}_{2}(1-{\hat {p}}_{2})}{n_{2}}}}}}

n ₁ p ₁ > 5 и n ₁ (1 − p ₁ ) > 5 и n ₂ p ₂ > 5 и n ₂ (1 − p ₂ ) > 5 и независимые наблюдения, см . примечания .

Критерий хи-квадрат на дисперсию

\chi ^{2}=(n-1){\frac {s^{2}}{\sigma _{0}^{2}}}

df = n-1

• Нормальное население

Критерий хи-квадрат на соответствие

\chi ^{2}=\sum _{k}{\frac {({\text{observed}}-{\text{expected}})^{2}}{\text{expected}}}

df = k − 1 − # оцененных параметров , и один из них должен выполняться.

• Все ожидаемые значения не менее 5. ^[4]

• Все ожидаемые значения > 1 и не более 20 % ожидаемых значений меньше 5. ^[5]

Двухвыборочный F-критерий на равенство дисперсий

F={\frac {s_{1}^{2}}{s_{2}^{2}}}

Нормальные популяции
Организуйте так

s_{1}^{2}\geq s_{2}^{2}

и отклонить H ₀ для

F>F(\alpha /2,n_{1}-1,n_{2}-1)

^[6]

Регрессионный t -критерий

H_{0}\colon R^{2}=0.

t={\sqrt {\frac {R^{2}(n-k-1^{*})}{1-R^{2}}}}

Отклонить H ₀ для

t>t(\alpha /2,n-k-1^{*})

^[7]
*Вычтите 1 для перехвата; k термов содержат независимые переменные.

В общем, индекс 0 указывает на значение, взятое из нулевой гипотезы H ₀ , которое следует использовать как можно чаще при построении ее тестовой статистики. ... Определения других символов:

$\alpha$ , вероятность ошибки типа I (отклонение нулевой гипотезы , когда она на самом деле верна)
$n$ = размер выборки
$n_{1}$ = размер образца 1
$n_{2}$ = размер выборки 2
${\overline {x}}$ = выборочное среднее
$\mu _{0}$ = предполагаемое среднее значение численности населения
$\mu _{1}$ = популяция 1 означает
$\mu _{2}$ = среднее значение популяции 2
$\sigma$ = стандартное отклонение генеральной совокупности
$\sigma ^{2}$ = дисперсия генеральной совокупности
$s$ = стандартное отклонение выборки
$\sum ^{k}$ = сумма (из ${\textstyle k}$ цифры)

$s^{2}$ = выборочная дисперсия
$s_{1}$ = стандартное отклонение выборки 1
$s_{2}$ = стандартное отклонение выборки 2
$t$ = t статистика
$df$ = степени свободы
${\overline {d}}$ = выборочное среднее разностей
$d_{0}$ = предполагаемая средняя разница в популяции
$s_{d}$ = стандартное отклонение разностей
$\chi ^{2}$ = Статистика хи-квадрат

${\hat {p}}={\frac {x}{n}}$ = доля выборки , если не указано иное
$p_{0}$ = предполагаемая доля населения
$p_{1}$ = пропорция 1
$p_{2}$ = пропорция 2
$d_{p}$ = предполагаемая разница в пропорциях
$\min\{n_{1},n_{2}\}$ = минимум ${\textstyle n_{1}}$ и ${\textstyle n_{2}}$
$x_{1}=n_{1}p_{1}$
$x_{2}=n_{2}p_{2}$
$F$ = F-статистика

См. также

Ссылки

^ Бергер, РЛ; Казелла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)
^ Лавленд, Дженнифер Л. (2011). Математическое обоснование проверки вводных гипотез и разработка справочных материалов (магистр (математика)). Университет штата Юта . Проверено 30 апреля 2013 г. Аннотация: «Основное внимание было уделено подходу Неймана-Пирсона к проверке гипотез. За кратким историческим развитием подхода Неймана-Пирсона следуют математические доказательства каждого из тестов гипотез, описанных в справочном материале». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционные тестовые статистики имеют приписываемые им распределения вероятностей, так что расчеты значимости предполагают, что эти распределения верны. Информация о диссертации также размещена на сайте mahnstats.com по состоянию на апрель 2013 года.
^ Jump up to: ^а ^б Справочник NIST: Двухвыборочный t -критерий для равных средних
^ Стил, РГД, и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 350.
^ Вайс, Нил А. (1999). Вводная статистика (5-е изд.). стр. 802 . ISBN 0-201-59877-9 .
^ Справочник NIST: F-тест на равенство двух стандартных отклонений (тестирование стандартных отклонений аналогично тестированию дисперсий)
^ Стил, РГД, и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.)

[CasellaBerger-1] Бергер, РЛ; Казелла, Г. (2001). Статистический вывод , Duxbury Press, второе издание (стр. 374)

[Loveland-2] Лавленд, Дженнифер Л. (2011). Математическое обоснование проверки вводных гипотез и разработка справочных материалов (магистр (математика)). Университет штата Юта . Проверено 30 апреля 2013 г. Аннотация: «Основное внимание было уделено подходу Неймана-Пирсона к проверке гипотез. За кратким историческим развитием подхода Неймана-Пирсона следуют математические доказательства каждого из тестов гипотез, описанных в справочном материале». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционные тестовые статистики имеют приписываемые им распределения вероятностей, так что расчеты значимости предполагают, что эти распределения верны. Информация о диссертации также размещена на сайте mahnstats.com по состоянию на апрель 2013 года.

[NIST2mean-3] Jump up to: ^а ^б Справочник NIST: Двухвыборочный t -критерий для равных средних

[4] Стил, РГД, и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 350.

[5] Вайс, Нил А. (1999). Вводная статистика (5-е изд.). стр. 802 . ISBN 0-201-59877-9 .

[6] Справочник NIST: F-тест на равенство двух стандартных отклонений (тестирование стандартных отклонений аналогично тестированию дисперсий)

[7] Стил, РГД, и Торри, Дж. Х., Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]