Знаковый тест
Тест знаков — это статистический метод проверки устойчивых различий между парами наблюдений, таких как вес субъектов до и после лечения. Учитывая пары наблюдений (например, вес до и после лечения) для каждого субъекта, тест знаков определяет, имеет ли один член пары (например, до лечения) тенденцию быть больше (или меньше) другого члена группы. пара (например, после лечения).
Парные наблюдения могут быть обозначены x и y . Для сравнений парных наблюдений ( x ,y ) критерий знаков наиболее полезен, если сравнения могут быть выражены только как x > y , x = y или x < y . Если вместо этого наблюдения могут быть выражены в виде числовых величин ( x = 7, y = 18) или в виде рангов (ранг x = 1-й, ранг y = 8-й), тогда парный t-критерий [1] или знаково-ранговый критерий Уилкоксона [2] обычно имеет большую эффективность, чем тест знаков, для обнаружения устойчивых различий.
Если X и Y являются количественными переменными, тест знаков можно использовать для проверки гипотезы о том, что разница между X и Y имеет нулевую медиану, предполагая непрерывное распределение двух случайных величин X и Y , в ситуации, когда мы можем нарисовать парные переменные. образцы из X и Y. [3]
Тест знаков также позволяет проверить, значительно ли медиана набора чисел больше или меньше указанного значения. Например, учитывая список оценок учащихся в классе, тест на знаки может определить, значительно ли отличается медианная оценка от, скажем, 75 из 100.
Знаковый тест — это непараметрический тест , который делает очень мало предположений о природе тестируемых распределений — это означает, что он имеет очень общую применимость, но может не иметь статистической мощности альтернативных тестов.
Два условия для критерия знаков парной выборки заключаются в том, что выборка должна быть случайным образом выбрана из каждой совокупности, и выборки должны быть зависимыми или парными. Независимые выборки не могут быть значимо соединены в пары. Поскольку тест непараметрический, выборки не обязательно должны быть из нормально распределенных популяций. Кроме того, тест работает для левосторонних, правосторонних и двусторонних тестов.
Метод [ править ]
Пусть p = Pr( X > Y ), а затем проверьте нулевую гипотезу H 0 : p = 0,50. Другими словами, нулевая гипотеза утверждает, что при наличии измерений ( xi пары , yi . ) xi случайной и yi с одинаковой вероятностью будут больше, чем другие
Чтобы проверить нулевую гипотезу, независимые пары выборочных данных собираются из популяций {( x 1 , y 1 ), ( x 2 , y 2 ), . . ., ( x n , y n )}. Пары, для которых нет разницы, опускаются, чтобы можно было сократить выборку из m пар. [4]
Тогда пусть W будет количеством пар, для которых y i − x i > 0. Предполагая, что H 0 истинно, тогда W следует биномиальному распределению W ~ b( m , 0,5).
Предположения [ править ]
Пусть Z i = Y i – X i для i = 1, ..., n .
- Разности Z i считаются независимыми.
- Каждый Z i происходит из одной и той же непрерывной популяции.
- Значения X i и Y i упорядочены (по крайней мере, в порядковом масштабе ), поэтому сравнения «больше», «меньше» и «равно» имеют смысл.
Проверка значимости [ править ]
Поскольку ожидается, что статистика теста будет следовать биномиальному распределению стандартный биномиальный тест используется , для расчета значимости . Нормальное приближение биномиального распределения можно использовать для больших размеров выборки, m > 25. [4]
Левое значение вычисляется по формуле Pr( W ≤ w ), которая является значением p для альтернативы H 1 : p < 0,50. Эта альтернатива означает, что измерения X имеют тенденцию быть выше.
Правое значение вычисляется по формуле Pr( W ≥ w ), которое является значением p для альтернативы H 1 : p > 0,50. Эта альтернатива означает, что измерения Y имеют тенденцию быть выше.
Для двусторонней альтернативы H 1 значение p в два раза меньше хвостового значения.
Пример двустороннего теста знаков для совпадающих пар [ править ]
Зар приводит следующий пример проверки знаков для совпадающих пар. Собраны данные о длине левой задней ноги и левой передней ноги у 10 оленей. [5]
Олень | Длина задней ноги (см) | Длина передней ноги (см) | Разница |
---|---|---|---|
1 | 142 | 138 | + |
2 | 140 | 136 | + |
3 | 144 | 147 | − |
4 | 144 | 139 | + |
5 | 142 | 143 | − |
6 | 146 | 141 | + |
7 | 149 | 143 | + |
8 | 150 | 145 | + |
9 | 142 | 136 | + |
10 | 148 | 146 | + |
Нулевая гипотеза состоит в том, что у оленей нет разницы между длиной задних и передних ног. Альтернативная гипотеза состоит в том, что существует разница между длиной задних и передних ног. Это двусторонний тест, а не односторонний. Альтернативная гипотеза для двустороннего теста состоит в том, что длина задних ног может быть больше или меньше длины передних ног. Односторонний тест может заключаться в том, что длина задней ноги больше, чем длина передней ноги, так что разница может быть только в одном направлении (больше).
Имеется n=10 оленей. Имеется 8 положительных отличий и 2 отрицательных различия. Если верна нулевая гипотеза о том, что нет разницы в длине задних и передних ног, то ожидаемое количество положительных различий составляет 5 из 10. Какова вероятность того, что наблюдаемый результат составит 8 положительных различий или более экстремальный результат? , произойдет ли это, если не будет разницы в длине ног?
Поскольку тест является двусторонним, результат, экстремальный или более экстремальный, чем 8 положительных различий, включает результаты 8, 9 или 10 положительных различий, а также результаты 0, 1 или 2 положительных различий. Вероятность 8 или более положительных результатов среди 10 оленей или 2 или менее положительных результатов среди 10 оленей такая же, как вероятность получения 8 или более орлов или 2 или менее орлов при 10 подбрасываниях честной монеты. Вероятности можно рассчитать с помощью биномиального теста : вероятность выпадения орла = вероятность выпадения решки = 0,5.
- Вероятность выпадения 0 орлов при 10 подбрасываниях честной монеты = 0,00098.
- Вероятность выпадения 1 орла за 10 подбрасываний честной монеты = 0,00977.
- Вероятность выпадения 2 орлов при 10 подбрасываниях честной монеты = 0,04395.
- Вероятность выпадения 8 орлов при 10 подбрасываниях честной монеты = 0,04395.
- Вероятность выпадения 9 орлов при 10 подбрасываниях честной монеты = 0,00977.
- Вероятность выпадения 10 орлов при 10 подбрасываниях честной монеты = 0,00098.
Двусторонняя вероятность такого экстремального результата, как положительная разница 8 из 10, представляет собой сумму этих вероятностей:
- 0.00098 + 0.00977 + 0.04395 + 0.04395 + 0.00977 + 0.00098 = 0.109375.
Таким образом, вероятность наблюдения таких экстремальных результатов, как 8 из 10 положительных различий в длине ног, если разницы в длине ног нет, равна p = 0,109375. Нулевая гипотеза не отвергается при уровне значимости p = 0,05. При большем размере выборки доказательств может быть достаточно, чтобы отвергнуть нулевую гипотезу.
Поскольку наблюдения могут быть выражены в виде числовых величин (фактическая длина участка), парный t-критерий или знаковый ранговый критерий Уилкоксона обычно будет иметь большую эффективность, чем знаковый критерий, для обнаружения устойчивых различий. В этом примере парный t-критерий различий показывает, что существует значительная разница между длиной задних и передних ног ( p = 0,007).
Если бы наблюдаемый результат составил 9 положительных различий в 10 сравнениях, критерий знаков был бы значимым. Только подбрасывания монеты с 0, 1, 9 или 10 орлами будут столь же экстремальными или даже более экстремальными, чем наблюдаемый результат.
- Вероятность выпадения 0 орлов при 10 подбрасываниях честной монеты = 0,00098.
- Вероятность выпадения 1 орла за 10 подбрасываний честной монеты = 0,00977.
- Вероятность выпадения 9 орлов при 10 подбрасываниях честной монеты = 0,00977.
- Вероятность выпадения 10 орлов при 10 подбрасываниях честной монеты = 0,00098.
Вероятность такого экстремального результата, как положительная разница 9 из 10, представляет собой сумму этих вероятностей:
- 0.00098 + 0.00977 + 0.00977 + 0.00098 = 0.0215.
В целом 8 из 10 положительных различий не являются значимыми ( р = 0,11), а 9 из 10 положительных различий являются значимыми ( р = 0,0215).
Примеры [ править ]
Пример одностороннего теста знаков для совпадающих пар [ править ]
Коновер [6] приводит следующий пример с использованием одностороннего теста знаков для совпадающих пар. Производитель производит два продукта: A и B. Производитель хочет знать, предпочитают ли потребители продукт B продукту A. Каждому из 10 потребителей дают продукт A и продукт B и спрашивают, какой продукт они предпочитают.
Нулевая гипотеза состоит в том, что потребители не предпочитают продукт B продукту A. Альтернативная гипотеза состоит в том, что потребители предпочитают продукт B продукту A. Это односторонний (направленный) тест.
В конце исследования 8 потребителей предпочли продукт B, 1 потребитель предпочел продукт A и один сообщил об отсутствии предпочтений.
- Количество + (предпочтительно B) = 8
- Количество – (предпочтительно A) = 1
- Количество ничьих (без предпочтений) = 1
Ничья исключается из анализа, что дает n = количество + и – = 8 + 1 = 9.
Какова вероятность такого экстремального результата, как 8 положительных результатов в пользу B в 9 парах, если верна нулевая гипотеза о том, что потребители не имеют предпочтения B перед A? Это вероятность того, что при 9 подбрасываниях честной монеты выпадет 8 или более орлов, и ее можно рассчитать с помощью биномиального распределения с p(орлы) = p(решка) = 0,5.
P(8 или 9 орлов при 9 подбрасываниях честной монеты) = 0,0195. Нулевая гипотеза отвергается, и производитель приходит к выводу, что потребители предпочитают продукт Б продукту А.
Пример знакового теста для медианы отдельной выборки [ править ]
Срент [7] приводит следующий пример проверки знака медианы. В клиническом исследовании время выживания (недели) собиралось для 10 субъектов с неходжкинской лимфомой. Точное время выживания не было известно для одного субъекта, который был еще жив через 362 недели, когда исследование закончилось. Время выживания испытуемых составило
- 49, 58, 75, 110, 112, 132, 151, 276, 281, 362+
Знак «плюс» указывает на то, что к концу исследования субъект все еще жив. Исследователь хотел определить, было ли медианное время выживания меньше или больше 200 недель.
Нулевая гипотеза состоит в том, что медиана выживаемости составляет 200 недель. Альтернативная гипотеза состоит в том, что медиана выживаемости не составляет 200 недель. Это двусторонний тест: альтернативная медиана может быть больше или меньше 200 недель.
Если верна нулевая гипотеза о том, что медиана выживаемости составляет 200 недель, то в случайной выборке примерно половина субъектов должна прожить менее 200 недель, а половина — более 200 недель. Наблюдениям ниже 200 присваивается минус (-); наблюдениям выше 200 присваивается плюс (+). Что касается времени выживания субъектов, то имеется 7 наблюдений ниже 200 недель (-) и 3 наблюдения выше 200 недель (+) для n=10 субъектов.
Поскольку любое одно наблюдение с одинаковой вероятностью будет выше или ниже медианного значения генеральной совокупности, количество положительных оценок будет иметь биномиальное распределение со средним значением = 0,5. Какова вероятность того, что такой экстремальный результат, как 7 из 10 испытуемых, окажется ниже медианы? Это точно так же, как вероятность такого экстремального результата, как 7 орлов при 10 бросках честной монеты. Поскольку это двусторонний тест, крайним результатом может быть либо три или меньше орлов, либо семь и более орлов.
Вероятность наблюдения k орлов при 10 бросках честной монеты при p(орла) = 0,5 определяется биномиальной формулой:
- Pr(Количество голов = k ) = Choose(10, k ) × 0,5 10
Вероятность для каждого значения k приведена в таблице ниже.
к | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|---|
Пр | 0.0010 | 0.0098 | 0.0439 | 0.1172 | 0.2051 | 0.2461 | 0.2051 | 0.1172 | 0.0439 | 0.0098 | 0.0010 |
Вероятность выпадения 0, 1, 2, 3, 7, 8, 9 или 10 орлов за 10 бросков равна сумме их индивидуальных вероятностей:
- 0.0010 + 0.0098 + 0.0439 + 0.1172 + 0.1172 + 0.0439 + 0.0098 + 0.0010 = 0.3438.
Таким образом, вероятность наблюдения 3 или менее знаков плюс или 7 и более знаков плюс в данных о выживаемости, если медиана выживаемости составляет 200 недель, равна 0,3438. Ожидаемое количество знаков плюс равно 5, если нулевая гипотеза верна. Наблюдение 3 и менее или 7 и более плюсов существенно не отличается от 5. Нулевая гипотеза не отвергается. Из-за чрезвычайно маленького размера выборки эта выборка имеет низкую способность обнаружить разницу.
Программные реализации [ править ]
Знаковый тест — это частный случай биномиального теста, где вероятность успеха при нулевой гипотезе равна p = 0,5. Таким образом, тест знаков может быть выполнен с использованием биномиального теста, который предусмотрен в большинстве статистических программ. Онлайн-калькуляторы для теста жестов можно найти, выполнив поиск по запросу «калькулятор теста жестов». Многие веб-сайты предлагают биномиальный тест, но обычно предлагают только двустороннюю версию.
Программное обеспечение Excel для проверки знаков [ править ]
Шаблон знакового теста с использованием Excel доступен по адресу http://www.real-statistics.com/non-parametric-tests/sign-test/.
Программное обеспечение R для теста жестов [ править ]
В R биномиальный тест можно выполнить с помощью функции binom.test()
.
Синтаксис функции:
binom.test(x, n, p = 0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95)
где
x
= количество успехов или вектор длины 2, указывающий количество успехов и неудач соответственноn
= количество испытаний; игнорируется, если x имеет длину 2p
= гипотетическая вероятность успехаalternative
= указывает на альтернативную гипотезу и должен быть одним из двух вариантов: «двусторонний», «больше» или «меньше».conf.level
= уровень достоверности для возвращенного доверительного интервала.
Примеры проверки знаков с использованием функции R binom.test
Пример теста жестов от Zar [5] сравнил длину задних и передних ног оленей. Задняя нога была длиннее передней у 8 из 10 оленей. Таким образом, в n=10 испытаниях имеется x=8 успехов. Гипотетическая вероятность успеха (определяемая как задняя нога длиннее передней) составляет p = 0,5 при нулевой гипотезе о том, что задние и передние ноги не различаются по длине. Альтернативная гипотеза состоит в том, что длина задних ног может быть больше или меньше длины передних ног, что представляет собой двусторонний тест, обозначаемый как альтернатива="two.side".
Команда Р binom.test(x=8, n=10, p=0.5, alternative="two.sided")
дает p=0,1094, как в примере.
Пример теста знаков в Conover [6] исследовали предпочтения потребителей продукта A по сравнению с продуктом B. Нулевая гипотеза заключалась в том, что потребители не предпочитают продукт B продукту A. Альтернативная гипотеза заключалась в том, что потребители предпочитают продукт B продукту A, односторонний тест. В ходе исследования 8 из 9 потребителей, выразивших предпочтение, предпочли продукт Б продукту А.
Команда Р binom.test(x=8, n=9, p=0.5, alternative="greater")
дает p=0,01953, как в примере.
История [ править ]
Коновер [6] и Срент [7] опишите использование Джоном Арбутнотом знакового теста в 1710 году. Арбутнот исследовал записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Если нулевая гипотеза о равном количестве рождений верна, вероятность наблюдаемого результата равна 1/2. 82 , что привело Арбутнота к выводу, что вероятность рождения мальчиков и девочек не совсем равна.
За свои публикации в 1692 и 1710 годах Арбутноту приписывают «… первое использование тестов значимости…». [8] , первый пример рассуждений о статистической значимости и моральной уверенности, [9] и «… возможно, первый опубликованный отчет о непараметрическом тесте…». [6]
Держать [9] далее описывает влияние исследования Арбутнота.
«Николас Бернулли (1710–1713) завершает анализ данных Арбутнота, показывая, что большую часть вариации ежегодного числа рождений мальчиков можно объяснить как биномиальную с p = 18/35. Это первый пример подбора биномиально к данным. Следовательно, здесь у нас есть критерий значимости, отвергающий гипотезу p = 0,5, за которым следует оценка p и обсуждение степени соответствия…»
с другими статистическими Связь тестами
ранговый Знаковый тест Уилкоксона
Проверка знаков требует только того, чтобы наблюдения в паре были упорядочены, например x > y . В некоторых случаях наблюдениям по всем испытуемым может быть присвоено ранговое значение (1, 2, 3,...). Если наблюдения можно ранжировать и каждое наблюдение в паре представляет собой случайную выборку из симметричного распределения, тогда критерий знакового ранга Уилкоксона подходит . Критерий Уилкоксона обычно обладает большей способностью обнаруживать различия, чем критерий знаков. Асимптотическая относительная эффективность знакового критерия по отношению к знаковому ранговому критерию Уилкоксона в этих обстоятельствах равна 0,67. [6]
Парный t-тест [ править ]
Если парные наблюдения представляют собой числовые величины (например, фактическая длина задней и передней ноги в примере с Заром), а различия между парными наблюдениями представляют собой случайные выборки из одного нормального распределения, то парный t-критерий подходит. Парный t-критерий обычно обладает большей способностью обнаруживать различия, чем знаковый тест. Асимптотическая относительная эффективность знакового теста по отношению к парному t-критерию в этих обстоятельствах составляет 0,637. Однако, если распределение различий между парами не является нормальным, а имеет тяжелый хвост ( платикуртическое распределение ), критерий знаков может иметь большую мощность, чем парный t-критерий, с асимптотической относительной эффективностью 2,0 относительно парного t-критерия. -тест и 1,3 относительно знакового рангового критерия Уилкоксона. [6]
Тест Макнемара [ править ]
В некоторых приложениях наблюдения внутри каждой пары могут принимать только значения 0 или 1. Например, 0 может указывать на неудачу, а 1 — на успех. Существует 4 возможных пары: {0,0}, {0,1}, {1,0} и {1,1}. В этих случаях используется та же процедура, что и при знаковом тесте, но она известна как тест Макнемара . [6]
Тест Фридмана [ править ]
Вместо парных наблюдений, таких как (Продукт A, Продукт B), данные могут состоять из трех или более уровней (Продукт A, Продукт B, Продукт C). Если отдельные наблюдения можно упорядочить так же, как и для критерия знаков, например B > C > A, то критерий Фридмана . можно использовать [5]
Трехчленный тест [ править ]
Биан, Макалир и Вонг [10] предложил в 2011 году непараметрический тест для парных данных, когда существует много связей. Они показали, что их триномиальный тест превосходит знаковый тест при наличии связей.
См. также [ править ]
- Знако-ранговый критерий Уилкоксона . Более мощный вариант знакового критерия, но также предполагающий симметричное распределение и интервальные данные.
- Медианный тест – непарная альтернатива знаковому тесту.
Ссылки [ править ]
- ^ Багули, Томас (2012), «Серьезная статистика: руководство по расширенной статистике для поведенческих наук» , Пэлгрейв Макмиллан, стр. 281, ISBN 9780230363557 .
- ^ Кордер, Грегори В.; Форман, Дейл И. (2014), «3.6 Статистическая мощность» , Непараметрическая статистика: пошаговый подход (2-е изд.), John Wiley & Sons, ISBN 9781118840429 .
- ^ Знаковый тест для медианы // STAT 415. Введение в математическую статистику. Пенсильванский государственный университет.
- ↑ Перейти обратно: Перейти обратно: а б Менденхолл В., Вакерли Д.Д., Шеффер Р.Л. (1989), «15: Непараметрическая статистика», Математическая статистика с приложениями (Четвертое изд.), PWS-Кент, стр. 674–679, ISBN 0-534-92026-8
- ↑ Перейти обратно: Перейти обратно: а б с Зар, Джерольд Х. (1999), «Глава 24: Еще о дихотомических переменных», Биостатистический анализ (Четвертое изд.), Prentice-Hall, стр. 516–570, ISBN 0-13-081542-Х
- ↑ Перейти обратно: Перейти обратно: а б с д и ж г Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 0-471-16068-7
- ↑ Перейти обратно: Перейти обратно: а б Срент, П. (1989), Прикладные непараметрические статистические методы (второе изд.), Chapman & Hall, ISBN 0-412-44980-3
- ^ Беллхаус, П. (2001), «Джон Арбутнот», в книге «Статистики столетий» К. К. Хейда и Э. Сенеты , Springer, стр. 39–42, ISBN 0-387-95329-9
- ↑ Перейти обратно: Перейти обратно: а б Хальд, Андерс (1998), «Глава 4. Случайность или замысел: критерии значимости», История математической статистики с 1750 по 1930 год , Wiley, стр. 65
- ^ Биан Г., Макалир М., Вонг В.К. (2011), Триномиальный тест для парных данных при наличии большого количества связей. , Математика и компьютерное моделирование, 81 (6), стр. 1153–1160.
- Гиббонс, Дж. Д. и Чакраборти, С. (1992). Непараметрический статистический вывод. Марсель Деккер Инк., Нью-Йорк.
- Кухни, ЖЖ (2003). Базовая статистика и анализ данных. Даксбери.
- Коновер, WJ (1980). Практическая непараметрическая статистика , 2-е изд. Уайли, Нью-Йорк.
- Леманн, Э.Л. (1975). Непараметрические методы: статистические методы, основанные на рангах. Холден и Дэй, Сан-Франциско.