тест Барнарда
В статистике используемый тест Барнарда — это точный тест, при анализе 2 × 2 таблиц непредвиденных обстоятельств с одним фиксированным запасом. Тесты Барнарда на самом деле представляют собой класс проверок гипотез, также известных как безусловные точные тесты для двух независимых биномов. [ 1 ] [ 2 ] [ 3 ] Эти тесты исследуют связь двух категориальных переменных и часто являются более мощной альтернативой, чем точный тест Фишера для таблиц сопряженности 2 × 2 . Впервые опубликованный в 1945 году Г. А. Барнардом , [ 4 ] [ 5 ] тест не приобрел популярности из-за вычислительной сложности расчета значения p и явного неодобрения Фишера. В настоящее время даже для размеров выборки n ~ 1 миллион компьютеры часто могут выполнить тест Барнарда за несколько секунд или меньше.
Цель и сфера применения
[ редактировать ]Тест Барнарда используется для проверки независимости строк и столбцов в таблице сопряженности 2 × 2 . Тест предполагает, что каждый ответ независим. В условиях независимости существует три типа планов исследования, которые дают таблицу 2 × 2 , и критерий Барнарда применим ко второму типу.
Чтобы различать различные типы планов, предположим, что исследователь хочет проверить, быстро ли лечение излечивает инфекцию.
- Одним из возможных вариантов исследования может быть выборка 100 инфицированных субъектов и проверка каждого субъекта, получали ли они новое лечение или старое стандартное лекарство, а также проверка наличия инфекции по истечении определенного времени. Этот тип планирования распространен в перекрестных исследованиях или «полевых наблюдениях», таких как эпидемиология .
- Другой возможный план исследования — дать 50 инфицированным субъектам лечение, 50 инфицированным субъектам — плацебо и посмотреть, сохраняется ли инфекция по истечении определенного времени. Этот тип дизайна часто встречается в клинических испытаниях .
- Окончательный возможный дизайн исследования будет заключаться в том, чтобы дать 50 инфицированным субъектам лечение, 50 инфицированным субъектам — плацебо и остановить эксперимент, как только заранее определенное количество субъектов выздоровеет от инфекции. Этот тип дизайна встречается редко, но имеет ту же структуру, что и исследование, проведенное женщиной, дегустирующей чай , которое побудило Р. А. Фишера создать точный тест Фишера .
Хотя результаты каждого плана эксперимента могут быть изложены в почти идентичных на вид таблицах 2 × 2 , их статистика различна, и, следовательно, критерии «значимого» результата для каждой из них различны:
- Вероятность таблицы 2 × 2 при первом плане исследования определяется полиномиальным распределением ; где общее количество взятых проб является единственным статистическим ограничением. Это форма неконтролируемого эксперимента, или «полевого наблюдения», когда экспериментатор просто «берет данные такими, какие они есть». [ а ]
- Второй план исследования представляет собой произведение двух независимых биномиальных распределений ; итоги в одном из полей (либо итоги по строкам, либо итоги по столбцам) ограничены экспериментальным планом, но итоги в другом поле свободны. Это, безусловно, наиболее распространенная форма планирования эксперимента, когда экспериментатор ограничивает часть эксперимента, скажем, поручая половине испытуемых получить новое лекарство, а другой половине — старое, традиционное лекарство, но не имеет контроль над количеством людей в каждой контролируемой категории, которые либо выздоровели, либо умерли от болезни.
- Третий дизайн определяется гипергеометрическим распределением ; где общие числа в каждом столбце и строке ограничены. Например, человеку разрешено попробовать 8 чашек газировки, но он должен отнести по четыре к каждой категории «торговая марка X» и «торговая марка Y», чтобы как итоговые суммы в строках, так и итоговые суммы в столбцах были ограничены четырьмя. [ б ]
Эксперименты такого рода сложны в проведении и практически неизвестны в практических экспериментах.
Функциональная разница между точным критерием Барнарда и «точным» критерием Фишера заключается в том, как они обрабатывают мешающий параметр (ы) общей вероятности успеха при вычислении значения p . Точный критерий Фишера позволяет избежать оценки мешающего параметра(ов) за счет обусловления обоих полей - приблизительно вспомогательной статистики , которая ограничивает возможные результаты. Проблема с этой процедурой Фишера состоит в том, что она ошибочно исключает некоторые результаты, которые действительно возможны почти для всех типов экспериментов. Тест Барнарда лучше, поскольку он рассматривает все допустимые возможные значения мешающего параметра(ов) и выбирает значение(я), которое максимизирует значение p . Теоретическая разница между тестами заключается в том, что тест Барнарда использует двойное биномиальное распределение , тогда как критерий Фишера из-за (обычно ложного) использования обусловленности использует гипергеометрическое распределение , что означает, что оценочные значения p , которые он производит, неверны; в целом они слишком велики, что делает тест Фишера слишком «консервативным»: склонен к ненужным ошибки II рода (чрезмерное количество ложноотрицательных результатов). Фишера Однако даже когда данные поступают из двойного биномиального распределения, условие (которое приводит к использованию гипергеометрического распределения для расчета точного значения p ) дает действительный тест, если принять, что критерий Фишера обязательно пропустит некоторые положительные результаты. [ 3 ] Критерий Барнарда не является предвзятым в этом отношении и больше подходит для более широкого диапазона типов экспериментов, включая наиболее распространенные, в которых нет экспериментальных ограничений ни на сумму строк, ни на сумму столбцов таблицы.
Оба теста ограничивают частоту ошибок типа I на уровне α и, следовательно, технически «валидны». Однако при планировании практически всех фактически проводимых экспериментов критерий Барнарда гораздо более эффективен, чем критерий Фишера, поскольку он учитывает большее количество «таких же или более экстремальных» таблиц, не накладывая ложного ограничения («обусловливания») на второе поле, которое требует процедура проведения теста Фишера (ошибочно, за исключением нескольких редко используемых экспериментальных планов , где условия для теста Фишера действительны). Фактически, вариант теста Барнарда, называемый тестом Бошлоо , в целом более мощный, чем тест Фишера. [ 6 ] Тест Барнарда использовался наряду с точным тестом Фишера в исследованиях управления проектами. [ 7 ]
Критика
[ редактировать ]Под явным давлением со стороны Фишера Барнард отказался от своего теста в опубликованной статье: [ 8 ] однако многие исследователи предпочитают точный тест Барнарда точному тесту Фишера для анализа 2 × 2 , таблиц сопряженности [ 9 ] поскольку его статистика более эффективна для подавляющего большинства экспериментальных планов, тогда как точная статистика теста Фишера консервативна, что означает, что значимость, показываемая ее значениями p, слишком высока, что заставляет экспериментатора отклонять как незначительные результаты, которые были бы статистически значимыми при правильном использовании. (и менее консервативная) двухбиномиальная статистика тестов Барнарда, а не почти всегда неверная (и чрезмерно консервативная) гипергеометрическая статистика «точного» теста Фишера. Тесты Барнарда не подходят в редких случаях, когда план эксперимента ограничивает оба предельных результата (например, «тесты на вкус» ); хотя и редко, но экспериментально наложенные ограничения на оба предельных итога делают истинное выборочное распределение для таблицы гипергеометрическим .
Тест Барнарда можно применять к более крупным таблицам, но время вычислений увеличивается, а преимущество в мощности быстро уменьшается. [ 10 ] Остается неясным, какая тестовая статистика предпочтительна при реализации теста Барнарда; однако большинство статистических данных тестов дают более мощные тесты, чем точный критерий Фишера. [ 11 ]
См. также
[ редактировать ]Сноски
[ редактировать ]- ^ Для «полевых наблюдений» полиномиально распределенных данных критерий хи-квадрат наиболее часто используемым методом анализа является ; он дает «статистически правильные» результаты, но основан на нормальной аппроксимации, а не на точной статистике. Применимы и другие методы, которые обсуждаются в статье о тесте хи-квадрат Пирсона .
- ^ Результат эксперимента проявляется только внутри таблицы, при этом подсчет количества чашек либо правильно , либо неправильно определен.
Ссылки
[ редактировать ]- ^ Мехротра, Д.В.; Чан, ISF; Бергер, Р.Л. (2003). «Предупреждение о точном безусловном выводе о разнице между двумя независимыми биномиальными пропорциями» . Биометрия . 59 (2): 441–450. дои : 10.1111/1541-0420.00051 . ПМИД 12926729 . S2CID 28556526 .
- ^ Рипамонти, Э.; Ллойд, К.; Кватто, П. (2017). «Современные частотные взгляды на биномиальное испытание 2 × 2 » . Статистическая наука . 32 : 600–615. дои : 10.1214/17-STS627 . hdl : 10281/182103 .
- ^ Jump up to: а б Фэй, член парламента; Хунсбергер, ЮАР (2021 г.). «Практические обоснованные выводы для биномиальной задачи с двумя выборками» . Статистические опросы . 15 . arXiv : 1904.05416 . дои : 10.1214/21-SS131 .
- ^ Барнард, Джорджия (1945). «Новый тест для 2×2 таблиц » . Природа . 156 (3954): 177. дои : 10.1038/156177a0 . S2CID 186244479 .
- ^ Барнард, Джорджия (1947). «Тесты значимости для таблиц 2 × 2 ». Биометрика . 34 (1–2): 123–138. дои : 10.1093/biomet/34.1-2.123 . ПМИД 20287826 .
- ^ Бошлоо, РД (1970). «Повышенный условный уровень значимости таблицы 2×2 при проверке равенства двух вероятностей». Статистика Неерландики . 24 : 1–35. дои : 10.1111/j.1467-9574.1970.tb00104.x .
- ^ Инверницци, Дилетта Колетт; Локателли, Джорджио; Брукс, Наоми Дж. (1 января 2019 г.). «Исследование взаимосвязи между характеристиками проектов вывода из эксплуатации ядерных объектов и экономическими показателями» (PDF) . Прогресс в атомной энергетике . 110 : 129–141. дои : 10.1016/j.pnucene.2018.09.011 . ISSN 0149-1970 . S2CID 125100734 .
- ^ Барнард, Джорджия (1949). «Статистический вывод». Журнал Королевского статистического общества . Серия Б. 11 (2): 115–149.
- ^ Лидерсен, С.; Фагерланд, МВт; Лааке, П. (2009). «Рекомендуемые тесты на ассоциацию в таблицах 2х2». Статистика в медицине . 28 (7): 1159–1175. дои : 10.1002/sim.3531 . ПМИД 19170020 . S2CID 3900997 .
- ^ Мехта, ЧР; Хилтон, Дж. Ф. (1993). «Точная мощность условных и безусловных тестов: выход за пределы таблицы непредвиденных обстоятельств 2 × 2 ». Американский статистик . 47 (2): 91–98. дои : 10.1080/00031305.1993.10475946 .
- ^ Бергер, Р.Л. (1994). «Сравнение мощности точных безусловных критериев для сравнения двух биномиальных пропорций». Институт статистики . Серия Мимео. 2266 : 1–19.