тест Бошлоо

Тест Бошлоо — это проверка статистической гипотезы для анализа таблиц непредвиденных обстоятельств 2х2 . Он исследует связь двух распределенных по Бернулли случайных величин, , и является более мощной альтернативой точному критерию Фишера . Он был предложен в 1970 году Р.Д. Бошлоо. ^{[ 1 ]}

Параметр

Таблица непредвиденных обстоятельств 2 × 2 визуализирует $\ n\$ независимые наблюдения двух бинарных переменных $\ A\$ и $\ B\$ :

{\begin{array}{c|cc|c}&B=1&B=0&{\mbox{Total}}\\\hline A=1&x_{11}&x_{10}&n_{1}\\A=0&x_{01}&x_{00}&n_{0}\\\hline {\mbox{Total}}&s_{1}&s_{0}&n\\\end{array}}

Распределение вероятностей таких таблиц можно разделить на три отдельных случая. ^{[ 2 ]}

Сумма строк $\ n_{1}\ ,n_{0}\$ и суммы столбцов $\ s_{1}\ ,s_{0}\$ фиксированы заранее и не случайны.
Тогда все $\ x_{ij}\$ определяются $\ x_{11}~.$ Если $\ A\$ и $\ B\$ независимы, $\ x_{11}\$ следует гипергеометрическому распределению с параметрами $\ n\ ,n_{1}\ ,s_{1}\ :$
$\ x_{11}\ \sim \ {\mbox{Hypergeometric}}(\ n\ ,n_{1}\ ,s_{1}\ )~.$
Сумма строк $\ n_{1}\ ,n_{0}\$ фиксированы заранее, но суммы столбцов $\ s_{1}\ ,s_{0}\$ нет.
Тогда все случайные параметры определяются формулой $\ x_{11}\$ и $x_{01}\$ и $\ x_{11}\ ,x_{01}\$ следовать биномиальному распределению с вероятностями $\ p_{1}\ ,p_{0}\ :$
$\ x_{11}\ \sim \ B(\ n_{1}\ ,p_{1}\ )\$
$\ x_{01}\ \sim \ B(\ n_{0}\ ,p_{0}\ )\$
Только общее количество $\ n\$ фиксировано, но суммы строк $\ n_{1}\ ,n_{0}\$ и суммы столбцов $\ s_{1}\ ,s_{0}\$ нет.
Тогда случайный вектор $\ (\ x_{11},x_{10}\ ,x_{01}\ ,x_{00}\ )\$ следует полиномиальному распределению с вектором вероятности $\ (p_{11}\ ,p_{10}\ ,p_{01}\ ,p_{00}\ )~.$

Тип эксперимента 1: Редкий эксперимент по проверке вкуса, полностью ограниченный.

Точный критерий Фишера предназначен для первого случая и, следовательно, является точным условным тестом (поскольку он зависит от сумм в столбцах). Типичным примером такого случая является дама, дегустирующая чай : дама пробует 8 чашек чая с молоком. В 4 из этих чашек перед чаем наливают молоко. В остальные 4 чашки чай наливается первым.

Дама пытается отнести чашки к двум категориям. Следуя нашим обозначениям, случайная величина $\ A\$ представляет использованный метод (1 = сначала молоко, 0 = молоко последним) и $\ B\$ представляет догадки дамы (1 = молоко угадано первым, 0 = молоко угадано последним). Тогда суммы строк представляют собой фиксированное количество чашек, приготовленных каждым методом: $\ n_{1}=4\ ,n_{0}=4~.$ Девушка знает, что в каждой категории по 4 чашки, поэтому назначит по 4 чашки каждому методу. Таким образом, суммы столбцов также фиксированы заранее: $\ s_{1}=4\ ,s_{0}=4~.$ Если она не в состоянии заметить разницу, $\ A\$ и $\ B\$ независимы, а число $\ x_{11}\$ правильно классифицированных чашек с молоком сначала следует гипергеометрическому распределению $\ {\mbox{Hypergeometric}}(8,4,4)~.$

Тип эксперимента 2: Обычный лабораторный контролируемый эксперимент, ограничен только один предел.

Тест Бошлоо предназначен для второго случая и, следовательно, является точным безусловным тестом. Примеры такого случая часто встречаются в медицинских исследованиях, где бинарная конечная точка сравнивается между двумя группами пациентов. Следуя нашим обозначениям, $\ A=1\$ представляет собой первую группу, которая получает интересующие лекарства. $\ A=0\$ представляет вторую группу, получающую плацебо . $B$ указывает на излечение пациента (1 = излечение, 0 = отсутствие лечения). Тогда суммы строк равны размерам групп и обычно фиксируются заранее. Суммы в столбцах представляют собой общее количество излечений или продолжений заболевания и не зафиксированы заранее.

Тип эксперимента 3: полевое наблюдение, никаких предельных ограничений.

Критерий хи-квадрат Пирсона (без какой-либо «поправки на непрерывность») является правильным выбором для третьего случая, когда нет ограничений ни на итоги строк, ни на итоги столбцов. Этот третий сценарий описывает большинство наблюдательных исследований или «полевых наблюдений», где данные собираются по мере их доступности в неконтролируемой среде. Например, если кто-то собирается собирать два типа бабочек определенного заранее определенного идентифицируемого цвета, который можно распознать до отлова, однако невозможно отличить бабочку от вида 1 или вида 0; прежде чем ее поймают и внимательно осмотрят: по ее цвету можно просто сказать, что преследуемая бабочка должна принадлежать к одному из двух представляющих интерес видов. Для любого однодневного сбора бабочек нельзя заранее определить, сколько особей каждого вида будет собрано, возможно только общее количество отловов, в зависимости от критерия остановки, установленного сборщиком. Если виды подсчитываются в отдельных строках таблицы, то суммы строк являются неограниченными и независимо биномиально распределяются. Второе различие между пойманными бабочками будет заключаться в том, является ли бабочка самкой (тип 1) или самцом (тип 0), что указано в столбцах. Если ее пол также требует тщательного изучения бабочки, это также является независимым биномиально случайным. Это означает, что из-за В экспериментальном плане суммы в столбцах не ограничены, как и в строках: ни подсчет ни одного из видов, ни подсчет пола пойманных бабочек каждого вида не предопределены процессом наблюдения, и ни одна сумма не ограничивает другую.

Единственное возможное ограничение — это общая сумма всех пойманных бабочек, и даже оно само по себе может быть неограниченным, в зависимости от того, как коллекционер решит остановиться. Но поскольку невозможно заранее достоверно знать для какого-либо конкретного дня на каком-либо конкретном лугу, насколько успешными могут быть поиски в течение времени, доступного для сбора, даже общая сумма может быть неограниченной: это зависит от того, является ли ограничением на собранные данные время доступны для ловли бабочек, или необходимо собрать некую заранее определенную сумму, возможно, для обеспечения достаточно значимой статистики.

Этот тип «эксперимента» (также называемый «полевым наблюдением») почти полностью неконтролируем, поэтому некоторые предпочитают называть его только «наблюдением», а не «экспериментом». Все числа в таблице независимо случайны. Каждая из ячеек таблицы сопряженности представляет собой отдельную биномиальную вероятность, и ни полностью ограниченный «точный» критерий Фишера, ни частично ограниченный критерий Бошлоо не основаны на статистике, полученной в результате плана эксперимента. Критерий хи-квадрат Пирсона является подходящим тестом для неограниченного наблюдательного исследования, а критерий Пирсона, в свою очередь, использует неправильную статистическую модель для двух других типов экспериментов. (Попутно заметим, что к статистике хи-квадрат Пирсона никогда не следует применять какую-либо «поправку на непрерывность», например, «поправку Йейтса»: следствием этой «поправки» будет искажение ее $p$ значений для соответствия тест Фишера, т.е. дать неправильный ответ.)

Проверка гипотезы

Нулевая гипотеза Бошлоо одностороннего критерия (высокие значения $x_{1}$ в пользу альтернативной гипотезы):

H_{0}:p_{1}\leq p_{0}

Нулевая гипотеза одностороннего критерия может быть сформулирована и в другую сторону (малые значения $x_{1}$ в пользу альтернативной гипотезы):

H_{0}:p_{1}\geq p_{0}

Нулевая гипотеза двустороннего критерия такова:

H_{0}:p_{1}=p_{0}

Не существует универсального определения двусторонней версии точного критерия Фишера. ^{[ 3 ]} Поскольку критерий Бошлоо основан на точном тесте Фишера, универсальной двусторонней версии теста Бошло также не существует. Далее мы будем иметь дело с односторонним тестом и $H_{0}:p_{1}\leq p_{0}$ .

Идея Бошлоо

Обозначим желаемый уровень значимости через $\alpha$ . Точный критерий Фишера является условным критерием и подходит для первого из вышеупомянутых случаев. Но если мы рассмотрим наблюдаемую сумму столбца $s_{1}$ как установлено заранее, точный критерий Фишера можно применить и ко второму случаю. Истинный размер теста тогда зависит от мешающих параметров. $p_{1}$ и $p_{0}$ . Можно показать, что максимальный размер $\max \limits _{p_{1}\leq p_{0}}{\big (}{\mbox{size}}(p_{1},p_{0}){\big )}$ берется в равных пропорциях $p=p_{1}=p_{0}$ ^{[ 4 ]} и до сих пор контролируется $\alpha$ . ^{[ 1 ]} Однако Бошлоо заявил, что для небольших размеров выборки максимальный размер часто значительно меньше, чем $\alpha$ . Это приводит к нежелательной потере мощности .

Бошлоо предложил использовать точный критерий Фишера с большим номинальным уровнем. $\alpha ^{*}>\alpha$ . Здесь, $\alpha ^{*}$ должен быть выбран как можно большим, чтобы максимальный размер все еще контролировался $\alpha$ : $\max \limits _{p\in [0,1]}{\big (}{\mbox{size}}(p){\big )}\leq \alpha$ . Этот метод был особенно выгоден на момент публикации Бошлоо, потому что $\alpha ^{*}$ можно найти общие значения $\alpha ,n_{1}$ и $n_{0}$ . Это облегчило выполнение теста Бошлоо в вычислительном отношении.

Статистика тестирования

подхода Решающее правило Бошло основано на точном тесте Фишера. Эквивалентный способ формулировки теста — использовать значение p точного критерия Фишера в качестве статистики теста . P-значение Фишера рассчитывается из гипергеометрического распределения (для удобства записи мы пишем $x_{1},x_{0}$ вместо $x_{11},x_{01}$ ):

p_{F}=1-F_{{\mbox{Hypergeometric}}(n,n_{1},x_{1}+x_{0})}(x_{1}-1)

Распределение $p_{F}$ определяется биномиальными распределениями $x_{1}$ и $x_{0}$ и зависит от неизвестного мешающего параметра $p$ . Для заданного уровня значимости $\alpha ,$ критическое значение $p_{F}$ это максимальное значение $\alpha ^{*}$ это удовлетворяет $\max \limits _{p\in [0,1]}P(p_{F}\leq \alpha ^{*})\leq \alpha$ . Критическое значение $\alpha ^{*}$ равен номинальному уровню оригинального подхода Бошлоо.

Модификация

Тест Бошлоо касается неизвестного параметра помех. $p$ взяв максимум по всему пространству параметров $[0,1]$ . Процедура Бергера и Бооса использует другой подход, максимизируя $P(p_{F}\leq \alpha ^{*})$ над $(1-\gamma )$ доверительный интервал $p=p_{1}=p_{0}$ и добавление $\gamma$ . ^{[ 5 ]} $\gamma$ обычно представляет собой небольшое значение, например 0,001 или 0,0001. В результате получается модифицированный тест Бошлоо, который также является точным. ^{[ 6 ]}

Сравнение с другими точными тестами

Все точные тесты имеют определенный уровень значимости, но могут иметь разную мощность в разных ситуациях. Мехротра и др. сравнили мощность некоторых точных тестов в разных ситуациях. ^{[ 6 ]} Результаты теста Бошлоо суммированы ниже.

Модифицированный тест Бошлоо.

Тест Бошлоо и модифицированный тест Бошлоо имеют одинаковую мощность во всех рассмотренных сценариях. В некоторых случаях тест Бошлоо имеет немного большую эффективность, а в некоторых – наоборот.

Точный тест Фишера

Тест Бошлоо по своей конструкции одинаково более мощный, чем точный тест Фишера. Для небольших размеров выборки (например, 10 на группу) разница в мощности велика и составляет от 16 до 20 процентных пунктов в рассматриваемых случаях. Разница в мощности меньше для больших размеров выборки.

Точный тест Z-пула

Этот тест основан на статистике теста

Z_{P}(x_{1},x_{0})={\frac {{\hat {p}}_{1}-{\hat {p}}_{0}}{\sqrt {{\tilde {p}}(1-{\tilde {p}})({\frac {1}{n_{1}}}+{\frac {1}{n_{0}}})}}},

где ${\hat {p}}_{i}={\frac {x_{i}}{n_{i}}}$ тарифы на групповые мероприятия и ${\tilde {p}}={\frac {x_{1}+x_{0}}{n_{1}+n_{0}}}$ — это объединенная частота событий.

Сила этого теста аналогична тесту Бошлоо в большинстве сценариев. В некоторых случаях $Z$ - Объединенный тест имеет большую мощность, различия в основном составляют от 1 до 5 процентных пунктов. В очень редких случаях разница достигает 9 процентных пунктов.

Этот тест также можно модифицировать с помощью процедуры Бергера и Бооса. Однако полученный тест во всех сценариях имеет очень схожую мощность с немодифицированным тестом.

Точный тест Z-Unpooled

Этот тест основан на статистике теста

Z_{U}(x_{1},x_{0})={\frac {{\hat {p}}_{1}-{\hat {p}}_{0}}{\sqrt {{\frac {{\hat {p}}_{1}(1-{\hat {p}}_{1})}{n_{1}}}+{\frac {{\hat {p}}_{0}(1-{\hat {p}}_{0})}{n_{0}}}}}},

где ${\hat {p}}_{i}={\frac {x_{i}}{n_{i}}}$ — это тарифы на групповые мероприятия.

Сила этого теста аналогична тесту Бошло во многих сценариях. В некоторых случаях $Z$ -Необъединенный тест имеет большую мощность, различия варьируются от 1 до 5 процентных пунктов. Однако в некоторых других случаях тест Бошлоо имеет заметно большую мощность, с различиями до 68 процентных пунктов.

Этот тест также можно модифицировать с помощью процедуры Бергера и Бооса. Полученный тест в большинстве сценариев имеет такую же мощность, как и немодифицированный тест. В некоторых случаях мощность значительно увеличивается за счет модификации, но общее сравнение мощности с тестом Бошлоо остается неизменным.

Программное обеспечение

Расчет теста Бошлоо можно выполнить в следующем программном обеспечении:

Функция scipy.stats.boschloo_exact из SciPy
Пакеты Exact и Exact2x2 языка программирования R
StatXact

См. также

Ссылки

^ Перейти обратно: ^а ^б Бошлоо Р.Д. (1970). «Повышенный условный уровень значимости для таблицы 2 x 2 при проверке равенства двух вероятностей». Статистика Неерландики . 24 : 1–35. дои : 10.1111/j.1467-9574.1970.tb00104.x .
^ Лидерсен, С.; Фагерланд, МВт; Лааке, П. (2009). «Рекомендуемые тесты на ассоциации в таблицах 2×2 ». Статист. Мед . 28 (7): 1159–1175. дои : 10.1002/sim.3531 . ПМИД 19170020 . S2CID 3900997 .
^ Мартин Андрес А. и И. Эрранс Техедор (1995). «Является ли точный тест Фишера очень консервативным?». Вычислительная статистика и анализ данных . 19 (5): 579–591. дои : 10.1016/0167-9473(94)00013-9 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Финнер Х. и Страсбургер К. (2002). «Структурные свойства UMPU-тестов для таблиц 2х2 и некоторых приложений». Журнал статистического планирования и выводов . 104 : 103–120. дои : 10.1016/S0378-3758(01)00122-7 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Бергер Р.Л. и Боос Д.Д. (1994). «Значения P, максимизированные по доверительному набору для параметра помехи» . Журнал Американской статистической ассоциации . 89 (427): 1012–1016. дои : 10.2307/2290928 . JSTOR 2290928 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Перейти обратно: ^а ^б Мехротра Д.В., Чан ISF и Бергер Р.Л. (2003). «Предупреждение о точном безусловном выводе о разнице между двумя независимыми биномиальными пропорциями» . Биометрия . 59 (2): 441–450. дои : 10.1111/1541-0420.00051 . ПМИД 12926729 . S2CID 28556526 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[Boschloo-1] Перейти обратно: ^а ^б Бошлоо Р.Д. (1970). «Повышенный условный уровень значимости для таблицы 2 x 2 при проверке равенства двух вероятностей». Статистика Неерландики . 24 : 1–35. дои : 10.1111/j.1467-9574.1970.tb00104.x .

[Lydersen-2] Лидерсен, С.; Фагерланд, МВт; Лааке, П. (2009). «Рекомендуемые тесты на ассоциации в таблицах 2×2 ». Статист. Мед . 28 (7): 1159–1175. дои : 10.1002/sim.3531 . ПМИД 19170020 . S2CID 3900997 .

[MartinAndres-3] Мартин Андрес А. и И. Эрранс Техедор (1995). «Является ли точный тест Фишера очень консервативным?». Вычислительная статистика и анализ данных . 19 (5): 579–591. дои : 10.1016/0167-9473(94)00013-9 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[Finner-4] Финнер Х. и Страсбургер К. (2002). «Структурные свойства UMPU-тестов для таблиц 2х2 и некоторых приложений». Журнал статистического планирования и выводов . 104 : 103–120. дои : 10.1016/S0378-3758(01)00122-7 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[BergerBoos-5] Бергер Р.Л. и Боос Д.Д. (1994). «Значения P, максимизированные по доверительному набору для параметра помехи» . Журнал Американской статистической ассоциации . 89 (427): 1012–1016. дои : 10.2307/2290928 . JSTOR 2290928 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[Mehrotra-6] Перейти обратно: ^а ^б Мехротра Д.В., Чан ISF и Бергер Р.Л. (2003). «Предупреждение о точном безусловном выводе о разнице между двумя независимыми биномиальными пропорциями» . Биометрия . 59 (2): 441–450. дои : 10.1111/1541-0420.00051 . ПМИД 12926729 . S2CID 28556526 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]