Сила теста

(Перенаправлено с Power (статистика) )

В статистике мощность нулевую проверки бинарной гипотезы — это вероятность того, что тест правильно отклонит гипотезу ( ), когда конкретная альтернативная гипотеза ( ) это правда. Обычно его обозначают , и представляет шансы истинно положительного обнаружения при условии фактического существования эффекта, который необходимо обнаружить. Статистическая мощность варьируется от 0 до 1, и по мере увеличения мощности теста вероятность количество ошибок второго рода из-за ошибочного отказа отвергнуть нулевую гипотезу уменьшается.

Обозначения [ править ]

В этой статье используются следующие обозначения:

  • β = вероятность ошибки второго рода, известной как «ложноотрицательный результат».
  • 1 - β = вероятность «истинно положительного результата», т. е. правильного отклонения нулевой гипотезы. «1 − β » также известен как мощность теста.
  • α = вероятность ошибки типа I, известной как «ложное срабатывание».
  • 1 − α = вероятность «истинно отрицательного результата», т. е. правильного отклонения нулевой гипотезы.
Уровень значимости (α) и мощность (1-β)
это правда неверно
Вероятность отклонения а 1-б
Вероятность принять (не отвергнуть) 1-а б

Описание [ править ]

Иллюстрация мощности и уровня значимости статистического теста с учетом нулевой гипотезы (выборочное распределение 1) и альтернативной гипотезы (выборочное распределение 2).

Для вероятности ошибки типа II β соответствующая статистическая мощность равна 1 − β . Например, если статистическая мощность эксперимента E равна 0,7, а статистическая мощность эксперимента F равна 0,95, то существует более высокая вероятность того, что эксперимент E имел ошибку второго рода, чем эксперимент F. Это снижает чувствительность эксперимента E к обнаружению значимых эффектов. . Однако эксперимент E, следовательно, более надежен, чем эксперимент F, из-за меньшей вероятности ошибки I рода. Ее можно эквивалентно рассматривать как вероятность принятия альтернативной гипотезы ( ), когда это правда – то есть способность теста обнаружить конкретный эффект, если этот конкретный эффект действительно существует. Таким образом,

Если это не равенство, а просто отрицание (так например с для некоторого ненаблюдаемого параметра популяции у нас просто ) то мощность не может быть рассчитана, если не известны вероятности для всех возможных значений параметра, нарушающих нулевую гипотезу. Таким образом, обычно говорят о силе теста против конкретной альтернативной гипотезы .

По мере увеличения мощности снижается вероятность ошибки второго рода, также называемой ложноотрицательной частотой ( β ), поскольку мощность равна 1 − β . Аналогичным понятием является вероятность ошибки типа I , также называемая уровнем ложноположительных результатов или уровнем теста при нулевой гипотезе.

В контексте бинарной классификации мощность теста называется его статистической чувствительностью , истинной положительной частотой или вероятностью обнаружения .

Анализ мощности [ править ]

Родственной концепцией является «анализ мощности». Анализ мощности можно использовать для расчета минимально необходимого размера выборки , чтобы с достаточной вероятностью можно было обнаружить эффект заданного размера . Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она подстроена на определенную сумму?» [1] Анализ мощности также можно использовать для расчета минимального размера эффекта, который может быть обнаружен в исследовании с использованием данного размера выборки. Кроме того, концепция мощности используется для сравнения различных процедур статистического тестирования: например, между параметрическим тестом и непараметрическим тестом одной и той же гипотезы.

Эмпирическое правило [ править ]

Научите это [2] [3] (грубое) эмпирическое правило гласит, что размер выборки (каждая группа) для двустороннего двухвыборочного t-критерия с мощностью 80% ( ) и уровень значимости должно быть:

где - это оценка дисперсии генеральной совокупности и подлежащая обнаружению разница в средних значениях обоих образцов.Для одного выборочного t-критерия 16 следует заменить на 8.Преимущество эмпирического правила в том, что его легко запомнить и можно перегруппировать по мере необходимости. . Однако для подтверждения и уточнения этой оценки всегда следует проводить анализ полной мощности.

В более общем смысле получается: [4] , с это z-показатель для уровня значимости . Например, и , таким образом, как указано выше

Предыстория [ править ]

Статистические тесты используют данные выборок для оценки или вынесения выводов о ней статистической совокупности . В конкретных условиях сравнения двух выборок цель состоит в том, чтобы оценить, различаются ли средние значения некоторого атрибута, полученные для людей в двух подгруппах. Например, чтобы проверить нулевую гипотезу о том, что средние баллы мужчин и женщин по тесту не различаются, выбираются выборки мужчин и женщин, им проводится тест, и средний балл одной группы сравнивается со средним баллом другой группы. другая группа использовала статистический тест, такой как двухвыборочный z -тест . Мощность теста — это вероятность того, что тест обнаружит статистически значимую разницу между мужчинами и женщинами, как функцию размера истинной разницы между этими двумя популяциями.

Факторы, влияющие на власть [ править ]

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичными для конкретной ситуации тестирования, но, как минимум, мощность почти всегда зависит от следующих трех факторов:

Критерий значимости — это утверждение о том, насколько маловероятным должен быть положительный результат, если нулевая гипотеза об отсутствии эффекта верна, чтобы нулевая гипотеза была отклонена. Наиболее часто используемыми критериями являются вероятности 0,05 (5%, 1 из 20), 0,01 (1%, 1 из 100) и 0,001 (0,1%, 1 из 1000). Если критерий равен 0,05, вероятность того, что данные подразумевают эффект, по крайней мере такой же большой, как наблюдаемый эффект, когда нулевая гипотеза верна, должна быть меньше 0,05, чтобы нулевая гипотеза об отсутствии эффекта была отклонена. Один из простых способов повысить эффективность теста — провести менее консервативный тест, используя более высокий критерий значимости, например 0,10 вместо 0,05. Это увеличивает вероятность отклонения нулевой гипотезы (получения статистически значимого результата), когда нулевая гипотеза ложна; то есть это снижает риск ошибки типа II (ложноотрицательный результат в отношении существования эффекта). Но это также увеличивает риск получения статистически значимого результата (отвержения нулевой гипотезы), когда нулевая гипотеза не является ложной; то есть, это увеличивает риск ошибка I рода (ложное срабатывание).

Величину эффекта, представляющего интерес для населения, можно определить количественно с точки зрения размера эффекта , при котором имеется больше возможностей для обнаружения более крупных эффектов. Размер эффекта может быть прямым значением интересующей величины или стандартизированным показателем, который также учитывает изменчивость популяции. Например, при анализе, сравнивающем результаты в группе лечения и контрольной группе, разница в результатах означает будет прямой оценкой размера эффекта, тогда как будет оцененной стандартизованной величиной эффекта, где представляет собой общее стандартное отклонение результатов в обработанной и контрольной группах. При правильном построении стандартизированный размер эффекта вместе с размером выборки будет полностью определять мощность. Нестандартизированная (прямая) величина эффекта редко бывает достаточной для определения мощности, так как не содержит информации об изменчивости измерений.

Пример того, как размер выборки влияет на уровень мощности

Размер выборки определяет величину ошибки выборки, присущей результату теста. При прочих равных условиях эффекты труднее обнаружить в меньших выборках. Увеличение размера выборки часто является самым простым способом повысить статистическую мощность теста. То, как увеличение размера выборки приводит к увеличению мощности, является мерой эффективности теста – например, размер выборки, необходимый для данной мощности. [5]

Точность, с которой измеряются данные, также влияет на статистическую мощность. Следовательно, мощность часто можно повысить за счет уменьшения ошибки измерения в данных. Связанная с этим концепция заключается в повышении «надежности» оцениваемой меры (как в случае с психометрической надежностью ).

План эксперимента или наблюдательного исследования часто влияет на мощность. Например, в ситуации тестирования с двумя выборками и заданным общим размером выборки n оптимально иметь равное количество наблюдений из двух сравниваемых популяций (при условии, что дисперсии в двух совокупностях одинаковы). В регрессионном анализе и дисперсионном анализе существуют обширные теории и практические стратегии улучшения мощности, основанные на оптимальном задании значений независимых переменных в модели.

Интерпретация [ править ]

Хотя формальных стандартов мощности (иногда называемой π [ нужна ссылка ] ), большинство исследователей оценивают мощность своих тестов, используя π = 0,80 в качестве стандарта адекватности. Это соглашение подразумевает соотношение четыре к одному между β -риском и α -риском. ( β — вероятность ошибки II рода, α — вероятность ошибки I рода; 0,2 и 0,05 — условные значения для β и α ). Однако будут случаи, когда такое соотношение 4 к 1 будет неуместным. В медицине, например, тесты часто разрабатываются таким образом, чтобы не давать ложноотрицательных результатов (ошибок II рода). Но это неизбежно повышает риск получения ложноположительного результата (ошибка I рода). Причина в том, что лучше сказать здоровому пациенту: «Возможно, мы что-то нашли — давайте проверим дальше», чем сказать больному пациенту: «Все в порядке». [6]

Анализ мощности уместен, когда речь идет о правильном отклонении ложной нулевой гипотезы. Во многих случаях проблема заключается не столько в определении наличия или отсутствия разницы, сколько в получении более точной оценки размера популяционного эффекта. Например, если бы мы ожидали, что популяционная корреляция между интеллектом и производительностью труда составит около 0,50, размер выборки в 20 человек даст нам примерно 80% мощности ( α = 0,05, двусторонняя) для отклонения нулевой гипотезы о нулевой корреляции. Однако при проведении этого исследования нас, вероятно, больше интересует узнать, составляет ли корреляция 0,30, 0,60 или 0,50. В этом контексте нам понадобится гораздо больший размер выборки, чтобы уменьшить доверительный интервал нашей оценки до диапазона, приемлемого для наших целей. Методы, аналогичные тем, которые используются в традиционном анализе мощности, могут использоваться для определения размера выборки, необходимого для того, чтобы ширина доверительного интервала была меньше заданного значения.

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одной, являются мешающими параметрами . В этом случае единственная значимая степень относится к одной величине, которая подлежит формальному статистическому выводу. В некоторых ситуациях, особенно если цели носят более «исследовательский» характер, анализ может представлять интерес для ряда величин. Например, в множественный регрессионный анализ мы можем включить несколько ковариат, представляющих потенциальный интерес. В подобных ситуациях, когда рассматриваются несколько гипотез, обычно полномочия, связанные с разными гипотезами, различаются. Например, в множественном регрессионном анализе способность обнаружения эффекта заданной величины связана с дисперсией ковариаты. Поскольку разные ковариаты будут иметь разные дисперсии, их степени также будут различаться.

Любой статистический анализ, включающий несколько гипотез , может привести к увеличению частоты ошибок первого рода, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы, чтобы компенсировать проводимые множественные сравнения ( например , как в методе Бонферрони ). В этой ситуации анализ мощности должен отражать используемый подход множественного тестирования. Так, например, данное исследование может иметь достаточную мощность для обнаружения определенной величины эффекта, когда необходимо провести только один тест, но тот же размер эффекта может иметь гораздо меньшую мощность, если необходимо выполнить несколько тестов.

Также важно учитывать статистическую мощность проверки гипотезы при интерпретации ее результатов. Мощность теста — это вероятность правильного отклонения нулевой гипотезы, если она ложна; На мощность теста влияет выбор уровня значимости теста, величина измеряемого эффекта и количество доступных данных. Проверка гипотезы может не отклонить нулевое значение, например, если существует истинная разница между двумя совокупностями, сравниваемыми с помощью t-критерия , но эффект невелик, а размер выборки слишком мал, чтобы отличить эффект от случайной случайности. [7] Многие клинические исследования , например, имеют низкую статистическую мощность для выявления различий в побочных эффектах лечения, поскольку такие эффекты могут быть редкими, а число затронутых пациентов небольшим. [8]

Априорный и постфактум анализ

Анализ мощности можно проводить либо до ( априорный или перспективный анализ мощности), либо после ( последующий или ретроспективный анализ мощности) сбора данных. Априорный анализ мощности проводится до начала исследования и обычно используется для оценки размера выборки, достаточного для достижения адекватной мощности. Апостериорный анализ «наблюдаемой мощности» проводится после завершения исследования и использует полученный размер выборки и размер эффекта для определения мощности в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта. в населении. В то время как полезность перспективного анализа мощности при планировании эксперимента общепризнана, апостериорный анализ мощности фундаментально ошибочен. [9] [10] Поддавшись искушению использовать статистический анализ собранных данных для оценки мощности, вы получите неинформативные и вводящие в заблуждение значения. В частности, было показано, что апостериорная «наблюдаемая мощность» является взаимно однозначной функцией p достигнутого значения . [9] Это было расширено, чтобы показать, что все апостериорные анализы власти страдают от так называемого «парадокса властного подхода» (PAP), в котором считается, что исследование с нулевым результатом дает больше доказательств того, что нулевая гипотеза на самом деле верна, когда значение p меньше, поскольку кажущаяся способность обнаружить реальный эффект будет выше. [9] Фактически, p правильно понимается, что меньшее значение делает нулевую гипотезу относительно менее вероятной. [ нужна ссылка ]

Приложение [ править ]

Финансирующие агентства, советы по этике и комиссии по обзору исследований часто просят исследователя провести анализ мощности, например, чтобы определить минимальное количество подопытных животных, необходимое для того, чтобы эксперимент был информативным. В частотной статистике маломощное исследование вряд ли позволит выбирать между гипотезами на желаемом уровне значимости. В байесовской статистике не проводится проверка гипотез, подобная той, которая используется в классическом анализе мощности. В рамках байесовской модели человек обновляет свои предыдущие убеждения, используя данные, полученные в ходе конкретного исследования. В принципе, исследование, которое можно было бы считать недостаточным с точки зрения проверки гипотез, все же может быть использовано в таком процессе обновления. Однако мощность остается полезным показателем того, насколько можно ожидать, что данный размер эксперимента улучшит убеждения. Исследование с низкой мощностью вряд ли приведет к значительному изменению убеждений.

Пример [ править ]

Ниже приведен пример, показывающий, как вычислить мощность рандомизированного эксперимента. Предположим, цель эксперимента состоит в том, чтобы изучить влияние лечения на некоторую величину, и сравнить участников исследования, измеряя величину до и после лечения, анализируя данные с использованием парного t-теста . Позволять и обозначают меры до и после лечения субъекта , соответственно. Возможный эффект лечения должен быть виден в различиях. которые предполагаются независимо распределенными, все с одинаковым ожидаемым средним значением и дисперсией.

Эффект лечения можно проанализировать с помощью одностороннего t-теста. Нулевая гипотеза об отсутствии эффекта будет состоять в том, что средняя разница будет равна нулю, т.е. В этом случае альтернативная гипотеза констатирует положительный эффект, соответствующий Статистика теста :

где

n — размер выборки и это стандартная ошибка. Статистика теста при нулевой гипотезе соответствует t-распределению Стьюдента с дополнительным предположением, что данные распределены одинаково. . Кроме того, предположим, что нулевая гипотеза будет отвергнута на уровне значимости Поскольку n велико, можно аппроксимировать t-распределение нормальным распределением и вычислить критическое значение с помощью функции квантиля , обратная кумулятивной функции распределения нормального распределения. Оказывается, нулевая гипотеза будет отвергнута, если

Теперь предположим, что альтернативная гипотеза верна и . Тогда сила

Для n больших приблизительно соответствует стандартному нормальному распределению , когда альтернативная гипотеза верна, приблизительную мощность можно рассчитать как

Согласно этой формуле мощность увеличивается с ростом значения параметра За конкретную стоимость более высокую мощность можно получить, увеличив размер выборки n .

Невозможно гарантировать достаточно большую мощность для всех значений как может быть очень близко к 0. Минимальное ( нижнее ) значение степени равно доверительному уровню теста, в этом примере 0,05. Однако не имеет значения различать и небольшие положительные значения. Если желательно иметь достаточную мощность, скажем, не менее 0,90, для определения значений необходимый размер выборки можно приблизительно рассчитать:

из чего следует, что

Следовательно, используя функцию квантиля

где – стандартный нормальный квантиль; обратитесь к статье Пробит для объяснения взаимосвязи между и z-значения.

Расширение [ править ]

Байесовская сила [ править ]

В частотной настройке предполагается, что параметры имеют определенное значение, которое вряд ли соответствует действительности. Эту проблему можно решить, если предположить, что параметр имеет распределение. Полученную мощность иногда называют байесовской мощностью, которая обычно используется при планировании клинических исследований .

успеха Прогнозируемая вероятность

Как частотная мощность, так и байесовская мощность используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Чтобы решить эту проблему, концепцию власти можно расширить до концепции прогнозируемой вероятности успеха (PPOS). Критерий успеха PPOS не ограничивается статистической значимостью и обычно используется в дизайне клинических исследований .

мощности и выборки Программное обеспечение для расчета размера

Для расчета мощности и размера выборки доступны многочисленные бесплатные программы и/или программы с открытым исходным кодом. К ним относятся

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Бесплатный онлайн-статистический анализ мощности ( https://webpower.psychstat.org )
  • Бесплатные онлайн-калькуляторы с открытым исходным кодом ( https://powerandsamplesize.com )
  • Усиление! предоставляет удобные функции на основе Excel для определения минимального обнаруживаемого размера эффекта и минимально необходимого размера выборки для различных экспериментальных и квазиэкспериментальных планов.
  • PowerUpR — это версия пакета R PowerUp! и дополнительно включает функции для определения размера выборки для различных многоуровневых рандомизированных экспериментов с бюджетными ограничениями или без них.
  • Мощность пакета R
  • Пакет R WebPower
  • Статистические модели пакета Python ( https://www.statsmodels.org/ )

См. также [ править ]

Ссылки [ править ]

  1. ^ «Статистическая мощь и недостаточная статистика — статистика сделана неправильно» . www.statisticsdonewrong.com . Проверено 30 сентября 2019 г.
  2. ^ Роберт Лер (1992), «Шестнадцать S в квадрате над D-квадратом: соотношение для приблизительных оценок размера выборки», Статистика в медицине (на немецком языке), vol. 11, нет. 8, стр. 1099–1102, doi : 10.1002/sim.4780110811 , ISSN   0277-6715.
  3. ^ Ван Белль, Джеральд (18 августа 2008 г.). Практические статистические правила, второе издание . Ряд Уайли по вероятности и статистике. John Wiley & Sons, Inc. Хобокен, Нью-Джерси, США: ISBN  978-0-470-37796-3 .
  4. ^ Оценка размера выборки в клинических исследованиях от рандомизированных контролируемых исследований до наблюдательных исследований, 2020, doi: 10.1016/j.chest.2020.03.010, Сяофэн Ван, доктор философии; и Синге Цзи, MS pdf
  5. ^ Эверитт, Брайан С. (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. п. 321. ИСБН  0-521-81099-Х .
  6. ^ Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощность, метаанализ и интерпретацию результатов исследований . Соединенное Королевство: Издательство Кембриджского университета.
  7. ^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. п. 52. ИСБН  978-0521142465 .
  8. ^ Цанг, Р.; Колли, Л.; Линд, Л.Д. (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в частоте нежелательных явлений в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии . 62 (6): 609–616. дои : 10.1016/j.jclinepi.2008.08.005 . ПМИД   19013761 .
  9. ^ Jump up to: а б с Хёниг; Хейси (2001). «Злоупотребление властью». Американский статистик . 55 (1): 19–24. дои : 10.1198/000313001300339897 .
  10. ^ Томас, Л. (1997). «Ретроспективный анализ мощности» (PDF) . Биология сохранения . 11 (1): 276–280.

Источники [ править ]

  • Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.). ISBN  0-8058-0283-5 .
  • Аберсон, CL (2010). Прикладной анализ мощности в поведенческой науке . ISBN  1-84872-835-2 .

Внешние ссылки [ править ]