Мощность (статистика)

В частотной статистике . мощность — это мера способности экспериментального плана и установки для проверки гипотез обнаружить конкретный эффект, если он действительно присутствует При типичном использовании это функция используемого теста (включая желаемый уровень статистической значимости ), предполагаемого распределения теста (например, степени вариабельности и размера выборки ) и размера эффекта интересующего . Высокая статистическая мощность связана с низкой вариабельностью, большими размерами выборки, искомыми большими эффектами и менее строгими требованиями к статистической значимости.

Более формально, в случае простой проверки гипотезы с двумя гипотезами, мощность теста — это вероятность того, что тест правильно отклонит нулевую гипотезу ( $H_{0}$ ), когда альтернативная гипотеза ( $H_{1}$ ) это правда. Обычно его обозначают $1-\beta$ , где $\beta$ — это вероятность совершения ошибки второго рода ( ложноотрицательного результата ), если имеется истинный эффект или ассоциация.

Фон

Статистическое тестирование использует данные выборок для оценки или формирования выводов о ней статистической совокупности . Например, мы можем измерить урожайность образцов двух сортов сельскохозяйственной культуры и использовать тест с двумя выборками, чтобы оценить, различаются ли средние значения этой урожайности между сортами.

В рамках частотной проверки гипотез это делается путем расчета тестовой статистики (например, t-статистики ) для набора данных, которая имеет известное теоретическое распределение вероятностей, если нет разницы (так называемая нулевая гипотеза). Если фактическое значение, рассчитанное для выборки, вряд ли возникнет при нулевой гипотезе, мы говорим, что выявили статистически значимый эффект.

Порог значимости можно установить небольшим, чтобы исключить вероятность ошибочного обнаружения несуществующего эффекта. Однако отсутствие существенного эффекта не означает, что его не было. Если мы будем настаивать на том, чтобы избегать ложных срабатываний, вместо этого мы можем создать ложноотрицательные результаты. Возможно, было бы просто слишком много ожидать, что мы сможем найти достаточно убедительные доказательства очень тонкой разницы, даже если она существует. Статистическая мощность – это попытка дать количественную оценку этой проблемы.

В случае сравнения двух сортов сельскохозяйственных культур это позволяет нам ответить на такие вопросы, как:

Существует ли большая опасность того, что два очень разных сорта произведут образцы, которые по чистой случайности будут выглядеть неотличимыми?
Сколько усилий нам нужно приложить к этому сравнению, чтобы избежать этой опасности?
Насколько разными должны быть эти разновидности, чтобы мы могли заметить разницу?

Описание

Иллюстрация мощности статистического теста для двустороннего теста через распределение вероятностей статистики теста при нулевой и альтернативной гипотезе. α показано синей областью , вероятностью отклонения при нулевом значении, а красная область показывает степень, 1 - β , вероятность правильного отклонения при альтернативе.

Предположим, мы проводим проверку гипотезы. Мы определяем две гипотезы $H_{0}$ нулевая гипотеза и $H_{1}$ альтернативная гипотеза. Если мы спроектируем тест таким образом, что α будет уровнем значимости, то есть вероятностью отклонения $H_{0}$ когда $H_{0}$ на самом деле верно, то мощность теста равна 1 - β , где β — вероятность не отклонить тест. $H_{0}$ когда альтернатива $H_{1}$ это правда.

	Вероятность отклонения $H_{0}$	Вероятность не отклонить $H_{0}$
Если $H_{0}$ это правда	а	1-а
Если $H_{1}$ это правда	1-б (силовой)	б

Чтобы сделать это более конкретным, типичный статистический тест будет основан на тестовой статистике t, рассчитанной на основе выборочных данных, которая имеет определенное распределение вероятностей при $H_{0}$ . Желаемый уровень значимости α тогда будет определять соответствующую «область отклонения» (ограниченную определенными «критическими значениями»), набор значений t вряд ли примет, если $H_{0}$ было правильно. Если мы отвергнем $H_{0}$ в пользу $H_{1}$ только когда выборка t принимает эти значения, мы сможем сохранить вероятность ложного отклонения $H_{0}$ в пределах желаемого уровня значимости. В то же время, если $H_{1}$ определяет свое собственное распределение вероятностей для t (разница между двумя распределениями является функцией величины эффекта), мощность теста будет равна вероятности при $H_{1}$ , что образец t попадает в определенную нами область отклонения и вызывает $H_{0}$ быть правильно отвергнутым.

Статистическая мощность равна единице минус вероятность ошибки типа II, а также чувствительности процедуры проверки гипотезы к обнаружению истинного эффекта. Обычно существует компромисс между требованием более строгих тестов (и, следовательно, меньших областей отклонения) и попыткой получить высокую вероятность отклонения нуля в соответствии с альтернативной гипотезой. Статистическая мощность также может быть распространена на случай, когда несколько гипотез на основе эксперимента или опроса проверяются . Таким образом, также принято говорить о силе исследования , оценивая научный проект с точки зрения его способности ответить на исследовательские вопросы, на которые они пытаются ответить.

Приложения

Основным применением статистической мощности является «анализ мощности», расчет мощности, обычно выполняемый перед проведением эксперимента с использованием данных пилотных исследований или обзора литературы. Анализ мощности можно использовать для расчета минимально необходимого размера выборки , чтобы с достаточной вероятностью можно было обнаружить эффект заданного размера (другими словами, обеспечить приемлемый уровень мощности). Например: «Сколько раз мне нужно подбросить монету, чтобы сделать вывод, что она подтасована на определенную сумму?» ^{[ 1 ]} Если ресурсы и, следовательно, размеры выборки фиксированы, анализ мощности также можно использовать для расчета минимального размера эффекта, который может быть обнаружен.

Финансирующие агентства, советы по этике и комиссии по обзору исследований часто просят исследователя провести анализ мощности. Исследование с недостаточной статистикой, скорее всего, будет безрезультатным, поскольку не позволит выбирать между гипотезами на желаемом уровне значимости, в то время как исследование с недостаточным уровнем значимости потребует больших затрат на возможность сообщить о значительных эффектах, даже если они незначительны и поэтому практически бессмысленны. Если проводится большое количество исследований с недостаточной статистикой и публикуются статистически значимые результаты , опубликованные результаты скорее являются ложноположительными, чем истинными результатами, что способствует кризису репликации . Однако чрезмерные требования к мощности могут быть связаны с напрасной тратой ресурсов и этическими проблемами, например, с использованием большого количества подопытных животных, хотя меньшего количества было бы достаточно. Это также может побудить исследователей, пытающихся найти финансирование, преувеличивать ожидаемые размеры эффекта или избегать поиска более тонких эффектов взаимодействия, которые нелегко обнаружить. ^{[ 2 ]}

Анализ мощности — это, прежде всего, инструмент частой статистики . В байесовской статистике не проводится проверка гипотез, подобная той, которая используется в классическом анализе мощности. В рамках байесовской модели человек обновляет свои предыдущие убеждения, используя данные, полученные в ходе конкретного исследования. В принципе, исследование, которое можно было бы считать недостаточным с точки зрения проверки гипотез, все же может быть использовано в таком процессе обновления. Однако мощность остается полезным показателем того, насколько можно ожидать, что данный размер эксперимента улучшит убеждения. Исследование с низкой мощностью вряд ли приведет к значительному изменению убеждений.

Кроме того, концепция мощности используется для сравнения различных процедур статистического тестирования: например, между параметрическим тестом и непараметрическим тестом одной и той же гипотезы. Тесты могут иметь одинаковый размер и, следовательно, одинаковый уровень ложноположительных результатов, но разную способность обнаруживать истинные эффекты. Рассмотрение их теоретических свойств является ключевой причиной широкого использования тестов отношения правдоподобия .

Эмпирическое правило для t-теста

Лера ^{[ 3 ]}^{[ 4 ]} (грубое) эмпирическое правило гласит, что размер выборки $n$ (для каждой группы) для общего случая двустороннего двухвыборочного t-критерия с мощностью 80% ( $\beta =0.2$ ) и уровень значимости $\alpha =0.05$ должно быть: $n\approx 16{\frac {s^{2}}{d^{2}}},$ где $s^{2}$ - это оценка дисперсии генеральной совокупности и $d=\mu _{1}-\mu _{2}$ подлежащая обнаружению разница в средних значениях обоих образцов. Это выражение можно изменить, подразумевая, например, что 80% мощности получается при поиске разницы в средних значениях, которая примерно в 4 раза превышает групповую стандартную ошибку среднего .

Для одного выборочного t-критерия 16 следует заменить на 8. Другие значения обеспечивают подходящую аппроксимацию, если желаемая мощность или уровень значимости различны. ^{[ 5 ]}

Однако для подтверждения и уточнения этой оценки всегда следует проводить анализ полной мощности.

Факторы, влияющие на мощность

Статистическая мощность может зависеть от ряда факторов. Некоторые факторы могут быть специфичными для конкретной ситуации тестирования, но при обычном использовании мощность зависит от следующих трех аспектов, которые потенциально может контролировать практикующий специалист:

сам тест и статистической значимости используемый критерий
величина эффекта процентов
размер эффекта и изменчивость выборки, используемой для обнаружения

Для данного теста критерий значимости определяет желаемую степень строгости, определяя, насколько маловероятно, чтобы нулевая гипотеза об отсутствии эффекта была отклонена, если она на самом деле верна. Наиболее часто используемым порогом является вероятность отклонения 0,05, хотя иногда используются меньшие значения, например 0,01 или 0,001. Этот порог затем подразумевает, что наблюдение должно быть по крайней мере настолько маловероятным (возможно, из-за достаточно большой оценки разницы), чтобы считаться достаточно сильным доказательством против нуля. Выбор меньшего значения для ужесточения порога, чтобы уменьшить вероятность ложноположительного результата, также уменьшит мощность и увеличит вероятность ложноотрицательного результата. Некоторые статистические тесты по своей сути дают более высокую достоверность , хотя часто за это требуются более строгие предположения.

Величина интересующего эффекта определяет, что именно ищет тест. Это может быть ожидаемый размер эффекта , если он существует, как научная гипотеза , к которой пришел исследователь и желает ее проверить. В качестве альтернативы, в более практическом контексте это может определяться размером эффекта, который должен быть полезным, например, тем, который должен быть клинически значимым . Размер эффекта может быть прямым значением интересующей величины (например, разница в средних значениях определенного размера) или стандартизированной мерой, которая также учитывает изменчивость в популяции (например, разница в средних значениях). выражается как кратное стандартному отклонению). Если исследователь ищет больший эффект, то его будет легче найти с помощью данной экспериментальной или аналитической установки, и поэтому мощность будет выше.

Характер выборки лежит в основе информации, используемой в тесте. Обычно это касается размера выборки и ее изменчивости, если это не подразумевается в определении размера эффекта. В более широком смысле, точность, с которой измеряются данные, также может быть важным фактором (например, статистическая надежность ), а также дизайном эксперимента или наблюдательного исследования. В конечном итоге эти факторы приводят к ожидаемой величине ошибки выборки . Меньшая ошибка выборки может быть получена за счет большего размера выборки из менее изменчивой популяции, за счет более точных измерений или за счет более эффективных планов эксперимента (например, с соответствующим использованием блокировки ), и такие меньшие ошибки приведут к повышению мощности. хотя обычно это требует затрат ресурсов. То, как увеличение размера выборки приводит к увеличению мощности, является мерой эффективности теста – например, размер выборки, необходимый для данной мощности. ^{[ 6 ]}

Обсуждение

Статистическая мощность проверки гипотезы влияет на интерпретацию ее результатов. Отсутствие результата в более мощном исследовании является более сильным доказательством против существования эффекта, чем тот же результат в менее мощном исследовании. Однако это не является полностью окончательным. Эффект может существовать, но быть меньшим, чем тот, который ожидался, а это означает, что исследование на самом деле недостаточно мощное, и выборка, таким образом, не может отличить его от случайной случайности. ^{[ 7 ]} Многие клинические исследования , например, имеют низкую статистическую мощность для выявления различий в побочных эффектах лечения, поскольку такие эффекты могут повлиять только на небольшое количество пациентов, даже если эти различия могут быть важными . ^{[ 8 ]} Выводы о вероятности фактического присутствия эффекта также должны учитывать больше факторов, чем один тест, тем более, что реальная мировая мощность редко близка к 1.

Действительно, хотя формальных стандартов мощности не существует, многие исследователи и финансирующие организации оценивают мощность, используя 0,80 (или 80%) в качестве стандарта адекватности. Это соглашение подразумевает соотношение четыре к одному между $β$ -риском и $α$ -риском, поскольку вероятность ошибки типа II $β$ устанавливается как 1–0,8 = 0,2, а α, вероятность ошибки типа I, равна обычно устанавливается на уровне 0,05. Некоторые приложения требуют гораздо более высокого уровня мощности. Медицинские тесты могут быть разработаны так, чтобы свести к минимуму количество ложноотрицательных результатов (ошибок типа II), возникающих за счет ослабления порога значимости, что повышает риск получения ложноположительного результата (ошибки типа I). Причина в том, что лучше сказать здоровому пациенту: «Возможно, мы что-то нашли — давайте проверим дальше», чем сказать больному пациенту: «Все хорошо». ^{[ 9 ]}

Анализ мощности фокусируется на правильном отклонении нулевой гипотезы. Однако альтернативные соображения могут мотивировать эксперимент и, таким образом, привести к различным потребностям в размере выборки. Во многих контекстах проблема заключается не столько в выборе между гипотезами, сколько в получении оценки размера популяционного эффекта с достаточной точностью. Например, тщательный анализ мощности может сказать вам, что 55 пар нормально распределенных выборок с корреляцией 0,5 будет достаточно, чтобы обеспечить 80% мощности при отклонении нуля, что корреляция не превышает 0,2 (с использованием одностороннего теста, $α$ = 0,05). Но типичный 95% доверительный интервал для этой выборки будет около [0,27, 0,67]. Альтернативный, хотя и родственный анализ, потребуется, если мы хотим иметь возможность измерить корреляцию с точностью +/- 0,1, что подразумевает другой (в данном случае, больший) размер выборки. В качестве альтернативы, многочисленные исследования с недостаточной статистикой все еще могут быть полезны, если их правильно объединить с помощью метаанализа .

Многие статистические анализы включают оценку нескольких неизвестных величин. В простых случаях все эти величины, кроме одной, являются мешающими параметрами . В этом случае единственная значимая степень относится к одной величине, которая подлежит формальному статистическому выводу. В некоторых ситуациях, особенно если цели более «исследовательские», анализ может представлять интерес для ряда величин. Например, в множественный регрессионный анализ мы можем включить несколько ковариат, представляющих потенциальный интерес. В подобных ситуациях, когда рассматриваются несколько гипотез, обычно полномочия, связанные с разными гипотезами, различаются. Например, в множественном регрессионном анализе способность обнаружения эффекта заданной величины связана с дисперсией ковариаты. Поскольку разные ковариаты будут иметь разные дисперсии, их степени также будут различаться.

Дополнительные сложности возникают, когда мы рассматриваем эти многочисленные гипотезы вместе. Например, если мы считаем, что ложноположительный результат означает ошибочное нулевое отклонение любой из этих гипотез, наша вероятность этой «семейной ошибки» будет завышена, если не будут приняты соответствующие меры. Такие меры обычно включают применение более высокого порога строгости для отклонения гипотезы (например, в случае с методом Бонферрони ), что приводит к снижению мощности. С другой стороны, могут существовать разные понятия власти, связанные с тем, как рассматриваются разные гипотезы. «Полная мощность» требует, чтобы все истинные эффекты были обнаружены во всех гипотезах, что является гораздо более строгим требованием, чем «минимальная мощность», заключающаяся в возможности найти хотя бы один истинный эффект, тип мощности, которая может увеличиваться с увеличением количество гипотез. ^{[ 10 ]}

Априорный и постфактум анализ

Анализ мощности можно проводить либо до ( априорный или перспективный анализ мощности), либо после ( последующий или ретроспективный анализ мощности) сбора данных. Априорный анализ мощности проводится до начала исследования и обычно используется для оценки размера выборки, достаточного для достижения адекватной мощности. Апостериорный анализ «наблюдаемой мощности» проводится после завершения исследования и использует полученный размер выборки и размер эффекта для определения мощности в исследовании, предполагая, что размер эффекта в выборке равен размеру эффекта. в населении. В то время как полезность перспективного анализа мощности при планировании эксперимента общепризнана, апостериорный анализ мощности фундаментально ошибочен. ^{[ 11 ]}^{[ 12 ]} Поддавшись искушению использовать статистический анализ собранных данных для оценки мощности, вы получите неинформативные и вводящие в заблуждение значения. В частности, было показано, что апостериорная «наблюдаемая мощность» является взаимно однозначной функцией p достигнутого значения . ^{[ 11 ]} Это было расширено, чтобы показать, что все апостериорные анализы власти страдают от так называемого «парадокса властного подхода» (PAP), в котором считается, что исследование с нулевым результатом дает больше доказательств того, что нулевая гипотеза на самом деле верна, когда значение p меньше, поскольку кажущаяся способность обнаружить реальный эффект будет выше. ^{[ 11 ]} Фактически, p правильно понимается, что меньшее значение делает нулевую гипотезу относительно менее вероятной. ^{[ нужна ссылка ]}

Пример

Ниже приведен пример, показывающий, как вычислить мощность рандомизированного эксперимента. Предположим, что целью эксперимента является изучение влияния лечения на некоторую величину, и поэтому мы будем сравнивать субъектов исследования, измеряя величину до и после лечения. , анализируя данные с использованием одностороннего парного t-критерия с порогом уровня значимости 0,05. Мы заинтересованы в возможности обнаружить положительное изменение размера. $\theta >0$ .

Сначала мы поставили задачу согласно нашему тесту. Позволять $A_{i}$ и $B_{i}$ обозначают меры до и после лечения субъекта $i$ , соответственно. Возможный эффект лечения должен быть виден в различиях. $D_{i}=B_{i}-A_{i},$ которые предполагаются независимыми и тождественно нормальными по распределению, с неизвестным средним значением $\mu _{D}$ и дисперсия $\sigma _{D}^{2}$ .

Здесь естественно выбрать нулевую гипотезу, заключающуюся в том, что ожидаемая средняя разность равна нулю, т.е. $H_{0}:\mu _{D}=\mu _{0}=0.$ Для нашего одностороннего теста альтернативной гипотезой было бы наличие положительного эффекта, соответствующего $H_{1}:\mu _{D}=\theta >0.$ Статистика теста в этом случае определяется как:

$T_{n}={\frac {{\bar {D}}_{n}-\mu _{0}}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}={\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}},$

где $\mu _{0}$ — среднее значение ниже нуля, поэтому мы подставляем его на 0, $n$ — размер выборки (количество испытуемых), ${\bar {D}}_{n}$ это выборочное среднее разницы

${\bar {D}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}D_{i},$

и ${\hat {\sigma }}_{D}$ — выборочное стандартное отклонение разницы.

Аналитическое решение

Мы можем действовать в соответствии с нашими знаниями статистической теории, хотя на практике для стандартного случая, подобного этому, будет существовать программное обеспечение для вычисления более точных ответов.

Благодаря теории t-теста мы знаем, что эта статистика теста при нулевой гипотезе соответствует t-распределению Стьюдента с $n-1$ степени свободы. Если мы хотим отклонить ноль на уровне значимости $\alpha =0.05\,$ , мы должны найти критическое значение $t_{\alpha }$ такая, что вероятность $T_{n}>t_{\alpha }$ под нулем равно $\alpha$ . Если $n$ велико, t-распределение сходится к стандартному нормальному распределению (таким образом, больше не включая $n$ ), и поэтому за счет использования соответствующей функции квантиля $\Phi ^{-1}$ , мы получаем, что нуль следует отклонить, если

$T_{n}>t_{\alpha }\approx \Phi ^{-1}(0.95)\approx 1.64\,.$

Теперь предположим, что альтернативная гипотеза $H_{1}$ это правда так $\mu _{D}=\theta$ . Затем, записав мощность как функцию размера эффекта, $B(\theta )$ , находим вероятность $T_{n}$ быть выше $t_{\alpha }$ под $H_{1}$ .

${\begin{aligned}B(\theta )&\approx \Pr \left(T_{n}>1.64~{\big |}~\mu _{D}=\theta \right)\\&=\Pr \left({\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1.64~{\Big |}~\mu _{D}=\theta \right)\\&=1-\Pr \left({\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}<1.64~{\Big |}~\mu _{D}=\theta \right)\\&=1-\Pr \left({\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}<1.64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}~{\Big |}~\mu _{D}=\theta \right)\\\end{aligned}}$

${\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}$ снова соответствует распределению Стьюдента при $H_{1}$ , сходящееся к стандартному нормальному распределению при больших $n$ . Расчетное значение {\hat{\sigma}_D также будет сходиться к значению численности населения. $\sigma _{D}$ Таким образом, мощность можно аппроксимировать как

$B(\theta )\approx 1-\Phi \left(1.64-{\frac {\theta }{\sigma _{D}/{\sqrt {n}}}}\right).$

Согласно этой формуле мощность увеличивается с увеличением величины эффекта $\theta$ и размер выборки $n$ и уменьшается с увеличением изменчивости $\sigma _{D}$ . В тривиальном случае нулевой величины эффекта мощность минимальна ( infimum ) и равна уровню значимости теста. $\alpha \,,$ в этом примере 0,05. Для конечных размеров выборки и ненулевой вариативности здесь, как это обычно бывает, степень не может быть сделана равной 1, за исключением тривиального случая, когда $\alpha =1$ поэтому ноль всегда отклоняется.

Мы можем инвертировать $B$ для получения необходимых размеров выборки:

${\sqrt {n}}>{\frac {\sigma _{D}}{\theta }}\left(1.64-\Phi ^{-1}\left(1-B(\theta )\right)\right).$

Предполагать $\theta =1$ и мы верим $\sigma _{D}$ скажем, около 2, тогда нам нужна степень $B(\theta )=0.8$ , размер выборки

$n>4\left(1.64-\Phi ^{-1}\left(1-0.8\right)\right)^{2}\approx 4\left(1.64+0.84\right)^{2}\approx 24.6.$

Решение для моделирования

В качестве альтернативы мы можем использовать метод моделирования Монте-Карло , который работает в более общем плане. ^{[ 13 ]} Еще раз вернемся к предположению о распределении $D_{n}$ и определение $T_{n}$ . Предположим, у нас есть фиксированные значения размера выборки, изменчивости и размера эффекта, и мы хотим вычислить мощность. Мы можем принять этот процесс:

1. Сгенерируйте большое количество наборов $D_{n}$ согласно нулевой гипотезе, $N(0,\sigma _{D})$

2. Вычислите полученную статистику теста. $T_{n}$ за каждый комплект.

3. Вычислите $(1-\alpha )$ -й квантиль моделируемого $T_{n}$ и использовать это как оценку $t_{\alpha }$ .

4. Теперь сгенерируйте большое количество наборов $D_{n}$ согласно альтернативной гипотезе, $N(\theta ,\sigma _{D})$ и снова вычислите соответствующую тестовую статистику.

5. Посмотрите на долю этих смоделированных альтернатив. $T_{n}$ которые находятся выше $t_{\alpha }$ рассчитанные на шаге 3, поэтому отклоняются. Это сила.

Это можно сделать с помощью различных пакетов программного обеспечения. Используя эту методологию с приведенными выше значениями, установка размера выборки равным 25 приводит к расчетной мощности около 0,78. Небольшое расхождение с предыдущим разделом обусловлено главным образом неточностями нормального приближения.

Расширение

Байесовская сила

В частотной настройке предполагается, что параметры имеют определенное значение, которое вряд ли соответствует действительности. Эту проблему можно решить, если предположить, что параметр имеет распределение. Полученную мощность иногда называют байесовской мощностью, которая обычно используется при планировании клинических исследований .

Прогнозируемая вероятность успеха

Как частотная мощность, так и байесовская мощность используют статистическую значимость в качестве критерия успеха. Однако статистической значимости часто недостаточно для определения успеха. Чтобы решить эту проблему, концепцию власти можно расширить до концепции прогнозируемой вероятности успеха (PPOS). Критерий успеха PPOS не ограничивается статистической значимостью и обычно используется в дизайне клинических исследований .

Программное обеспечение для расчета мощности и размера выборки

Для расчета мощности и размера выборки доступны многочисленные бесплатные программы и/или программы с открытым исходным кодом. К ним относятся

G*Power ( https://www.gpower.hhu.de/ )
WebPower Бесплатный онлайн-статистический анализ мощности ( https://webpower.psychstat.org )
Бесплатные онлайн-калькуляторы с открытым исходным кодом ( https://powerandsamplesize.com )
Усиление! предоставляет удобные функции на основе Excel для определения минимального обнаруживаемого размера эффекта и минимально необходимого размера выборки для различных экспериментальных и квазиэкспериментальных планов.
PowerUpR — это версия пакета R PowerUp! и дополнительно включает функции для определения размера выборки для различных многоуровневых рандомизированных экспериментов с бюджетными ограничениями или без них.
Мощность пакета R
Пакет R WebPower
Статистические модели пакета Python ( https://www.statsmodels.org/ )

См. также

Положительная и отрицательная прогностическая ценность . Статистические показатели вероятности того, что вывод окажется верным.
Размер эффекта – статистическая мера масштаба явления.
Эффективность - показатель качества статистического метода.
Лемма Неймана – Пирсона - Теорема о мощности теста отношения правдоподобия.
Размер выборки – статистические соображения о том, сколько наблюдений следует сделать.
Равномерно самый мощный тест - Теоретически оптимальная проверка гипотезы.

Ссылки

^ «Статистическая мощь и недостаточная статистика — статистика сделана неправильно» . www.statisticsdonewrong.com . Проверено 30 сентября 2019 г.
^ Накагава, Шиничи; Лагиш, Малгожата; Ян, Йефэн; Дробняк, Шимон М. (2024). «Нахождение правильного баланса сил: лучший дизайн исследования и сотрудничество могут снизить зависимость от статистической мощности» . ПЛОС Биология . 22 (1): e3002423. дои : 10.1371/journal.pbio.3002423 . ПМЦ 10773938 . ПМИД 38190355 .
^ Роберт Лер (1992), «Шестнадцать S в квадрате над D-квадратом: соотношение для приблизительных оценок размера выборки», Статистика в медицине (на немецком языке), vol. 11, нет. 8, стр. 1099–1102, doi : 10.1002/sim.4780110811 , ISSN 0277-6715 , PMID 1496197
^ Ван Белль, Джеральд (18 августа 2008 г.). Практические статистические правила, второе издание . Ряд Уайли по вероятности и статистике. Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc. doi : 10.1002/9780470377963 . ISBN 978-0-470-37796-3 .
^ Оценка размера выборки в клинических исследованиях от рандомизированных контролируемых исследований до наблюдательных исследований, 2020, doi: 10.1016/j.chest.2020.03.010, Сяофэн Ван, доктор философии; и Синге Цзи, MS pdf
^ Эверитт, Брайан С. (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. п. 321. ИСБН 0-521-81099-Х .
^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. п. 52. ИСБН 978-0521142465 .
^ Цанг, Р.; Колли, Л.; Линд, Л.Д. (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в частоте нежелательных явлений в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии . 62 (6): 609–616. дои : 10.1016/j.jclinepi.2008.08.005 . ПМИД 19013761 .
^ Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощность, метаанализ и интерпретацию результатов исследований . Соединенное Королевство: Издательство Кембриджского университета. п. 56.
^ «Оценка статистической мощности при использовании нескольких процедур тестирования» . mdrc.org . Ноябрь 2017.
^ Перейти обратно: ^а ^б ^с Хёниг; Хейси (2001). «Злоупотребление властью». Американский статистик . 55 (1): 19–24. дои : 10.1198/000313001300339897 .
^ Томас, Л. (1997). «Ретроспективный анализ мощности» (PDF) . Биология сохранения . 11 (1): 276–280. Бибкод : 1997ConBi..11..276T . дои : 10.1046/j.1523-1739.1997.96102.x . hdl : 10023/679 .
^ Гребнер, Роберт В. (1999). Дизайн исследования с помощью SAS: оценка мощности с помощью методов Монте-Карло (PDF) . СУГИ 24.

Источники

Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.). Лоуренс Эрлбаум Ассошиэйтс. ISBN 0-8058-0283-5 .
Аберсон, CL (2010). Прикладной анализ мощности в поведенческой науке . Рутледж. ISBN 978-1-84872-835-6 .

Внешние ссылки

StatQuest: подводные камни P-значения и расчеты мощности на YouTube

[1] «Статистическая мощь и недостаточная статистика — статистика сделана неправильно» . www.statisticsdonewrong.com . Проверено 30 сентября 2019 г.

[2] Накагава, Шиничи; Лагиш, Малгожата; Ян, Йефэн; Дробняк, Шимон М. (2024). «Нахождение правильного баланса сил: лучший дизайн исследования и сотрудничество могут снизить зависимость от статистической мощности» . ПЛОС Биология . 22 (1): e3002423. дои : 10.1371/journal.pbio.3002423 . ПМЦ 10773938 . ПМИД 38190355 .

[3] Роберт Лер (1992), «Шестнадцать S в квадрате над D-квадратом: соотношение для приблизительных оценок размера выборки», Статистика в медицине (на немецком языке), vol. 11, нет. 8, стр. 1099–1102, doi : 10.1002/sim.4780110811 , ISSN 0277-6715 , PMID 1496197

[4] Ван Белль, Джеральд (18 августа 2008 г.). Практические статистические правила, второе издание . Ряд Уайли по вероятности и статистике. Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc. doi : 10.1002/9780470377963 . ISBN 978-0-470-37796-3 .

[5] Оценка размера выборки в клинических исследованиях от рандомизированных контролируемых исследований до наблюдательных исследований, 2020, doi: 10.1016/j.chest.2020.03.010, Сяофэн Ван, доктор философии; и Синге Цзи, MS pdf

[Everitt2002-6] Эверитт, Брайан С. (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. п. 321. ИСБН 0-521-81099-Х .

[7] Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Издательство Кембриджского университета. п. 52. ИСБН 978-0521142465 .

[8] Цанг, Р.; Колли, Л.; Линд, Л.Д. (2009). «Недостаточная статистическая мощность для обнаружения клинически значимых различий в частоте нежелательных явлений в рандомизированных контролируемых исследованиях». Журнал клинической эпидемиологии . 62 (6): 609–616. дои : 10.1016/j.jclinepi.2008.08.005 . ПМИД 19013761 .

[9] Эллис, Пол Д. (2010). Основное руководство по размерам эффекта: введение в статистическую мощность, метаанализ и интерпретацию результатов исследований . Соединенное Королевство: Издательство Кембриджского университета. п. 56.

[10] «Оценка статистической мощности при использовании нескольких процедур тестирования» . mdrc.org . Ноябрь 2017.

[HH1-11] Перейти обратно: ^а ^б ^с Хёниг; Хейси (2001). «Злоупотребление властью». Американский статистик . 55 (1): 19–24. дои : 10.1198/000313001300339897 .

[12] Томас, Л. (1997). «Ретроспективный анализ мощности» (PDF) . Биология сохранения . 11 (1): 276–280. Бибкод : 1997ConBi..11..276T . дои : 10.1046/j.1523-1739.1997.96102.x . hdl : 10023/679 .

[13] Гребнер, Роберт В. (1999). Дизайн исследования с помощью SAS: оценка мощности с помощью методов Монте-Карло (PDF) . СУГИ 24.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]