р -значение

При значимости нулевой гипотезы проверке $p$ -ценить ^{[примечание 1]} — это вероятность получения результатов теста, по крайней мере, столь же экстремальных, как фактически наблюдаемый результат , при условии, что нулевая гипотеза верна. ^[2]^[3] Очень маленькое значение p означает, что такой экстремальный наблюдаемый результат был бы очень маловероятен при нулевой гипотезе. Несмотря на то, что сообщение о p -значениях статистических тестов является обычной практикой в академических публикациях во многих количественных областях, неверная интерпретация и неправильное использование p-значений широко распространены и являются основной темой в математике и метанауке . ^[4]^[5] В 2016 году Американская статистическая ассоциация (ASA) сделала официальное заявление, что « p -значения не измеряют вероятность того, что изучаемая гипотеза верна, или вероятность того, что данные были получены исключительно случайным образом» и что « p - значение или статистическая значимость не измеряют размер эффекта или важность результата» или «доказательства относительно модели или гипотезы». ^[6] Тем не менее, целевая группа ASA в 2019 году опубликовала заявление о статистической значимости и воспроизводимости, в котором заключила: « p -значения и тесты значимости при правильном применении и интерпретации повышают строгость выводов, сделанных на основе данных». ^[7]

Основные понятия [ править ]

В статистике каждая гипотеза относительно неизвестного распределения вероятностей набора случайных величин, представляющих наблюдаемые данные. $X$ в некоторых исследованиях называется статистической гипотезой . Если мы формулируем только одну гипотезу и цель статистической проверки состоит в том, чтобы увидеть, является ли эта гипотеза обоснованной, но не исследовать другие конкретные гипотезы, то такая проверка называется проверкой нулевой гипотезы .

Поскольку наша статистическая гипотеза по определению утверждает какое-то свойство распределения, нулевая гипотеза — это гипотеза по умолчанию, при которой это свойство не существует. Нулевая гипотеза обычно заключается в том, что какой-то параметр (например, корреляция или разница между средними значениями) в интересующих популяциях равен нулю. Наша гипотеза могла бы указать распределение вероятностей $X$ точно, или может быть указано только, что оно принадлежит к какому-то классу распределений. Часто мы сводим данные к одной числовой статистике, например: $T$ , чье предельное распределение вероятностей тесно связано с основным вопросом, представляющим интерес в исследовании.

Значение p используется в контексте проверки нулевой гипотезы для количественной оценки статистической значимости результата, при этом результатом является наблюдаемое значение выбранной статистики. $T$ . ^{[примечание 2]} Чем ниже значение p , тем ниже вероятность получения этого результата, если нулевая гипотеза верна. Результат считается статистически значимым , если он позволяет отвергнуть нулевую гипотезу. При прочих равных условиях меньшие значения p считаются более сильным доказательством против нулевой гипотезы.

Грубо говоря, отказ от нулевой гипотезы подразумевает наличие достаточных доказательств против нее.

В качестве конкретного примера: если нулевая гипотеза утверждает, что определенная сводная статистика $T$ следует стандартному нормальному распределению ${\mathcal {N}}(0,1),$ то отказ от этой нулевой гипотезы может означать, что (i) среднее значение $T$ , или (ii) дисперсия не равно 0 $T$ не равно 1, или (iii) $T$ обычно не распространяется. Различные тесты одной и той же нулевой гипотезы будут более или менее чувствительны к различным альтернативам. Однако даже если нам удастся отвергнуть нулевую гипотезу для всех трех альтернатив и даже если мы знаем, что распределение нормальное, а дисперсия равна 1, проверка нулевой гипотезы не скажет нам, какие ненулевые значения среднего значения сейчас являются наиболее правдоподобно. Чем больше независимых наблюдений из одного и того же распределения вероятностей, тем точнее будет тест и тем выше точность, с которой можно будет определить среднее значение и показать, что оно не равно нулю; но это также повысит важность оценки реальной или научной значимости этого отклонения.

и интерпретация Определение

Определение [ править ]

Значение p — это вероятность при нулевой гипотезе получить действительную тестовую статистику, по крайней мере столь же экстремальную, как и полученная. Рассмотрим наблюдаемую тестовую статистику $t$ из неизвестного дистрибутива $T$ . Тогда p значение $p$ это то, какова была бы априорная вероятность наблюдения значения тестовой статистики, по крайней мере, столь же «экстремального», как $t$ если нулевая гипотеза $H_{0}$ были правдой. То есть:

$p=\Pr(T\geq t\mid H_{0})$ для одностороннего правостороннего распределения тестовой статистики.
$p=\Pr(T\leq t\mid H_{0})$ для одностороннего левого распределения тестовой статистики.
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ для двустороннего распределения тестовой статистики. Если распределение $T$ симметричен относительно нуля, то $p=\Pr(|T|\geq |t|\mid H_{0}).$

Интерпретации [ править ]

Ошибка, которую практикующий статистик счел бы более важным избегать (что является субъективным суждением), называется ошибкой первого рода. Первое требование математической теории состоит в том, чтобы вывести такие критерии проверки, которые гарантировали бы, что вероятность совершения ошибки первого рода будет равна (или приблизительно равна или не превысит) заданному числу α, например α = 0,05 или 0,01. и т. д. Это число называется уровнем значимости.
- Ежи Нейман, «Появление математической статистики». ^[8]

В тесте значимости нулевая гипотеза $H_{0}$ отклоняется, если значение p меньше или равно заранее определенному пороговому значению $\alpha$ , который называется альфа-уровнем или уровнем значимости . $\alpha$ не выводится из данных, а скорее устанавливается исследователем перед изучением данных. $\alpha$ обычно устанавливается равным 0,05, хотя иногда используются более низкие уровни альфа. В 2018 году группа статистиков под руководством Дэниела Бенджамина предложила принять значение 0,005 в качестве стандартного значения статистической значимости во всем мире. ^[9]

Различные значения p , основанные на независимых наборах данных, можно комбинировать, например, используя комбинированный тест вероятности Фишера .

Распространение [ править ]

Значение p является функцией выбранной тестовой статистики. $T$ и поэтому является случайной величиной . Если нулевая гипотеза фиксирует распределение вероятностей $T$ точно (например $H_{0}:\theta =\theta _{0},$ где $\theta$ является единственным параметром), и если это распределение непрерывно, то, когда нулевая гипотеза верна, p значение равномерно распределяется между 0 и 1. Независимо от истинности $H_{0}$ , значение p не фиксировано; если один и тот же тест повторяется независимо со свежими данными, на каждой итерации обычно получают разные значения p .

Обычно наблюдается только одно значение p , относящееся к гипотезе, поэтому значение p интерпретируется с помощью теста значимости, и не предпринимается никаких усилий для оценки распределения, на основе которого оно было получено. Когда доступен набор p -значений (например, при рассмотрении группы исследований по одному и тому же предмету), распределение p -значений иногда называют p -кривой. ^[10]P - кривую можно использовать для оценки надежности научной литературы, например, путем выявления предвзятости публикации или p -хакинга . ^[10]^[11]

Распределение сложной гипотезы

В задачах проверки параметрических гипотез простая или точечная гипотеза относится к гипотезе, в которой предполагается, что значение параметра представляет собой одно число. Напротив, в составной гипотезе значение параметра задается набором чисел. Когда нулевая гипотеза является составной (или распределение статистики дискретно), тогда, когда нулевая гипотеза верна, вероятность получения значения p , меньшего или равного любому числу от 0 до 1, по-прежнему меньше или равен этому числу. Другими словами, остается тот случай, когда очень маленькие значения относительно маловероятны, если нулевая гипотеза верна, и что проверка значимости на уровне $\alpha$ получается путем отклонения нулевой гипотезы, если значение p меньше или равно $\alpha$ . ^[12]^[13]

Например, при проверке нулевой гипотезы о том, что распределение является нормальным со средним значением, меньшим или равным нулю, в сравнении с альтернативой, что среднее значение больше нуля ( $H_{0}:\mu \leq 0$ , дисперсия известна), нулевая гипотеза не определяет точное распределение вероятностей соответствующей тестовой статистики. В данном примере это будет Z -статистика, принадлежащая одностороннему одновыборочному Z -тесту. Для каждого возможного значения теоретического среднего статистика Z -теста имеет различное распределение вероятностей. В этих обстоятельствах значение p определяется путем выбора наименее благоприятного случая нулевой гипотезы, который обычно находится на границе между нулевой и альтернативной гипотезой. Это определение обеспечивает взаимодополняемость p-значений и альфа-уровней: $\alpha =0.05$ означает, что нулевую гипотезу отвергают только в том случае, если значение p меньше или равно $0.05$ , и проверка гипотезы действительно будет иметь максимальную частоту ошибок первого рода, равную $0.05$ .

Использование [ править ]

Значение p широко используется при проверке статистических гипотез , особенно при проверке значимости нулевой гипотезы. В этом методе перед проведением исследования сначала выбирают модель ( нулевая гипотеза ) и уровень альфа α (чаще всего 0,05). Если после анализа данных значение p меньше α , это означает, что наблюдаемые данные достаточно несовместимы с нулевой гипотезой , чтобы нулевая гипотеза была отклонена. Однако это не доказывает, что нулевая гипотеза ложна. Значение p само по себе не устанавливает вероятности гипотез. Скорее, это инструмент для принятия решения о том, следует ли отвергать нулевую гипотезу. ^[14]

Злоупотребление [ править ]

По данным ASA , широко распространено мнение, что значения p часто неправильно используются и неверно интерпретируются. ^[3] Одна из практик, которая подвергалась особой критике, - это принятие альтернативной гипотезы для любого значения p , номинально меньшего 0,05, без других подтверждающих доказательств. Хотя значения p полезны при оценке того, насколько данные несовместимы с определенной статистической моделью, необходимо также учитывать контекстуальные факторы, такие как «план исследования, качество измерений, внешние доказательства изучаемого явления, и обоснованность предположений, лежащих в основе анализа данных». ^[3] Другая проблема заключается в том, что значение p часто неправильно понимают как вероятность того, что нулевая гипотеза верна. ^[3]^[15]

Некоторые статистики предложили отказаться от p -значений и больше сосредоточиться на другой статистике, основанной на выводах. ^[3] такие как доверительные интервалы , ^[16]^[17] отношения правдоподобия , ^[18]^[19] или факторы Байеса , ^[20]^[21]^[22] но идут жаркие споры о осуществимости этих альтернатив. ^[23]^[24] Другие предложили удалить фиксированные пороги значимости и интерпретировать значения p как непрерывные показатели силы доказательств против нулевой гипотезы. ^[25]^[26] Третьи предлагали сообщать наряду со значениями p априорную вероятность реального эффекта, которая потребуется для получения ложноположительного риска (т. е. вероятности отсутствия реального эффекта) ниже заранее определенного порога (например, 5%). ^[27]

Тем не менее, в 2019 году рабочая группа ASA собралась для рассмотрения вопроса об использовании статистических методов в научных исследованиях, в частности, проверки гипотез и значений p , а также их связи с воспроизводимостью. ^[7] В нем говорится, что «Различные меры неопределенности могут дополнять друг друга; ни одна мера не служит всем целям», упоминается p в качестве одной из этих мер -значение. Они также подчеркивают, что значения p могут предоставить ценную информацию при рассмотрении конкретного значения, а также при сравнении с некоторым пороговым значением. В целом в нем подчеркивается, что « p -значения и критерии значимости, если их правильно применять и интерпретировать, повышают строгость выводов, сделанных на основе данных».

Расчет [ править ]

Обычно, $T$ это тестовая статистика . Тестовая статистика — это результат скалярной функции всех наблюдений. Эта статистика представляет собой одно число, например t -статистику или F -статистику . Таким образом, статистика теста следует распределению, определяемому функцией, используемой для определения этой статистики теста, и распределением входных данных наблюдений.

Для важного случая, когда предполагается, что данные представляют собой случайную выборку из нормального распределения, в зависимости от характера тестовой статистики и интересующих гипотез о ее распределении были разработаны различные тесты нулевой гипотезы. Некоторые из таких тестов - это z -тест для гипотез относительно среднего нормального распределения с известной дисперсией, t -тест, основанный на Стьюдента t -распределении подходящей статистики для гипотез относительно среднего нормального распределения, когда дисперсия неизвестна, F , -тест основанный на F -распределении еще одной статистики для гипотез, касающихся дисперсии. Для данных другой природы, например, категориальных (дискретных) данных, можно построить тестовые статистики, распределение нулевых гипотез которых основано на нормальных аппроксимациях соответствующих статистических данных, полученных путем применения центральной предельной теоремы для больших выборок, как в случае с хи Пирсона. -квадратный тест .

Таким образом, для вычисления значения p требуется нулевая гипотеза, статистика теста (вместе с решением, выполняет ли исследователь односторонний или двусторонний тест ) и данные. Несмотря на то, что вычисление тестовой статистики по заданным данным может быть простым, вычисление выборочного распределения при нулевой гипотезе, а затем вычисление его кумулятивной функции распределения (CDF) часто является сложной проблемой. Сегодня эти вычисления выполняются с использованием статистического программного обеспечения, часто с помощью числовых методов (а не точных формул), но в начале и середине 20-го века вместо этого это делалось с помощью таблиц значений и интерполированных или экстраполированных p -значений из этих дискретные значения ^{[ нужна ссылка ]}. Вместо того, чтобы использовать таблицу значений p , Фишер инвертировал CDF, опубликовав список значений тестовой статистики для заданных фиксированных p значений ; это соответствует вычислению функции квантиля (обратного CDF).

Пример [ править ]

Проверка честности монеты [ править ]

В качестве примера статистического теста проводится эксперимент, чтобы определить, ли подбрасывание монеты является справедливым (равная вероятность выпадения орла или решки) или несправедливо предвзятым (один результат более вероятен, чем другой).

Предположим, что результаты эксперимента показывают, что монета выпала орлом в 14 случаях из 20 подбрасываний. Полные данные $X$ будет последовательностью, в двадцать раз превышающей символ «H» или «T». Статистикой, на которой можно сосредоточиться, может быть общее число $T$ голов. Нулевая гипотеза состоит в том, что монета честная и подбрасывания монеты не зависят друг от друга. Если рассматривать правосторонний тест, что было бы в том случае, если кто-то действительно заинтересован в возможности того, что монета смещена в сторону падения орла, то значение p этого результата - это вероятность того, что честная монета упадет орлом в точке минимум 14 раз из 20 бросков. Эту вероятность можно вычислить из биномиальных коэффициентов как

{\begin{aligned}&\Pr(14{\text{ heads}})+\Pr(15{\text{ heads}})+\cdots +\Pr(20{\text{ heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0.058.\end{aligned}}

Эта вероятность представляет собой значение p , учитывающее только экстремальные результаты, благоприятствующие выпадению орла. Это называется односторонним тестом . Однако кого-то могут заинтересовать отклонения в любом направлении, в пользу орла или решки. Вместо этого можно рассчитать двустороннее значение p , которое учитывает отклонения в пользу орла или решки. Поскольку биномиальное распределение симметрично для честной монеты, двустороннее значение p просто вдвое превышает вычисленное выше одностороннее значение p : двустороннее значение p равно 0,115.

В приведенном выше примере:

Нулевая гипотеза ( H ₀ ): монета честная, с Pr(орлом) = 0,5.
Статистика теста: Количество голов.
Уровень альфа (обозначенный порог значимости): 0,05.
Наблюдение О : 14 голов из 20 бросков.
Двустороннее p -значение наблюдения O при H ₀ = 2 × min(Pr(количество голов ≥ 14 голов), Pr(количество голов ≤ 14 голов)) = 2 × min(0,058, 0,978) = 2 × 0,058 = 0,115.

Pr(количество голов ≤ 14 голов) = 1 − Pr(количество голов ≥ 14 голов) + Pr(количество голов = 14) = 1 − 0,058 + 0,036 = 0,978; однако симметрия этого биномиального распределения делает ненужными вычисления для определения меньшей из двух вероятностей. Здесь рассчитанное значение p превышает 0,05, что означает, что данные попадают в диапазон того, что произошло бы в 95% случаев, если бы монета была честной. Следовательно, нулевая гипотеза не отвергается на уровне 0,05.

Однако если бы была получена еще одна голова, результирующее значение p (двустороннее) составило бы 0,0414 (4,14%), и в этом случае нулевая гипотеза была бы отклонена на уровне 0,05.

План многоэтапного эксперимента [ править ]

Разница между двумя значениями слова «крайний» проявляется, когда мы рассматриваем многоэтапный эксперимент по проверке честности монеты. Предположим, мы спланировали эксперимент следующим образом:

Подбросьте монету дважды. Если оба варианта выпадут «орел» или «решка», завершите эксперимент.
В противном случае подбросьте монету еще 4 раза.

Этот эксперимент имеет 7 типов исходов: 2 орла, 2 решки, 5 орлов, 1 решка, ..., 1 орел, 5 решек. Теперь мы рассчитаем p -значение результата «3 орла 3 решки».

Если мы используем тестовую статистику ${\text{heads}}/{\text{tails}}$ , то при нулевой гипотезе равно ровно 1 для двустороннего p -значения и ровно $19/32$ для одностороннего левого p -значения и то же самое для одностороннего правого p -значения.

Если мы рассмотрим каждый исход, который имеет равную или меньшую вероятность, чем «3 орла 3 решки», как «по крайней мере столь же экстремальный», то значение p будет в точности $1/2.$

Однако предположим, что мы запланировали просто подбросить монету 6 раз, что бы ни случилось, тогда второе определение значения p будет означать, что значение p для «3 орла 3 решки» равно ровно 1.

Таким образом, «по крайней мере столь же экстремальное» определение значения p глубоко контекстуально и зависит от того, что экспериментатор планировал сделать даже в ситуациях, которые не произошли.

История [ править ]

Фотография молодого человека в тонах сепии в костюме, медали и очках в проволочной оправе. — Рональд Фишер

Вычисления P -значения относятся к 1700-м годам, когда они рассчитывались для соотношения полов человека при рождении и использовались для расчета статистической значимости по сравнению с нулевой гипотезой о равной вероятности рождения мальчиков и девочек. ^[28] Джон Арбетнот изучал этот вопрос в 1710 году. ^[29]^[30]^[31]^[32] и изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год. Каждый год количество мужчин, рожденных в Лондоне, превышало количество женщин. Учитывая, что большее количество рождений мальчиков и девочек одинаково вероятно, вероятность наблюдаемого исхода равна 1/2. ⁸², или примерно 1 из 4 836 000 000 000 000 000 000 000; говоря современным языком, p -значение. Это исчезающе мало, что приводит Арбетнота к выводу, что это произошло не по воле случая, а по божественному провидению: «Отсюда следует, что правит Искусство, а не Случай». Говоря современным языком, он отверг нулевую гипотезу о равной вероятности рождения мальчиков и девочек при p = 1/2. ⁸² уровень значимости. Эту и другие работы Арбутнота называют «… первым использованием тестов значимости…». ^[33] первый пример рассуждений о статистической значимости, ^[34] и «… возможно, первый опубликованный отчет о непараметрическом тесте …», ^[30] в частности, тест знаков ; Подробности см. в разделе «История жестового теста» .

К этому же вопросу позже обратился Пьер-Симон Лаплас , который вместо этого использовал параметрический тест, моделируя количество рождений мужского пола с биномиальным распределением : ^[35]

В 1770-х годах Лаплас рассмотрел статистику почти полумиллиона рождений. Статистика показала преобладание мальчиков над девочками. он пришел к выводу Путем расчета значения p , что превышение было реальным, но необъяснимым эффектом.

Значение p было впервые формально введено Карлом Пирсоном в его тесте хи-квадрат Пирсона : ^[36] используя распределение хи-квадрат и обозначая заглавной буквой P. ^[36] Значения p для распределения хи-квадрат (для различных значений χ ² и степени свободы), теперь обозначенные как P, были рассчитаны в ( Elderton 1902 ), собраны в ( Pearson 1914 , стр. xxxi–xxxiii, 26–28, таблица XII). .

Использование p -значения в статистике было популяризировано Рональдом Фишером . ^[37]^{[ нужна полная цитата ]} и это играет центральную роль в его подходе к предмету. ^[38] В своей влиятельной книге «Статистические методы для научных работников» (1925) Фишер предложил уровень p = 0,05, или вероятность случайного превышения 1 из 20, в качестве предела статистической значимости и применил его к нормальному распределению (как двусторонний критерий), что дает правило двух стандартных отклонений (при нормальном распределении) для статистической значимости (см. правило 68–95–99,7 ). ^[39]^{[примечание 3]}^[40]

Затем он вычислил таблицу значений, аналогичную Элдертону, но, что важно, поменял роли χ ² и п. То есть вместо вычисления p для разных значений χ ² (и степени свободы n ), он вычислил значения χ ² которые дают определенные значения p , а именно 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 и 0,01. ^[41] Это позволило вычислить значения χ ² для сравнения с пороговыми значениями и поощрял использование значений p (особенно 0,05, 0,02 и 0,01) в качестве пороговых значений вместо того, чтобы рассчитывать и сообщать о самих значениях p . Затем были составлены таблицы того же типа ( Fisher & Yates 1938 ), что закрепило этот подход. ^[40]

В качестве иллюстрации применения p -значений для планирования и интерпретации экспериментов в своей следующей книге «План экспериментов » (1935) Фишер представил эксперимент с женщиной, дегустирующей чай : ^[42] что является архетипическим примером p -значения.

Чтобы оценить утверждение дамы о том, что она ( Мюриэл Бристоль ) могла на вкус отличить, как готовится чай (сначала добавляя в чашку молоко, затем чай или сначала чай, затем молоко), ей последовательно преподнесли 8 чашек: 4 приготовленных. в одну сторону 4 приготовили другую и попросили определить готовность каждой чашки (зная, что каждой чашки было по 4). В этом случае нулевая гипотеза заключалась в том, что у нее не было особых способностей, тест был точным тестом Фишера , а значение p было $1/{\binom {8}{4}}=1/70\approx 0.014,$ поэтому Фишер был готов отвергнуть нулевую гипотезу (считая, что результат вряд ли был случайным), если бы все они были классифицированы правильно. (В реальном эксперименте Бристоль правильно классифицировал все 8 чашек.)

Фишер подтвердил порог p = 0,05 и объяснил его обоснование, заявив: ^[43]

Для экспериментаторов обычно и удобно принимать 5 процентов за стандартный уровень значимости в том смысле, что они готовы игнорировать все результаты, которые не достигают этого стандарта, и таким образом исключить из дальнейшего обсуждения больший уровень значимости. часть флуктуаций, которые случайные причины внесли в их экспериментальные результаты.

Он также применяет этот порог к планированию экспериментов, отмечая, что если бы было предъявлено только 6 чашек (по 3 каждой), то идеальная классификация дала бы только p -значение, равное $1/{\binom {6}{3}}=1/20=0.05,$ которые не соответствовали бы этому уровню значимости. ^[43] Фишер также подчеркнул интерпретацию p как долгосрочной доли значений, по крайней мере столь же экстремальных, как и данные, при условии, что нулевая гипотеза верна.

В более поздних изданиях Фишер явно противопоставил использование p -значения для статистических выводов в науке методу Неймана-Пирсона, который он называет «процедурами принятия». ^[44] Фишер подчеркивает, что, хотя фиксированные уровни, такие как 5%, 2% и 1%, удобны, можно использовать точное значение p , а сила доказательств может и будет пересматриваться в ходе дальнейших экспериментов. Напротив, процедуры принятия решений требуют четкого решения, приводящего к необратимым действиям, и эта процедура основана на цене ошибки, которая, как он утверждает, неприменима к научным исследованиям.

Связанные индексы [ править ]

Значение E может относиться к двум концепциям, оба из которых связаны со значением p и оба играют роль в множественном тестировании . Во-первых, оно соответствует общей, более надежной альтернативе значению p , которая может учитывать необязательное продолжение экспериментов. Во-вторых, оно также используется для сокращения «ожидаемого значения», которое представляет собой ожидаемое количество раз, которое можно ожидать получить тестовую статистику, по крайней мере, столь же экстремальную, как та, которая фактически наблюдалась, если предположить, что нулевая гипотеза верна. ^[45] Это ожидаемое значение является произведением количества тестов и значения p .

Значение q является аналогом значения p в отношении положительного уровня ложных открытий . ^[46] Он используется при проверке нескольких гипотез для поддержания статистической мощности и минимизации количества ложноположительных результатов . ^[47]

Вероятность направления ( pd ) — это байесовский числовой эквивалент p -значения. ^[48] Он соответствует доле апостериорного распределения , которая имеет знак медианы, обычно варьируется от 50% до 100% и представляет собой уверенность, с которой эффект является положительным или отрицательным.

P-значения второго поколения расширяют концепцию p-значений, не считая чрезвычайно малые, практически нерелевантные величины эффекта значимыми. ^[49]

См. также [ править ]

Примечания [ править ]

^ Курсив, заглавные буквы и расстановка переносов термина различаются. Например, стиль AMA использует « значение P », стиль APA использует « значение p », а Американская статистическая ассоциация использует « значение p ». Во всех случаях «p» означает вероятность. ^[1]
^ Статистическая значимость результата не означает, что результат также имеет практическое значение. Например, лекарство может иметь статистически значимый эффект, который слишком мал, чтобы представлять интерес.
^ Чтобы быть более конкретным, p = 0,05 соответствует примерно 1,96 стандартным отклонениям для нормального распределения (двусторонний тест), а 2 стандартных отклонения соответствуют вероятности случайного превышения примерно 1 из 22, или p ≈ 0,045; Фишер отмечает эти приближения.

Ссылки [ править ]

^ «Стиль дома ASA» (PDF) . Новости Амстата . Американская статистическая ассоциация.
^ Ашванден К (24 ноября 2015 г.). «Даже ученые не могут легко объяснить P-значения» . ПятьТридцатьВосемь . Архивировано из оригинала 25 сентября 2019 года . Проверено 11 октября 2019 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Вассерштейн Р.Л., Лазарь Н.А. (7 марта 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 .
^ Хаббард Р., Линдси Р.М. (2008). «Почему значения P не являются полезной мерой доказательств при проверке статистической значимости». Теория и психология . 18 (1): 69–88. дои : 10.1177/0959354307086923 . S2CID 143487211 .
^ Мунафо М.Р. , Носек Б.А., Бишоп Д.В., Баттон К.С., Чемберс К.Д., Дю Серт Н.П. и др. (январь 2017 г.). «Манифест воспроизводимой науки» . Природа человеческого поведения . 1 : 0021. дои : 10.1038/s41562-016-0021 . ПМЦ 7610724 . ПМИД 33954258 . S2CID 6326747 .
^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 . S2CID 124084622 .
^ Jump up to: Перейти обратно: ^а ^б Бенджамини, Йоав; Де Во, Ричард Д.; Эфрон, Брэдли; Эванс, Скотт; Гликман, Марк; Граубар, Барри И.; Он, Сюмин; Мэн, Сяо-Ли; Рид, Нэнси М.; Стиглер, Стивен М.; Вардеман, Стивен Б.; Викле, Кристофер К.; Райт, Томми; Янг, Линда Дж.; Кафадар, Карен (2 октября 2021 г.). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости» . Шанс . 34 (4). Информа UK Limited: 10–11. дои : 10.1080/09332480.2021.2003631 . ISSN 0933-2480 .
^ Нейман, Ежи (1976). «Появление математической статистики: исторический очерк с особым упором на Соединенные Штаты». В Оуэне, Д.Б. (ред.). К истории статистики и теории вероятностей . Учебники и монографии. Нью-Йорк: Marcel Dekker Inc., с. 161.
^ Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмейкерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьорн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлиз; Кук, Томас Д.; Де Бек, Пол; Динес, Золтан; Дребер, Анна; Иасваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малькольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Держись, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косукэ; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вулперт, Роберт Л.; Се, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переопределить статистическую значимость» . Природа человеческого поведения . 2 (1): 6–10. дои : 10.1038/s41562-017-0189-z . eISSN 2397-3374 . hdl : 10281/184094 . ПМИД 30980045 . S2CID 256726352 .
^ Jump up to: Перейти обратно: ^а ^б Руководитель ML, Холман Л., Ланфир Р., Кан А.Т., Дженнионс, доктор медицинских наук (март 2015 г.). «Масштабы и последствия p-хакинга в науке» . ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ПМК 4359000 . ПМИД 25768323 .
^ Симонсон У., Нельсон Л.Д., Симмонс Дж.П. (ноябрь 2014 г.). « Р -кривая и размер эффекта: коррекция систематической ошибки публикации с использованием только значимых результатов». Перспективы психологической науки . 9 (6): 666–681. дои : 10.1177/1745691614553988 . ПМИД 26186117 . S2CID 39975518 .
^ Бхаттачарья Б, Хабцги Д (2002). «Медиана значения p согласно альтернативной гипотезе». Американский статистик . 56 (3): 202–6. дои : 10.1198/000313002146 . S2CID 33812107 .
^ Хунг Х.М., О'Нил Р.Т., Бауэр П., Кёне К. (март 1997 г.). «Поведение P-значения, когда альтернативная гипотеза верна» . Биометрия (Представлена рукопись). 53 (1): 11–22. дои : 10.2307/2533093 . JSTOR 2533093 . ПМИД 9147587 .
^ Нуццо Р. (февраль 2014 г.). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–152. Бибкод : 2014Natur.506..150N . дои : 10.1038/506150a . ПМИД 24522584 .
^ Колкухун Д. (ноябрь 2014 г.). «Расследование частоты ложных открытий и неправильной интерпретации p-значений» . Королевское общество открытой науки . 1 (3): 140216. arXiv : 1407.5296 . Бибкод : 2014RSOS....140216C . дои : 10.1098/rsos.140216 . ПМЦ 4448847 . ПМИД 26064558 .
^ Ли Д.К. (декабрь 2016 г.). «Альтернативы значению P: доверительный интервал и размер эффекта» . Корейский журнал анестезиологии . 69 (6): 555–562. дои : 10.4097/kjae.2016.69.6.555 . ПМК 5133225 . ПМИД 27924194 .
^ Ранстам Дж. (август 2012 г.). «Почему культура P-значений плоха, а доверительные интервалы — лучшая альтернатива» . Остеоартрит и хрящ . 20 (8): 805–808. дои : 10.1016/j.joca.2012.04.001 . ПМИД 22503814 .
^ Пернегер ТВ (май 2001 г.). «Просеивание доказательств. Отношения правдоподобия являются альтернативой значениям P» . БМЖ . 322 (7295): 1184–1185. дои : 10.1136/bmj.322.7295.1184 . ПМЦ 1120301 . ПМИД 11379590 .
^ Ройалл Р. (2004). «Парадигма правдоподобия статистических данных». Природа научных данных . стр. 119–152. дои : 10.7208/Чикаго/9780226789583.003.0005 . ISBN 9780226789576 .
^ Шиммак Ю (30 апреля 2015 г.). «Замена p-значений на байесовские факторы: чудесное лекарство от кризиса воспроизводимости в психологической науке» . Индекс воспроизводимости . Проверено 7 марта 2017 г.
^ Марден Джи (декабрь 2000 г.). «Проверка гипотез: от значений p к факторам Байеса». Журнал Американской статистической ассоциации . 95 (452): 1316–1320. дои : 10.2307/2669779 . JSTOR 2669779 .
^ Штерн HS (16 февраля 2016 г.). «Тест под любым другим названием: значения P, факторы Байеса и статистический вывод» . Многомерное поведенческое исследование . 51 (1): 23–29. дои : 10.1080/00273171.2015.1099032 . ПМК 4809350 . ПМИД 26881954 .
^ Мерто, Пенсильвания (март 2014 г.). «В защиту ценностей P» . Экология . 95 (3): 611–617. Бибкод : 2014Экол...95..611М . дои : 10.1890/13-0590.1 . ПМИД 24804441 .
^ Ашванден С (7 марта 2016 г.). «Статистики пришли к единому мнению: пришло время прекратить неправильное использование P-значений» . ПятьТридцатьВосемь .
^ Амрайн В. , Корнер-Нивергельт Ф., Рот Т. (2017). «Земля плоская ( p > 0,05): пороги значимости и кризис невоспроизводимых исследований» . ПерДж . 5 : е3544. дои : 10.7717/peerj.3544 . ПМК 5502092 . ПМИД 28698825 .
^ Амрайн V , Гренландия Ю (январь 2018 г.). «Удалить, а не переопределить статистическую значимость». Природа человеческого поведения . 2 (1): 4. дои : 10.1038/s41562-017-0224-0 . ПМИД 30980046 . S2CID 46814177 .
^ Колкухун Д. (декабрь 2017 г.). «Воспроизводимость исследований и неверная интерпретация p -значений» . Королевское общество открытой науки . 4 (12): 171085. дои : 10.1098/rsos.171085 . ПМК 5750014 . ПМИД 29308247 .
^ Брайан Э. , Джейссон М. (2007). «Физико-теология и математика (1710–1794)». Изменение соотношения полов человека при рождении . Springer Science & Business Media. стр. 1–25 . ISBN 978-1-4020-6036-6 .
^ Арбутнот Дж. (1710 г.). «Аргумент в пользу Божественного Провидения, основанный на постоянной регулярности рождаемости у представителей обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. дои : 10.1098/rstl.1710.0011 . S2CID 186209819 .
^ Jump up to: Перейти обратно: ^а ^б Коновер В.Дж. (1999). «Глава 3.4: Тест на знаки». Практическая непараметрическая статистика (Третье изд.). Уайли. стр. 157–176. ISBN 978-0-471-16068-7 .
^ Срент П. (1989). Прикладные непараметрические статистические методы (Второе изд.). Чепмен и Холл. ISBN 978-0-412-44980-2 .
^ Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. стр. 225–226 . ISBN 978-0-67440341-3 .
^ Беллхаус П. (2001). «Джон Арбетнот». В Heyde CC, Seneta E (ред.). Статистики веков . Спрингер. стр. 39–42. ISBN 978-0-387-95329-8 .
^ Халд А. (1998). «Глава 4. Случайность или замысел: критерии значимости». История математической статистики с 1750 по 1930 год . Уайли. п. 65.
^ Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. п. 134 . ISBN 978-0-67440341-3 .
^ Jump up to: Перейти обратно: ^а ^б Пирсон К. (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897 .
^ Инман 2004 .
^ Хаббард Р., Баярри М.Дж. (2003), «Путаница в отношении мер доказательности ( p s) и ошибок (α s) в классическом статистическом тестировании», The American Statistician , 57 (3): 171–178 [стр. 171], doi : 10.1198/0003130031856 , S2CID 55671953
^ Фишер 1925 , с. 47, глава III. Распределения .
^ Jump up to: Перейти обратно: ^а ^б Даллал 2012 , Примечание 31: Почему P=0,05? .
^ Фишер 1925 , стр. 78–79, 98, Глава IV. Тесты на соответствие, независимость и однородность; с таблицей χ ², Таблица III. Таблица χ ².
^ Фишер 1971 , II. Принципы экспериментирования, иллюстрированные психофизическим экспериментом.
^ Jump up to: Перейти обратно: ^а ^б Фишер 1971 , Раздел 7. Проверка значимости.
^ Фишер 1971 , Раздел 12.1. Научные выводы и процедуры принятия.
^ «Определение E-значения» . Национальные институты здравоохранения .
^ Стори Джей Ди (2003). «Положительная частота ложных открытий: байесовская интерпретация и значение q» . Анналы статистики . 31 (6): 2013–2035. дои : 10.1214/aos/1074290335 .
^ Стори Дж.Д., Тибширани Р. (август 2003 г.). «Статистическая значимость для полногеномных исследований» . Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S . дои : 10.1073/pnas.1530509100 . ПМК 170937 . ПМИД 12883005 .
^ Маковски Д., Бен-Шачар М.С., Чен Ш., Людеке Д. (10 декабря 2019 г.). «Индексы существования и значимости эффектов в байесовской системе» . Границы в психологии . 10 : 2767. doi : 10.3389/fpsyg.2019.02767 . ПМК 6914840 . ПМИД 31920819 .
^ Введение в p-ценности второго поколения Джеффри Д. Блюм, Роберт А. Гриви, Валери Ф. Велти, Джеффри Р. Смит и Уильям Д. Дюпон https://www.tandfonline.com/doi/full/10.1080/00031305.2018 .1537893

Дальнейшее чтение [ править ]

Денворт Л. (октябрь 2019 г.). «Значительная проблема: стандартные научные методы подвергаются критике. Изменится ли что-нибудь?». Научный американец . 321 (4): 62–67 (63). Использование p значений в течение почти столетия [с 1925 года] для определения статистической значимости результатов экспериментальных способствовало возникновению иллюзии уверенности и [к] кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие готовы отказаться от порога для определения «значимых» результатов.
Элдертон В.П. (1902). «Таблицы для проверки соответствия теории наблюдениям» . Биометрика . 1 (2): 155–163. дои : 10.1093/biomet/1.2.155 .
Фишер Р.А. (1925). Статистические методы для научных работников . Эдинбург, Шотландия: Оливер и Бойд. ISBN 978-0-05-002170-5 .
Фишер Р.А. (1971) [1935]. План экспериментов (9-е изд.). Макмиллан. ISBN 978-0-02-844690-5 .
Фишер Р.А., Йейтс Ф (1938). Статистические таблицы для биологических, сельскохозяйственных и медицинских исследований . Лондон, Англия. {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж, Массачусетс: Belknap Press издательства Гарвардского университета. ISBN 978-0-674-40340-6 .
Хаббард Р., Армстронг Дж.С. (2006). «Почему мы на самом деле не знаем, что означает статистическая значимость: последствия для преподавателей» (PDF) . Журнал маркетингового образования . 28 (2): 114–120. дои : 10.1177/0273475306288399 . hdl : 2092/413 . S2CID 34729227 . Архивировано из оригинала (PDF) 18 мая 2006 г.
Хаббард Р., Линдси Р.М. (2008). «Почему значения P не являются полезным показателем доказательств при тестировании статистической значимости» (PDF) . Теория и психология . 18 (1): 69–88. дои : 10.1177/0959354307086923 . S2CID 143487211 . Архивировано из оригинала (PDF) 21 октября 2016 г. Проверено 28 августа 2015 г.
Стиглер С. (декабрь 2008 г.). «Фишер и уровень 5%» . Шанс . 21 (4): 12. дои : 10.1007/s00144-008-0033-3 .
Даллал Дж.Э. (2012). Маленький справочник статистической практики .
Биау DJ, Джоллес Б.М., Порчер Р. (март 2010 г.). «Значение P и теория проверки гипотез: объяснение для новых исследователей» . Клиническая ортопедия и связанные с ней исследования . 468 (3): 885–892. дои : 10.1007/s11999-009-1164-4 . ПМК 2816758 . ПМИД 19921345 .
Рейнхарт А. (2015). Неверная статистика: ужасно полное руководство . Пресс без крахмала . п. 176. ИСБН 978-1593276201 .
Бенджамини, Йоав ; Де Во, Ричард Д.; Эфрон, Брэдли ; Эванс, Скотт; Гликман, Марк; Граубар, Барри И.; Он, Сюмин; Мэн, Сяо-Ли ; Рид, Нэнси ; Стиглер, Стивен М .; Вардеман, Стивен Б.; Викле, Кристофер К.; Райт, Томми; Янг, Линда Дж.; Кафадар, Карен (2021). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости» . Анналы прикладной статистики . 15 (3): 1084–1085. дои : 10.1214/21-AOAS1501 .
Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмейкерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьорн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлиз; Кук, Томас Д.; Де Бек, Пол; Динес, Золтан; Дребер, Анна; Иасваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малькольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Держись, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косукэ; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вулперт, Роберт Л.; Се, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переопределить статистическую значимость» . Природа человеческого поведения . 2 (1): 6–10. дои : 10.1038/s41562-017-0189-z . eISSN 2397-3374 . hdl : 10281/184094 . ПМИД 30980045 . S2CID 256726352 .

Внешние ссылки [ править ]

Бесплатные онлайн p -калькуляторы значений для различных конкретных тестов (хи-квадрат, F-критерий Фишера и т. д.).
Понимание p -значений , включая Java-апплет, который иллюстрирует, как числовые значения p -значений могут создавать весьма обманчивое впечатление об истинности или ложности проверяемой гипотезы.
StatQuest: значения P, четко объясненные на YouTube
StatQuest: подводные камни P-значения и расчеты мощности на YouTube
Science Is not Broken — статья о том, как можно манипулировать p -значениями, и интерактивный инструмент для ее визуализации.

[2] Курсив, заглавные буквы и расстановка переносов термина различаются. Например, стиль AMA использует « значение P », стиль APA использует « значение p », а Американская статистическая ассоциация использует « значение p ». Во всех случаях «p» означает вероятность. ^[1]

[9] Статистическая значимость результата не означает, что результат также имеет практическое значение. Например, лекарство может иметь статистически значимый эффект, который слишком мал, чтобы представлять интерес.

[42] Чтобы быть более конкретным, p = 0,05 соответствует примерно 1,96 стандартным отклонениям для нормального распределения (двусторонний тест), а 2 стандартных отклонения соответствуют вероятности случайного превышения примерно 1 из 22, или p ≈ 0,045; Фишер отмечает эти приближения.

[1] «Стиль дома ASA» (PDF) . Новости Амстата . Американская статистическая ассоциация.

[3] Ашванден К (24 ноября 2015 г.). «Даже ученые не могут легко объяснить P-значения» . ПятьТридцатьВосемь . Архивировано из оригинала 25 сентября 2019 года . Проверено 11 октября 2019 г.

[ASA-4] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и Вассерштейн Р.Л., Лазарь Н.А. (7 марта 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 .

[5] Хаббард Р., Линдси Р.М. (2008). «Почему значения P не являются полезной мерой доказательств при проверке статистической значимости». Теория и психология . 18 (1): 69–88. дои : 10.1177/0959354307086923 . S2CID 143487211 .

[6] Мунафо М.Р. , Носек Б.А., Бишоп Д.В., Баттон К.С., Чемберс К.Д., Дю Серт Н.П. и др. (январь 2017 г.). «Манифест воспроизводимой науки» . Природа человеческого поведения . 1 : 0021. дои : 10.1038/s41562-016-0021 . ПМЦ 7610724 . ПМИД 33954258 . S2CID 6326747 .

[7] Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 . S2CID 124084622 .

[ASA2019-8] Jump up to: Перейти обратно: ^а ^б Бенджамини, Йоав; Де Во, Ричард Д.; Эфрон, Брэдли; Эванс, Скотт; Гликман, Марк; Граубар, Барри И.; Он, Сюмин; Мэн, Сяо-Ли; Рид, Нэнси М.; Стиглер, Стивен М.; Вардеман, Стивен Б.; Викле, Кристофер К.; Райт, Томми; Янг, Линда Дж.; Кафадар, Карен (2 октября 2021 г.). «Заявление целевой группы президента ASA о статистической значимости и воспроизводимости» . Шанс . 34 (4). Информа UK Limited: 10–11. дои : 10.1080/09332480.2021.2003631 . ISSN 0933-2480 .

[Neyman1976-10] Нейман, Ежи (1976). «Появление математической статистики: исторический очерк с особым упором на Соединенные Штаты». В Оуэне, Д.Б. (ред.). К истории статистики и теории вероятностей . Учебники и монографии. Нью-Йорк: Marcel Dekker Inc., с. 161.

[BenjaminBergerJohannesson2017-11] Бенджамин, Дэниел Дж.; Бергер, Джеймс О.; Йоханнессон, Магнус; Носек, Брайан А.; Вагенмейкерс, Э.-Дж.; Берк, Ричард; Боллен, Кеннет А.; Брембс, Бьорн; Браун, Лоуренс; Камерер, Колин; Чезарини, Дэвид; Чемберс, Кристофер Д.; Клайд, Мерлиз; Кук, Томас Д.; Де Бек, Пол; Динес, Золтан; Дребер, Анна; Иасваран, Кенни; Эфферсон, Чарльз; Фер, Эрнст; Фидлер, Фиона; Филд, Энди П.; Форстер, Малькольм; Джордж, Эдвард И.; Гонсалес, Ричард; Гудман, Стивен; Грин, Эдвин; Грин, Дональд П.; Гринвальд, Энтони Г.; Хэдфилд, Джаррод Д.; Хеджес, Ларри В.; Держись, Леонард; Хуа Хо, Тек; Хойтинк, Герберт; Грушка, Дэниел Дж.; Имаи, Косукэ; Имбенс, Гвидо; Иоаннидис, Джон П.А.; Чон, Минджон; Джонс, Джеймс Холланд; Кирхлер, Майкл; Лейбсон, Дэвид; Лист, Джон; Литтл, Родерик; Лупия, Артур; Машери, Эдуард; Максвелл, Скотт Э.; Маккарти, Майкл; Мур, Дон А.; Морган, Стивен Л.; Мунафо, Маркус; Накагава, Шиничи; Найхан, Брендан; Паркер, Тимоти Х.; Перикки, Луис; Перуджини, Марко; Рудер, Джефф; Руссо, Юдит; Савалей, Виктория; Шенбродт, Феликс Д.; Селлке, Томас; Синклер, Бетси; Тингли, Дастин; Ван Зандт, Триша; Вазире, Симине; Уоттс, Дункан Дж.; Уиншип, Кристофер; Вулперт, Роберт Л.; Се, Ю; Янг, Кристобаль; Зинман, Джонатан; Джонсон, Вален Э. (1 сентября 2017 г.). «Переопределить статистическую значимость» . Природа человеческого поведения . 2 (1): 6–10. дои : 10.1038/s41562-017-0189-z . eISSN 2397-3374 . hdl : 10281/184094 . ПМИД 30980045 . S2CID 256726352 .

[Head2015-12] Jump up to: Перейти обратно: ^а ^б Руководитель ML, Холман Л., Ланфир Р., Кан А.Т., Дженнионс, доктор медицинских наук (март 2015 г.). «Масштабы и последствия p-хакинга в науке» . ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ПМК 4359000 . ПМИД 25768323 .

[Simonsohn2014-13] Симонсон У., Нельсон Л.Д., Симмонс Дж.П. (ноябрь 2014 г.). « Р -кривая и размер эффекта: коррекция систематической ошибки публикации с использованием только значимых результатов». Перспективы психологической науки . 9 (6): 666–681. дои : 10.1177/1745691614553988 . ПМИД 26186117 . S2CID 39975518 .

[Bhattacharya2002-14] Бхаттачарья Б, Хабцги Д (2002). «Медиана значения p согласно альтернативной гипотезе». Американский статистик . 56 (3): 202–6. дои : 10.1198/000313002146 . S2CID 33812107 .

[Hung1997-15] Хунг Х.М., О'Нил Р.Т., Бауэр П., Кёне К. (март 1997 г.). «Поведение P-значения, когда альтернативная гипотеза верна» . Биометрия (Представлена рукопись). 53 (1): 11–22. дои : 10.2307/2533093 . JSTOR 2533093 . ПМИД 9147587 .

[nature506-16] Нуццо Р. (февраль 2014 г.). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–152. Бибкод : 2014Natur.506..150N . дои : 10.1038/506150a . ПМИД 24522584 .

[17] Колкухун Д. (ноябрь 2014 г.). «Расследование частоты ложных открытий и неправильной интерпретации p-значений» . Королевское общество открытой науки . 1 (3): 140216. arXiv : 1407.5296 . Бибкод : 2014RSOS....140216C . дои : 10.1098/rsos.140216 . ПМЦ 4448847 . ПМИД 26064558 .

[18] Ли Д.К. (декабрь 2016 г.). «Альтернативы значению P: доверительный интервал и размер эффекта» . Корейский журнал анестезиологии . 69 (6): 555–562. дои : 10.4097/kjae.2016.69.6.555 . ПМК 5133225 . ПМИД 27924194 .

[19] Ранстам Дж. (август 2012 г.). «Почему культура P-значений плоха, а доверительные интервалы — лучшая альтернатива» . Остеоартрит и хрящ . 20 (8): 805–808. дои : 10.1016/j.joca.2012.04.001 . ПМИД 22503814 .

[20] Пернегер ТВ (май 2001 г.). «Просеивание доказательств. Отношения правдоподобия являются альтернативой значениям P» . БМЖ . 322 (7295): 1184–1185. дои : 10.1136/bmj.322.7295.1184 . ПМЦ 1120301 . ПМИД 11379590 .

[21] Ройалл Р. (2004). «Парадигма правдоподобия статистических данных». Природа научных данных . стр. 119–152. дои : 10.7208/Чикаго/9780226789583.003.0005 . ISBN 9780226789576 .

[22] Шиммак Ю (30 апреля 2015 г.). «Замена p-значений на байесовские факторы: чудесное лекарство от кризиса воспроизводимости в психологической науке» . Индекс воспроизводимости . Проверено 7 марта 2017 г.

[23] Марден Джи (декабрь 2000 г.). «Проверка гипотез: от значений p к факторам Байеса». Журнал Американской статистической ассоциации . 95 (452): 1316–1320. дои : 10.2307/2669779 . JSTOR 2669779 .

[24] Штерн HS (16 февраля 2016 г.). «Тест под любым другим названием: значения P, факторы Байеса и статистический вывод» . Многомерное поведенческое исследование . 51 (1): 23–29. дои : 10.1080/00273171.2015.1099032 . ПМК 4809350 . ПМИД 26881954 .

[25] Мерто, Пенсильвания (март 2014 г.). «В защиту ценностей P» . Экология . 95 (3): 611–617. Бибкод : 2014Экол...95..611М . дои : 10.1890/13-0590.1 . ПМИД 24804441 .

[26] Ашванден С (7 марта 2016 г.). «Статистики пришли к единому мнению: пришло время прекратить неправильное использование P-значений» . ПятьТридцатьВосемь .

[27] Амрайн В. , Корнер-Нивергельт Ф., Рот Т. (2017). «Земля плоская ( p > 0,05): пороги значимости и кризис невоспроизводимых исследований» . ПерДж . 5 : е3544. дои : 10.7717/peerj.3544 . ПМК 5502092 . ПМИД 28698825 .

[28] Амрайн V , Гренландия Ю (январь 2018 г.). «Удалить, а не переопределить статистическую значимость». Природа человеческого поведения . 2 (1): 4. дои : 10.1038/s41562-017-0224-0 . ПМИД 30980046 . S2CID 46814177 .

[29] Колкухун Д. (декабрь 2017 г.). «Воспроизводимость исследований и неверная интерпретация p -значений» . Королевское общество открытой науки . 4 (12): 171085. дои : 10.1098/rsos.171085 . ПМК 5750014 . ПМИД 29308247 .

[30] Брайан Э. , Джейссон М. (2007). «Физико-теология и математика (1710–1794)». Изменение соотношения полов человека при рождении . Springer Science & Business Media. стр. 1–25 . ISBN 978-1-4020-6036-6 .

[31] Арбутнот Дж. (1710 г.). «Аргумент в пользу Божественного Провидения, основанный на постоянной регулярности рождаемости у представителей обоих полов» (PDF) . Философские труды Лондонского королевского общества . 27 (325–336): 186–190. дои : 10.1098/rstl.1710.0011 . S2CID 186209819 .

[Conover1999-32] Jump up to: Перейти обратно: ^а ^б Коновер В.Дж. (1999). «Глава 3.4: Тест на знаки». Практическая непараметрическая статистика (Третье изд.). Уайли. стр. 157–176. ISBN 978-0-471-16068-7 .

[Sprent1989-33] Срент П. (1989). Прикладные непараметрические статистические методы (Второе изд.). Чепмен и Холл. ISBN 978-0-412-44980-2 .

[34] Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. стр. 225–226 . ISBN 978-0-67440341-3 .

[Bellhouse2001-35] Беллхаус П. (2001). «Джон Арбетнот». В Heyde CC, Seneta E (ред.). Статистики веков . Спрингер. стр. 39–42. ISBN 978-0-387-95329-8 .

[Hald1998-36] Халд А. (1998). «Глава 4. Случайность или замысел: критерии значимости». История математической статистики с 1750 по 1930 год . Уайли. п. 65.

[37] Стиглер С.М. (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. п. 134 . ISBN 978-0-67440341-3 .

[Pearson1900-38] Jump up to: Перейти обратно: ^а ^б Пирсон К. (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF) . Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897 .

[FOOTNOTEInman2004-39] Инман 2004 .

[40] Хаббард Р., Баярри М.Дж. (2003), «Путаница в отношении мер доказательности ( p s) и ошибок (α s) в классическом статистическом тестировании», The American Statistician , 57 (3): 171–178 [стр. 171], doi : 10.1198/0003130031856 , S2CID 55671953

[FOOTNOTEFisher192547Chapter_[httppsychclassicsyorkucaFisherMethodschap3htm_III._Distributions]-41] Фишер 1925 , с. 47, глава III. Распределения .

[FOOTNOTEDallal2012Note_31:_[httpwwwjerrydallalcomLHSPp05htm_Why_P=0.05?]-43] Jump up to: Перейти обратно: ^а ^б Даллал 2012 , Примечание 31: Почему P=0,05? .

[FOOTNOTEFisher192578–79,_98Chapter_[httppsychclassicsyorkucaFisherMethodschap4htm_IV._Tests_of_Goodness_of_Fit,_Independence_and_Homogeneity;_with_Table_of_''χ''<sup>2</sup>],_[httppsychclassicsyorkucaFisherMethodstabIIIgif_Table_III._Table_of_''χ''<sup>2</sup>]-44] Фишер 1925 , стр. 78–79, 98, Глава IV. Тесты на соответствие, независимость и однородность; с таблицей χ ², Таблица III. Таблица χ ².

[FOOTNOTEFisher1971II._The_Principles_of_Experimentation,_Illustrated_by_a_Psycho-physical_Experiment-45] Фишер 1971 , II. Принципы экспериментирования, иллюстрированные психофизическим экспериментом.

[FOOTNOTEFisher1971Section_7._The_Test_of_Significance-46] Jump up to: Перейти обратно: ^а ^б Фишер 1971 , Раздел 7. Проверка значимости.

[FOOTNOTEFisher1971Section_12.1_Scientific_Inference_and_Acceptance_Procedures-47] Фишер 1971 , Раздел 12.1. Научные выводы и процедуры принятия.

[48] «Определение E-значения» . Национальные институты здравоохранения .

[49] Стори Джей Ди (2003). «Положительная частота ложных открытий: байесовская интерпретация и значение q» . Анналы статистики . 31 (6): 2013–2035. дои : 10.1214/aos/1074290335 .

[50] Стори Дж.Д., Тибширани Р. (август 2003 г.). «Статистическая значимость для полногеномных исследований» . Труды Национальной академии наук Соединенных Штатов Америки . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S . дои : 10.1073/pnas.1530509100 . ПМК 170937 . ПМИД 12883005 .

[makowski2019indices-51] Маковски Д., Бен-Шачар М.С., Чен Ш., Людеке Д. (10 декабря 2019 г.). «Индексы существования и значимости эффектов в байесовской системе» . Границы в психологии . 10 : 2767. doi : 10.3389/fpsyg.2019.02767 . ПМК 6914840 . ПМИД 31920819 .

[52] Введение в p-ценности второго поколения Джеффри Д. Блюм, Роберт А. Гриви, Валери Ф. Велти, Джеффри Р. Смит и Уильям Д. Дюпон https://www.tandfonline.com/doi/full/10.1080/00031305.2018 .1537893

[примечание 1]

[2]

[3]

[4]

[5]

[6]

[7]

[примечание 2]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[примечание 3]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[1]