Неправильное использование p -значений
Неправильное использование p -значений распространено в научных исследованиях и научном образовании . p -значения часто используются или интерпретируются неправильно; [1] Американская статистическая ассоциация заявляет, что значения p могут указывать на то, насколько несовместимы данные с указанной статистической моделью. [2] От подхода проверки гипотез Неймана-Пирсона к статистическим выводам данные, полученные путем сравнения значения p с уровнем значимости, дадут один из двух результатов: либо нулевая гипотеза отвергается (что, однако, не доказывает, что нулевая гипотеза ложна). ), или нулевая гипотеза не может быть отвергнута на этом уровне значимости (что, однако, не доказывает, что нулевая гипотеза верна ). От подхода статистического тестирования Фишера к статистическим выводам низкое значение p означает, что либо нулевая гипотеза верна и произошло крайне маловероятное событие , либо что нулевая гипотеза ложна.
Разъяснения о p -значениях
[ редактировать ]Следующий список проясняет некоторые проблемы, которые обычно неправильно понимаются в отношении p -значений: [2] [3] [4]
- Значение p является не вероятностью того, что нулевая гипотеза верна, или вероятностью того, что альтернативная гипотеза ложна. [2] Значение p может указывать на степень совместимости между набором данных и конкретным гипотетическим объяснением (например, нулевой гипотезой). В частности, значение p можно принять как вероятность получения эффекта, который будет, по крайней мере, столь же экстремальным, как и наблюдаемый эффект, при условии, что нулевая гипотеза верна. Это не следует путать с вероятностью того, что нулевая гипотеза верна с учетом наблюдаемого эффекта (см. « Заблуждение прокурора »). Фактически, частотная статистика не приписывает гипотезам вероятность.
- Значение p является не вероятностью того, что наблюдаемые эффекты были вызваны только случайностью. [2] Значение p вычисляется в предположении, что определенная модель, обычно нулевая гипотеза, верна. Это означает, что значение p — это утверждение об отношении данных к этой гипотезе. [2]
- Уровень значимости 0,05 — это всего лишь условность. [3] [5] Уровень значимости 0,05 (альфа-уровень) часто используется как граница между статистически значимым и статистически незначимым значением p . Однако это не означает, что в целом существует научная причина считать результаты по разные стороны любого порога качественно разными. [3] [6]
- Значение p не указывает на размер или важность наблюдаемого эффекта. [2] Небольшое значение p может наблюдаться для эффекта, который не является значимым или важным. Фактически, чем больше размер выборки, тем меньший минимальный эффект необходим для получения статистически значимого значения p (см. Размер эффекта ).
Проблемы 1 и 2 можно проиллюстрировать по аналогии с «Заблуждением прокурора» в их общем базовом формате таблицы непредвиденных обстоятельств 2 × 2, где удобный поворот внимания пользователя на 90 ° заменяет предполагаемое пространство выборки незаконным пространством выборки. [7] : 18–19 Эти злоупотребления p -значениями, таким образом, аналогичны вероятностной ошибке трансформированного условного выражения и, в свою очередь, ошибочной категориальной логике незаконного преобразования. [7] : 12-13
Представление вероятностей гипотез
[ редактировать ]Частотный подход отвергает достоверность представления вероятностей гипотез: гипотезы являются истинными или ложными, а не чем-то, что можно представить с вероятностью. [8]
Байесовская статистика активно моделирует вероятность гипотез. Значение p само по себе не позволяет рассуждать о вероятностях гипотез, что требует наличия нескольких гипотез или ряда гипотез с предварительным распределением вероятностей между ними, и в этом случае можно использовать байесовскую статистику. Там используется функция правдоподобия для всех возможных значений априора вместо значения p для одной нулевой гипотезы. Значение p описывает свойство данных по сравнению с конкретной нулевой гипотезой; это не свойство самой гипотезы. По той же причине p -значения не дают вероятности того, что данные были созданы просто случайно. [2]
Проблема множественных сравнений
[ редактировать ]рассматривается набор статистических выводов. Проблема множественных сравнений возникает, когда одновременно [9] или выводит подмножество параметров, выбранных на основе наблюдаемых значений. [10] Он также известен как эффект поиска в другом месте . Ошибки в выводах, включая доверительные интервалы , которые не включают соответствующие им параметры совокупности, или тесты гипотез , которые неправильно отвергают нулевую гипотезу , более вероятны, если рассматривать набор в целом. Чтобы предотвратить это, было разработано несколько статистических методов, позволяющих напрямую сравнивать уровни значимости для одиночных и множественных сравнений. Эти методы обычно требуют более высокого порога значимости для отдельных сравнений, чтобы компенсировать количество сделанных выводов. [ нужна ссылка ]
Веб -комикс xkcd высмеивал неправильное понимание p -значений, изображая ученых, расследующих утверждение о том, что употребление мармеладных конфет вызывает прыщи . [11] [12] [13] [14] Не сумев найти значимой ( p < 0,05) корреляции между употреблением мармеладных конфет и появлением прыщей, ученые исследовали 20 мармеладных конфет разного цвета по отдельности, без поправки на множественные сравнения. Они обнаружили, что один цвет (зеленый) номинально связан с акне ( р <0,05). Затем газеты сообщают о результатах, указывающих на то, что зеленые мармеладные конфеты связаны с прыщами на уровне достоверности 95% — как если бы зеленый был единственным протестированным цветом. Фактически, если 20 независимых тестов проводятся с уровнем значимости 0,05 и все нулевые гипотезы верны, вероятность получения хотя бы одного ложноположительного результата составляет 64,2%, а ожидаемое количество ложноположительных результатов равно 1 (т. е. 0,05 × 20).
В целом, коэффициент семейных ошибок (FWER) — вероятность получения хотя бы одного ложноположительного результата — увеличивается с количеством выполненных тестов. FWER, когда все нулевые гипотезы верны для m независимых тестов, каждый из которых проводится на уровне значимости α, составляет: [13]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Видген Б., Ясери Т. (март 2016 г.). «П-ценности: неправильно понятые и неправильно используемые» . Границы в физике . 4 (6): 6. arXiv : 1601.06805 . Бибкод : 2016FrP.....4....6V . дои : 10.3389/fphy.2016.00006 .
- ^ Перейти обратно: а б с д и ж г Вассерштейн Р.Л., Лазарь Н.А. (2016). «Заявление ASA о p -значениях: контекст, процесс и цель» (PDF) . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 . S2CID 124084622 .
- ^ Перейти обратно: а б с Стерн Дж. А., Дэйви Смит Дж. (январь 2001 г.). «Просеивание доказательств — что не так с тестами на значимость?» . БМЖ . 322 (7280): 226–31. дои : 10.1136/bmj.322.7280.226 . ПМК 1119478 . ПМИД 11159626 .
- ^ Шервиш М.Ю. (1996). « Ценности P : что они есть и чем они не являются». Американский статистик . 50 (3): 203–206. дои : 10.2307/2684655 . JSTOR 2684655 .
- ^ Рафи З., Гренландия С. (сентябрь 2020 г.). «Семантические и когнитивные инструменты в помощь статистической науке: замените уверенность и значимость совместимостью и неожиданностью» . Методология медицинских исследований BMC . 20 (1): 244. arXiv : 1909.08579 . дои : 10.1186/s12874-020-01105-9 . ПМЦ 7528258 . ПМИД 32998683 .
- ^ Амрайн В., Корнер-Нивергельт Ф., Рот Т. (2017). «p > 0,05: пороги значимости и кризис невоспроизводимых исследований» . ПерДж . 5 : е3544. дои : 10.7717/peerj.3544 . ПМК 5502092 . ПМИД 28698825 .
- ^ Перейти обратно: а б Сасс, Ричард А. (4 октября 2023 г.). «Заблуждение прокурора, оформленное как образец подмены пространства». Препринты OSF . дои : 10.31219/osf.io/cs248 .
- ^ Шапут, Бриджит; Жирар, Жан-Клод; Генри, Мишель (2011). «Частотный подход: моделирование и моделирование в преподавании статистики и теории вероятностей». Статистика преподавания в школьной математике – задачи преподавания и педагогического образования . Новая серия исследований ICMI. Том. 14. С. 85–95. дои : 10.1007/978-94-007-1131-0_12 . ISBN 978-94-007-1130-3 .
- ^ Миллер Р.Г. (1981). Одновременный статистический вывод (2-е изд.). Нью-Йорк: Springer Verlag . ISBN 978-0-387-90548-8 .
- ^ Бенджамини Ю. (декабрь 2010 г.). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал. Биометрическая газета . 52 (6): 708–21. дои : 10.1002/bimj.200900299 . ПМИД 21154895 .
- ^ Манро Р. (6 апреля 2011 г.). "Значительный" . xkcd . Проверено 22 февраля 2016 г.
- ^ Колкухун Д. (ноябрь 2014 г.). «Исследование частоты ложных открытий и неправильной интерпретации p-значений» . Королевское общество открытой науки . 1 (3): 140216. arXiv : 1407.5296 . Бибкод : 2014RSOS....140216C . дои : 10.1098/rsos.140216 . ПМЦ 4448847 . ПМИД 26064558 .
- ^ Перейти обратно: а б Рейнхарт А. (2015). Неверная статистика: ужасно полное руководство . Пресс без крахмала . стр. 47–48. ISBN 978-1-59327-620-1 .
- ^ Барсалов М. (2 июня 2014 г.). «Проверка гипотез и значения p» . Минитаба Блог . Проверено 22 февраля 2016 г.
Дальнейшее чтение
[ редактировать ]- Вассерштейн, Рональд Л.; Ширм, Аллен Л.; Лазар, Николь А. (20 марта 2019 г.). «Переход в мир за пределами «p <0,05» » . Американский статистик . 73 (доп1): 1–19. дои : 10.1080/00031305.2019.1583913 . ISSN 0003-1305 .
- Видген Б., Ясери Т. (март 2016 г.). «П-ценности: неправильно понятые и неправильно используемые» . Границы в физике . 4 (6): 6. arXiv : 1601.06805 . Бибкод : 2016FrP.....4....6V . дои : 10.3389/fphy.2016.00006 .
- Иоаннидис, Джон П.А. (29 марта 2019 г.). «Чему мы (не) научились из миллионов научных статей со значениями P?» . Американский статистик . 73 (суп1): 20–25. дои : 10.1080/00031305.2018.1447512 . ISSN 0003-1305 .
- Моран Дж.Л., Соломон П.Дж. (июнь 2004 г.). «Прощание с P-значениями?» (PDF) . Реанимационная помощь и реанимация . 6 (2): 130–7. ПМИД 16566700 .
- Лью MJ (июль 2012 г.). «Плохая статистическая практика в фармакологии (и других базовых биомедицинских дисциплинах): вы, вероятно, не знаете Р» . Британский журнал фармакологии . 166 (5): 1559–67. дои : 10.1111/j.1476-5381.2012.01931.x . ПМК 3419900 . ПМИД 22394284 .
- Нуццо Р. (февраль 2014 г.). «Научный метод: статистические ошибки» . Природа . 506 (7487): 150–2. Бибкод : 2014Natur.506..150N . дои : 10.1038/506150a . ПМИД 24522584 .