Почему большинство опубликованных результатов исследований являются ложными

« Почему большинство опубликованных результатов исследований являются ложными » — это эссе, написанное в 2005 году Джоном Иоаннидисом , профессором Стэнфордской школы медицины , и опубликованное в журнале PLOS Medicine . [1] Это считается основополагающим в области метанауки .
В статье Иоаннидис утверждает, что большое количество, если не большинство, опубликованных медицинских исследовательских работ содержат результаты, которые невозможно воспроизвести . Проще говоря, в эссе говорится, что ученые используют проверку гипотез , чтобы определить, значимы ли научные открытия. Статистическая значимость формализуется с точки зрения вероятности, а ее показатель p- значения упоминается в научной литературе как механизм отбора. Иоаннидис выдвинул предположения о том, как люди проводят эти тесты и сообщают о них; затем он построил статистическую модель, которая показывает, что большинство опубликованных результатов, скорее всего, являются ложноположительными результатами .
Аргумент [ править ]
Предположим, что в данной научной области существует известная базовая вероятность того, что результат верен, обозначаемый . При проведении исследования вероятность получения положительного результата равна . Учитывая эти два фактора, мы хотим вычислить условную вероятность , которая известна как положительная прогностическая ценность (PPV). Теорема Байеса позволяет нам вычислить PPV как: где - частота ошибок типа I (ложных срабатываний) и – частота ошибок второго рода (ложноотрицательных результатов); статистическая мощность . В большинстве научных исследований принято желать и . Если мы предположим для данной научной области, то мы можем вычислить PPV для разных значений и :
0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 | |
---|---|---|---|---|---|---|---|---|---|
0.01 | 0.91 | 0.90 | 0.89 | 0.87 | 0.85 | 0.82 | 0.77 | 0.69 | 0.53 |
0.02 | 0.83 | 0.82 | 0.80 | 0.77 | 0.74 | 0.69 | 0.63 | 0.53 | 0.36 |
0.03 | 0.77 | 0.75 | 0.72 | 0.69 | 0.65 | 0.60 | 0.53 | 0.43 | 0.27 |
0.04 | 0.71 | 0.69 | 0.66 | 0.63 | 0.58 | 0.53 | 0.45 | 0.36 | 0.22 |
0.05 | 0.67 | 0.64 | 0.61 | 0.57 | 0.53 | 0.47 | 0.40 | 0.31 | 0.18 |
Однако простая формула PPV, полученная на основе теоремы Байеса, не учитывает предвзятость в дизайне исследования или отчетности. Некоторые опубликованные результаты не были бы представлены как результаты исследований, если бы не предвзятость исследователей. Позволять быть вероятностью того, что анализ был опубликован только из-за предвзятости исследователя. Тогда PPV определяется более общим выражением: Введение предвзятости будет иметь тенденцию к снижению PPV; в крайнем случае, когда смещение исследования максимизируется, . Даже если исследование соответствует эталонным требованиям для и и не содержит предвзятости, все равно существует 36% вероятность того, что статья, сообщающая о положительном результате, будет неверной; если базовая вероятность истинного результата ниже, то это также приведет к снижению PPV. Более того, существуют убедительные доказательства того, что средняя статистическая мощность исследования во многих научных областях значительно ниже контрольного уровня 0,8. [2] [3] [4]
Учитывая реальность предвзятости, низкую статистическую мощность и небольшое количество истинных гипотез, Иоаннидис приходит к выводу, что большинство исследований в различных научных областях, скорее всего, сообщат о ложных результатах.
Следствия [ править ]
В дополнение к основному результату Иоаннидис перечисляет шесть следствий факторов, которые могут повлиять на надежность опубликованных исследований.
Результаты исследований в научной области с меньшей вероятностью будут правдивыми,
- тем меньше исследований проводилось.
- тем меньше размеры эффекта .
- чем больше число и тем меньше выбор проверяемых связей .
- тем больше гибкость в дизайне , определениях, результатах и аналитических методах.
- тем больше финансовых и других интересов и предрассудков .
- чем горячее научное поле (с участием большего количества научных групп).
Иоаннидис внес свой вклад в эту работу, внося свой вклад в метаэпидемиологическое исследование, которое показало, что только 1 из 20 вмешательств, протестированных в Кокрейновских обзорах, имеет преимущества, подтвержденные доказательствами высокого качества. [5] Он также внес свой вклад в исследование, показавшее, что качество этих доказательств, похоже, не улучшается с течением времени. [6]
Прием [ править ]
Несмотря на скептицизм по поводу крайних заявлений, сделанных в статье, более широкие аргументы и предупреждения Иоаннидиса были приняты большим количеством исследователей. [7] Рост метанауки и признание кризиса научной репликации укрепили авторитет статьи и привели к призывам к методологическим реформам в научных исследованиях. [8] [9]
В комментариях и технических ответах статистики Гудман и Гренландия выявили несколько слабых мест в модели Иоаннидиса. [10] [11] Использование Иоаннидисом драматических и преувеличенных формулировок о том, что он «доказал», что утверждения большинства результатов исследований ложны и что «большинство результатов исследований ложны для большинства исследовательских проектов и для большинства областей » [курсив добавлен], было отвергнуто, и тем не менее они согласились с его выводы и рекомендации статьи.
Специалисты по биостатистике Джагер и Лик раскритиковали модель как основанную на обоснованных, но произвольных предположениях, а не на эмпирических данных, и провели собственное исследование, в ходе которого подсчитали, что уровень ложноположительных результатов в биомедицинских исследованиях оценивается примерно в 14%, а не более 50%, поскольку — заявил Иоаннидис. [12] Их статья была опубликована в специальном выпуске журнала Biostatistics за 2014 год вместе с расширенной критикой со стороны других статистиков. Лик резюмировал ключевые моменты соглашения следующим образом: когда речь идет о частоте ложных открытий с научной точки зрения, необходимо приводить данные; существуют разные подходы для оценки уровня ложных открытий с научной точки зрения; и «весьма маловероятно, что большинство опубликованных исследований являются ложными», но это, вероятно, зависит от определения «большинства» и «ложности». [13]
Статистик Ульрих Шиммак подчеркнул важность эмпирической основы для моделей, отметив, что сообщаемый уровень ложных открытий в некоторых научных областях не является фактическим уровнем открытий, поскольку о незначительных результатах сообщается редко. Теоретическая модель Иоаннидиса этого не учитывает, но когда статистический метод («z-кривая») для оценки количества неопубликованных несущественных результатов применяется к двум примерам, уровень ложноположительных результатов составляет от 8% до 17%, а не более 50%. [14]
Причины высокого уровня ложноположительных результатов [ править ]
Несмотря на эти слабости, тем не менее, существует общее согласие с проблемой и рекомендациями, которые обсуждает Иоаннидис, однако его тон был описан как «драматичный» и «тревожно вводящий в заблуждение», что рискует заставить людей излишне скептически или цинично относиться к науке. [10] [15]
Долгосрочным результатом этой работы стало осознание основных причин высокого уровня ложноположительных результатов в клинической медицине и биомедицинских исследованиях, а также усилия журналов и ученых по их смягчению. В 2016 году Иоаннидис переформулировал эти движущие силы следующим образом: [16]
- Индивидуальный, разрозненный исследователь, ограниченный небольшим размером выборки
- Отсутствие предварительной регистрации проверяемых гипотез
- Последующий выбор гипотез с лучшими значениями P
- Требуется только P < 0,05
- Нет репликации
- Нет обмена данными
Ссылки [ править ]
- ^ Иоаннидис, Джон П.А. (2005). «Почему большинство опубликованных результатов исследований являются ложными» . ПЛОС Медицина . 2 (8): е124. doi : 10.1371/journal.pmed.0020124 . ISSN 1549-1277 . ПМЦ 1182327 . ПМИД 16060722 .
- ^ Баттон, Кэтрин С.; Иоаннидис, Джон П.А.; Мокрыш, Клэр; Носек, Брайан А.; Флинт, Джонатан; Робинсон, Эмма С.Дж.; Мунафо, Маркус Р. (2013). «Сбой в электроснабжении: почему небольшой размер выборки подрывает надежность нейробиологии» . Обзоры природы Неврология . 14 (5): 365–376. дои : 10.1038/nrn3475 . ISSN 1471-0048 . ПМИД 23571845 .
- ^ Шуч, Денес; Иоаннидис, Джон Пенсильвания (2 марта 2017 г.). «Эмпирическая оценка опубликованных размеров и силы эффекта в современной литературе по когнитивной нейробиологии и психологии» . ПЛОС Биология . 15 (3): e2000797. дои : 10.1371/journal.pbio.2000797 . ISSN 1545-7885 . ПМК 5333800 . ПМИД 28253258 .
- ^ Иоаннидис, Джон П.А.; Стэнли, Т.Д.; Дукульягос, Христос (2017). «Сила предвзятости в экономических исследованиях» . Экономический журнал . 127 (605): Ф236–Ф265. дои : 10.1111/ecoj.12461 . ISSN 1468-0297 . S2CID 158829482 .
- ^ Хоуик, Джереми; Колеци, Деспина; Иоаннидис, Джон П.А.; Мэдиган, Клэр; Пандис, Николаос; Лоф, Мартин; Валах, Харальд; Зауэр, Себастьян; Клейнен, Йос; Сира, Джадбиндер; Джонсон, Тесс; Шмидт, Стефан (1 августа 2022 г.). «Большинство медицинских вмешательств, протестированных в Кокрейновских обзорах, не эффективны согласно доказательствам высокого качества: систематический обзор и метаанализ» . Журнал клинической эпидемиологии . 148 : 160–169. дои : 10.1016/j.jclinepi.2022.04.017 . ПМИД 35447356 . S2CID 248250137 – через www.jclinepi.com.
- ^ Хоуик, Джереми; Колеци, Деспина; Пандис, Николаос; Флеминг, Падрейг С.; Лоф, Мартин; Валах, Харальд; Шмидт, Стефан; Иоаннидис, Джон П.А. (1 октября 2020 г.). «Качество доказательств медицинских вмешательств не улучшается и не ухудшается: метаэпидемиологическое исследование Кокрейновских обзоров» . Журнал клинической эпидемиологии . 126 : 154–159. дои : 10.1016/j.jclinepi.2020.08.005 . ПМИД 32890636 . S2CID 221512241 – через www.jclinepi.com.
- ^ Беллуз, Юлия (16 февраля 2015 г.). «Джон Иоаннидис посвятил свою жизнь количественной оценке разрушения науки» . Вокс . Проверено 28 марта 2020 г.
- ^ «Малая власть и кризис репликации: чему мы научились с 2004 года (или 1984, или 1964 года)? «Статистическое моделирование, причинный вывод и социальные науки» . statmodeling.stat.columbia.edu . Проверено 28 марта 2020 г.
- ^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2): 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 .
- ^ Перейти обратно: а б Гудман, Стивен; Гренландия, Сандер (24 апреля 2007 г.). «Почему большинство опубликованных результатов исследований ложны: проблемы анализа» . ПЛОС Медицина . 4 (4): е168. doi : 10.1371/journal.pmed.0040168 . ПМК 1855693 . ПМИД 17456002 .
- ^ Гудман, Стивен; Гренландия, Сандер. «ОЦЕНКА НЕДОСТОВЕРНОСТИ МЕДИЦИНСКОЙ ЛИТЕРАТУРЫ: ОТВЕТ НА «ПОЧЕМУ БОЛЬШИНСТВО ПУБЛИКУЕМЫХ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЙ ЛОЖНЫ» » . Коллекция архива биостатистических исследований . Рабочий документ 135: Рабочие документы кафедры биостатистики Университета Джонса Хопкинса. Архивировано из оригинала 2 ноября 2018 года.
{{cite web}}
: CS1 maint: местоположение ( ссылка ) - ^ Джагер, Лия Р.; Лик, Джеффри Т. (1 января 2014 г.). «Оценка количества ложных открытий с научной точки зрения и их применение в ведущей медицинской литературе» . Биостатистика . 15 (1). Оксфордский академический: 1–12. doi : 10.1093/biostatistics/kxt007 . ПМИД 24068246 . Архивировано из оригинала 11 июня 2020 года.
- ^ Лик, Джефф. «Большая часть науки лжива? Титаны вносят свой вклад» . Сайт juststatistics.org . Архивировано из оригинала 31 января 2017 года.
- ^ Шиммак, Ульрих (16 января 2019 г.). «Иоаннидис (2005) ошибался: большинство опубликованных результатов исследований не являются ложными» . Индекс воспроизводимости . Архивировано из оригинала 19 сентября 2020 года.
- ^ Ингрэм, Пол (15 сентября 2016 г.). «Иоаннидис: выставляет науку в плохом свете с 2005 года» . www.PainScience.com . Архивировано из оригинала 21 июня 2020 года.
- ^ Миникель, Эрик В. (17 марта 2016 г.). «Джон Иоаннидис: Состояние исследований в области исследований» . www.cureffi.org . Архивировано из оригинала 17 января 2020 года.
Дальнейшее чтение [ править ]
- Университет Карнеги-Меллон, Клуб статистических журналов: Краткое изложение и обсуждение: «Почему большинство опубликованных результатов исследований ложны»
- Приложения к экономике: Де Лонг, Дж. Брэдфорд; Лэнг, Кевин. «Все ли экономические гипотезы ложны?» Журнал политической экономии. 100 (6): 1257–1272, 1992 г.
- Приложения к общественным наукам: Хардвик, Том Э.; Уоллах, Джошуа Д.; Кидвелл, Мэллори К.; Бендиксен, Тайсс; Крювелл София и Иоаннидис, Джон П.А. «Эмпирическая оценка исследовательских практик, связанных с прозрачностью и воспроизводимостью, в социальных науках (2014–2017)». Королевское общество открытой науки. 7 : 190806, 2020.
Внешние ссылки [ править ]
- Видео на YouTube, посвященное Инициативе Беркли по прозрачности в социальных науках , 2016 г., «Почему большинство опубликованных результатов исследований являются ложными» ( Часть I , Часть II , Часть III )
- Видео Джона Иоаннидиса на YouTube на выступлениях в Google , 2014 г. «Воспроизводимые исследования: правда или ложь?»