Извлечение данных
Извлечение данных (также известное как отслеживание данных или p -хакинг ) [1] [а] Это неправильное использование анализа данных для обнаружения закономерностей в данных, которые могут быть представлены как статистически значимые , что резко увеличивает и занижает риск ложноположительных результатов . Это делается путем выполнения множества статистических тестов данных и сообщения только о тех, которые дают значимые результаты. [2]
Процесс сбора данных включает в себя проверку множества гипотез с использованием одного набора данных путем исчерпывающего поиска — возможно, комбинаций переменных, которые могут показать корреляцию , и, возможно, групп случаев или наблюдений, которые показывают различия в их средних значениях или в их разбивке по каким-либо другим показателям. переменная.
Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовал только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочные отклонения нулевой гипотезы ). Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты такого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на уровне значимости 5%, 1% могут быть (ошибочно) признаны статистически значимыми на уровне значимости 1% и т. д., только случайно. . Когда будет проверено достаточное количество гипотез, практически наверняка некоторые из них будут признаны статистически значимыми (хотя это и вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, исследователи, использующие методы интеллектуального анализа данных, могут легко быть введены в заблуждение этими результатами. Термин p-хакинг (применительно к p -значениям ) был придуман в статье 2014 года тремя исследователями, создавшими блог Data Colada , который сосредоточился на выявлении подобных проблем в исследованиях в области социальных наук. [3] [4] [5]
Извлечение данных является примером игнорирования проблемы множественных сравнений . Одна из форм заключается в том, что подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. [6]
Типы
[ редактировать ]Делаем выводы на основе данных
[ редактировать ]Обычная проверки статистических гипотез процедура с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. тест статистической значимости Наконец, проводится , чтобы увидеть, насколько вероятны результаты только случайно (также называемый тестом на нулевую гипотезу).
Ключевым моментом правильного статистического анализа является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это очень важно, поскольку каждый набор данных содержит некоторые закономерности, возникающие исключительно случайно. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что одна только случайность приведет к возникновению таких закономерностей.
Например, если подбросить монету пять раз и получить 2 орла и 3 решки, можно предположить, что преимущество монеты в решке составляет от 3/5 до 2/5. Если эту гипотезу затем проверить на существующем наборе данных, она подтвердится, но подтверждение бессмысленно. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о том, какова вероятность выпадения решки, а затем несколько раз бросить монету, чтобы увидеть, отклонена ли эта гипотеза или нет. Если наблюдаются три решки и две решки, может быть сформирована еще одна гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от выкапывания данных.
Дополнительная остановка
[ редактировать ]Необязательная остановка — это практика, при которой данные собираются до тех пор, пока не будут достигнуты некоторые критерии остановки. Хотя это действительная процедура, ее легко использовать неправильно. Проблема в том, что значение p необязательно остановленного статистического теста больше, чем кажется. Интуитивно это происходит потому, что p-значение должно быть суммой всех событий, по крайней мере столь же редких, как и то, что наблюдается. При необязательной остановке возникают еще более редкие события, которые трудно учесть, т. е. не срабатывать правило необязательной остановки и собирать еще больше данных перед остановкой. Игнорирование этих событий приводит к слишком низкому значению p. Фактически, если нулевая гипотеза верна, то можно достичь любого уровня значимости, если разрешить продолжать сбор данных и остановиться, когда желаемое значение p (рассчитанное так, как если бы вы всегда планировали собрать именно такой объем данных) будет достигнуто. полученный. [7] Конкретный пример проверки честной монеты см. в p -value#optional stoping .
Или, говоря более кратко, правильный расчет значения p требует учета контрфактов, то есть того, что экспериментатор мог бы сделать в ответ на данные, которые могли бы быть такими. Объяснить то, что могло бы быть, сложно даже честным исследователям. [7] Одним из преимуществ предварительной регистрации является учет всех несоответствий, что позволяет правильно рассчитать значение p. [8]
Проблема ранней остановки не ограничивается только неправомерными действиями исследователей. Часто возникает необходимость прекратить работу раньше, если стоимость сбора данных высока. Некоторые советы по этике животных даже требуют досрочного прекращения исследования, если в середине исследования получен значительный результат. [9]
Апостериорная замена данных
[ редактировать ]Если данные удаляются после того, как на них уже был проведен некоторый анализ данных, например, под предлогом «удаления выбросов», то это увеличит уровень ложноположительных результатов. Замена «выбросов» данными замены еще больше увеличивает количество ложноположительных результатов. [10]
Апостериорная группировка
[ редактировать ]Если набор данных содержит несколько объектов, то один или несколько объектов можно использовать для группировки и потенциально создать статистически значимый результат. Например, если в наборе данных пациентов записаны их возраст и пол, исследователь может рассмотреть возможность группировки их по возрасту и проверить, коррелирует ли скорость выздоровления с возрастом. Если это не сработает, исследователь может проверить, коррелирует ли это с полом. Если нет, то, возможно, это коррелирует с возрастом после учета пола и т. д. Число возможных группировок растет экспоненциально с количеством признаков. [10]
Гипотеза, выдвинутая на основе нерепрезентативных данных
[ редактировать ]Предположим, что в исследование случайной выборки людей вошли ровно два человека с днем рождения 7 августа: Мэри и Джон. Кто-то, занимающийся сбором данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Проанализировав сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть правдой, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри — единственные двое в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, основанная на тщательном изучении данных, может тогда заключаться в том, что «люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».
Сами данные, вырванные из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто из людей с разным днем рождения не менял несовершеннолетних трижды в колледже. Однако если (что вполне вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; Любая попытка проверить, имеют ли другие люди, родившиеся 7 августа, аналогичную скорость изменения несовершеннолетних, скорее всего, почти сразу же получит противоречивые результаты.
Систематическая предвзятость
[ редактировать ]Предвзятость – это систематическая ошибка анализа. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на конкретное лечение ВИЧ — абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не устранил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты подвергались более высокому риску, поэтому у большего числа из них наблюдались сердечные приступы. [6] Эта проблема может быть очень серьезной, например, в обсервационном исследовании . [6] [2]
Недостающие факторы, неизмеренные факторы, искажающие результаты , и потеря возможности последующего наблюдения также могут привести к систематической ошибке. [6] При выборе статей со значительными p значениями отбираются отрицательные исследования, что является предвзятостью публикации . Это также известно как смещение ящика с файлами , поскольку менее значимые результаты с p -значением остаются в ящике с файлами и никогда не публикуются.
Множественное моделирование
[ редактировать ]Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. [ объяснить ] Важнейшим шагом в этом процессе является решение, какие ковариаты включить в отношения, объясняющие одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение одним из своих моделей другим, а также широко используются статистические тесты. Однако исключение одной или нескольких переменных из объяснительного отношения на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный, интуитивный), чтобы отброшенные переменные не прошли проверку. В 1966 году Селвин и Стюарт сравнили переменные, оставшиеся в модели, с рыбой, которая не попадает в сеть – в том смысле, что их влияние обязательно будет больше, чем у тех, которые все-таки попадают в сеть. Это не только изменяет эффективность всех последующих тестов сохраненной объяснительной модели, но также может внести предвзятость и изменить результаты. среднеквадратическая ошибка оценки. [11] [12]
Примеры
[ редактировать ]В метеорологии и эпидемиологии
[ редактировать ]В метеорологии гипотезы часто формулируются с использованием данных о погоде на текущий момент и проверяются на основе данных о погоде в будущем, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы продемонстрировать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации прогнозной модели к имеющимся данным, поскольку информация о предстоящей погоде еще не доступна.
В качестве другого примера предположим, что наблюдатели отмечают, что в конкретном городе наблюдается кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для территории сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная значительно коррелирует с уровнем заболеваемости раком в регионе. Хотя это может указывать на гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что значение p , равное 0,01, предполагает, что в 1% случаев результат, по крайней мере, такого экстремального значения, будет получен случайно; если проверяются сотни или тысячи гипотез (с взаимно относительно некоррелированными независимыми переменными), то, скорее всего, можно получить значение p меньше 0,01 для многих нулевых гипотез.
В социологии
[ редактировать ]Другой способ сгладить p-кривую — это учитывать пол . Анализ Simonson et. ал. исследование Брунса и Иоаннидиса (2016) демонстрирует это: когда Брунс и Иоаннидис отказались от гендерного контроля, это также снизило сообщаемое t значение с 9,29 до 0,88, демонстрируя непричинный эффект там, где ранее был зафиксирован причинный эффект ( 3). [13] Это важный вывод, поскольку t значения обратно пропорциональны значениям p , а это означает, что более высокие значения t (выше 2,8) указывают на более низкие значения p . Контролируя пол, можно искусственно завышать значение t , тем самым искусственно занижая значение p .
Появление в СМИ
[ редактировать ]Одним из примеров является исследование мистификации шоколадного похудания, проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было намеренно проведено мошенническим путем как социальный эксперимент . [14] Это исследование было широко распространено во многих средствах массовой информации примерно в 2015 году, и многие люди поверили утверждению, что ежедневное употребление плитки шоколада заставит их похудеть, вопреки здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения значения p ниже 0,05 решающее значение имело принятие во внимание 18 различных переменных при тестировании.
Средства правовой защиты
[ редактировать ]Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построить гипотезы, избегая при этом сбора данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется на предмет создания гипотез. После того как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только если B также поддерживает такую гипотезу, разумно полагать, что эта гипотеза может быть верной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или разделенной половинной проверкой.)
Еще одно средство от сбора данных — записать количество всех тестов значимости, проведенных во время исследования, и просто разделить критерий значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу для каждой гипотезы, равную 0,00005. Методы, особенно полезные при дисперсионном анализе и построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только парные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. [15] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных открытий Бенджамини и Хохберга : это менее консервативный подход, который стал популярным методом контроля проверки нескольких гипотез.
Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим анализом анализом данных и исследовательским . Статистический вывод подходит только для первого случая. [12]
В конечном счете, статистическая значимость теста и статистическая достоверность результатов являются совместными свойствами данных и метода, используемого для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакие заявления о статистической значимости не могут быть сделаны только путем просмотра без должного учета метода, использованного для оценки данных.
Академические журналы все чаще переходят на формат зарегистрированных отчетов , целью которого является противодействие очень серьезным проблемам, таким как сбор данных и HARKing , которые делают исследования по проверке теорий очень ненадежными. Например, журнал Nature Human Behavior принял зарегистрированный формат отчета, поскольку он «смещает акцент с результатов исследований на вопросы, которыми руководствуются исследования, и методы, используемые для ответа на них». [16] Европейский журнал личности определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение на исследование, которое включает теоретическую и эмпирическую основу, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение затем будет рассмотрено. рассматривается до сбора данных, и в случае принятия документ, полученный в результате этой рецензируемой процедуры, будет опубликован независимо от результатов исследования». [17]
Методы и результаты также могут быть общедоступными, как в случае с подходом открытой науки , что еще больше затрудняет сбор данных. [18]
См. также
[ редактировать ]- Псевдоним – эффект обработки сигнала
- Ошибка базовой ставки - ошибка в мышлении, которая включает в себя недооценку информации о базовой ставке.
- Библейский код - предполагаемый набор секретных сообщений, закодированных в еврейском тексте Торы.
- Неравенства Бонферрони – неравенство в применении к вероятностным пространствам.
- Сбор вишни – заблуждение неполных доказательств
- Заблуждение о саду разветвляющихся троп [19] – побочный эффект слишком большого количества исследовательских степеней свободы
- Круговой анализ - Ошибка статистического анализа.
- HARKing - аббревиатура от «Выдвижение гипотез после того, как стали известны результаты».
- Совпадения Линкольна и Кеннеди, городская легенда – Городская легенда
- Эффект поиска в другом месте - явление статистического анализа
- Метанаука - научное исследование науки
- Неправильное использование статистики . Использование статистических аргументов для утверждения лжи.
- Переобучение - ошибка в математическом моделировании.
- Парейдолия – восприятие значимых закономерностей или изображений в случайных или расплывчатых стимулах.
- Апостериорный анализ - статистический анализ, который не был указан до того, как данные были просмотрены.
- Апостериорное теоретизирование - Проблема циклических рассуждений в статистике.
- Прогнозная аналитика - статистические методы анализа фактов для прогнозирования неизвестных событий.
- Заблуждение техасского снайпера - Статистическая ошибка
Примечания
[ редактировать ]- ^ Другие названия включают сбор данных, бойню данных, ловлю данных, выборочный вывод, погоню за значимостью и поиск значимости.
Ссылки
[ редактировать ]- ^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2). Информа UK Limited: 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 .
- ^ Перейти обратно: а б Дэйви Смит, Дж .; Ибрагим, С. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ 1124898 . ПМИД 12493654 .
- ^ Льюис-Краус, Гидеон (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?» . Житель Нью-Йорка . ISSN 0028-792X . Проверено 1 октября 2023 г.
- ^ Суббараман, Нидхи (24 сентября 2023 г.). «Группа разоблачителей, уничтожающая плохих учёных» . Уолл Стрит Джорнал . Архивировано из оригинала 24 сентября 2023 г. Проверено 8 октября 2023 г.
- ^ «АПА Психнет» . psycnet.apa.org . Проверено 8 октября 2023 г.
- ^ Перейти обратно: а б с д Янг, СС; Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x .
- ^ Перейти обратно: а б Вагенмейкерс, Эрик-Ян (октябрь 2007 г.). «Практическое решение широко распространенных проблем значений p» . Психономический бюллетень и обзор . 14 (5): 779–804. дои : 10.3758/BF03194105 . ISSN 1069-9384 . ПМИД 18087943 .
- ^ Вихертс, Желте М.; Вельдкамп, Кузье Л.С.; Августейн, Хильда Э.М.; Бейкер, Марджан; ван Аэрт, Робби СМ; ван Ассен, Марсель АЛМ (25 ноября 2016 г.). «Степени свободы в планировании, проведении, анализе и составлении отчетов о психологических исследованиях: контрольный список, позволяющий избежать взлома» . Границы в психологии . 7 :1832.дои : 10.3389 / fpsyg.2016.01832 . ISSN 1664-1078 . ПМК 5122713 . ПМИД 27933012 .
- ^ Руководитель Меган Л.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (13 марта 2015 г.). «Масштабы и последствия P-хакинга в науке» . ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ISSN 1545-7885 . ПМК 4359000 . ПМИД 25768323 .
- ^ Перейти обратно: а б Шуч, Денес (22 сентября 2016 г.). «Учебное пособие по поиску статистической значимости путем поиска N» . Границы в психологии . 7 . дои : 10.3389/fpsyg.2016.01444 . ISSN 1664-1078 . ПМИД 27713723 .
- ^ Селвин, ХК; Стюарт, А. (1966). «Процедуры сбора данных при анализе обследований». Американский статистик . 20 (3): 20–23. дои : 10.1080/00031305.1966.10480401 . JSTOR 2681493 .
- ^ Перейти обратно: а б Берк, Р.; Браун, Л.; Чжао, Л. (2009). «Статистический вывод после выбора модели» . Дж. Квант Криминол . 26 (2): 217–236. дои : 10.1007/s10940-009-9077-7 . S2CID 10350955 .
- ^ Симонсон, Ури; Нельсон, Лейф Д.; Симмонс, Джозеф П. (11 марта 2019 г.). «P-кривая не поможет вам стирать белье, но она позволит отличить воспроизводимые и невоспроизводимые результаты наблюдательных исследований: комментарий к Bruns & Ioannidis (2016)» . ПЛОС ОДИН . 14 (3): e0213454. Бибкод : 2019PLoSO..1413454S . дои : 10.1371/journal.pone.0213454 . ПМК 6411107 . ПМИД 30856227 .
- ^ Боханнон, Джон (27 мая 2015 г.). «Я обманул миллионы людей, заставив их думать, что шоколад помогает похудеть. Вот как» . Гизмодо . Проверено 20 октября 2023 г.
- ^ Тейлор, Дж.; Тибширани, Р. (2015). «Статистическое обучение и выборочный вывод» . Труды Национальной академии наук . 112 (25): 7629–7634. Бибкод : 2015PNAS..112.7629T . дои : 10.1073/pnas.1507583112 . ПМЦ 4485109 . ПМИД 26100887 .
- ^ «Повышение воспроизводимости с помощью зарегистрированных отчетов» . Природа человеческого поведения . 1 (1): 0034. 10 января 2017 г. doi : 10.1038/s41562-016-0034 . S2CID 28976450 .
- ^ «Упрощенная проверка и зарегистрированные отчеты скоро станут официальными в EJP» . ejp-блог.com . 6 февраля 2018 г.
- ^ Вайс, Стюарт (2017). «Признания P-хакера: Дэрил Бем и я» . Скептический исследователь . 41 (5): 25–27. Архивировано из оригинала 5 августа 2018 г. Проверено 5 августа 2018 г.
- ^ Гельман, Эндрю (2013). «Сад расходящихся тропинок» (PDF) .
Дальнейшее чтение
[ редактировать ]- Иоаннидис, Джон П.А. (30 августа 2005 г.). «Почему большинство опубликованных результатов исследований являются ложными» . ПЛОС Медицина . 2 (8). Сан-Франциско: Публичная научная библиотека: e124. doi : 10.1371/journal.pmed.0020124 . ISSN 1549-1277 . ПМЦ 1182327 . ПМИД 16060722 .
- Руководитель Меган Л.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (13 марта 2015 г.). «Масштабы и последствия P-хакинга в науке» . ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ПМК 4359000 . ПМИД 25768323 .
- Инсель, Томас (14 ноября 2014 г.). «П-Хакинг» . Блог директора НИМХ .
- Смит, Гэри (2016). Стандартные отклонения: ошибочные предположения, искаженные данные и другие способы лжи со статистикой . Джеральда Дакворта и компании ISBN 9780715649749 .
Внешние ссылки
[ редактировать ]- Библиография по предвзятости отслеживания данных
- Ложные корреляции , галерея примеров неправдоподобных корреляций
- StatQuest: подводные камни P -значения и расчеты мощности на YouTube
- Видео, объясняющее п-хакерство , от « Нейроскептика », блоггера журнала Discover Magazine.
- Step Away From Stepwise — статья в Журнале больших данных, критикующая пошаговую регрессию.