Извлечение данных

Извлечение данных (также известное как отслеживание данных или p -хакинг ) ^[1]^[а] Это неправильное использование анализа данных для обнаружения закономерностей в данных, которые могут быть представлены как статистически значимые , что резко увеличивает и занижает риск ложноположительных результатов . Это делается путем выполнения множества статистических тестов данных и сообщения только о тех, которые дают значимые результаты. ^[2]

Процесс сбора данных включает в себя проверку множества гипотез с использованием одного набора данных путем исчерпывающего поиска — возможно, комбинаций переменных, которые могут показать корреляцию , и, возможно, групп случаев или наблюдений, которые показывают различия в их средних значениях или в их разбивке по каким-либо другим показателям. переменная.

Обычные тесты статистической значимости основаны на вероятности того, что конкретный результат возник бы, если бы действовал только случай, и обязательно допускают некоторый риск ошибочных выводов определенного типа (ошибочные отклонения нулевой гипотезы ). Этот уровень риска называется значимостью . Когда проводится большое количество тестов, некоторые из них дают ложные результаты такого типа; следовательно, 5% случайно выбранных гипотез могут быть (ошибочно) признаны статистически значимыми на уровне значимости 5%, 1% могут быть (ошибочно) признаны статистически значимыми на уровне значимости 1% и т. д., только случайно. . Когда будет проверено достаточное количество гипотез, практически наверняка некоторые из них будут признаны статистически значимыми (хотя это и вводит в заблуждение), поскольку почти каждый набор данных с любой степенью случайности может содержать (например) некоторые ложные корреляции . Если они не будут осторожны, исследователи, использующие методы интеллектуального анализа данных, могут легко быть введены в заблуждение этими результатами. Термин p-хакинг (применительно к p -значениям ) был придуман в статье 2014 года тремя исследователями, создавшими блог Data Colada , который сосредоточился на выявлении подобных проблем в исследованиях в области социальных наук. ^[3]^[4]^[5]

Извлечение данных является примером игнорирования проблемы множественных сравнений . Одна из форм заключается в том, что подгруппы сравниваются без уведомления читателя об общем количестве рассмотренных сравнений подгрупп. ^[6]

Типы [ править ]

Делаем выводы на основе данных [ править ]

Обычная проверки статистических гипотез процедура с использованием частотной вероятности заключается в формулировании исследовательской гипотезы, например, «люди из более высоких социальных классов живут дольше», а затем в сборе соответствующих данных. тест статистической значимости Наконец, проводится , чтобы увидеть, насколько вероятны результаты только случайно (также называемый тестом на нулевую гипотезу).

Ключевым моментом правильного статистического анализа является проверка гипотезы с помощью доказательств (данных), которые не использовались при построении гипотезы. Это очень важно, поскольку каждый набор данных содержит некоторые закономерности, возникающие исключительно случайно. Если гипотеза не проверяется на другом наборе данных из той же статистической совокупности , невозможно оценить вероятность того, что одна только случайность приведет к возникновению таких закономерностей.

Например, если подбросить монету пять раз и получить 2 орла и 3 решки, можно предположить, что преимущество монеты в решке составляет от 3/5 до 2/5. Если эту гипотезу затем проверить на существующем наборе данных, она подтвердится, но подтверждение бессмысленно. Правильная процедура заключалась бы в том, чтобы заранее сформировать гипотезу о том, какова вероятность выпадения решки, а затем несколько раз бросить монету, чтобы увидеть, отклонена ли эта гипотеза или нет. Если наблюдаются три решки и две решки, может быть сформирована еще одна гипотеза о том, что вероятность решки равна 3/5, но ее можно проверить только с помощью новой серии подбрасываний монеты. Важно понимать, что статистическая значимость при неправильной процедуре полностью ложна — тесты значимости не защищают от выкапывания данных.

выдвинутая на основе нерепрезентативных данных , Гипотеза

Предположим, что в исследование случайной выборки людей вошли ровно два человека с днем рождения 7 августа: Мэри и Джон. Кто-то, занимающийся сбором данных, может попытаться найти дополнительные сходства между Мэри и Джоном. Проанализировав сотни или тысячи потенциальных сходств между ними, каждое из которых имеет низкую вероятность быть правдой, почти наверняка можно найти необычное сходство. Возможно, Джон и Мэри — единственные два человека в исследовании, которые трижды меняли несовершеннолетних в колледже. Гипотеза, основанная на тщательном изучении данных, может тогда заключаться в том, что «люди, родившиеся 7 августа, имеют гораздо более высокие шансы сменить несовершеннолетнего более чем дважды в колледже».

Сами данные, вырванные из контекста, можно рассматривать как убедительное подтверждение этой корреляции, поскольку никто из людей с разным днем рождения не менял несовершеннолетних трижды в колледже. Однако если (что вполне вероятно) это ложная гипотеза, этот результат, скорее всего, не будет воспроизводимым ; Любая попытка проверить, имеют ли другие люди, родившиеся 7 августа, аналогичную скорость изменения несовершеннолетних, скорее всего, почти сразу же получит противоречивые результаты.

предвзятость Систематическая

Предвзятость – это систематическая ошибка анализа. Например, врачи направляли пациентов с ВИЧ с высоким сердечно-сосудистым риском на конкретное лечение ВИЧ — абакавир , а пациентов с низким риском — на другие препараты, что не позволяло провести простую оценку абакавира по сравнению с другими методами лечения. Анализ, который не устранил эту предвзятость, несправедливо наказал абакавир, поскольку его пациенты подвергались более высокому риску, поэтому у большего числа из них наблюдались сердечные приступы. ^[6] Эта проблема может быть очень серьезной, например, в обсервационном исследовании . ^[6]^[2]

Недостающие факторы, неизмеренные факторы, искажающие результаты , и потеря возможности последующего наблюдения также могут привести к систематической ошибке. ^[6] При выборе статей со значительными p значениями отбираются отрицательные исследования, что является предвзятостью публикации . Это также известно как смещение ящика с файлами , поскольку менее значимые результаты с p -значением остаются в ящике с файлами и никогда не публикуются.

Множественное моделирование [ править ]

Другой аспект обусловленности статистических тестов знанием данных можно увидеть при использовании системного или машинного анализа и линейной регрессии для наблюдения за частотой данных. ^{[ объяснить ]} Важным шагом в этом процессе является решение, какие ковариаты включить в отношения, объясняющие одну или несколько других переменных. Существуют как статистические (см. пошаговую регрессию ), так и существенные соображения, которые заставляют авторов отдавать предпочтение одним из своих моделей другим, а также широко используются статистические тесты. Однако исключение одной или нескольких переменных из объяснительного отношения на основе данных означает, что нельзя обоснованно применять стандартные статистические процедуры к оставшимся переменным в отношении, как будто ничего не произошло. По сути дела, сохраненные переменные должны были пройти некий предварительный тест (возможно, неточный, интуитивный), чтобы отброшенные переменные не прошли проверку. В 1966 году Селвин и Стюарт сравнили переменные, оставшиеся в модели, с рыбой, которая не попадает в сеть – в том смысле, что их влияние обязательно будет больше, чем у тех, которые все-таки попадают в сеть. Это не только изменяет эффективность всех последующих тестов сохраненной объяснительной модели, но также может внести предвзятость и изменить среднеквадратическая ошибка оценки. ^[7]^[8]

Примеры [ править ]

В метеорологии и эпидемиологии [ править ]

В метеорологии гипотезы часто формулируются с использованием данных о погоде на текущий момент и проверяются на основе данных о погоде в будущем, что гарантирует, что даже подсознательно будущие данные не смогут повлиять на формулировку гипотезы. Конечно, такая дисциплина требует ожидания поступления новых данных, чтобы продемонстрировать предсказательную силу сформулированной теории по сравнению с нулевой гипотезой . Этот процесс гарантирует, что никто не сможет обвинить исследователя в ручной адаптации прогнозной модели к имеющимся данным, поскольку информация о предстоящей погоде еще не доступна.

В качестве другого примера предположим, что наблюдатели отмечают, что в конкретном городе наблюдается кластер рака , но у них нет твердой гипотезы о том, почему это так. Однако у них есть доступ к большому количеству демографических данных о городе и его окрестностях, содержащих измерения для территории сотен или тысяч различных переменных, в основном некоррелированных. Даже если все эти переменные не зависят от уровня заболеваемости раком, весьма вероятно, что по крайней мере одна переменная существенно коррелирует с уровнем заболеваемости раком в регионе. Хотя это может указывать на гипотезу, для подтверждения необходимо дальнейшее тестирование с использованием тех же переменных, но с данными из другого места. Обратите внимание, что значение p , равное 0,01, предполагает, что в 1% случаев результат, по крайней мере, такого экстремального значения, будет получен случайно; если проверяются сотни или тысячи гипотез (с взаимно относительно некоррелированными независимыми переменными), то, скорее всего, можно получить значение p меньше 0,01 для многих нулевых гипотез.

В социологии [ править ]

Еще один способ сгладить p-кривую — контролировать пол . Анализ Simonson et. ал. исследование Брунса и Иоаннидиса (2016) демонстрирует это: когда Брунс и Иоаннидис отказались от гендерного контроля, это также снизило сообщаемое t значение с 9,29 до 0,88, демонстрируя непричинный эффект там, где ранее был зафиксирован причинный эффект ( 3). ^[9] Это важный вывод, поскольку t значения обратно пропорциональны значениям p , а это означает, что более высокие значения t (выше 2,8) указывают на более низкие значения p . Контролируя пол, можно искусственно завышать значение t , тем самым искусственно занижая значение p .

Появление в СМИ [ править ]

Одним из примеров является исследование мистификации шоколадного похудания, проведенное журналистом Джоном Боханноном , который публично объяснил в статье Gizmodo , что исследование было намеренно проведено мошенническим путем в качестве социального эксперимента . ^[10] Это исследование было широко распространено во многих средствах массовой информации примерно в 2015 году, и многие люди поверили утверждению, что ежедневное употребление плитки шоколада заставит их похудеть, вопреки здравому смыслу. Это исследование было опубликовано в Институте диеты и здоровья. По словам Боханнона, для снижения значения p ниже 0,05 решающее значение имело принятие во внимание 18 различных переменных при тестировании.

Средства правовой защиты [ править ]

Хотя поиск закономерностей в данных является законным, применение статистического теста значимости или проверки гипотез к тем же данным до тех пор, пока не появится закономерность, подвержено злоупотреблениям. Один из способов построить гипотезы, избегая при этом сбора данных, — это проведение рандомизированных тестов вне выборки . Исследователь собирает набор данных, затем случайным образом разделяет его на два подмножества, A и B. Только одно подмножество, скажем, подмножество A, исследуется на предмет создания гипотез. После того как гипотеза сформулирована, ее необходимо проверить на подмножестве B, которое не использовалось для построения гипотезы. Только если B также поддерживает такую гипотезу, разумно полагать, что эта гипотеза может быть верной. (Это простой тип перекрестной проверки , который часто называют обучающим тестом или разделенной половинной проверкой.)

Еще один способ сбора данных — записать количество всех тестов значимости, проведенных во время исследования, и просто разделить критерий значимости (альфа) на это число; это поправка Бонферрони . Однако это очень консервативный показатель. Семейная альфа 0,05, разделенная таким образом на 1000 для учета 1000 тестов значимости, дает очень строгую альфу для каждой гипотезы, равную 0,00005. Методы, особенно полезные при дисперсионном анализе и построении одновременных доверительных интервалов для регрессий, включающих базисные функции, — это метод Шеффе и, если исследователь имеет в виду только парные сравнения , метод Тьюки . Чтобы избежать крайней консервативности поправки Бонферрони, доступны более сложные методы выборочного вывода. ^[11] Наиболее распространенным методом выборочного вывода является использование процедуры контроля частоты ложных открытий Беньямини и Хохберга : это менее консервативный подход, который стал популярным методом контроля проверки нескольких гипотез.

Когда ни один из подходов не является практичным, можно провести четкое различие между подтверждающим анализом анализом данных и исследовательским . Статистический вывод подходит только для первого случая. ^[8]

В конечном счете, статистическая значимость теста и статистическая достоверность результатов являются совместными свойствами данных и метода, используемого для изучения данных. Таким образом, если кто-то говорит, что определенное событие имеет вероятность 20% ± 2% 19 раз из 20, это означает, что если вероятность события оценивается тем же методом, который использовался для получения оценки 20%, результат будет между 18% и 22% с вероятностью 0,95. Никакие заявления о статистической значимости не могут быть сделаны на основе простого просмотра без должного учета метода, использованного для оценки данных.

Академические журналы все чаще переходят на формат зарегистрированных отчетов , целью которого является противодействие очень серьезным проблемам, таким как сбор данных и HARKing , которые делают исследования по проверке теорий очень ненадежными. Например, журнал Nature Human Behavior принял зарегистрированный формат отчета, поскольку он «смещает акцент с результатов исследований на вопросы, которыми руководствуются исследования, и методы, используемые для ответа на них». ^[12] Европейский журнал личности определяет этот формат следующим образом: «В зарегистрированном отчете авторы создают предложение на исследование, которое включает теоретическую и эмпирическую основу, исследовательские вопросы/гипотезы и пилотные данные (если таковые имеются). После подачи это предложение затем будет рассмотрено. рассматривается до сбора данных, и в случае принятия документ, полученный в результате этой рецензируемой процедуры, будет опубликован независимо от результатов исследования». ^[13]

Методы и результаты также могут быть общедоступными, как в случае с подходом открытой науки , что еще больше затрудняет сбор данных. ^[14]

См. также [ править ]

Псевдоним – эффект обработки сигнала
Ошибка базовой ставки - ошибка в мышлении, которая включает в себя недооценку информации о базовой ставке.
Библейский код - предполагаемый набор секретных сообщений, закодированных в еврейском тексте Торы.
Неравенства Бонферрони – неравенство в применении к вероятностным пространствам.
Сбор вишни – заблуждение неполных доказательств
Заблуждение о саду разветвляющихся троп ^[15] – побочный эффект слишком большого количества исследовательских степеней свободы
Круговой анализ - Ошибка статистического анализа.
HARKing - аббревиатура от «Выдвижение гипотез после того, как стали известны результаты».
Совпадения Линкольна и Кеннеди, городская легенда – Городская легенда
Эффект поиска в другом месте - явление статистического анализа
Метанаука - научное исследование науки
Неправильное использование статистики . Использование статистических аргументов для утверждения лжи.
Переобучение - ошибка в математическом моделировании.
Парейдолия – восприятие значимых закономерностей или изображений в случайных или расплывчатых стимулах.
Апостериорный анализ - статистический анализ, который не был указан до того, как данные были просмотрены.
Апостериорное теоретизирование - Проблема циклических рассуждений в статистике.
Прогнозная аналитика - статистические методы анализа фактов для прогнозирования неизвестных событий.
Заблуждение техасского снайпера - Статистическая ошибка

Примечания [ править ]

^ Другие названия: «бойня данных», «вылов данных», «селективный вывод», «погоня за значимостью» и «поиск значимости».

Ссылки [ править ]

^ Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2). Информа UK Limited: 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 .
^ Jump up to: Перейти обратно: ^а ^б Дэйви Смит, Дж .; Ибрагим, С. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ 1124898 . ПМИД 12493654 .
^ Льюис-Краус, Гидеон (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?» . Житель Нью-Йорка . ISSN 0028-792X . Проверено 1 октября 2023 г.
^ Суббараман, Нидхи (24 сентября 2023 г.). «Группа разоблачителей, уничтожающая плохих учёных» . Уолл Стрит Джорнал . Архивировано из оригинала 24 сентября 2023 г. Проверено 8 октября 2023 г.
^ «АПА Психнет» . psycnet.apa.org . Проверено 8 октября 2023 г.
^ Jump up to: Перейти обратно: ^а ^б ^с ^д Янг, СС; Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x .
^ Селвин, ХК; Стюарт, А. (1966). «Процедуры сбора данных при анализе обследований». Американский статистик . 20 (3): 20–23. дои : 10.1080/00031305.1966.10480401 . JSTOR 2681493 .
^ Jump up to: Перейти обратно: ^а ^б Берк, Р.; Браун, Л.; Чжао, Л. (2009). «Статистический вывод после выбора модели» . Дж. Квант Криминол . 26 (2): 217–236. дои : 10.1007/s10940-009-9077-7 . S2CID 10350955 .
^ Симонсон, Ури; Нельсон, Лейф Д.; Симмонс, Джозеф П. (11 марта 2019 г.). «P-кривая не поможет вам стирать белье, но она позволит отличить воспроизводимые и невоспроизводимые результаты наблюдательных исследований: комментарий к Bruns & Ioannidis (2016)» . ПЛОС ОДИН . 14 (3): e0213454. Бибкод : 2019PLoSO..1413454S . дои : 10.1371/journal.pone.0213454 . ПМК 6411107 . ПМИД 30856227 .
^ Боханнон, Джон (27 мая 2015 г.). «Я обманул миллионы людей, заставив их думать, что шоколад помогает похудеть. Вот как» . Гизмодо . Проверено 20 октября 2023 г.
^ Тейлор, Дж.; Тибширани, Р. (2015). «Статистическое обучение и выборочный вывод» . Труды Национальной академии наук . 112 (25): 7629–7634. дои : 10.1073/pnas.1507583112 . ПМЦ 4485109 .
^ «Повышение воспроизводимости с помощью зарегистрированных отчетов» . Природа человеческого поведения . 1 (1): 0034. 10 января 2017 г. doi : 10.1038/s41562-016-0034 . S2CID 28976450 .
^ «Упрощенная проверка и зарегистрированные отчеты скоро станут официальными в EJP» . ejp-блог.com . 6 февраля 2018 г.
^ Вайс, Стюарт (2017). «Исповедь P-хакера: Дэрил Бем и я» . Скептический исследователь . 41 (5): 25–27. Архивировано из оригинала 5 августа 2018 г. Проверено 5 августа 2018 г.
^ Гельман, Эндрю (2013). «Сад расходящихся тропинок» (PDF) .

Дальнейшее чтение [ править ]

Иоаннидис, Джон П.А. (30 августа 2005 г.). «Почему большинство опубликованных результатов исследований являются ложными» . ПЛОС Медицина . 2 (8). Сан-Франциско: Публичная научная библиотека: e124. дои : 10.1371/journal.pmed.0020124 . ISSN 1549-1277 . ПМЦ 1182327 . ПМИД 16060722 .
Руководитель Меган Л.; Холман, Люк; Ланфир, Роб; Кан, Эндрю Т.; Дженнионс, Майкл Д. (13 марта 2015 г.). «Масштабы и последствия P-хакинга в науке» . ПЛОС Биология . 13 (3): e1002106. дои : 10.1371/journal.pbio.1002106 . ПМК 4359000 . ПМИД 25768323 .
Инсель, Томас (14 ноября 2014 г.). «П-Хакинг» . Блог директора НИМХ .
Смит, Гэри (2016). Стандартные отклонения: ошибочные предположения, искаженные данные и другие способы лжи со статистикой . Джеральда Дакворта и компании ISBN 9780715649749 .

Внешние ссылки [ править ]

Библиография по предвзятости отслеживания данных
Ложные корреляции , галерея примеров неправдоподобных корреляций
StatQuest: подводные камни P -значения и расчеты мощности на YouTube
Видео, объясняющее п-хакерство , от « Нейроскептика », блоггера журнала Discover Magazine.
Step Away From Stepwise — статья в Журнале больших данных, критикующая пошаговую регрессию.

[2] Другие названия: «бойня данных», «вылов данных», «селективный вывод», «погоня за значимостью» и «поиск значимости».

[Wasserstein2016-1] Вассерштейн, Рональд Л.; Лазар, Николь А. (2 апреля 2016 г.). «Заявление ASA о p-значениях: контекст, процесс и цель» . Американский статистик . 70 (2). Информа UK Limited: 129–133. дои : 10.1080/00031305.2016.1154108 . ISSN 0003-1305 .

[bmj02-3] Jump up to: Перейти обратно: ^а ^б Дэйви Смит, Дж .; Ибрагим, С. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ 1124898 . ПМИД 12493654 .

[:22-4] Льюис-Краус, Гидеон (30 сентября 2023 г.). «Они изучали нечестность. Была ли их работа ложью?» . Житель Нью-Йорка . ISSN 0028-792X . Проверено 1 октября 2023 г.

[:3-5] Суббараман, Нидхи (24 сентября 2023 г.). «Группа разоблачителей, уничтожающая плохих учёных» . Уолл Стрит Джорнал . Архивировано из оригинала 24 сентября 2023 г. Проверено 8 октября 2023 г.

[6] «АПА Психнет» . psycnet.apa.org . Проверено 8 октября 2023 г.

[Deming-7] Jump up to: Перейти обратно: ^а ^б ^с ^д Янг, СС; Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x .

[Selvin-8] Селвин, ХК; Стюарт, А. (1966). «Процедуры сбора данных при анализе обследований». Американский статистик . 20 (3): 20–23. дои : 10.1080/00031305.1966.10480401 . JSTOR 2681493 .

[BerkBrownZhao-9] Jump up to: Перейти обратно: ^а ^б Берк, Р.; Браун, Л.; Чжао, Л. (2009). «Статистический вывод после выбора модели» . Дж. Квант Криминол . 26 (2): 217–236. дои : 10.1007/s10940-009-9077-7 . S2CID 10350955 .

[10] Симонсон, Ури; Нельсон, Лейф Д.; Симмонс, Джозеф П. (11 марта 2019 г.). «P-кривая не поможет вам стирать белье, но она позволит отличить воспроизводимые и невоспроизводимые результаты наблюдательных исследований: комментарий к Bruns & Ioannidis (2016)» . ПЛОС ОДИН . 14 (3): e0213454. Бибкод : 2019PLoSO..1413454S . дои : 10.1371/journal.pone.0213454 . ПМК 6411107 . ПМИД 30856227 .

[11] Боханнон, Джон (27 мая 2015 г.). «Я обманул миллионы людей, заставив их думать, что шоколад помогает похудеть. Вот как» . Гизмодо . Проверено 20 октября 2023 г.

[TaylorTibshirani2015-12] Тейлор, Дж.; Тибширани, Р. (2015). «Статистическое обучение и выборочный вывод» . Труды Национальной академии наук . 112 (25): 7629–7634. дои : 10.1073/pnas.1507583112 . ПМЦ 4485109 .

[13] «Повышение воспроизводимости с помощью зарегистрированных отчетов» . Природа человеческого поведения . 1 (1): 0034. 10 января 2017 г. doi : 10.1038/s41562-016-0034 . S2CID 28976450 .

[14] «Упрощенная проверка и зарегистрированные отчеты скоро станут официальными в EJP» . ejp-блог.com . 6 февраля 2018 г.

[15] Вайс, Стюарт (2017). «Исповедь P-хакера: Дэрил Бем и я» . Скептический исследователь . 41 (5): 25–27. Архивировано из оригинала 5 августа 2018 г. Проверено 5 августа 2018 г.

[16] Гельман, Эндрю (2013). «Сад расходящихся тропинок» (PDF) .

[1]

[а]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]