Проверка гипотез, предложенных данными
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2008 г. ) |
В статистике гипотезы , предложенные данным набором данных , при проверке с тем же набором данных, который их предложил, скорее всего, будут приняты, даже если они неверны. Это связано с тем, что будут задействованы циклические рассуждения (двойное погружение): что-то кажется истинным в ограниченном наборе данных; поэтому мы предполагаем, что это верно в целом; поэтому мы ошибочно проверяем это на одном и том же ограниченном наборе данных, что, похоже, подтверждает, что это правда. Генерация гипотез на основе уже наблюдаемых данных, при отсутствии их проверки на новых данных, называется post hoc теоретизированием (от лат. post hoc , «после этого»).
Правильная процедура — проверить любую гипотезу на наборе данных, который не использовался для генерации гипотезы.
Общая проблема
[ редактировать ]Проверка гипотезы, предложенной данными, может очень легко привести к ложноположительным результатам ( ошибкам I типа ). Если искать достаточно долго и в достаточном количестве разных мест, в конечном итоге можно найти данные, подтверждающие любую гипотезу. Однако эти положительные данные сами по себе не являются доказательством правильности гипотезы. Выброшенные отрицательные результаты тестов не менее важны, поскольку они дают представление о том, насколько распространены положительные результаты по сравнению со случайностью. Проведение эксперимента, наблюдение закономерности в данных, выдвижение гипотезы на основе этой закономерности, а затем использование тех же экспериментальных данных в качестве доказательства новой гипотезы крайне подозрительно, поскольку данные всех других экспериментов, завершенных или потенциальных, по сути, были «выброшены». out», решив рассматривать только те эксперименты, которые в первую очередь предложили новую гипотезу.
Большой набор тестов, описанный выше, значительно увеличивает вероятность ошибки типа I , поскольку все данные, кроме наиболее благоприятных для гипотезы, отбрасываются. Это риск не только при проверке гипотез, но и при любом статистическом выводе , поскольку часто бывает проблематично точно описать процесс, который использовался при поиске и отбрасывании данных . Другими словами, хочется сохранить все данные (независимо от того, поддерживают или опровергают гипотезу) «хорошие тесты», но иногда трудно понять, что такое «хороший тест». Это особая проблема в статистическом моделировании , где многие различные модели отклоняются методом проб и ошибок перед публикацией результата (см. также переоснащение , предвзятость публикации ).
Эта ошибка особенно распространена в интеллектуальном анализе данных и машинном обучении . Это также часто происходит в академических публикациях , где обычно принимаются только сообщения о положительных, а не отрицательных результатах, что приводит к эффекту, известному как предвзятость публикации .
Правильные процедуры
[ редактировать ]Все стратегии надежной проверки гипотез, предложенных на основе данных, предполагают включение более широкого спектра тестов в попытке подтвердить или опровергнуть новую гипотезу. К ним относятся:
- Сбор образцов подтверждения
- Перекрестная проверка
- Методы компенсации множественных сравнений
- Имитационные исследования, включая адекватное представление фактически задействованных множественных испытаний
, предложенная Генри Шеффе, Одновременная проверка всех контрастов в задачах множественного сравнения является наиболее эффективной. [ нужна ссылка ] известное средство в случае дисперсионного анализа . [1] Это метод, предназначенный для проверки гипотез, выдвинутых на основе данных, избегая при этом ошибок, описанных выше.
См. также
[ редактировать ]- Поправка Бонферрони
- Анализ данных
- Извлечение данных
- Исследовательский анализ данных
- ВНИМАНИЕ
- р -хакерство
- Последующий анализ
- Прогнозная аналитика
- Заблуждение техасского снайпера
- Ошибки I и II рода.
- Неудобная наука
Примечания и ссылки
[ редактировать ]- ^ Генри Шеффе , «Метод оценки всех контрастов в дисперсионном анализе», Biometrika , 40, страницы 87–104 (1953). два : 10.1093/biomet/40.1-2.87