Jump to content

Проверка гипотез, предложенных данными

В статистике гипотезы , предложенные данным набором данных , при проверке с тем же набором данных, который их предложил, скорее всего, будут приняты, даже если они неверны. Это связано с тем, что будут задействованы циклические рассуждения (двойное погружение): что-то кажется истинным в ограниченном наборе данных; поэтому мы предполагаем, что это верно в целом; поэтому мы ошибочно проверяем это на одном и том же ограниченном наборе данных, что, похоже, подтверждает, что это правда. Генерация гипотез на основе уже наблюдаемых данных, при отсутствии их проверки на новых данных, называется post hoc теоретизированием (от лат. post hoc , «после этого»).

Правильная процедура — проверить любую гипотезу на наборе данных, который не использовался для генерации гипотезы.

Общая проблема

[ редактировать ]

Проверка гипотезы, предложенной данными, может очень легко привести к ложноположительным результатам ( ошибкам I типа ). Если искать достаточно долго и в достаточном количестве разных мест, в конечном итоге можно найти данные, подтверждающие любую гипотезу. Однако эти положительные данные сами по себе не являются доказательством правильности гипотезы. Выброшенные отрицательные результаты тестов не менее важны, поскольку они дают представление о том, насколько распространены положительные результаты по сравнению со случайностью. Проведение эксперимента, наблюдение закономерности в данных, выдвижение гипотезы на основе этой закономерности, а затем использование тех же экспериментальных данных в качестве доказательства новой гипотезы крайне подозрительно, поскольку данные всех других экспериментов, завершенных или потенциальных, по сути, были «выброшены». out», решив рассматривать только те эксперименты, которые в первую очередь предложили новую гипотезу.

Большой набор тестов, описанный выше, значительно увеличивает вероятность ошибки типа I , поскольку все данные, кроме наиболее благоприятных для гипотезы, отбрасываются. Это риск не только при проверке гипотез, но и при любом статистическом выводе , поскольку часто бывает проблематично точно описать процесс, который использовался при поиске и отбрасывании данных . Другими словами, хочется сохранить все данные (независимо от того, поддерживают или опровергают гипотезу) «хорошие тесты», но иногда трудно понять, что такое «хороший тест». Это особая проблема в статистическом моделировании , где многие различные модели отклоняются методом проб и ошибок перед публикацией результата (см. также переоснащение , предвзятость публикации ).

Эта ошибка особенно распространена в интеллектуальном анализе данных и машинном обучении . Это также часто происходит в академических публикациях , где обычно принимаются только сообщения о положительных, а не отрицательных результатах, что приводит к эффекту, известному как предвзятость публикации .

Правильные процедуры

[ редактировать ]

Все стратегии надежной проверки гипотез, предложенных на основе данных, предполагают включение более широкого спектра тестов в попытке подтвердить или опровергнуть новую гипотезу. К ним относятся:

, предложенная Генри Шеффе, Одновременная проверка всех контрастов в задачах множественного сравнения является наиболее эффективной. [ нужна ссылка ] известное средство в случае дисперсионного анализа . [1] Это метод, предназначенный для проверки гипотез, выдвинутых на основе данных, избегая при этом ошибок, описанных выше.

См. также

[ редактировать ]

Примечания и ссылки

[ редактировать ]
  1. ^ Генри Шеффе , «Метод оценки всех контрастов в дисперсионном анализе», Biometrika , 40, страницы 87–104 (1953). два : 10.1093/biomet/40.1-2.87
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0b93b6e9fbc48c1f5b3d2049ffc96320__1719131820
URL1:https://arc.ask3.ru/arc/aa/0b/20/0b93b6e9fbc48c1f5b3d2049ffc96320.html
Заголовок, (Title) документа по адресу, URL1:
Testing hypotheses suggested by the data - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)