Нулевое распределение
При проверке статистических гипотез нулевое распределение — это распределение вероятностей тестовой статистики, когда нулевая гипотеза верна. [1] Например, в F-тесте нулевое распределение является F-распределением . [2] Нулевое распределение — это инструмент, который учёные часто используют при проведении экспериментов. Нулевое распределение — это распределение двух наборов данных при нулевой гипотезе. Если результаты двух наборов данных не выходят за параметры ожидаемых результатов, то нулевая гипотеза считается верной.

Примеры применения
[ редактировать ]Нулевая гипотеза часто является частью эксперимента. Нулевая гипотеза пытается показать, что среди двух наборов данных нет статистической разницы между результатами выполнения одного и другого действия. Например, учёный пытается доказать, что люди, которые проходят две мили в день, имеют более здоровое сердце, чем люди, которые проходят менее двух миль в день. Ученый будет использовать нулевую гипотезу, чтобы сравнить здоровье сердец людей, которые проходили две мили в день, со здоровьем сердец людей, которые проходили менее двух миль в день. Если бы между их частотой сердечных сокращений не было разницы, то учёный мог бы сказать, что статистика испытаний будет следовать нулевому распределению. Тогда ученые смогли определить, что если существует значительная разница, это означает, что тест следует альтернативному распределению.
Получение нулевого распределения
[ редактировать ]В процедуре проверки гипотез необходимо сформировать совместное распределение тестовой статистики для проведения теста и контроля ошибок I рода . Однако истинное распределение часто неизвестно, и для представления данных следует использовать правильное нулевое распределение. Например, при проверке средних значений с одной выборкой и двумя выборками можно использовать t- статистику, имеющую нулевое распределение Гаусса, тогда как статистика F , проверяющая k групп средних значений совокупности, которые имеют квадратичное гауссово распределение, формирует нулевое распределение. [3] Нулевое распределение определяется как асимптотические распределения тестовых статистических данных с преобразованием нулевых квантилей, основанных на предельном нулевом распределении. [4] На практике тестовая статистика нулевого распределения часто неизвестна, поскольку она основана на неизвестном распределении, генерирующем данные. Процедуры повторной выборки, такие как непараметрическая или основанная на модели бутстрап , могут обеспечить согласованные оценки для нулевых распределений. Неправильный выбор нулевого распределения оказывает существенное влияние на ошибку I рода и энергетические характеристики в процессе тестирования. Другой подход к получению нулевого распределения тестовой статистики заключается в использовании данных генерации оценки нулевого распределения.
Нулевое распределение с большим размером выборки
[ редактировать ]Нулевое распределение играет решающую роль в крупномасштабном тестировании. Большой размер выборки позволяет нам реализовать более реалистичное эмпирическое нулевое распределение. Эмпирический нуль можно сгенерировать, используя алгоритм подбора MLE . [5] В рамках байесовской модели крупномасштабные исследования позволяют поместить нулевое распределение в вероятностный контекст с его ненулевыми аналогами. Когда размер выборки n велик, например, более 10 000, эмпирические нули используют собственные данные исследования для оценки соответствующего распределения нулей. Важным предположением является то, что из-за большой доли нулевых случаев (> 0,9) данные могут отображать само нулевое распределение. В некоторых случаях теоретический ноль может не сработать, что не совсем неправильно, но требует соответствующей корректировки. В крупномасштабных наборах данных легко обнаружить отклонения данных от идеальной математической структуры, например, независимых и одинаково распределенных (iid) выборок. Кроме того, корреляция между единицами выборки и ненаблюдаемыми ковариатами может привести к неправильному теоретическому нулевому распределению. [6] Методы перестановки часто используются при множественном тестировании для получения эмпирического нулевого распределения, полученного на основе данных. Эмпирические нулевые методы были представлены вместе с алгоритмом центрального сопоставления в . статье Эфрона [7]
Несколько моментов следует учитывать, используя метод перестановки. Методы перестановки не подходят для коррелированных единиц выборки, поскольку процесс перестановки выборки предполагает независимость и требует допущений iid. Более того, литература показала, что распределение перестановок быстро сходится к N(0,1) по мере того, как n становится большим. В некоторых случаях методы перестановки и эмпирические методы могут быть объединены с использованием замены нуля перестановки N (0,1) в эмпирическом алгоритме. [8]
Ссылки
[ редактировать ]- ^ Стейли, Кент В. Введение в философию науки . 2014. с. 142. ИСБН 9780521112499 .
- ^ Джексон, Салли Энн . Случайные факторы в ANOVA . 1994. с. 38. ISBN 9780803950900 .
- ^ Дюдуа, С. и М. Дж. Ван Дер Лаан . «Множественные процедуры тестирования с применением в геномике. 2008».
- ^ Ван дер Лаан, Марк Дж . и Алан Э. Хаббард. «Нулевое распределение на основе квантильной функции при множественном тестировании на основе передискретизации». Статистические приложения в генетике и молекулярной биологии 5.1 (2006): 1199.
- ^ Эфрон, Брэдли и Тревор Хэсти . Статистический вывод компьютерного века. Издательство Кембриджского университета, 2016.
- ^ Эфрон, Брэдли . Крупномасштабный вывод: эмпирические методы Байеса для оценки, тестирования и прогнозирования. Издательство Кембриджского университета, 2012.
- ^ Эфрон, Брэдли . «Крупномасштабное одновременное тестирование гипотез: выбор нулевой гипотезы». Журнал Американской статистической ассоциации 99.465 (2004): 96–104.
- ^ Эфрон, Брэдли . Крупномасштабный вывод: эмпирические методы Байеса для оценки, тестирования и прогнозирования. Издательство Кембриджского университета, 2012.