Нулевая гипотеза
Эта статья может быть слишком технической для понимания большинства читателей . ( Август 2021 г. ) |
В научных исследованиях нулевая гипотеза (часто обозначаемая H 0 ) [1] Это утверждение о том, что эффект не существует. изучаемый [примечание 1] Нулевая гипотеза также может быть описана как гипотеза, в которой не существует связи между двумя наборами анализируемых данных или переменных. Если нулевая гипотеза верна, любой экспериментально наблюдаемый эффект обусловлен исключительно случайностью, отсюда и термин «нулевой». В отличие от нулевой гипотезы разрабатывается альтернативная гипотеза , утверждающая, что между двумя переменными действительно существует связь.
Основные определения
[ редактировать ]Нулевая гипотеза и альтернативная гипотеза — это типы предположений, используемые в статистических тестах для получения статистических выводов, которые представляют собой формальные методы получения выводов и отделения научных утверждений от статистического шума.
Утверждение, проверяемое с помощью теста статистической значимости , называется нулевой гипотезой. Тест значимости предназначен для оценки силы доказательств против нулевой гипотезы или утверждения об «отсутствии эффекта» или «отсутствии различий». [2] Его часто обозначают как H 0 .
Утверждение, которое проверяется на соответствие нулевой гипотезе, является альтернативной гипотезой. [2] Символы могут включать H 1 и H a .
Тест статистической значимости начинается со случайной выборки из совокупности. Если данные выборки согласуются с нулевой гипотезой, вы не отвергаете нулевую гипотезу; если данные выборки несовместимы с нулевой гипотезой, вы отвергаете нулевую гипотезу и приходите к выводу, что альтернативная гипотеза верна. [3]
Следующее добавляет контекст и нюансы к основным определениям.
Учитывая результаты тестов двух случайных выборок , одной из мужчин и одной из женщин, одна группа набрала больше очков, чем другая? Возможная нулевая гипотеза состоит в том, что средний балл мужчин равен среднему баллу женщин:
- ЧАС 0 : мкм 1 = мкм 2
где
- H 0 = нулевая гипотеза,
- μ 1 = среднее значение популяции 1, и
- μ 2 = среднее значение популяции 2.
Более сильная нулевая гипотеза состоит в том, что две выборки имеют равные дисперсии и формы соответствующих распределений.
Терминология
[ редактировать ]- Простая гипотеза
- Любая гипотеза, полностью определяющая распределение населения. Для такой гипотезы выборочное распределение любой статистики является функцией только размера выборки.
- Составная гипотеза
- Любая гипотеза, которая не полностью определяет распределение населения. [4] Пример: гипотеза, определяющая нормальное распределение с указанным средним значением и неуказанной дисперсией.
Различие между простым и сложным было проведено Нейманом и Пирсоном. [5]
- Точная гипотеза
- Любая гипотеза, задающая точное значение параметра. [6] Пример: μ = 100. Синоним: точечная гипотеза .
- Неточная гипотеза
- Те, которые определяют диапазон или интервал параметров. Примеры: μ ≤ 100; 95 ≤ мкм ≤ 105.
Фишеру для проверки требовалась точная нулевая гипотеза (см. цитаты ниже).
Односторонняя гипотеза (проверяется с помощью одностороннего теста) [2] — это неточная гипотеза, в которой значение параметра указывается как:
- выше или равно определенному значению, или
- ниже или равно определенному значению.
Говорят, что односторонняя гипотеза обладает направленностью .
Оригинальный пример Фишера ( женщина, дегустирующая чай ) представлял собой односторонний тест. Нулевая гипотеза была асимметричной. Вероятность правильного угадывания всех чашек была такой же, как и вероятность неправильного угадывания всех чашек, но Фишер отметил, что только правильное угадывание совместимо с утверждением женщины.
Техническое описание
[ редактировать ]Нулевая гипотеза — это гипотеза по умолчанию, согласно которой измеряемая величина равна нулю (нулевому значению). Обычно измеряемая величина представляет собой разницу между двумя ситуациями. Например, пытаясь определить, есть ли положительные доказательства того, что эффект имел место или что образцы взяты из разных партий. [7] [8]
Обычно предполагается, что нулевая гипотеза, возможно, остается верной. Можно провести несколько анализов, чтобы показать, как гипотезу следует отвергнуть или исключить, например, при наличии высокого уровня достоверности, демонстрируя таким образом статистически значимую разницу. Это демонстрируется тем, что ноль находится за пределами указанного доверительного интервала измерения с обеих сторон, обычно в пределах действительных чисел . [8] Неспособность исключить нулевую гипотезу (с какой-либо уверенностью) не является логическим подтверждением или поддержкой (недоказуемой) нулевой гипотезы. (Когда доказано, что что-то, например, больше x , это не обязательно означает, что вероятно, что оно меньше или равно x ; вместо этого это может быть измерение низкого качества с низкой точностью. Двустороннее подтверждение нулевой гипотезы будет равнозначно положительному доказательству того, что оно больше или равно 0 , и положительному доказательству того, что оно меньше или равно 0, для этого необходима бесконечная точность, а также нулевой эффект, ни один из которых обычно не является реалистичным. Кроме того, измерения никогда не будут реалистичными; указывают ненулевую вероятность ровно нулевой разницы.) Таким образом, отказ от исключения нулевой гипотезы равнозначен «не знаю» на указанном уровне достоверности; это каким-то образом не сразу подразумевает ноль, поскольку данные уже могут показывать (менее убедительное) указание на ненулевое значение. Используемый уровень достоверности абсолютно точно не соответствует вероятности нуля при невозможности исключения; фактически в данном случае использовался высокий уровень достоверности расширяет все еще возможный диапазон.
Ненулевая гипотеза может иметь следующие значения, в зависимости от автора: а) используется значение, отличное от нуля, б) используется некоторый запас, отличный от нуля, и в) «альтернативная» гипотеза . [9] [10]
Проверка (исключение или неисключение) нулевой гипотезы дает доказательства того, что существуют (или нет) статистически достаточные основания полагать, что существует взаимосвязь между двумя явлениями (например, что потенциальное лечение в любом случае имеет ненулевой эффект) . Проверка нулевой гипотезы является центральной задачей проверки статистических гипотез в современной научной практике. Существуют точные критерии исключения или не исключения нулевой гипотезы при определенном уровне достоверности. Уровень достоверности должен указывать на вероятность того, что гораздо больше и более качественные данные по-прежнему смогут исключить нулевую гипотезу с той же стороны. [8]
Концепция нулевой гипотезы используется по-разному в двух подходах к статистическому выводу. В подходе Рональда Фишера к проверке значимости нулевая гипотеза отклоняется, если . появление наблюдаемых данных маловероятно, если нулевая гипотеза была верна В этом случае нулевая гипотеза отклоняется и альтернативная гипотеза вместо нее принимается . Если данные согласуются с нулевой гипотезой и статистически возможно верны, то нулевая гипотеза не отвергается. Ни в одном случае нулевая гипотеза или ее альтернатива не доказаны; при наличии лучших или большего количества данных ноль все равно может быть отклонен. Это аналогично юридическому принципу презумпции невиновности , согласно которому подозреваемый или обвиняемый считается невиновным (нулевое значение не отклоняется) до тех пор, пока его вина не будет доказана (нулевое значение отклоняется) вне разумных сомнений (в статистически значимой степени). [8]
В подходе Ежи Неймана и Эгона Пирсона к проверке гипотез нулевая гипотеза противопоставляется альтернативной гипотезе , и две гипотезы различаются на основе данных с определенной долей ошибок. Его используют при формулировании ответов в исследованиях.
Статистический вывод можно сделать без нулевой гипотезы, указав статистическую модель, соответствующую каждой гипотезе-кандидату, и используя методы выбора модели для выбора наиболее подходящей модели. [11] (Наиболее распространенные методы отбора основаны либо на информационном критерии Акаике , либо на факторе Байеса ).
Принцип
[ редактировать ]Проверка гипотезы требует построения статистической модели того, как бы выглядели данные, если бы за результаты отвечали только случайные или случайные процессы. Гипотеза о том, что за результаты отвечает только случай, называется нулевой гипотезой . Модель результата случайного процесса называется распределением при нулевой гипотезе . Полученные результаты сравниваются с распределением при нулевой гипотезе и тем самым определяется вероятность нахождения полученных результатов. [12]
Проверка гипотез осуществляется путем сбора данных и измерения вероятности получения определенного набора данных (при условии, что нулевая гипотеза верна), когда исследование проводится на случайно выбранной репрезентативной выборке. Нулевая гипотеза предполагает отсутствие связи между переменными в популяции , из которой выборка . отбирается [13]
Если набор данных случайно выбранной репрезентативной выборки очень маловероятен по сравнению с нулевой гипотезой (определяемой как часть класса наборов данных, которые будут наблюдаться лишь изредка), экспериментатор отвергает нулевую гипотезу, заключая ее (вероятно, ) неверно. Этот класс наборов данных обычно определяется с помощью тестовой статистики , которая предназначена для измерения степени очевидного отклонения от нулевой гипотезы. Процедура работает путем оценки того, превышает ли наблюдаемое отклонение, измеренное с помощью тестовой статистики, определенное значение, так что вероятность появления более экстремального значения мала при нулевой гипотезе (обычно менее 5% или 1). % аналогичных наборов данных, в которых нулевая гипотеза действительно справедлива).
Если данные не противоречат нулевой гипотезе, то можно сделать только слабый вывод: а именно, что наблюдаемый набор данных предоставляет недостаточные доказательства против нулевой гипотезы. В этом случае, поскольку нулевая гипотеза может быть истинной или ложной, в некоторых контекстах это интерпретируется как означающее, что данные не дают достаточных доказательств для того, чтобы сделать какой-либо вывод, тогда как в других контекстах это интерпретируется как означающее, что нет достаточных доказательств для того, чтобы сделать какой-либо вывод. поддержка перехода от текущего режима к другому. Тем не менее, если на этом этапе эффект окажется вероятным и/или достаточно большим, может возникнуть стимул для дальнейшего исследования, например, для проведения более крупной выборки.
Например, определенный препарат может снизить риск сердечного приступа. Возможные нулевые гипотезы: «этот препарат не снижает риск сердечного приступа» или «этот препарат не влияет на риск сердечного приступа». Проверка гипотезы заключается во введении препарата половине людей в исследуемой группе в качестве контролируемого эксперимента . Если данные показывают статистически значимое изменение у людей, получающих препарат, нулевая гипотеза отклоняется.
Цели проверки нулевых гипотез
[ редактировать ]Существует множество типов тестов значимости для одной, двух или более выборок, для средних значений, дисперсий и пропорций, парных или непарных данных, для различных распределений, для больших и малых выборок; у всех есть нулевые гипотезы. Есть также как минимум четыре цели нулевых гипотез для тестов значимости: [14]
- Технические нулевые гипотезы используются для проверки статистических предположений. Например, остатки между данными и статистической моделью невозможно отличить от случайного шума. Если это правда, то нет смысла усложнять модель.
- Научные нулевые предположения используются для непосредственного продвижения теории. Например, угловой момент Вселенной равен нулю. Если это не так, теория ранней Вселенной, возможно, нуждается в пересмотре.
- Нулевые гипотезы однородности используются для проверки того, что несколько экспериментов дают согласованные результаты. Например, влияние лекарства на пожилых людей соответствует таковому у взрослого населения в целом. Если это правда, это усиливает общий вывод об эффективности и упрощает рекомендации по использованию.
- Нулевые гипотезы, утверждающие равенство эффекта двух или более альтернативных методов лечения, например, лекарства и плацебо, используются для уменьшения научных утверждений, основанных на статистическом шуме. Это самая популярная нулевая гипотеза; Оно настолько популярно, что многие утверждения о значимом тестировании предполагают такие нулевые гипотезы.
Отклонение нулевой гипотезы не обязательно является настоящей целью тестера значимости. Адекватная статистическая модель может быть связана с неспособностью отвергнуть нулевое значение; модель корректируется до тех пор, пока нуль не будет отклонен. Многочисленные варианты использования проверки значимости были хорошо известны Фишеру, который обсуждал многие из них в своей книге, написанной за десять лет до определения нулевой гипотезы. [15]
Тест статистической значимости имеет много общего с математическими расчетами доверительного интервала . Они взаимно освещают друг друга . Результат часто является значимым, если есть уверенность в знаке связи (интервал не включает 0). Всякий раз, когда важен признак связи, достойная цель — статистическая значимость. Это также выявляет недостатки тестирования значимости: результат может быть значимым без хорошей оценки силы связи; значимость может быть скромной целью. Слабая связь также может стать значимой при наличии достаточного количества данных. Обычно рекомендуется сообщать как о значимости, так и о доверительных интервалах.
Разнообразное использование тестов значимости уменьшает количество обобщений, которые можно сделать в отношении всех приложений.
Выбор нулевой гипотезы
[ редактировать ]Выбор нулевой гипотезы связан с редкими и непоследовательными рекомендациями. Фишер упомянул несколько ограничений на выбор и заявил, что следует учитывать множество нулевых гипотез и что для каждой возможно множество тестов. Разнообразие применений и многообразие целей говорят о том, что выбор может оказаться сложным. Во многих приложениях формулировка теста традиционна. Знакомство с набором доступных тестов может указывать на конкретную нулевую гипотезу и тест. Формулирование нулевой гипотезы не автоматизировано (хотя расчеты проверки значимости обычно автоматизированы). Дэвид Кокс сказал: «Как осуществляется перевод предметной задачи в статистическую модель, часто является наиболее важной частью анализа». [16]
Тест статистической значимости предназначен для проверки гипотезы. Если гипотеза суммирует набор данных, нет смысла проверять гипотезу на этом наборе данных. Пример: Если исследование прошлогодних сводок погоды показывает, что дождь в регионе выпадает преимущественно по выходным, то можно проверить эту нулевую гипотезу только на сводках погоды за любой другой год. Проверка гипотез, предложенных данными, представляет собой замкнутый круг рассуждений, которые ничего не доказывают; Это особое ограничение на выбор нулевой гипотезы.
Обычная процедура выглядит следующим образом: Начните с научной гипотезы. Переведите это в статистическую альтернативную гипотезу и продолжайте: «Поскольку H a выражает эффект, доказательства которого мы хотим найти, мы часто начинаем с H a , а затем устанавливаем H 0 как утверждение об отсутствии ожидаемого эффекта. " [2] Этот совет отменяется для приложений моделирования, где мы надеемся не найти доказательств против нуля.
Пример сложного случая выглядит следующим образом: [17] Золотым стандартом клинических исследований является рандомизированное плацебо-контролируемое двойное слепое клиническое исследование. Но тестирование нового препарата против плацебо (неэффективного с медицинской точки зрения) может быть неэтичным в случае серьезного заболевания. Испытание нового препарата против более старого эффективного с медицинской точки зрения препарата поднимает фундаментальные философские вопросы, касающиеся цели испытания и мотивации экспериментаторов. Стандартная нулевая гипотеза «нет разницы» может вознаградить фармацевтическую компанию за сбор неадекватных данных. «Разница» в данном случае является лучшей нулевой гипотезой, но статистическая значимость не является адекватным критерием для получения детального вывода, который требует хорошей числовой оценки эффективности препарата. «Незначительное» или «простое» предлагаемое изменение нулевой гипотезы ((новая или старая), а не (новая или плацебо)) может оказать существенное влияние на полезность теста по сложным нестатистическим причинам.
Направленность
[ редактировать ]Выбор нулевой гипотезы ( H 0 ) и рассмотрение направленности (см. « односторонний тест ») имеют решающее значение.
Хвостость проверки нулевой гипотезы
[ редактировать ]Рассмотрим вопрос о том, является ли брошенная монета честной (т. е. в среднем в 50% случаев она выпадает решкой вверх), и эксперимент, в котором вы подбрасываете монету 5 раз.Возможный результат эксперимента, который мы здесь рассматриваем, — 5 голов. Пусть исходы считаются маловероятными относительно предполагаемого распределения, если их вероятность ниже порога значимости 0,05.
Потенциальная нулевая гипотеза, подразумевающая односторонний тест, заключается в том, что «эта монета не смещена в сторону орла». Имейте в виду, что в этом контексте термин «однорешок» не относится к результату одного подбрасывания монеты (т. е. к тому, выпадет ли монета «решкой» вместо «орла»); термин « односторонний » относится к определенному способу проверки нулевой гипотезы, при котором критическая область (также известная как « область отклонения ») оказывается только на одной стороне распределения вероятностей.
Действительно, для честной монеты вероятность исхода этого эксперимента равна 1/2. 5 = 0,031, что было бы еще ниже, если бы монета была смещена в пользу решки. Следовательно, наблюдений недостаточно для того, чтобы нулевая гипотеза подтвердилась, и тест ее опровергает. Поскольку монета якобы не является ни честной, ни смещенной в сторону решки, вывод эксперимента состоит в том, что монета смещена в сторону орла.
Альтернативно, нулевая гипотеза, подразумевающая двусторонний критерий, гласит: «Эта монета честная». Эту единственную нулевую гипотезу можно проверить, выявляя в экспериментах либо слишком много решок, либо слишком много орлов.Результаты, которые склонны опровергать эту нулевую гипотезу, — это результаты с большим количеством орлов или большим количеством решок, и наш эксперимент с 5 орлами, похоже, принадлежит к этому классу.
Однако вероятность 5 бросков одного и того же типа, независимо от того, орел это или решка, в два раза больше, чем вероятность случая с 5 орлами, рассматриваемого отдельно.Следовательно, согласно этой двусторонней нулевой гипотезе, наблюдение получает значение вероятности 0,063.Следовательно, опять же, при том же пороге значимости, использованном для одностороннего критерия (0,05), тот же результат не является статистически значимым.Следовательно, двусторонняя нулевая гипотеза будет сохранена в этом случае, не подтверждая вывод, сделанный на основе односторонней нулевой гипотезы, о том, что монета смещена в сторону орла.
Этот пример показывает, что вывод, полученный в результате статистического теста, может зависеть от точной формулировки нулевой и альтернативной гипотез.
Обсуждение
[ редактировать ]Фишер сказал: «нулевая гипотеза должна быть точной, то есть свободной от неопределенности и двусмысленности, поскольку она должна служить основой «проблемы распределения», решением которой является критерий значимости», подразумевая более ограничительную область для Х 0 . [18] Согласно этой точке зрения, нулевая гипотеза должна быть численно точной — она должна утверждать, что определенная величина или разница равна определенному числу. В классической науке чаще всего утверждается, что не дает эффекта определенное лечение ; в наблюдениях обычно нет разницы между значением конкретной измеряемой переменной и значением прогноза.
Большинство статистиков считают, что правильно указывать направление как часть нулевой гипотезы или как часть пары нулевая гипотеза/альтернативная гипотеза. [19] Однако результаты не являются полным описанием всех результатов эксперимента, а представляют собой лишь один результат, адаптированный к одной конкретной цели. Например, рассмотрим H0 , который утверждает, что среднее значение для нового лечения является улучшением по сравнению с хорошо зарекомендовавшим себя лечением со средним значением для популяции = 10 (известным из длительного опыта), при этом односторонняя альтернатива заключается в том, что среднее значение для нового лечения > 10 . Если выборочные доказательства, полученные с помощью x -bar, равны -200, а соответствующая статистика t-критерия равна -50, то вывод по результатам теста будет заключаться в том, что нет никаких доказательств того, что новый метод лечения лучше существующего: он не будет сообщать о том, что новый метод лечения лучше существующего. что это заметно хуже, но это не то, что ищет этот конкретный тест. Чтобы преодолеть любую возможную двусмысленность при сообщении о результате проверки нулевой гипотезы, лучше всего указать, был ли тест двусторонним, а если односторонний, указать направление проверяемого эффекта.
Статистическая теория, необходимая для рассмотрения рассматриваемых здесь простых и более сложных случаев направленности, использует концепцию несмещенного критерия .
Направленность гипотез не всегда очевидна. Явная нулевая гипотеза примера дегустации чая Леди Фишера заключалась в том, что у Леди не было такой способности, что привело к симметричному распределению вероятностей. Односторонний характер теста стал результатом односторонней альтернативной гипотезы (термин, не использованный Фишером). Нулевая гипотеза стала неявно односторонней. Логическое отрицание одностороннего утверждения Леди также было односторонним. (Утверждение: Способность > 0; Заявленное ноль: Способность = 0; Неявное ноль: Способность ≤ 0).
Чистые аргументы в пользу использования односторонних тестов осложняются разнообразием тестов. Некоторые тесты (например, χ 2 критерий согласия) по своей сути являются односторонними. Некоторые распределения вероятностей асимметричны. Традиционные тесты трех и более групп являются двусторонними.
Рекомендации относительно использования односторонних гипотез были непоследовательными, а общепринятая практика варьируется в зависимости от области. [20] Самым большим возражением против односторонних гипотез является их потенциальная субъективность. Незначимый результат иногда может быть преобразован в значимый результат с помощью односторонней гипотезы (как тест честной монеты, по прихоти аналитика). Обратная сторона аргумента: односторонние тесты с меньшей вероятностью игнорируют реальный эффект. Односторонние тесты могут подавить публикацию данных, которые по знаку отличаются от прогнозов. Объективность была целью разработчиков статистических тестов.
По умолчанию принято использовать одностороннюю гипотезу. Однако «если у вас заранее нет четкого представления о конкретном направлении, используйте двустороннюю альтернативу. Более того, некоторые пользователи статистики утверждают, что мы всегда должны работать с двусторонней альтернативой». [2] [21]
Одной из альтернатив этому совету является использование тестов с тремя исходами. Он устраняет проблемы, связанные с направленностью гипотез, путем двойного тестирования, по одному разу в каждом направлении, и объединения результатов для получения трех возможных результатов. [22] Вариации этого подхода имеют свою историю: с 1950 года их предлагалось около 10 раз. [23]
Разногласия по поводу односторонних тестов вытекают из философии науки. Хотя Фишер был готов проигнорировать маловероятный случай, когда Леди неправильно угадала все чашки чая (что могло быть уместно в данных обстоятельствах), медицина считает, что предлагаемое лечение, убивающее пациентов, значимо во всех смыслах и о нем следует сообщить и, возможно, объяснить. . Плохая практика статистической отчетности способствовала разногласиям по поводу односторонних тестов. Статистическая значимость, полученная в результате двусторонних тестов, нечувствительна к знаку связи; Одного отчетного значения недостаточно. «Лечение дает эффект» — неинформативный результат двустороннего теста. «Лечение дает положительный эффект» — более информативный результат одностороннего теста. «Лечение оказывает эффект, сокращая среднюю продолжительность госпитализации на 1,5 дня» — наиболее информативный отчет, сочетающий в себе результат двустороннего теста значимости с числовой оценкой связи между лечением и эффектом. Явное сообщение о числовом результате устраняет философское преимущество одностороннего теста. Основная проблема заключается в подходящей форме экспериментальной науки без числовых прогностических теорий: модель числовых результатов более информативна, чем модель признаков эффектов (положительных, отрицательных или неизвестных), которая более информативна, чем модель простой значимости (неопределенных). ноль или неизвестно); при отсутствии числовой теории знаков может быть достаточно.
История статистических тестов
[ редактировать ]История нулевых и альтернативных гипотез во многом связана с историей статистических тестов. [24] [25]
- До 1925 года: время от времени встречаются временные следы статистических тестов прошлых столетий, которые были ранними примерами нулевых гипотез. В конце 19 века была определена статистическая значимость. В начале 20 века были определены важные распределения вероятностей . Госсетт и Пирсон работали над конкретными случаями проверки значимости.
- 1925: Фишер опубликовал первое издание « Статистических методов для научных работников» , в котором был определен критерий статистической значимости и сделан его основным методом анализа для большей части экспериментальной науки. Текст был лишен доказательств и слаб в пояснениях, но наполнен реальными примерами. Он поместил статистическую практику в науку намного раньше опубликованной статистической теории.
- 1933: В серии статей (опубликованных более десяти лет, начиная с 1928 года) Нейман и Пирсон определили проверку статистической гипотезы как предлагаемое усовершенствование теста Фишера. В документах представлена большая часть терминологии для статистических тестов, включая альтернативную гипотезу и H 0 как гипотезу, которая будет проверена с использованием данных наблюдений (с H 1 , H 2 ... в качестве альтернатив). [5]
- 1935: Фишер опубликовал первое издание книги «План экспериментов», в которой представила нулевую гипотезу. [26] (на примере, а не на определении) и тщательно объяснил обоснование тестов значимости в контексте интерпретации экспериментальных результатов.
- Фишер и Нейман спорили из-за относительных достоинств своих конкурирующих формулировок до самой смерти Фишера в 1962 году. Смена карьеры и Вторая мировая война положили конец партнерству Неймана и Пирсона. Формулировки были объединены относительно анонимными авторами учебников, экспериментаторами (редакторами журналов) и математическими статистиками без участия Фишера или Неймана. [24] Сегодняшняя тема сочетает в себе большую часть терминологии и объяснительной силы Неймана и Пирсона с научной философией и расчетами Фишера. Вопрос о том, является ли статистическое тестирование одним предметом или двумя, остается источником разногласий. [27] Выборка из двух: в одном тексте предмет упоминается как проверка гипотез (без упоминания о проверке значимости в индексе), а в другом говорится о проверке значимости (с разделом о выводе как о решении). Фишер разработал тестирование значимости как гибкий инструмент, позволяющий исследователям взвешивать свои доказательства. Вместо этого тестирование стало институционализированным. Статистическая значимость стала жестко определенным и обязательным критерием публикации результатов экспериментов во многих научных журналах. В некоторых областях тестирование значимости стало доминирующей и почти исключительной формой статистического анализа. Как следствие, ограничения тестов были тщательно изучены. Книги были наполнены собранной критикой тестирования значимости .
См. также
[ редактировать ]- Байесовский фактор
- Бремя доказывания
- Контрноль
- Статистика оценки
- Тест отношения правдоподобия
- Презумпция невиновности
- Статистическая проверка гипотез
- P-значение
Примечания
[ редактировать ]- ^ Обратите внимание, что термин «эффект» здесь не подразумевает причинно-следственную связь.
Ссылки
[ редактировать ]- ^ Хельменстин, Энн Мари. «Что такое нулевая гипотеза? Определение и примеры» . МысльКо . Проверено 10 декабря 2019 г.
- ^ Перейти обратно: а б с д и Мур, Дэвид; Маккейб, Джордж (2003). Введение в практику статистики (4-е изд.). Нью-Йорк: WH Freeman and Co., с. 438. ИСБН 978-0716796572 .
- ^ Вайс, Нил А. (1999). Вводная статистика (5-е изд.). Эддисон Уэсли. п. 494 . ISBN 978-0201598773 .
- ^ Росси, Р.Дж. (2018), Математическая статистика , Wiley , стр. 281 .
- ^ Перейти обратно: а б Нейман, Дж; Пирсон, ES (1 января 1933 г.). «К проблеме наиболее эффективной проверки статистических гипотез» . Философские труды Королевского общества А. 231 (694–706): 289–337. Бибкод : 1933RSPTA.231..289N . дои : 10.1098/rsta.1933.0009 .
- ^ Винклер, Роберт Л; Хейс, Уильям Л. (1975). Статистика: вероятность, вывод и решение . Нью-Йорк: Холт, Райнхарт и Уинстон. п. 403 . ISBN 978-0-03-014011-2 .
- ^ Эверитт, Брайан (1998). Кембриджский статистический словарь . Кембридж и Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465 .
- ^ Перейти обратно: а б с д Хейс, Адам. «Определение нулевой гипотезы» . Инвестопедия . Проверено 10 декабря 2019 г.
- ^ Чжао, Гуолун (18 апреля 2015 г.). «Проверка ненулевой гипотезы для линейных тенденций в пропорциях» . Коммуникации в статистике – теория и методы . 44 (8): 1621–1639. дои : 10.1080/03610926.2013.776687 . ISSN 0361-0926 . S2CID 120030713 .
- ^ «Глоссарий статистических терминов ОЭСР – Определение ненулевой гипотезы» . stats.oecd.org . Проверено 5 декабря 2020 г.
- ^ Бернхэм, КП; Андерсон, Д.Р. (2002), Выбор модели и многомодельный вывод: практический информационно-теоретический подход (2-е изд.), Springer-Verlag, ISBN 978-0-387-95364-9 .
- ^ Stockburger DW (2007), «Гипотеза и проверка гипотез», Энциклопедия измерений и статистики (редактор — Салкинд, штат Нью-Джерси), SAGE Publications .
- ^ Чан, И. -Чант А.; Джангиани, Раджив С.; Прайс, Пол К. (13 октября 2015 г.). «Понимание проверки нулевой гипотезы – методы исследования в психологии» . opentextbc.ca . Проверено 10 декабря 2019 г.
- ^ Кокс, ДР (1982). «Тест статистической значимости» . Бр. Дж. Клин. Фармакол . 14 (3): 325–331. дои : 10.1111/j.1365-2125.1982.tb01987.x . ПМЦ 1427620 . ПМИД 6751362 .
- ^ Статистические методы для научных работников (11-е изд.): Глава IV: Критерии согласия, независимости и однородности; С таблицей χ 2 . Что касается теста значимости, подтверждающего доброту соответствия: если вычисленная вероятность высока, то «определенно нет оснований подозревать, что [нулевая] гипотеза проверена. Если она [низкая], это явно указывает на то, что [нулевая] гипотеза не работает». объяснить все факты».
- ^ Кокс, Д.Р. (2006). Принципы статистического вывода . Издательство Кембриджского университета. п. 197. ИСБН 978-0-521-68567-2 .
- ^ Джонс, Б; П Джарвис; Дж. А. Льюис; А. Ф. Эббатт (6 июля 1996 г.). «Испытания по оценке эквивалентности: важность строгих методов» . БМЖ . 313 (7048): 36–39. дои : 10.1136/bmj.313.7048.36 . ПМК 2351444 . PMID 8664772 . Предполагается, что позиция по умолчанию (нулевая гипотеза) должна заключаться в том, что методы лечения не эквивалентны. Выводы следует делать на основе доверительных интервалов, а не значимости.
- ^ Фишер, Р.А. (1966). План экспериментов (8-е изд.). Эдинбург: Хафнер.
- ^ Например, см. Нулевую гипотезу.
- ^ Ломбарди, Селия М.; Херлберт, Стюарт Х. (2009). «Ошибочное назначение и неправильное использование односторонних тестов» . Австралийская экология . 34 (4): 447–468. дои : 10.1111/j.1442-9993.2009.01946.x . Подробно обсуждаются достоинства и историческое использование односторонних тестов в биологии.
- ^ Бланд, Дж. Мартин; Альтман, Дуглас Дж. (23 июля 1994 г.). «Одно- и двусторонние тесты значимости» . БМЖ . 309 (6949): 248. дои : 10.1136/bmj.309.6949.248 . ПМК 2540725 . ПМИД 8069143 . Что касается медицинской статистики: «В общем, односторонний тест уместен, когда большая разница в одном направлении приведет к такому же действию, как и полное отсутствие разницы. Ожидание разницы в определенном направлении не является адекватным оправданием». «Следует использовать двусторонние тесты, если нет веских причин поступать иначе. Если необходимо использовать односторонние тесты, направление теста должно быть указано заранее. Односторонние тесты никогда не следует использовать просто как средство для проверки условно несущественная разница значительна».
- ^ Джонс, Лайл В.; Тьюки, Джон В. (2000). «Разумная формулировка теста значимости». Психологические методы . 5 (4): 411–414. дои : 10.1037/1082-989X.5.4.411 . ПМИД 11194204 . S2CID 14553341 . Результаты испытаний подписывают: значительный положительный эффект, значительный отрицательный эффект или незначительный эффект неизвестного знака. Это более тонкий вывод, чем вывод двустороннего теста. Он имеет преимущества одностороннего теста без недостатков.
- ^ Херлберт, Ш.; Ломбарди, CM (2009). «Окончательный крах теоретической основы принятия решений Неймана-Пирсона и подъем неофишерианства». Энн. Зоол. Фенничи . 46 (5): 311–349. дои : 10.5735/086.046.0501 . ISSN 1797-2450 . S2CID 9688067 .
- ^ Перейти обратно: а б Гигеренцер, Герд; Зено Свитинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь . Издательство Кембриджского университета. стр. 70–122. ISBN 978-0-521-39838-1 .
- ^ Леманн, Э.Л. (2011). Фишер, Нейман и создание классической статистики . Нью-Йорк: Спрингер. ISBN 978-1441994998 .
- ^ Олдрич, Джон. «Самые ранние известные варианты использования некоторых слов теории вероятности и статистики» . Проверено 30 июня 2014 г. Последнее обновление 12 марта 2003 г. От Джеффа Миллера.
- ^ Леманн, Э.Л. (декабрь 1993 г.). «Теории Фишера, Неймана-Пирсона о проверке гипотез: одна теория или две?». Журнал Американской статистической ассоциации . 88 (424): 1242–1249. дои : 10.1080/01621459.1993.10476404 .
Дальнейшее чтение
[ редактировать ]- Адер, ХЮ ; Мелленберг, Дж. Дж. и Хэнд, ди-джей (2007). Консультирование по методам исследования: Спутник консультанта . Хейзен, Нидерланды: Издательство Йоханнеса ван Кесселя. ISBN 978-90-79418-01-5 .
- Эфрон, Б. (2004). «Крупномасштабная одновременная проверка гипотез». Журнал Американской статистической ассоциации . 99 (465): 96–104. дои : 10.1198/016214504000000089 . S2CID 1520711 . Применение теста значимости в этой статье является исключением. Тесты для поиска нулевой гипотезы? Не пытаться показать значимость, а найти интересные случаи?
- Райс, Уильям Р.; Гейнс, Стивен Д. (июнь 1994 г.). « Орел я выигрываю, решка - ты проигрываешь»: проверка направленных альтернативных гипотез в экологических и эволюционных исследованиях». ДЕРЕВО . 9 (6): 235–237. дои : 10.1016/0169-5347(94)90258-5 . ПМИД 21236837 . Направленные тесты сочетают в себе свойства односторонних и двусторонних тестов. «...направленные тесты следует использовать практически во всех приложениях, где ранее использовались односторонние тесты, за исключением тех случаев, когда данные могут отклоняться от H 0 только в одном направлении».