Точный тест
Эта статья требует внимания эксперта по статистике . Конкретная проблема: требует обсуждения в рамках точных тестов в целом. ( ноябрь 2008 г. ) |
Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Октябрь 2021 г. ) |
Точный тест (значимости) — это тест, при котором, если нулевая гипотеза верна, то все предположения, сделанные при выводе распределения тестовой статистики, выполняются. Использование точного теста обеспечивает критерий значимости , который поддерживает частоту ошибок типа I теста ( ) на желаемом уровне значимости теста. Например, точный тест на значимости уровне , при повторении на многих выборках, где нулевая гипотеза верна, отклонит не более того времени. В этом отличие от приближенного теста , в котором желаемая частота ошибок типа I поддерживается лишь приблизительно (т. е. тест может отклонить > 5% времени), в то время как это приближение может быть сделано как можно ближе к по желанию, сделав размер выборки достаточно большим.
Точные тесты, основанные на дискретной статистике тестов, могут быть консервативными, указывая на то, что фактическая доля отказов находится ниже номинального уровня значимости. . Например, это относится к точному критерию Фишера и его более мощной альтернативе — тесту Бошлоо . Если тестовая статистика непрерывна, она точно достигнет уровня значимости. [ нужна ссылка ]
Параметрические тесты , например те, которые используются в точной статистике , являются точными тестами, когда параметрические предположения полностью выполняются, но на практике использование термина точный (значимый) тест зарезервировано для непараметрических тестов, т. е. тестов, которые не опираться на параметрические предположения [ нужна ссылка ] . Однако на практике большинство реализаций программного обеспечения для непараметрических испытаний используют асимптотические алгоритмы для получения значения значимости, что делает тест неточным.
Следовательно, когда результат статистического анализа называется «точным тестом» или указывает «точное значение p », это означает, что тест определяется без параметрических предположений и оценивается без использования приближенных алгоритмов. Однако в принципе это может также означать, что параметрический тест использовался в ситуации, когда все параметрические предположения полностью выполняются, но в большинстве случаев невозможно полностью доказать это в реальной ситуации. Исключения, в которых можно быть уверенным в точности параметрических тестов, включают тесты, основанные на биномиальном распределении или распределении Пуассона. Термин «тест перестановок» иногда используется как синоним точного теста, но следует иметь в виду, что все тесты перестановок являются точными тестами, но не все точные тесты являются тестами перестановок.
Формулировка
[ редактировать ]Основное уравнение, лежащее в основе точных тестов:
где:
- x — фактический наблюдаемый результат,
- Pr( y ) — это вероятность при нулевой гипотезе потенциально наблюдаемого результата y ,
- T ( y ) — это значение тестовой статистики для результата y , причем большие значения T представляют случаи, которые теоретически представляют собой большие отклонения от нулевой гипотезы,
и где сумма колеблется по всем результатам y (включая наблюдаемый), которые имеют одинаковое значение тестовой статистики, полученной для наблюдаемой выборки x , или большее.
Пример: критерий хи-квадрат Пирсона в сравнении с точным критерием.
[ редактировать ]Простой пример этой концепции включает в себя наблюдение, что критерий хи-квадрат Пирсона является приблизительным тестом. Предположим, что критерий хи-квадрат Пирсона используется для выяснения того, является ли шестигранный кубик «справедливым», указывая на то, что он выдает каждый из шести возможных результатов одинаково часто. Если игральную кость бросают n раз, то каждый «ожидает» увидеть каждый результат n /6 раз. Статистика теста
где X k — количество случаев, когда результат k наблюдался . Если нулевая гипотеза «справедливости» верна, то распределение вероятностей тестовой статистики можно сделать максимально близким к распределению хи-квадрат с 5 степенями свободы, сделав размер выборки n достаточно большим. С другой стороны, если n мало, то вероятности, основанные на распределениях хи-квадрат, могут быть недостаточно точными приближениями. Для определения точной вероятности того, что эта тестовая статистика превысит определенное значение, потребуется комбинаторное перечисление всех результатов эксперимента, который приводит к такому большому значению тестовой статистики. Тогда сомнительно, следует ли использовать ту же самую тестовую статистику. Предпочтительным может быть критерий отношения правдоподобия , а статистика теста может не быть монотонной функцией приведенной выше.
Пример: точный критерий Фишера.
[ редактировать ]Точный критерий Фишера , основанный на работе Рональда Фишера и Э. Дж. Питмана в 1930-х годах, является точным, поскольку распределение выборки (условное относительно маргинальных значений) известно точно. Это следует сравнить с критерием хи-квадрат Пирсона , который (хотя и проверяет тот же нулевой результат) не является точным, поскольку распределение статистики теста является только асимптотически правильным.
См. также
[ редактировать ]Ссылки
[ редактировать ]- Рональд Фишер (1954) Статистические методы для научных работников . Оливер и Бойд.
- Мехта, ЧР; Патель, НР (1998). «Точный вывод для категориальных данных». В ред. П. Армитиджа и Т. Колтона, Энциклопедия биостатистики , Чичестер: Джон Уайли, стр. 1411–1422. неопубликованный препринт
- Коркоран, CD; Сенчаудхури, П.; Мехта, ЧР; Патель, Н.Р. (2005). «Точный вывод для категориальных данных». Энциклопедия биостатистики . дои : 10.1002/0470011815.b2a10019 . ISBN 047084907X .