Точный тест
![]() | Эта статья требует внимания эксперта по статистике . Конкретная проблема: требует обсуждения в рамках точных тестов в целом. ( ноябрь 2008 г. ) |
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Октябрь 2021 г. ) |
Точный тест (значимости) — это тест, при котором, если нулевая гипотеза верна, то все предположения, сделанные при выводе распределения тестовой статистики, выполняются. Использование точного теста обеспечивает критерий значимости , который поддерживает частоту ошибок типа I теста ( ) на желаемом уровне значимости теста. Например, точный тест на значимости уровне , при повторении на многих выборках, где нулевая гипотеза верна, отклонит не более того времени. Это отличается от приближенного теста , в котором желаемая частота ошибок типа I поддерживается лишь приблизительно (т. е. тест может отклонить > 5% времени), в то время как это приближение может быть сделано как можно ближе к по желанию, сделав размер выборки достаточно большим.
Точные тесты, основанные на дискретной статистике тестов, могут быть консервативными, указывая на то, что фактическая доля отказов находится ниже номинального уровня значимости. . Например, это относится к точному критерию Фишера и его более мощной альтернативе — тесту Бошло . Если тестовая статистика непрерывна, она точно достигнет уровня значимости. [ нужна ссылка ]
Параметрические тесты , например те, которые используются в точной статистике , являются точными тестами, когда параметрические предположения полностью выполняются, но на практике использование термина точный (значительный) тест зарезервировано для непараметрических тестов, т. е. тестов, которые не опираться на параметрические предположения [ нужна ссылка ] . Однако на практике в большинстве реализаций программного обеспечения для непараметрических испытаний используются асимптотические алгоритмы для получения значения значимости, что делает тест неточным.
Следовательно, когда результат статистического анализа называется «точным тестом» или определяет «точное значение p », это означает, что тест определяется без параметрических предположений и оценивается без использования приближенных алгоритмов. В принципе, однако, это также может означать, что параметрический тест использовался в ситуации, когда все параметрические предположения полностью выполняются, но в большинстве случаев невозможно полностью доказать это в реальной ситуации. Исключения, в которых можно быть уверенным в точности параметрических тестов, включают тесты, основанные на биномиальном распределении или распределении Пуассона. Термин «тест перестановок» иногда используется как синоним точного теста, но следует иметь в виду, что все тесты перестановок являются точными тестами, но не все точные тесты являются тестами перестановок.
Формулировка
[ редактировать ]Основное уравнение, лежащее в основе точных тестов:
где:
- x — фактический наблюдаемый результат,
- Pr( y ) — это вероятность при нулевой гипотезе потенциально наблюдаемого результата y ,
- T ( y ) — это значение тестовой статистики для результата y , причем большие значения T представляют случаи, которые теоретически представляют собой большие отклонения от нулевой гипотезы,
и где сумма колеблется по всем результатам y (включая наблюдаемый), которые имеют одинаковое значение тестовой статистики, полученной для наблюдаемой выборки x , или большее.
Пример: критерий хи-квадрат Пирсона в сравнении с точным критерием.
[ редактировать ]Простой пример этой концепции включает в себя наблюдение, что критерий хи-квадрат Пирсона является приблизительным тестом. Предположим, что критерий хи-квадрат Пирсона используется для выяснения того, является ли шестигранный кубик «справедливым», указывая на то, что он выдает каждый из шести возможных результатов одинаково часто. Если игральная кость брошена n раз, то каждый «ожидает» увидеть каждый результат n /6 раз. Статистика теста
где X k — количество случаев, когда результат k наблюдался . Если нулевая гипотеза «справедливости» верна, то распределение вероятностей тестовой статистики можно сделать максимально близким к распределению хи-квадрат с 5 степенями свободы, сделав размер выборки n достаточно большим. С другой стороны, если n мало, то вероятности, основанные на распределениях хи-квадрат, могут быть недостаточно точными приближениями. Для определения точной вероятности того, что эта тестовая статистика превысит определенное значение, потребуется комбинаторное перечисление всех результатов эксперимента, который приводит к такому большому значению тестовой статистики. Тогда сомнительно, следует ли использовать ту же самую тестовую статистику. Предпочтительным может быть критерий отношения правдоподобия , и статистика теста может не быть монотонной функцией приведенной выше.
Пример: точный критерий Фишера.
[ редактировать ]Точный критерий Фишера , основанный на работе Рональда Фишера и Э. Дж. Питмана в 1930-х годах, является точным, поскольку распределение выборки (условное относительно маргинальных значений) известно точно. Это следует сравнить с критерием хи-квадрат Пирсона , который (хотя и проверяет тот же нулевой результат) не является точным, поскольку распределение статистики теста является только асимптотически правильным.
См. также
[ редактировать ]Ссылки
[ редактировать ]- Рональд Фишер (1954) Статистические методы для научных работников . Оливер и Бойд.
- Мехта, ЧР; Патель, НР (1998). «Точный вывод для категориальных данных». В ред. П. Армитиджа и Т. Колтона, Энциклопедия биостатистики , Чичестер: Джон Уайли, стр. 1411–1422. неопубликованный препринт
- Коркоран, CD; Сенчаудхури, П.; Мехта, ЧР; Патель, НР (2005). «Точный вывод для категориальных данных». Энциклопедия биостатистики . дои : 10.1002/0470011815.b2a10019 . ISBN 047084907X .