Jump to content

Критерий хи-квадрат Пирсона

(Перенаправлено из теста хи-квадрат Пирсона )

Критерий хи-квадрат Пирсона или критерий Пирсона Тест — это статистический тест, применяемый к наборам категориальных данных для оценки вероятности того, что любое наблюдаемое различие между наборами возникло случайно. Это наиболее широко используемый из многих тестов хи-квадрат (например, Йейтса , отношения правдоподобия , критерия-портманто во временных рядах и т. д.) – статистических процедур, результаты которых оцениваются по отношению к распределению хи-квадрат . Его свойства были впервые исследованы Карлом Пирсоном в 1900 году. [1] В контекстах, где важно улучшить различие между статистикой теста названия, подобные критерию или статистике Пирсона χ-квадрат и ее распределением, используются .

Это тест на значение p . Настройка следующая: [2] [3]

  • Перед опытом экспериментатор фиксирует определенное число образцов, которые нужно взять.
  • данные Наблюдаемые , количество образцов из конечного набора заданных категорий. Они удовлетворяют .
  • Нулевая гипотеза состоит в том, что числа отсчетов выбираются из полиномиального распределения. . То есть базовые данные выбираются IID из категориального распределения. по данным категориям.
  • хи-квадрат Пирсона Статистика критерия определяется как . Значение p тестовой статистики вычисляется либо численно, либо путем поиска в таблице.
  • Если значение p достаточно мало (обычно p <0,05 по соглашению), то нулевая гипотеза отклоняется, и мы приходим к выводу, что наблюдаемые данные не соответствуют полиномиальному распределению.

Простой пример — проверка гипотезы о том, что обычные шестигранные игральные кости «честны» (т. е. все шесть исходов имеют одинаковую вероятность). В этом случае наблюдаемые данные , количество раз, когда на кубике выпало каждое число. Нулевая гипотеза – это , и . Как подробно описано ниже, если , то честность игры в кости можно отвергнуть на уровне .

Использование

[ редактировать ]

Критерий хи-квадрат Пирсона используется для оценки трех типов сравнения: степени соответствия , однородности и независимости .

  • Проверка согласия устанавливает, отличается ли наблюдаемое распределение частот от теоретического распределения.
  • Тест на однородность сравнивает распределение подсчетов для двух или более групп с использованием одной и той же категориальной переменной (например, выбор деятельности (колледж, военная служба, трудоустройство, путешествия) выпускников средней школы, зарегистрированных через год после окончания школы, отсортированных по году выпуска, чтобы увидеть, изменилось ли количество выпускников, выбравших тот или иной вид деятельности, от класса к классу или от десятилетия к десятилетию). [4]
  • Тест на независимость оценивает, являются ли наблюдения, состоящие из показателей двух переменных, выраженных в таблице сопряженности , независимыми друг от друга (например, опрос ответов людей разных национальностей, чтобы увидеть, связана ли национальность с ответом).

Для всех трех тестов вычислительная процедура включает следующие этапы:

  1. теста хи-квадрат Рассчитайте статистику , , которая напоминает нормализованную сумму квадратов отклонений между наблюдаемыми и теоретическими частотами (см. ниже).
  2. Определите свободы степени df этой статистики.
    1. Для проверки согласия df = Cats − Params , где Cats — это количество категорий наблюдений, распознаваемых моделью, а Params — это количество параметров в модели, скорректированных так, чтобы модель лучше всего соответствовала наблюдениям: количество категорий уменьшено на количество подобранных параметров в распределении.
    2. Для проверки однородности df = (Rows - 1)×(Cols - 1) , где Rows соответствует количеству категорий (т. е. строк в связанной таблице сопряженности), а Cols соответствует количеству независимых групп (т. е. столбцов в соответствующей таблице непредвиденных обстоятельств). [4]
    3. Для проверки независимости df = (Rows - 1)×(Cols - 1) , где в этом случае Rows соответствует количеству категорий в одной переменной, а Cols соответствует количеству категорий во второй переменной. [4]
  3. Выберите желаемый уровень достоверности ( уровень значимости , p значение или соответствующий альфа-уровень ) для результата теста.
  4. Сравнивать критическому значению из распределения хи-квадрат со степенями свободы df и выбранным уровнем достоверности (односторонним, поскольку тест проводится только в одном направлении, т.е. больше ли тестируемое значение критического значения?), что во многих случаев дает хорошее приближение распределения .
  5. Подтвердить или отвергнуть нулевую гипотезу о том, что наблюдаемое распределение частот совпадает с теоретическим распределением, основанным на том, превышает ли статистика теста критическое значение . Если статистика теста превышает критическое значение , нулевая гипотеза ( = нет ) можно отбросить, а альтернативную гипотезу ( разницы между распределениями = между распределениями имеется разница) могут быть приняты как с выбранным уровнем достоверности. Если статистика теста падает ниже порога значение, то невозможно прийти к четкому выводу и нулевая гипотеза подтверждается (мы не можем отвергнуть нулевую гипотезу), хотя и не обязательно принимается.

Проверка соответствия распределения

[ редактировать ]

Дискретное равномерное распределение

[ редактировать ]

В этом случае наблюдения делятся между клетки. Простое применение — проверить гипотезу о том, что в общей популяции значения будут встречаться в каждой ячейке с одинаковой частотой. Таким образом , «теоретическая частота» для любой ячейки (при нулевой гипотезе дискретного равномерного распределения ) рассчитывается как

и уменьшение степеней свободы , условно потому, что наблюдаемые частоты ограничены суммой до .

Одним из конкретных примеров его применения может быть применение для теста лог-ранга.

Другие дистрибутивы

[ редактировать ]

При проверке того, являются ли наблюдения случайными величинами, распределение которых принадлежит заданному семейству распределений, «теоретические частоты» рассчитываются с использованием распределения из этого семейства, подобранного некоторым стандартным способом. Уменьшение степеней свободы рассчитывается как , где — количество параметров, используемых при подборе распределения. Например, при проверке трехпараметрического обобщенного гамма-распределения : и при проверке нормального распределения (где параметрами являются среднее значение и стандартное отклонение), и при проверке распределения Пуассона (где параметром является ожидаемое значение), . Таким образом, будет степени свободы, где это количество категорий.

Степени свободы не основаны на количестве наблюдений, как в случае Стьюдента t-распределения или F-распределения . Например, при проверке честного шестигранного кубика будет пять степеней свободы, поскольку имеется шесть категорий или параметров (каждое число); количество бросков кубика не влияет на количество степеней свободы.

Расчет тестовой статистики

[ редактировать ]
Распределение хи-квадрат , показывающее X 2 по оси X и значение P по оси Y.

Значение тестовой статистики

где

  • = Кумулятивная критерийная статистика Пирсона, которая асимптотически приближается к распределение .
  • = количество наблюдений типа i .
  • = общее количество наблюдений
  • = ожидаемое (теоретическое) число типов i , утверждаемое нулевой гипотезой о том, что доля типа i в популяции равна
  • = количество ячеек в таблице.

Затем статистику хи-квадрат можно использовать для расчета значения p путем сравнения значения статистики с распределением хи-квадрат . Число степеней свободы равно количеству ячеек , минус уменьшение степеней свободы, .

Статистика хи-квадрат также может быть рассчитана как

Этот результат является следствием биномиальной теоремы.

Результат о количестве степеней свободы действителен, когда исходные данные являются полиномиальными и, следовательно, оцененные параметры эффективны для минимизации статистики хи-квадрат. Однако в более общем плане, когда оценка максимального правдоподобия не совпадает с минимальной оценкой хи-квадрат, распределение будет лежать где-то между распределением хи-квадрат с и степеней свободы (см., например, Чернов и Леманн, 1954).

Тест хи-квадрат указывает на статистически значимую связь между уровнем законченного образования и посещением плановых осмотров (хи2(3) = 14,6090, р = 0,002). Пропорции показывают, что по мере повышения уровня образования увеличивается и доля людей, посещающих плановые осмотры. В частности, лица, окончившие колледж или университет, чаще посещают плановые осмотры (31,52%) по сравнению с теми, кто не окончил среднюю школу (8,44%). Этот вывод может свидетельствовать о том, что более высокий уровень образования связан с большей вероятностью участия в поведении, способствующем укреплению здоровья, например, регулярных осмотрах.

Байесовский метод

[ редактировать ]

В байесовской статистике вместо этого можно было бы использовать распределение Дирихле в качестве сопряженного априора . Если взять равномерный априор, то оценка максимального правдоподобия для вероятности совокупности является наблюдаемой вероятностью, и можно вычислить достоверную область вокруг той или иной оценки.

Тестирование на статистическую независимость

[ редактировать ]

В этом случае «наблюдение» состоит из значений двух результатов, а нулевая гипотеза заключается в том, что возникновение этих результатов статистически независимо . Каждое наблюдение распределяется по одной ячейке двумерного массива ячеек (называемого таблицей сопряженности ) в соответствии со значениями двух результатов. Если в таблице r строк и c столбцов, «теоретическая частота» ячейки с учетом гипотезы независимости равна

где — общий размер выборки (сумма всех ячеек таблицы), а

- это доля наблюдений типа i, игнорирующих атрибут столбца (доля итогов строк), и

— доля наблюдений типа j, игнорирующих атрибут строки (доля итогов столбцов). Термин « частоты » относится к абсолютным числам, а не к уже нормализованным значениям.

Значение тестовой статистики

Обратите внимание, что равен 0 тогда и только тогда, когда , т.е. только если ожидаемое и истинное количество наблюдений одинаково во всех ячейках.

Подбор модели «независимости» уменьшает количество степеней свободы на p = r + c − 1. Число степеней свободы равно количеству ячеек rc минус уменьшение степеней свободы p , что уменьшает к ( г - 1)( с - 1).

Для теста независимости, также известного как тест на однородность, вероятность хи-квадрат, меньшая или равная 0,05 (или статистика хи-квадрат, находящаяся в критической точке 0,05 или превышающая ее), обычно интерпретируется прикладными работниками как обоснование отклонения нулевой гипотезы о том, что переменная строки не зависит от переменной столбца. [6] Альтернативная гипотеза соответствует переменным, имеющим ассоциацию или связь, структура которой не указана.

Предположения

[ редактировать ]

Критерий хи-квадрат при использовании со стандартным приближением, согласно которому применимо распределение хи-квадрат, имеет следующие допущения: [7]

Простая случайная выборка
Данные выборки представляют собой случайную выборку из фиксированного распределения или совокупности, где каждая совокупность членов совокупности заданного размера выборки имеет равную вероятность отбора. Варианты теста были разработаны для сложных выборок, например, когда данные взвешиваются. Могут использоваться и другие формы, такие как целенаправленная выборка . [8]
Размер выборки (вся таблица)
Предполагается выборка достаточно большого размера. Если тест хи-квадрат проводится на выборке меньшего размера, то тест хи-квадрат даст неверный вывод. Исследователь, использующий критерий хи-квадрат на небольших выборках, может в конечном итоге совершить ошибку второго рода . Для небольших размеров выборки предпочтительным является тест Кэша . [9] [10]
Ожидаемое количество клеток
Адекватное ожидаемое количество клеток. Некоторым требуется 5 и более, а другим — 10 и более. Общее правило — 5 или более во всех ячейках таблицы 2х2 и 5 или более в 80% ячеек в более крупных таблицах, но нет ячеек с нулевым ожидаемым количеством. Если это предположение не выполняется, поправка Йейтса . применяется
Независимость
Всегда предполагается, что наблюдения независимы друг от друга. Это означает, что хи-квадрат нельзя использовать для проверки коррелированных данных (например, совпадающих пар или панельных данных). В таких случаях тест Макнемара . более подходящим может оказаться

Тест, основанный на различных предположениях, — это точный тест Фишера ; если его предположение о фиксированных маргинальных распределениях выполняется, то получение уровня значимости становится значительно более точным, особенно при небольшом количестве наблюдений. В подавляющем большинстве приложений это предположение не будет выполнено, а точный критерий Фишера будет слишком консервативным и не будет иметь правильного покрытия. [11]

Вывод с использованием центральной предельной теоремы

Альтернативный вывод находится на странице полиномиального распределения .

Справедливость игральных костей

[ редактировать ]

Шестигранный кубик бросают 60 раз. Количество раз, когда на нем выпадут 1, 2, 3, 4, 5 и 6 лицом вверх, равно 5, 8, 9, 8, 10 и 20 соответственно. Является ли кость смещенной согласно критерию хи-квадрат Пирсона при уровне значимости 95% и/или 99%?

Нулевая гипотеза заключается в том, что игральная кость несмещена, поэтому ожидается, что каждое число выпадет одинаковое количество раз, в данном случае: 60 / n = 10. Результаты можно свести в таблицу следующим образом:

1 5 10 −5 25
2 8 10 −2 4
3 9 10 −1 1
4 8 10 −2 4
5 10 10 0 0
6 20 10 10 100
Сумма 134

Затем мы сверяемся с критическими значениями верхней части таблицы распределения хи-квадрат, табличное значение относится к сумме квадратов переменных, каждая из которых разделена на ожидаемые результаты. Для данного примера это означает

Это экспериментальный результат, маловероятность которого (при честном игральном кубике) мы хотим оценить.

Степени
из
свобода
Вероятность меньше критического значения
0.90 0.95 0.975 0.99 0.999
5 9.236 11.070 12.833 15.086 20.515

Экспериментальная сумма 13,4 находится между критическими значениями значимости или достоверности 97,5% и 99% ( значение p ). В частности, получение 20 бросков по 6, когда ожидание составляет всего 10 таких значений, маловероятно при честном кубике.

Критерий соответствия хи-квадрат

[ редактировать ]

В этом контексте частоты как теоретических, так и эмпирических распределений представляют собой ненормализованные значения, а для теста хи-квадрат общие размеры выборки обоих этих распределений (суммы всех ячеек соответствующих таблиц сопряженности ) должны быть одинаковыми.

Например, чтобы проверить гипотезу о том, что случайная выборка из 100 человек была взята из популяции, в которой мужчины и женщины имеют одинаковую частоту, наблюдаемое количество мужчин и женщин нужно сравнить с теоретической частотой 50 мужчин и 50 женщин. . Если бы в выборке было 44 мужчины и 56 женщин, то

Если нулевая гипотеза верна (т. е. мужчины и женщины выбираются с равной вероятностью), тестовая статистика будет получена из распределения хи-квадрат с одной степенью свободы (поскольку, если известна частота мужчин, то частота женщин равна определенный).

Анализ распределения хи-квадрат для 1 степени свободы показывает, что вероятность наблюдения этой разницы (или более значительной разницы, чем эта), если мужчины и женщины одинаково многочисленны в популяции, составляет примерно 0,23. Эта вероятность выше, чем общепринятые критерии статистической значимости (0,01 или 0,05), поэтому обычно мы не отвергаем нулевую гипотезу о том, что количество мужчин в популяции такое же, как и количество женщин (т. е. мы будем рассматривать нашу выборку в пределах диапазон того, что мы ожидаем от соотношения мужчин и женщин 50/50.)

Проблемы

[ редактировать ]

Приближение к распределению хи-квадрат не работает, если ожидаемые частоты слишком низки. Обычно это приемлемо, если не более 20% событий имеют ожидаемую частоту ниже 5. При наличии только 1 степени свободы приближение не является надежным, если ожидаемые частоты ниже 10. В этом случае лучшее приближение может быть получено путем уменьшения абсолютного значения каждой разницы между наблюдаемыми и ожидаемыми частотами на 0,5 перед возведением в квадрат; это называется поправкой Йейтса на непрерывность .

В тех случаях, когда ожидаемое значение E оказывается небольшим (что указывает на небольшую базовую популяционную вероятность и/или небольшое количество наблюдений), нормальная аппроксимация полиномиального распределения может оказаться неудачной, и в таких случаях обнаруживается, что оно Более целесообразным будет использовать G-тест , статистику теста, основанную на отношении правдоподобия . Когда общий размер выборки невелик, необходимо использовать соответствующий точный критерий, обычно либо биномиальный критерий , либо, для таблиц сопряженности , точный критерий Фишера . Этот тест использует условное распределение тестовой статистики с учетом предельных итогов и, таким образом, предполагает, что пределы были определены до исследования; альтернативы, такие как тест Бошлоо , которые не делают этого предположения, в равной степени более эффективны .

Можно показать, что тест представляет собой приближение низкого порядка тест. [14] Вышеуказанные причины вышеуказанных проблем становятся очевидными при исследовании членов более высокого порядка.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Пирсон, Карл (1900). «О том критерии, что данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» . Философский журнал . Серия 5. 50 (302): 157–175. дои : 10.1080/14786440009463897 .
  2. ^ Лукас, Орестис; Чунг, Хо Рюн (2022). «Энтропийная характеристика ограничений моделирования». arXiv : 2206.14105 [ stat.ME ].
  3. ^ Лукас, Орестис; Чунг, Хо Рюн (2023). «Тотальный эмпиризм: обучение на данных». arXiv : 2311.08315 [ math.ST ].
  4. ^ Jump up to: а б с Дэвид Э. Бок, Пол Ф. Веллеман, Ричард Д. Де Во (2007). «Статистика, моделирование мира», стр. 606–627, Пирсон Аддисон Уэсли, Бостон, ISBN   0-13-187621-X
  5. ^ «1.3.6.7.4. Критические значения распределения хи-квадрат» . Проверено 14 октября 2014 г.
  6. ^ «Критические значения распределения хи-квадрат» . Электронный справочник NIST/SEMATECH по статистическим методам . Национальный институт стандартов и технологий.
  7. ^ Макхью, Мэри (15 июня 2013 г.). «Тест независимости по хи-квадрату» . Биохимия медика . 23 (2): 143–149. дои : 10.11613/BM.2013.018 . ПМК   3900058 . ПМИД   23894860 .
  8. ^ См. Филд, Энди. Поиск статистики с помощью SPSS . для предположений о площади Чи.
  9. ^ Кэш, В. (1979). «Оценка параметров в астрономии с помощью отношения правдоподобия» . Астрофизический журнал . 228 : 939. Бибкод : 1979ApJ...228..939C . дои : 10.1086/156922 . ISSN   0004-637X .
  10. ^ «Наличная статистика и форвардный аппроксимация» . hesperia.gsfc.nasa.gov . Проверено 19 октября 2021 г.
  11. ^ «Байесовская формулировка для исследовательского анализа данных и проверки согласия» (PDF) . Международный статистический обзор. п. 375.
  12. ^ Статистика по приложениям. MIT OpenCourseWare . Лекция 23 . Теорема Пирсона. Проверено 21 марта 2007 г.
  13. ^ Бенаму, Эрик; Мелот, Валентин (2018). «Семь доказательств теста независимости Пирсона по хи-квадрату и его графическая интерпретация» . ССРН (препринт): 5-6. arXiv : 1808.09171 . дои : 10.2139/ssrn.3239829 . S2CID   88524653 . ССНН   3239829 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  14. ^ Джейнс, ET (2003). Теория вероятностей: логика науки . C. Университетское издательство. п. 298. ИСБН  978-0-521-59271-0 . ( Ссылка на фрагментарное издание за март 1996 года .)
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 838d07783fe4b2bd24b7e9b03c0c0c62__1715879580
URL1:https://arc.ask3.ru/arc/aa/83/62/838d07783fe4b2bd24b7e9b03c0c0c62.html
Заголовок, (Title) документа по адресу, URL1:
Pearson's chi-squared test - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)