Крамера V
В статистике ( V Крамера иногда называемый фи Крамера и обозначаемый как φ c ) является мерой связи между двумя номинальными переменными , дающими значение от 0 до +1 (включительно). Он основан на статистике хи-квадрат Пирсона и был опубликован Харальдом Крамером в 1946 году. [ 1 ]
Использование и интерпретация
[ редактировать ]φ c — взаимная корреляция двух дискретных переменных [ 2 ] и может использоваться с переменными, имеющими два или более уровней. φ c — симметричная мера: не имеет значения, какую переменную мы поместим в столбцы, а какую в строки. Кроме того, порядок строк/столбцов не имеет значения, поэтому φ c можно использовать с номинальными типами данных или выше (в частности, упорядоченными или числовыми).
V Крамера варьируется от 0 (что соответствует отсутствию связи между переменными) до 1 (полная связь) и может достигать 1 только тогда, когда каждая переменная полностью определяется другой. Его можно рассматривать как связь между двумя переменными в процентах от их максимально возможного изменения.
φ с 2 – среднеквадратическая каноническая корреляция между переменными. [ нужна ссылка ]
В случае таблицы сопряженности 2 × 2 V Крамера равен абсолютному значению коэффициента Фи .
Расчет
[ редактировать ]Пусть выборка размера n одновременно распределенных переменных и для быть задано частотами
- во сколько раз значения наблюдались.
Тогда статистика хи-квадрат будет:
где во сколько раз превышает значение наблюдается и во сколько раз превышает значение наблюдается.
V Крамера рассчитывается путем извлечения квадратного корня из статистики хи-квадрат, деленного на размер выборки и минимальную размерность минус 1:
где:
- это коэффициент фи.
- получен на основе критерия хи-квадрат Пирсона
- представляет собой общую сумму наблюдений и
- количество столбцов.
- количество строк.
Значение p для значимости V такое же, как и значение , рассчитанное с использованием критерия хи-квадрат Пирсона . [ нужна ссылка ]
Формула дисперсии V =φ c известна. [ 3 ]
В R функция cramerV()
из упаковки rcompanion
[ 4 ] вычисляет V с помощью функции chisq.test из пакета статистики. В отличие от функции cramersV()
из lsr
[ 5 ] упаковка, cramerV()
также предлагает возможность исправить предвзятость. Применяется исправление, описанное в следующем разделе.
Коррекция смещения
[ редактировать ]V Крамера может давать сильно предвзятую оценку своего аналога для населения и иметь тенденцию переоценивать силу связи. Поправка смещения с использованием приведенных выше обозначений определяется выражением [ 6 ]
где
и
Затем оценивает ту же численность населения, что и V Крамера, но обычно с гораздо меньшей среднеквадратической ошибкой . Основанием для исправления является то, что в условиях независимости . [ 7 ]
См. также
[ редактировать ]Другие меры корреляции номинальных данных:
- Максимальная разница в процентах [ 8 ]
- Коэффициент Фи
- Т Шупрова
- Коэффициент неопределенности
- Коэффициент лямбда
- Индекс Рэнда
- Индекс Дэвиса-Булдина
- Индекс Данна
- Индекс Жаккара
- Индекс Фаулкса-Мэллоуза
Другие статьи по теме:
Ссылки
[ редактировать ]- ^ Крамер, Харальд. 1946. Математические методы статистики . Принстон: Издательство Принстонского университета, стр. 282 (Глава 21. Двумерный случай). ISBN 0-691-08004-6 ( оглавление заархивировано 16 августа 2016 г. в Wayback Machine )
- ^ Шескин, Дэвид Дж. (1997). Справочник по параметрическим и непараметрическим статистическим процедурам. Бока-Ратон, Флорида: CRC Press.
- ^ Либетрау, Альберт М. (1983). Меры объединения . Ньюбери-Парк, Калифорния: Публикации Sage. Количественные приложения в серии «Социальные науки», № 32 (стр. 15–16).
- ^ «Rcompanion: функции для поддержки оценки программ дополнительного образования» . 03.01.2019.
- ^ «Lsr: дополнение к «Изучение статистики с помощью R» » . 2015-03-02.
- ^ Бергсма, Вичер (2013). «Поправка смещения для V Крамера и T Шупрова». Журнал Корейского статистического общества . 42 (3): 323–328. дои : 10.1016/j.jkss.2012.10.002 .
- ^ Бартлетт, Морис С. (1937). «Свойства достаточности и статистические критерии». Труды Лондонского королевского общества . Серия А. 160 (901): 268–282. Бибкод : 1937RSPSA.160..268B . дои : 10.1098/rspa.1937.0109 . JSTOR 96803 .
- ^ Тайлер, Скотт Р.; Буньяванич, Супинда; Шадт, Эрик Э. (19 ноября 2021 г.). «PMD обнаруживает широко распространенное стирание состояния клеток с помощью методов пакетной коррекции scRNAseq» . BioRxiv : 2021.11.15.468733. дои : 10.1101/2021.11.15.468733 .
Внешние ссылки
[ редактировать ]- Мера связи для непараметрической статистики (Алан К. Акок и Гордон Р. Ставиг, стр. 1381 из 1381–1386)
- Номинальная ассоциация: Фи и Вл Крамера с домашней страницы Пэта Даттало.