Ранговая корреляция

В статистике ранговая корреляция — это любая из нескольких статистических данных, которые измеряют порядковую ассоциацию — взаимосвязь между рангами разных порядковых переменных или разными рангами одной и той же переменной, где «ранжирование» — это присвоение меток порядка «первый», «первый». второй», «третий» и т. д. к различным наблюдениям за конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между двумя рейтингами и может использоваться для оценки значимости связи между ними. Например, двумя распространенными непараметрическими методами определения значимости, использующими ранговую корреляцию, являются U-критерий Манна-Уитни и знаково-ранговый критерий Уилкоксона .

Контекст [ править ]

Если, например, одна переменная представляет собой идентичность студенческой баскетбольной программы, а другая — идентичность студенческой футбольной программы, можно проверить взаимосвязь между рейтингами двух типов программ в опросах: делают ли колледжи с более высоким уровнем образования? баскетбольная программа с рейтингом, как правило, имеет футбольную программу с более высоким рейтингом? Коэффициент ранговой корреляции может измерить эту взаимосвязь, а мера значимости коэффициента ранговой корреляции может показать, достаточно ли мала измеренная взаимосвязь, чтобы, вероятно, быть совпадением.

Если есть только одна переменная — идентичность программы студенческого футбола, но она зависит от двух разных рейтингов опросов (скажем, одного от тренеров и одного от спортивных обозревателей), то сходство рейтингов двух разных опросов можно измерить с помощью коэффициент ранговой корреляции.

В качестве другого примера, в таблице непредвиденных обстоятельств с низким доходом , средним доходом и высоким доходом в переменной строки и уровнем образования ( нет средней школы , средней школы , университета ) в переменной столбца), ^[1] ранговая корреляция измеряет взаимосвязь между доходом и уровнем образования.

Коэффициенты корреляции

Некоторые из наиболее популярных ранговой корреляции статистических данных включают в себя

Увеличение коэффициента ранговой корреляции подразумевает увеличение согласия между рейтингами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:

1, если согласие между двумя рейтингами идеальное; эти два рейтинга одинаковы.
0, если рейтинги полностью независимы.
−1, если расхождение между двумя рейтингами абсолютное; один рейтинг является противоположностью другого.

Согласно Диаконису (1988) , ранжирование можно рассматривать как перестановку набора объектов . Таким образом, мы можем рассматривать наблюдаемые рейтинги как данные, полученные, когда выборочное пространство (отождествляется) с симметричной группой . Затем мы можем ввести метрику , превратив симметрическую группу в метрическое пространство . Разные метрики будут соответствовать разным ранговым корреляциям.

Общий коэффициент корреляции [ править ]

Кендалл 1970 г. ^[2] показал, что его $\tau$ (тау) и Спирмена $\rho$ (rho) являются частными случаями общего коэффициента корреляции.

Предположим, у нас есть набор $n$ объекты, рассматриваемые в отношении двух свойств, представленных $x$ и $y$ , образующие множества значений $\{x_{i}\}_{i\leq n}$ и $\{y_{i}\}_{i\leq n}$ . Любой паре людей скажите $i$ -й и $j$ -th мы назначаем $x$ -оценка, обозначаемая $a_{ij}$ и $y$ -оценка, обозначаемая $b_{ij}$ . Единственное требование к этим функциям состоит в том, чтобы они были антисимметричными, поэтому $a_{ij}=-a_{ji}$ и $b_{ij}=-b_{ji}$ . (Обратите внимание, что в частности $a_{ij}=b_{ij}=0$ если $i=j$ .) Тогда обобщенный коэффициент корреляции $\Gamma$ определяется как

\Gamma ={\frac {\sum _{i,j=1}^{n}a_{ij}b_{ij}}{\sqrt {\sum _{i,j=1}^{n}a_{ij}^{2}\sum _{i,j=1}^{n}b_{ij}^{2}}}}

Эквивалентно, если все коэффициенты собраны в матрицы $A=(a_{ij})$ и $B=(b_{ij})$ , с $A^{\textsf {T}}=-A$ и $B^{\textsf {T}}=-B$ , затем

\Gamma ={\frac {\langle A,B\rangle _{\rm {F}}}{\|A\|_{\rm {F}}\|B\|_{\rm {F}}}}

где $\langle A,B\rangle _{\rm {F}}$ является внутренним продуктом Фробениуса и $\|A\|_{\rm {F}}={\sqrt {\langle A,A\rangle _{\rm {F}}}}$ Фробениуса норма . В частности, общий коэффициент корреляции представляет собой косинус угла между матрицами $A$ и $B$ .

Кендалла как частный случай τ

Если $r_{i}$ , $s_{i}$ это звания $i$ -член согласно $x$ -качество и $y$ -качество соответственно, то мы можем определить

a_{ij}=\operatorname {sgn}(r_{j}-r_{i}),\quad b_{ij}=\operatorname {sgn}(s_{j}-s_{i}).

Сумма $\sum a_{ij}b_{ij}$ — это количество согласующихся пар минус количество несогласованных пар (см. коэффициент ранговой корреляции тау Кендалла ). Сумма $\sum a_{ij}^{2}$ это просто $n(n-1)/2$ , количество членов $a_{ij}$ , как есть $\sum b_{ij}^{2}$ . Таким образом, в данном случае

\Gamma ={\frac {2\,(({\text{number of concordant pairs}})-({\text{number of discordant pairs}}))}{n(n-1)}}={\text{Kendall's }}\tau

Спирмена как случай частный ρ

Если $r_{i}$ , $s_{i}$ являются рангамитот $i$ -член согласно $x$ и $y$ -качество соответственно,мы можем рассмотреть матрицы $a,b\in M(n\times n;\mathbb {R} )$ определяется

a_{ij}:=r_{j}-r_{i}

b_{ij}:=s_{j}-s_{i}

Суммы $\sum a_{ij}^{2}$ и $\sum b_{ij}^{2}$ равны,поскольку оба $r_{i}$ и $s_{i}$ диапазон от $1$ к $n$ .Следовательно

\Gamma ={\frac {\sum (r_{j}-r_{i})(s_{j}-s_{i})}{\sum (r_{j}-r_{i})^{2}}}

Чтобы упростить это выражение,позволять $d_{i}:=r_{i}-s_{i}$ обозначают разницу в рангах для каждого $i$ .Далее, пусть $U$ — равномерно распределенная дискретная случайная величина на $\{1,2,\ldots ,n\}$ .Поскольку ряды $r,s$ это просто перестановки $1,2,\ldots ,n$ ,мы можем рассматривать обе как случайные величины, распределенные как $U$ .Используя основные результаты суммирования дискретной математики,легко видеть, что для равномерно распределенной случайной величины $U$ ,у нас есть $\mathbb {E} [U]=\textstyle {\frac {n+1}{2}}$ и $\mathbb {E} [U^{2}]=\textstyle {\frac {(n+1)(2n+1)}{6}}$ и таким образом $\mathrm {Var} (U)=\textstyle {\frac {(n+1)(2n+1)}{6}}-\textstyle {\frac {(n+1)(n+1)}{4}}=\textstyle {\frac {n^{2}-1}{12}}$ .Теперь наблюдение симметрии позволяет нам вычислить части $\Gamma$ следующее:

{\begin{aligned}{\frac {1}{n^{2}}}\sum _{i,j=1}^{n}(r_{j}-r_{i})(s_{j}-s_{i})&=2\left({\frac {1}{n^{2}}}\cdot n\sum _{i=1}^{n}r_{i}s_{i}-({\frac {1}{n}}\sum _{i=1}^{n}r_{i})({\frac {1}{n}}\sum _{j=1}^{n}s_{j})\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}(r_{i}^{2}+s_{i}^{2}-d_{i}^{2})-2(\mathbb {E} [U])^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}r_{i}^{2}+{\frac {1}{n}}\sum _{i=1}^{n}s_{i}^{2}-{\frac {1}{n}}\sum _{i=1}^{n}d_{i}^{2}-2(\mathbb {E} [U])^{2}\\&=2(\mathbb {E} [U^{2}]-(\mathbb {E} [U])^{2})-{\frac {1}{n}}\sum _{i=1}^{n}d_{i}^{2}\\\end{aligned}}

и

{\begin{aligned}{\frac {1}{n^{2}}}\sum _{i,j=1}^{n}(r_{j}-r_{i})^{2}&={\frac {1}{n^{2}}}\cdot n\sum _{i,j=1}^{n}(r_{i}^{2}+r_{j}^{2}-2r_{i}r_{j})\\&=2{\frac {1}{n}}\sum _{i=1}^{n}r_{i}^{2}-2({\frac {1}{n}}\sum _{i=1}^{n}r_{i})({\frac {1}{n}}\sum _{j=1}^{n}r_{j})\\&=2(\mathbb {E} [U^{2}]-(\mathbb {E} [U])^{2})\\\end{aligned}}

Следовательно

\Gamma =1-{\frac {\sum _{i=1}^{n}d_{i}^{2}}{2n\mathrm {Var} (U)}}=1-{\frac {6\sum _{i=1}^{n}d_{i}^{2}}{n(n^{2}-1)}}

где $d_{i}=r_{i}-s_{i}$ разница между рангами,что в точности соответствует коэффициенту ранговой корреляции Спирмена $\rho$ .

Ранг бисериальная - корреляция

Джин Гласс (1965) отметил, что бисерийный ранг может быть получен из числа Спирмена. $\rho$ . «Можно вывести коэффициент, определенный для X , дихотомической переменной, и Y , ранжирующей переменной, который оценивает rho Спирмена между X и Y таким же образом, как бисериальный r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранг-бисериальная корреляция была введена девятью годами ранее Эдвардом Кюртоном (1956) как мера ранговой корреляции, когда ранги находятся в двух группах.

Керби простой разности Формула

Дэйв Керби (2014) рекомендовал ранговый бисериал в качестве меры, позволяющей познакомить студентов с ранговой корреляцией, поскольку общую логику можно объяснить на вводном уровне. Ранговый бисериал — это корреляция, используемая с U-тестом Манна-Уитни , методом, который обычно рассматривается на вводных курсах статистики в колледжах. Данные для этого теста состоят из двух групп; и для каждого члена группы результат ранжируется по исследованию в целом.

Керби показал, что эту ранговую корреляцию можно выразить с помощью двух понятий: процента данных, подтверждающих выдвинутую гипотезу, и процента данных, которые ее не подтверждают. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных свидетельств ( f ) минус долей неблагоприятных свидетельств ( u ).

r=f-u

Пример и интерпретация [ править ]

Для иллюстрации вычислений предположим, что тренер тренирует бегунов на длинные дистанции в течение одного месяца, используя два метода. В группе А — 5 бегунов, в группе Б — 4 бегуна. Высказанная гипотеза состоит в том, что метод А помогает бегунам быстрее. Гонка по оценке результатов показывает, что бегуны из группы А действительно бегут быстрее и занимают следующие места: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют места 5, 7, 8, и 9.

Анализ проводится на парах, определяемых как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании входит в четыре пары: (1,5), (1,7), (1,8) и (1,9). Все четыре пары подтверждают гипотезу, поскольку в каждой паре бегун из группы А быстрее бегуна из группы Б. Всего существует 20 пар, и 19 пар поддерживают гипотезу. Единственная пара, которая не поддерживает гипотезу, — это два бегуна с местами 5 и 6, поскольку в этой паре бегун из группы B показал лучшее время. По формуле простой разности Керби 95% данных поддерживают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция равна r = 0,95 - 0,05 = 0,90. .

Максимальное значение корреляции r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 указывает на то, что половина пар поддерживает гипотезу, а половина нет; другими словами, выборочные группы не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. величина эффекта r Можно сказать, что = 0 не описывает никакой связи между членством в группе и рангами ее членов.

Ссылки [ править ]

^ Краскал, Уильям Х. (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR 2281954 .
^ Кендалл, Морис Дж. (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996 .

Дальнейшее чтение [ править ]

Кюртон, Эдвард Э. (1956). «Ранг-бисериальная корреляция». Психометрика . 21 (3): 287–290. дои : 10.1007/BF02289138 . S2CID 122500836 .
Эверитт, бакалавр наук (2002), Кембриджский статистический словарь , Кембридж: Издательство Кембриджского университета, ISBN 0-521-81099-Х
Диаконис, П. (1988), Представления групп в теории вероятностей и статистике , серия монографий лекций, Хейворд, Калифорния: Институт математической статистики, ISBN 0-940600-14-5
Гласс, Джин В. (1965). «Ранговая переменная, аналог бисериальной корреляции: последствия для сокращенного анализа элементов». Журнал образовательных измерений . 2 (1): 91–95. дои : 10.1111/j.1745-3984.1965.tb00396.x .
Кендалл, М.Г. (1970), Методы ранговой корреляции , Лондон: Гриффин, ISBN 0-85264-199-0
Керби, Дэйв С. (2014). «Формула простой разницы: подход к обучению непараметрической корреляции» . Комплексная психология . 3 (1): 11.IT.3.1. дои : 10.2466/11.IT.3.1 .

Внешние ссылки [ править ]

Краткое руководство психолога-экспериментатора Карла Л. Вайнша - Величина непараметрического эффекта (авторские права Карла Л. Вюнша, 2015 г.)

[1] Краскал, Уильям Х. (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR 2281954 .

[kendall1970-2] Кендалл, Морис Дж. (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996 .

[1]

[2]