Ранговая корреляция
В статистике ранговая корреляция — это любая из нескольких статистик, которые измеряют порядковую ассоциацию — отношение между рангами разных порядковых переменных или разными рангами одной и той же переменной, где «ранжирование» — это присвоение меток порядка «первый», «первый». второй», «третий» и т. д. к различным наблюдениям за конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между двумя рейтингами и может использоваться для оценки значимости связи между ними. Например, двумя распространенными непараметрическими методами определения значимости, использующими ранговую корреляцию, являются U-критерий Манна-Уитни и знаково-ранговый критерий Уилкоксона .
Контекст [ править ]
Если, например, одна переменная представляет собой идентичность студенческой баскетбольной программы, а другая — идентичность студенческой футбольной программы, можно проверить взаимосвязь между рейтингами двух типов программ в опросах: делают ли колледжи с более высоким уровнем образования? баскетбольная программа с рейтингом, как правило, имеет футбольную программу с более высоким рейтингом? Коэффициент ранговой корреляции может измерить эту взаимосвязь, а мера значимости коэффициента ранговой корреляции может показать, достаточно ли мала измеренная взаимосвязь, чтобы, вероятно, быть совпадением.
Если имеется только одна переменная — идентичность футбольной программы колледжа, — но она зависит от двух разных рейтингов опросов (скажем, одного от тренеров и одного от спортивных обозревателей), то сходство рейтингов двух разных опросов можно измерить с помощью коэффициент ранговой корреляции.
В качестве другого примера, в таблице непредвиденных обстоятельств с низким доходом , средним доходом и высоким доходом в переменной строки и уровнем образования ( нет средней школы , средней школы , университета ) в переменной столбца), [1] ранговая корреляция измеряет взаимосвязь между доходом и уровнем образования.
корреляции Коэффициенты
Некоторые из наиболее популярных ранговой корреляции статистических данных включают в себя
Увеличение коэффициента ранговой корреляции подразумевает увеличение согласия между рейтингами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:
- 1, если согласие между двумя рейтингами идеальное; эти два рейтинга одинаковы.
- 0, если рейтинги полностью независимы.
- −1, если расхождение между двумя рейтингами абсолютное; один рейтинг является противоположностью другого.
Согласно Диаконису (1988) , ранжирование можно рассматривать как перестановку набора объектов . Таким образом, мы можем рассматривать наблюдаемые рейтинги как данные, полученные, когда выборочное пространство (отождествляется) с симметричной группой . Затем мы можем ввести метрику , превратив симметрическую группу в метрическое пространство . Разные метрики будут соответствовать разным ранговым корреляциям.
Общий коэффициент корреляции [ править ]
Кендалл 1970 г. [2] показал, что его (тау) и Спирмена (rho) являются частными случаями общего коэффициента корреляции.
Предположим, у нас есть набор объекты, рассматриваемые в отношении двух свойств, представленных и , образующие множества значений и . Любой паре людей скажите -й и -th мы назначаем -оценка, обозначаемая и -оценка, обозначаемая . Единственное требование к этим функциям состоит в том, чтобы они были антисимметричными, поэтому и . (Обратите внимание, что в частности если .) Тогда обобщенный коэффициент корреляции определяется как
Эквивалентно, если все коэффициенты собраны в матрицы и , с и , затем
где является внутренним продуктом Фробениуса и Фробениуса норма . В частности, общий коэффициент корреляции представляет собой косинус угла между матрицами и .
τ Кендалла случай частный как
Если , это звания -член согласно -качество и -качество соответственно, то мы можем определить
Сумма — это количество согласующихся пар минус количество несогласованных пар (см. коэффициент ранговой корреляции тау Кендалла ). Сумма просто , количество членов , как есть . Таким образом, в данном случае
Спирмена как случай частный ρ
Если , являются рангами тот -член согласно и -качество соответственно, мы можем рассмотреть матрицы определяется
Суммы и равны, поскольку оба и диапазон от к . Следовательно
Чтобы упростить это выражение, позволять обозначают разницу в рангах для каждого . Далее, пусть — равномерно распределенная дискретная случайная величина на . Поскольку ряды это просто перестановки , мы можем рассматривать обе как случайные величины, распределенные как . Используя основные результаты суммирования дискретной математики, легко видеть, что для равномерно распределенной случайной величины , у нас есть и и поэтому . Теперь наблюдение симметрии позволяет нам вычислить части следующее:
и
Следовательно
где разница между рангами, что в точности соответствует коэффициенту ранговой корреляции Спирмена .
- корреляция Ранг бисериальная
Джин Гласс (1965) отметил, что бисерийный ранг может быть получен из числа Спирмена. . «Можно вывести коэффициент, определенный для X , дихотомической переменной, и Y , ранжирующей переменной, который оценивает rho Спирмена между X и Y таким же образом, как бисериальный r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранг-бисериальная корреляция была введена девятью годами ранее Эдвардом Кюртоном (1956) как мера ранговой корреляции, когда ранги находятся в двух группах.
простой разности Формула Керби
Дэйв Керби (2014) рекомендовал ранговый бисериал в качестве меры, позволяющей познакомить студентов с ранговой корреляцией, поскольку общую логику можно объяснить на вводном уровне. Ранговый бисериал — это корреляция, используемая с U-тестом Манна-Уитни , методом, который обычно рассматривается на вводных курсах статистики в колледжах. Данные для этого теста состоят из двух групп; и для каждого члена группы результат ранжируется по исследованию в целом.
Керби показал, что эту ранговую корреляцию можно выразить с помощью двух понятий: процента данных, подтверждающих выдвинутую гипотезу, и процента данных, которые ее не подтверждают. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных свидетельств ( f ) минус долей неблагоприятных свидетельств ( u ).
Пример и интерпретация [ править ]
Для иллюстрации вычислений предположим, что тренер тренирует бегунов на длинные дистанции в течение одного месяца, используя два метода. В группе А — 5 бегунов, в группе Б — 4 бегуна. Высказанная гипотеза заключается в том, что метод А помогает бегунам быстрее. Гонка по оценке результатов показывает, что бегуны из группы А действительно бегут быстрее и занимают следующие места: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют места 5, 7, 8, и 9.
Анализ проводится на парах, определяемых как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании входит в четыре пары: (1,5), (1,7), (1,8) и (1,9). Все четыре пары подтверждают гипотезу, поскольку в каждой паре бегун из группы А быстрее бегуна из группы Б. Всего существует 20 пар, и 19 пар поддерживают гипотезу. Единственная пара, которая не поддерживает гипотезу, — это два бегуна с местами 5 и 6, поскольку в этой паре бегун из группы B показал лучшее время. По формуле простой разности Керби 95% данных поддерживают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция равна r = 0,95 - 0,05 = 0,90. .
Максимальное значение корреляции r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 указывает на то, что половина пар поддерживает гипотезу, а половина нет; другими словами, выборочные группы не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. величина эффекта r Можно сказать, что = 0 не описывает никакой связи между членством в группе и рангами ее членов.
Ссылки [ править ]
- ^ Краскал, Уильям Х. (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR 2281954 .
- ^ Кендалл, Морис Дж. (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996 .
Дальнейшее чтение [ править ]
- Кюртон, Эдвард Э. (1956). «Ранг-бисериальная корреляция». Психометрика . 21 (3): 287–290. дои : 10.1007/BF02289138 . S2CID 122500836 .
- Эверитт, бакалавр наук (2002), Кембриджский статистический словарь , Кембридж: Издательство Кембриджского университета, ISBN 0-521-81099-Х
- Диаконис, П. (1988), Представления групп в теории вероятностей и статистике , серия монографий лекций, Хейворд, Калифорния: Институт математической статистики, ISBN 0-940600-14-5
- Гласс, Джин В. (1965). «Ранговая переменная, аналог бисериальной корреляции: последствия для сокращенного анализа элементов». Журнал образовательных измерений . 2 (1): 91–95. дои : 10.1111/j.1745-3984.1965.tb00396.x .
- Кендалл, М.Г. (1970), Методы ранговой корреляции , Лондон: Гриффин, ISBN 0-85264-199-0
- Керби, Дэйв С. (2014). «Формула простой разницы: подход к обучению непараметрической корреляции» . Комплексная психология . 3 (1): 11.IT.3.1. дои : 10.2466/11.IT.3.1 .
Внешние ссылки [ править ]
- Краткое руководство психолога-экспериментатора Карла Л. Вайнша - Величина непараметрического эффекта (авторские права Карла Л. Вюнша, 2015 г.)