Ранговая корреляция
В статистике ранговая корреляция — это любая из нескольких статистических данных, которые измеряют порядковую ассоциацию — взаимосвязь между рангами разных порядковых переменных или разными рангами одной и той же переменной, где «ранжирование» — это присвоение меток порядка «первый», «первый». второй», «третий» и т. д. к различным наблюдениям за конкретной переменной. Коэффициент ранговой корреляции измеряет степень сходства между двумя рейтингами и может использоваться для оценки значимости связи между ними. Например, двумя распространенными непараметрическими методами определения значимости, использующими ранговую корреляцию, являются U-критерий Манна-Уитни и знаково-ранговый критерий Уилкоксона .
Контекст [ править ]
Если, например, одна переменная представляет собой идентичность студенческой баскетбольной программы, а другая — идентичность студенческой футбольной программы, можно проверить взаимосвязь между рейтингами двух типов программ в опросах: делают ли колледжи с более высоким уровнем образования? баскетбольная программа с рейтингом, как правило, имеет футбольную программу с более высоким рейтингом? Коэффициент ранговой корреляции может измерить эту взаимосвязь, а мера значимости коэффициента ранговой корреляции может показать, достаточно ли мала измеренная взаимосвязь, чтобы, вероятно, быть совпадением.
Если есть только одна переменная — идентичность программы студенческого футбола, но она зависит от двух разных рейтингов опросов (скажем, одного от тренеров и одного от спортивных обозревателей), то сходство рейтингов двух разных опросов можно измерить с помощью коэффициент ранговой корреляции.
В качестве другого примера, в таблице непредвиденных обстоятельств с низким доходом , средним доходом и высоким доходом в переменной строки и уровнем образования ( нет средней школы , средней школы , университета ) в переменной столбца), [1] ранговая корреляция измеряет взаимосвязь между доходом и уровнем образования.
Коэффициенты корреляции
Некоторые из наиболее популярных ранговой корреляции статистических данных включают в себя
Увеличение коэффициента ранговой корреляции подразумевает увеличение согласия между рейтингами. Коэффициент находится внутри интервала [−1, 1] и принимает значение:
- 1, если согласие между двумя рейтингами идеальное; эти два рейтинга одинаковы.
- 0, если рейтинги полностью независимы.
- −1, если расхождение между двумя рейтингами абсолютное; один рейтинг является противоположностью другого.
Согласно Диаконису (1988) , ранжирование можно рассматривать как перестановку набора объектов . Таким образом, мы можем рассматривать наблюдаемые рейтинги как данные, полученные, когда выборочное пространство (отождествляется) с симметричной группой . Затем мы можем ввести метрику , превратив симметрическую группу в метрическое пространство . Разные метрики будут соответствовать разным ранговым корреляциям.
Общий коэффициент корреляции [ править ]
Кендалл 1970 г. [2] показал, что его (тау) и Спирмена (rho) являются частными случаями общего коэффициента корреляции.
Предположим, у нас есть набор объекты, рассматриваемые в отношении двух свойств, представленных и , образующие множества значений и . Любой паре людей скажите -й и -th мы назначаем -оценка, обозначаемая и -оценка, обозначаемая . Единственное требование к этим функциям состоит в том, чтобы они были антисимметричными, поэтому и . (Обратите внимание, что в частности если .) Тогда обобщенный коэффициент корреляции определяется как
Эквивалентно, если все коэффициенты собраны в матрицы и , с и , затем
где является внутренним продуктом Фробениуса и Фробениуса норма . В частности, общий коэффициент корреляции представляет собой косинус угла между матрицами и .
Кендалла как частный случай τ
Если , это звания -член согласно -качество и -качество соответственно, то мы можем определить
Сумма — это количество согласующихся пар минус количество несогласованных пар (см. коэффициент ранговой корреляции тау Кендалла ). Сумма это просто , количество членов , как есть . Таким образом, в данном случае
Спирмена как случай частный ρ
Если , являются рангамитот -член согласно и -качество соответственно,мы можем рассмотреть матрицы определяется
Суммы и равны,поскольку оба и диапазон от к .Следовательно
Чтобы упростить это выражение,позволять обозначают разницу в рангах для каждого .Далее, пусть — равномерно распределенная дискретная случайная величина на .Поскольку ряды это просто перестановки ,мы можем рассматривать обе как случайные величины, распределенные как .Используя основные результаты суммирования дискретной математики,легко видеть, что для равномерно распределенной случайной величины ,у нас есть и и таким образом .Теперь наблюдение симметрии позволяет нам вычислить части следующее:
и
Следовательно
где разница между рангами,что в точности соответствует коэффициенту ранговой корреляции Спирмена .
Ранг бисериальная - корреляция
Джин Гласс (1965) отметил, что бисерийный ранг может быть получен из числа Спирмена. . «Можно вывести коэффициент, определенный для X , дихотомической переменной, и Y , ранжирующей переменной, который оценивает rho Спирмена между X и Y таким же образом, как бисериальный r оценивает r Пирсона между двумя нормальными переменными» (стр. 91). Ранг-бисериальная корреляция была введена девятью годами ранее Эдвардом Кюртоном (1956) как мера ранговой корреляции, когда ранги находятся в двух группах.
Керби простой разности Формула
Дэйв Керби (2014) рекомендовал ранговый бисериал в качестве меры, позволяющей познакомить студентов с ранговой корреляцией, поскольку общую логику можно объяснить на вводном уровне. Ранговый бисериал — это корреляция, используемая с U-тестом Манна-Уитни , методом, который обычно рассматривается на вводных курсах статистики в колледжах. Данные для этого теста состоят из двух групп; и для каждого члена группы результат ранжируется по исследованию в целом.
Керби показал, что эту ранговую корреляцию можно выразить с помощью двух понятий: процента данных, подтверждающих выдвинутую гипотезу, и процента данных, которые ее не подтверждают. Формула простой разности Керби утверждает, что ранговая корреляция может быть выражена как разница между долей благоприятных свидетельств ( f ) минус долей неблагоприятных свидетельств ( u ).
Пример и интерпретация [ править ]
Для иллюстрации вычислений предположим, что тренер тренирует бегунов на длинные дистанции в течение одного месяца, используя два метода. В группе А — 5 бегунов, в группе Б — 4 бегуна. Высказанная гипотеза состоит в том, что метод А помогает бегунам быстрее. Гонка по оценке результатов показывает, что бегуны из группы А действительно бегут быстрее и занимают следующие места: 1, 2, 3, 4 и 6. Таким образом, более медленные бегуны из группы B имеют места 5, 7, 8, и 9.
Анализ проводится на парах, определяемых как член одной группы по сравнению с членом другой группы. Например, самый быстрый бегун в исследовании входит в четыре пары: (1,5), (1,7), (1,8) и (1,9). Все четыре пары подтверждают гипотезу, поскольку в каждой паре бегун из группы А быстрее бегуна из группы Б. Всего существует 20 пар, и 19 пар поддерживают гипотезу. Единственная пара, которая не поддерживает гипотезу, — это два бегуна с местами 5 и 6, поскольку в этой паре бегун из группы B показал лучшее время. По формуле простой разности Керби 95% данных поддерживают гипотезу (19 из 20 пар), а 5% не поддерживают (1 из 20 пар), поэтому ранговая корреляция равна r = 0,95 - 0,05 = 0,90. .
Максимальное значение корреляции r = 1, что означает, что 100% пар поддерживают гипотезу. Корреляция r = 0 указывает на то, что половина пар поддерживает гипотезу, а половина нет; другими словами, выборочные группы не различаются по рангам, поэтому нет никаких доказательств того, что они происходят из двух разных популяций. величина эффекта r Можно сказать, что = 0 не описывает никакой связи между членством в группе и рангами ее членов.
Ссылки [ править ]
- ^ Краскал, Уильям Х. (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR 2281954 .
- ^ Кендалл, Морис Дж. (1970). Методы ранговой корреляции (4-е изд.). Грифон. ISBN 9780852641996 .
Дальнейшее чтение [ править ]
- Кюртон, Эдвард Э. (1956). «Ранг-бисериальная корреляция». Психометрика . 21 (3): 287–290. дои : 10.1007/BF02289138 . S2CID 122500836 .
- Эверитт, бакалавр наук (2002), Кембриджский статистический словарь , Кембридж: Издательство Кембриджского университета, ISBN 0-521-81099-Х
- Диаконис, П. (1988), Представления групп в теории вероятностей и статистике , серия монографий лекций, Хейворд, Калифорния: Институт математической статистики, ISBN 0-940600-14-5
- Гласс, Джин В. (1965). «Ранговая переменная, аналог бисериальной корреляции: последствия для сокращенного анализа элементов». Журнал образовательных измерений . 2 (1): 91–95. дои : 10.1111/j.1745-3984.1965.tb00396.x .
- Кендалл, М.Г. (1970), Методы ранговой корреляции , Лондон: Гриффин, ISBN 0-85264-199-0
- Керби, Дэйв С. (2014). «Формула простой разницы: подход к обучению непараметрической корреляции» . Комплексная психология . 3 (1): 11.IT.3.1. дои : 10.2466/11.IT.3.1 .
Внешние ссылки [ править ]
- Краткое руководство психолога-экспериментатора Карла Л. Вайнша - Величина непараметрического эффекта (авторские права Карла Л. Вюнша, 2015 г.)