Коэффициент ранговой корреляции Спирмена



В статистике — коэффициент ранговой корреляции Спирмена или Спирмена ρ , названный в честь Чарльза Спирмена. [ 1 ] и часто обозначается греческой буквой (ро) или как , является непараметрической мерой ранговой корреляции ( статистической зависимости между рейтингами двух переменных ). Он оценивает, насколько хорошо связь между двумя переменными может быть описана с помощью монотонной функции .
Корреляция Спирмена между двумя переменными равна корреляции Пирсона между ранговыми значениями этих двух переменных; в то время как корреляция Пирсона оценивает линейные отношения, корреляция Спирмена оценивает монотонные отношения (линейные или нет). Если нет повторяющихся значений данных, идеальная корреляция Спирмена +1 или -1 возникает, когда каждая из переменных является идеальной монотонной функцией другой.
Интуитивно понятно, что корреляция Спирмена между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. е. метку относительного положения наблюдений внутри переменной: 1-е, 2-е, 3-е и т. д.) между двумя переменные и низкий, когда наблюдения имеют разный (или полностью противоположный при корреляции -1) ранг между двумя переменными.
Коэффициент Спирмена подходит как для непрерывных , так и для дискретных порядковых переменных . [ 2 ] [ 3 ] Оба Спирмена и Кендалл могут быть сформулированы как частные случаи более общего коэффициента корреляции .
Приложения
[ редактировать ]Коэффициент можно использовать для определения того, насколько хорошо данные соответствуют модели. [ 4 ] или для определения сходства текстовых документов. [ 5 ]
Определение и расчет
[ редактировать ]Коэффициент корреляции Спирмена определяется как коэффициент корреляции Пирсона между ранговыми переменными . [ 6 ]
Для образца размером тот пары необработанных оценок конвертируются в ранги и вычисляется как
где
- обозначает обычный оператор коэффициента корреляции Пирсона , но применяется к переменным ранга,
- - ковариация ранговых переменных,
- и являются стандартными отклонениями ранговых переменных.
Только когда все ранги представляют собой различные целые числа (без связей), их можно вычислить по популярной формуле
где
- - это разница между двумя рангами каждого наблюдения,
- это количество наблюдений.
Обычно одинаковые значения [ 7 ] каждому присвоены дробные ранги, равные среднему значению их позиций в порядке возрастания значений, что эквивалентно усреднению по всем возможным перестановкам.
Если в наборе данных присутствуют связи, приведенная выше упрощенная формула дает неверные результаты: только если в обеих переменных все ранги различны, тогда (рассчитано по смещенной дисперсии). Первое уравнение — нормализация по стандартному отклонению — может использоваться даже тогда, когда ранги нормализованы до [0, 1] («относительные ранги»), поскольку оно нечувствительно ни к сдвигу, ни к линейному масштабированию.
Упрощенный метод также не следует использовать в случаях, когда набор данных усечен; то есть, когда коэффициент корреляции Спирмена требуется для X верхних записей (будь то по рангу до изменения или по рангу после изменения, или по обоим), пользователь должен использовать формулу коэффициента корреляции Пирсона, приведенную выше. [ 8 ]
Сопутствующие количества
[ редактировать ]Есть несколько других числовых показателей, которые количественно определяют степень статистической зависимости между парами наблюдений. Наиболее распространенным из них является коэффициент корреляции момента произведения Пирсона , который представляет собой метод корреляции, аналогичный методу ранга Спирмена, который измеряет «линейные» отношения между необработанными числами, а не между их рангами.
Альтернативное название ранговой корреляции Спирмена — «корреляция оценок»; [ 9 ] при этом «ранг» наблюдения заменяется «оценкой». В непрерывных распределениях уровень наблюдения, по соглашению, всегда на половину меньше ранга, и, следовательно, уровень и ранговые корреляции в этом случае одинаковы. В более общем смысле, «оценка» наблюдения пропорциональна оценке доли популяции, меньшей заданного значения, с поправкой половины наблюдения на наблюдаемые значения. Таким образом, это соответствует одной из возможных трактовок связанных рангов. Несмотря на необычность термина «корреляция оценок», он все еще используется. [ 10 ]
Интерпретация
[ редактировать ]Знак корреляции Спирмена указывает направление связи между X (независимой переменной) и Y (зависимой переменной). Если Y имеет тенденцию увеличиваться с увеличением X , коэффициент корреляции Спирмена положителен. Если Y имеет тенденцию уменьшаться при увеличении X , коэффициент корреляции Спирмена отрицательный. Нулевая корреляция Спирмена указывает на то, что Y не имеет тенденции к увеличению или уменьшению при X. увеличении Корреляция Спирмена увеличивается по величине по мере того, как X и Y становятся почти монотонными функциями друг друга. Когда X и Y связаны совершенно монотонно, коэффициент корреляции Спирмена становится равным 1. Совершенно монотонная возрастающая связь подразумевает, что для любых двух пар значений данных X i , Y i и X j , Y j , что X i − X j и Y i − Y j всегда имеют один и тот же знак. Совершенно монотонная убывающая зависимость предполагает, что эти различия всегда имеют противоположные знаки.
Коэффициент корреляции Спирмена часто называют «непараметрическим». Это может иметь два значения. Во-первых, идеальная корреляция Спирмена возникает, когда X и Y связаны какой-либо монотонной функцией . Сравните это с корреляцией Пирсона, которая дает идеальное значение только тогда, когда X и Y связаны линейной функцией. Другой смысл, в котором корреляция Спирмена является непараметрической, заключается в том, что ее точное выборочное распределение может быть получено без необходимости знания (т. е. знания параметров) совместного распределения вероятностей X и Y .
Пример
[ редактировать ]В этом примере произвольные необработанные данные из таблицы ниже используются для расчета корреляции между IQ человека и количеством часов, проведенных перед телевизором в неделю [использованы вымышленные значения].
IQ , | Часов телевидения в неделю, |
---|---|
106 | 7 |
100 | 27 |
86 | 2 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
Во-первых, оцените . Для этого выполните следующие действия, отраженные в таблице ниже.
- Отсортируйте данные по первому столбцу ( ). Создать новый столбец и присвойте ему ранжированные значения 1, 2, 3, ..., n .
- Далее отсортируйте дополненные (с ) данные по второму столбцу ( ). Создайте четвертый столбец и аналогичным образом присвойте ему ранжированные значения 1, 2, 3, ..., n .
- Создать пятую колонну для хранения различий между двумя столбцами рангов ( и ).
- Создайте один последний столбец хранить значение столбца в квадрате.
IQ , | Часов телевидения в неделю, | классифицировать | классифицировать | ||
---|---|---|---|---|---|
86 | 2 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | −4 | 16 |
99 | 28 | 3 | 8 | −5 | 25 |
100 | 27 | 4 | 7 | −3 | 9 |
101 | 50 | 5 | 10 | −5 | 25 |
103 | 29 | 6 | 9 | −3 | 9 |
106 | 7 | 7 | 3 | 4 | 16 |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
С нашли, добавьте их, чтобы найти . Значение n равно 10. Теперь эти значения можно подставить обратно в уравнение
дать
который оценивается как ρ = -29/165 = -0,175757575... со p значением = 0,627188 (с использованием t -распределения ).

То, что значение близко к нулю, показывает, что корреляция между IQ и часами, проведенными за просмотром телевизора, очень низкая, хотя отрицательное значение предполагает, что чем дольше время, проведенное за просмотром телевизора, тем ниже IQ. В случае связи исходных значений эту формулу использовать не следует; вместо этого на основе рангов следует рассчитывать коэффициент корреляции Пирсона (где связям присваиваются ранги, как описано выше).
Доверительные интервалы
[ редактировать ]Спирмена Доверительные интервалы для ρ можно легко получить, используя подход евклидова правдоподобия Джекнайфа в de Carvalho and Marques (2012). [ 11 ] Доверительный интервал с уровнем основано на теореме Уилкса, приведенной в последней статье, и имеет вид
где это квантиль распределения хи-квадрат с одной степенью свободы, а являются псевдозначениями складного ножа. Этот подход реализован в пакете R spearmanCI .
Определение значимости
[ редактировать ]Один из подходов к проверке того, значительно ли наблюдаемое значение ρ отличается от нуля ( r всегда будет поддерживать −1 ≤ r ≤ 1 ), заключается в вычислении вероятности того, что оно будет больше или равно наблюдаемому r , учитывая нулевую гипотезу : с помощью теста перестановки . Преимущество этого подхода заключается в том, что он автоматически учитывает количество связанных значений данных в выборке и способ их обработки при вычислении ранговой корреляции.
Другой подход аналогичен использованию преобразования Фишера в случае коэффициента корреляции произведения-момента Пирсона. То есть доверительные интервалы и проверка гипотез, касающихся значения совокупности ρ, могут быть выполнены с использованием преобразования Фишера:
Если F ( r ) преобразование Фишера r , выборочный коэффициент ранговой корреляции Спирмена, а n размер выборки, затем
— это z -показатель для r , который приблизительно соответствует стандартному нормальному распределению при нулевой гипотезе статистической независимости ( ρ = 0 ). [ 12 ] [ 13 ]
Можно также проверить значимость, используя
которое распределяется примерно как Стьюдента t -распределение с n − 2 степенями свободы при нулевой гипотезе . [ 14 ] Обоснование этого результата основано на аргументе перестановки. [ 15 ]
Обобщение коэффициента Спирмена полезно в ситуации, когда имеется три или более условий, в каждом из них наблюдается несколько субъектов и прогнозируется, что наблюдения будут иметь определенный порядок. Например, каждому из нескольких испытуемых можно дать по три попытки выполнить одно и то же задание, и прогнозируется, что производительность будет улучшаться от попытки к попытке. Тест значимости тенденции между условиями в этой ситуации был разработан Э.Б. Пейджем. [ 16 ] и обычно его называют тестом тенденции Пейджа для упорядоченных альтернатив.
Спирмена Анализ соответствия на основе ρ
[ редактировать ]Классический анализ соответствия — это статистический метод, который присваивает оценку каждому значению двух номинальных переменных. Таким образом, коэффициент корреляции Пирсона между ними максимизируется.
Существует эквивалент этого метода, называемый анализом соответствия оценок Спирмена , который максимизирует ρ или τ Кендалла . [ 17 ]
Спирмена Аппроксимация ρ из потока
[ редактировать ]Существует два существующих подхода к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных. [ 18 ] [ 19 ] Первый подход [ 18 ] предполагает огрубление совместного распределения . Для непрерывного ценности: точки отсечения выбираются для и соответственно, дискретизация эти случайные величины. Точки обрезки по умолчанию добавляются в и . Матрица счета размера , обозначенный , затем строится где хранит количество наблюдений, которые попадают в двумерную ячейку с индексом . Для потоковой передачи данных при поступлении нового наблюдения соответствующий элемент увеличивается. Звание Копейщика затем можно вычислить корреляцию на основе матрицы подсчета , используя операции линейной алгебры (алгоритм 2 [ 18 ] ). Обратите внимание, что для дискретного случайного переменных, процедура дискретизации не требуется. Этот метод применим как к стационарным потоковым данным, так и к большим наборам данных. Для нестационарных потоковых данных, где коэффициент ранговой корреляции Спирмена может меняться со временем, можно применить ту же процедуру, но к скользящему окну наблюдений. При использовании движущегося окна требования к памяти растут линейно с выбранным размером окна.
Второй подход к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных включает использование оценок на основе рядов Эрмита. [ 19 ] Эти оценки, основанные на полиномах Эрмита , позволяют последовательно оценивать функцию плотности вероятности и кумулятивную функцию распределения в одномерных и двумерных случаях. Плотность двумерного ряда Эрмита оценщики и оценщики кумулятивной функции распределения на основе одномерных рядов Эрмита подключаются к большой выборочной версии Оценка коэффициента ранговой корреляции Спирмена, чтобы получить последовательную оценку корреляции Спирмена. Эта оценка сформулирована в термины операций линейной алгебры для повышения эффективности вычислений (уравнение (8) и алгоритмы 1 и 2 [ 19 ] ). Эти алгоритмы применимы только к непрерывным данным случайных величин, но имеют определенные преимущества перед матричным подходом в этой ситуации. Первым преимуществом является повышение точности при применении к большому количеству наблюдений. Второе преимущество состоит в том, что коэффициент ранговой корреляции Спирмена может быть вычисляется на нестационарных потоках без использования движущегося окна. Вместо этого оценщик на основе рядов Эрмита использует экспоненциальную схему взвешивания для отслеживания изменяющейся во времени ранговой корреляции Спирмена на основе потоковых данных. который имеет постоянные требования к памяти относительно «эффективного» размера движущегося окна. Существует программная реализация этих алгоритмов на основе серии Эрмита. [ 20 ] и обсуждается в разделе «Реализации программного обеспечения».
Реализации программного обеспечения
[ редактировать ]- тест Базовый пакет статистики R реализует
cor.test(x, y, method = "spearman")
в пакете "stats" (такжеcor(x, y, method = "spearman")
будет работать. Пакет spearmanCI вычисляет доверительные интервалы. Пакет отшельник [ 20 ] вычисляет быстрые пакетные оценки корреляции Спирмена наряду с последовательными оценками (т.е. оценки, которые обновляются в режиме онлайн/инкрементно по мере включения новых наблюдений). - Реализация Статы :
spearman varlist
вычисляет все коэффициенты парной корреляции для всех переменных в varlist . - MATLAB : Реализация
[r,p] = corr(x,y,'Type','Spearman')
гдеr
– коэффициент ранговой корреляции Спирмена,p
- значение p, иx
иy
являются векторами. [ 21 ] - В Python имеется множество различных реализаций статистики корреляции Спирмена: ее можно вычислить с помощью Спирмана функции
scipy.stats
модулем, а также сDataFrame.corr(method='spearman')
метод из библиотеки pandas и методcorr(x, y, method='spearman')
функция из статистического пакета pingouin .
См. также
[ редактировать ]- Коэффициент ранговой корреляции Кендалла Тау
- Неравенство суммы Чебышева , неравенство перестановки Спирмена (Эти две статьи могут пролить свет на математические свойства ρ .)
- Корреляция расстояний
- Полихорическая корреляция
Ссылки
[ редактировать ]- ^ Спирмен, К. (январь 1904 г.). «Доказательство и измерение связи между двумя вещами» (PDF) . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR 1412159 .
- ^ Типы весов .
- ^ Леман, Энн (2005). Jmp для базовой одномерной и многомерной статистики: пошаговое руководство . Кэри, Северная Каролина: SAS Press. п. 123 . ISBN 978-1-59047-576-8 .
- ^ Королевское географическое общество. «Руководство по рангу копейщика» (PDF) .
- ^ Нино Арсов; Милан Дуковски; Милан Дуковски; Благоя Евкоски (ноябрь 2019 г.). «Мера сходства текстовых данных с использованием коэффициента ранговой корреляции Спирмена» .
- ^ Майерс, Джером Л.; Ну, Арнольд Д. (2003). План исследования и статистический анализ (2-е изд.). Лоуренс Эрльбаум. стр. 508 . ISBN 978-0-8058-4037-7 .
- ^ Додж, Ядола, изд. (2010). Краткая энциклопедия статистики Нью-Йорк, штат Нью-Йорк: Springer-Publishers. п. 502 . ISBN 978-0-387-31742-7 .
- ^ аль-Джабер, Ахмед Одех; Элайян, Хайфа Омар (2018). На пути к обеспечению качества и совершенству в высшем образовании . Речное издательство. п. 284. ИСБН 978-87-93609-54-9 .
- ^ Юл, ГУ; Кендалл, М.Г. (1968) [1950]. Введение в теорию статистики (14-е изд.). Чарльз Гриффин и компания с. 268.
- ^ Пиантадоси, Дж.; Хоулетт, П.; Боланд, Дж. (2007). «Сопоставление коэффициента корреляции оценок с помощью копулы с максимальным беспорядком» . Журнал оптимизации производства и управления . 3 (2): 305–312. дои : 10.3934/jimo.2007.3.305 .
- ^ де Карвалью, М.; Маркес, Ф. (2012). «Вывод Евклида Складного ножа, основанный на правдоподобии, для ро Спирмена» (PDF) . Североамериканский актуарный журнал . 16 (4): 487–492. дои : 10.1080/10920277.2012.10597644 . S2CID 55046385 .
- ^ Чой, Южная Каролина (1977). «Тестеры равенства зависимых коэффициентов корреляции». Биометрика . 64 (3): 645–647. дои : 10.1093/biomet/64.3.645 .
- ^ Филлер, ЕС; Хартли, Х.О.; Пирсон, ES (1957). «Тесты на коэффициенты ранговой корреляции. I». Биометрика . 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634 . дои : 10.1093/biomet/44.3-4.470 .
- ^ Нажимать; Веттеринг; Теукольский; Фланнери (1992). Численные рецепты в C: Искусство научных вычислений (2-е изд.). Издательство Кембриджского университета. п. 640. ИСБН 9780521437202 .
- ^ Кендалл, Миннесота; Стюарт, А. (1973). «Разделы 31.19, 31.21». Расширенная теория статистики, том 2: выводы и взаимосвязи . Грифон. ISBN 978-0-85264-215-3 .
- ^ Пейдж, Э.Б. (1963). «Упорядоченные гипотезы для нескольких методов лечения: тест значимости линейных рангов». Журнал Американской статистической ассоциации . 58 (301): 216–230. дои : 10.2307/2282965 . JSTOR 2282965 .
- ^ Ковальчик Т.; Плещиньска, Э.; Руланд, Ф., ред. (2004). Модели оценок и методы анализа данных с приложениями для анализа совокупностей данных . Исследования нечеткости и мягких вычислений. Том. 151. Берлин, Гейдельберг, Нью-Йорк: Springer Verlag. ISBN 978-3-540-21120-4 .
- ^ Перейти обратно: а б с Сяо, В. (2019). «Новые онлайн-алгоритмы для непараметрических корреляций с применением для анализа данных датчиков». Международная конференция IEEE по большим данным (Big Data) 2019 . стр. 404–412. дои : 10.1109/BigData47090.2019.9006483 . ISBN 978-1-7281-0858-2 . S2CID 211298570 .
- ^ Перейти обратно: а б с Стефану, Майкл; Варугезе, Мелвин (июль 2021 г.). «Последовательная оценка ранговой корреляции Спирмена с использованием оценщиков рядов Эрмита». Журнал многомерного анализа . 186 : 104783. arXiv : 2012.06287 . дои : 10.1016/j.jmva.2021.104783 . S2CID 235742634 .
- ^ Перейти обратно: а б Стефану М. и Варугезе М. (2023). «Hermiter: пакет R для последовательного непараметрического оценивания». Вычислительная статистика . arXiv : 2111.14091 . дои : 10.1007/s00180-023-01382-0 . S2CID 244715035 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ «Линейная или ранговая корреляция — MATLAB corr» . www.mathworks.com .
Дальнейшее чтение
[ редактировать ]- Кордер, Г.В. и Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход, Wiley. ISBN 978-1118840313 .
- Дэниел, Уэйн В. (1990). «Коэффициент ранговой корреляции Спирмена» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Кент. стр. 358–365. ISBN 978-0-534-91976-4 .
- Спирмен К. (1904). «Доказательство и измерение связи между двумя вещами» . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR 1412159 .
- Бонетт Д.Г., Райт, Т.А. (2000). «Требования к размеру выборки для корреляций Пирсона, Кендалла и Спирмена». Психометрика . 65 : 23–28. дои : 10.1007/bf02294183 . S2CID 120558581 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - Кендалл МГ (1970). Методы ранговой корреляции (4-е изд.). Лондон: Гриффин. ISBN 978-0-852-6419-96 . OCLC 136868 .
- Холландер М., Вулф Д.А. (1973). Непараметрические статистические методы . Нью-Йорк: Уайли. ISBN 978-0-471-40635-8 . OCLC 520735 .
- Карузо Дж. К., Клифф Н. (1997). «Эмпирический размер, охват и сила доверительных интервалов для Ро Спирмена». Образовательные и психологические измерения . 57 (4): 637–654. дои : 10.1177/0013164497057004009 . S2CID 120481551 .
Внешние ссылки
[ редактировать ]
- Таблица критических значений ρ для значимости при небольших выборках
- Коэффициент ранговой корреляции Спирмена — Руководство по Excel : примеры данных и формулы для Excel, разработанные Королевским географическим обществом .