Jump to content

Коэффициент ранговой корреляции Спирмена

Корреляция Спирмена результат, когда две сравниваемые переменные монотонно связаны, даже если их связь не является линейной. Это означает, что все точки данных с большей значения, чем у данной точки данных, будут иметь большее ценности тоже. Напротив, это не дает идеальной корреляции Пирсона.
Когда данные распределены примерно эллиптически и нет заметных выбросов, корреляция Спирмена и корреляция Пирсона дают схожие значения.
Корреляция Спирмена менее чувствительна, чем корреляция Пирсона, к сильным выбросам, находящимся в хвостах обеих выборок. Спирмена Это связано с тем, что ρ ограничивает выброс значением его ранга.

В статистике коэффициент ранговой корреляции Спирмена или Спирмена ρ , названный в честь Чарльза Спирмена. [ 1 ] и часто обозначается греческой буквой (ро) или как , является непараметрической мерой ранговой корреляции ( статистической зависимости между рейтингами двух переменных ). Он оценивает, насколько хорошо связь между двумя переменными может быть описана с помощью монотонной функции .

Корреляция Спирмена между двумя переменными равна корреляции Пирсона между ранговыми значениями этих двух переменных; в то время как корреляция Пирсона оценивает линейные отношения, корреляция Спирмена оценивает монотонные отношения (линейные или нет). Если нет повторяющихся значений данных, идеальная корреляция Спирмена +1 или -1 возникает, когда каждая из переменных является идеальной монотонной функцией другой.

Интуитивно понятно, что корреляция Спирмена между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный для корреляции 1) ранг (т. е. метку относительного положения наблюдений внутри переменной: 1-е, 2-е, 3-е и т. д.) между двумя переменные и низкий, когда наблюдения имеют разный (или полностью противоположный при корреляции -1) ранг между двумя переменными.

Коэффициент Спирмена подходит как для непрерывных , так и для дискретных порядковых переменных . [ 2 ] [ 3 ] Оба Спирмена и Кендалл могут быть сформулированы как частные случаи более общего коэффициента корреляции .

Приложения

[ редактировать ]

Коэффициент можно использовать для определения того, насколько хорошо данные соответствуют модели. [ 4 ] или для определения сходства текстовых документов. [ 5 ]

Определение и расчет

[ редактировать ]

Коэффициент корреляции Спирмена определяется как коэффициент корреляции Пирсона между ранговыми переменными . [ 6 ]

Для образца размером тот пары необработанных оценок конвертируются в ранги и вычисляется как

где

обозначает обычный оператор коэффициента корреляции Пирсона , но применяется к переменным ранга,
- ковариация ранговых переменных,
и являются стандартными отклонениями ранговых переменных.

Только когда все ранги представляют собой различные целые числа (без связей), их можно вычислить по популярной формуле

где

- это разница между двумя рангами каждого наблюдения,
это количество наблюдений.
[Доказательство]

Обычно одинаковые значения [ 7 ] каждому присвоены дробные ранги, равные среднему значению их позиций в порядке возрастания значений, что эквивалентно усреднению по всем возможным перестановкам.

Если в наборе данных присутствуют связи, приведенная выше упрощенная формула дает неверные результаты: только если в обеих переменных все ранги различны, тогда (рассчитано по смещенной дисперсии). Первое уравнение — нормализация по стандартному отклонению — может использоваться даже тогда, когда ранги нормализованы до [0, 1] («относительные ранги»), поскольку оно нечувствительно ни к сдвигу, ни к линейному масштабированию.

Упрощенный метод также не следует использовать в случаях, когда набор данных усечен; то есть, когда коэффициент корреляции Спирмена требуется для X верхних записей (будь то по рангу до изменения или по рангу после изменения, или по обоим), пользователь должен использовать формулу коэффициента корреляции Пирсона, приведенную выше. [ 8 ]

[ редактировать ]

Есть несколько других числовых показателей, которые количественно определяют степень статистической зависимости между парами наблюдений. Наиболее распространенным из них является коэффициент корреляции момента произведения Пирсона , который представляет собой метод корреляции, аналогичный методу ранга Спирмена, который измеряет «линейные» отношения между необработанными числами, а не между их рангами.

Альтернативное название ранговой корреляции Спирмена — «корреляция оценок»; [ 9 ] при этом «ранг» наблюдения заменяется «оценкой». В непрерывных распределениях уровень наблюдения, по соглашению, всегда на половину меньше ранга, и, следовательно, уровень и ранговые корреляции в этом случае одинаковы. В более общем смысле, «оценка» наблюдения пропорциональна оценке доли популяции, меньшей заданного значения, с поправкой половины наблюдения на наблюдаемые значения. Таким образом, это соответствует одной из возможных трактовок связанных рангов. Несмотря на необычность термина «корреляция оценок», он все еще используется. [ 10 ]

Интерпретация

[ редактировать ]
Положительные и отрицательные ранговые корреляции Спирмена
соответствует возрастающей монотонной тенденции между X и Y. Положительный коэффициент корреляции Спирмена
Отрицательный коэффициент корреляции Спирмена соответствует монотонной тенденции к уменьшению X и Y. между

Знак корреляции Спирмена указывает направление связи между X (независимой переменной) и Y (зависимой переменной). Если Y имеет тенденцию увеличиваться с увеличением X , коэффициент корреляции Спирмена положителен. Если Y имеет тенденцию уменьшаться при увеличении X , коэффициент корреляции Спирмена отрицательный. Нулевая корреляция Спирмена указывает на то, что Y не имеет тенденции к увеличению или уменьшению при X. увеличении Корреляция Спирмена увеличивается по величине по мере того, как X и Y становятся почти монотонными функциями друг друга. Когда X и Y связаны совершенно монотонно, коэффициент корреляции Спирмена становится равным 1. Совершенно монотонная возрастающая связь подразумевает, что для любых двух пар значений данных X i , Y i и X j , Y j , что X i X j и Y i Y j всегда имеют один и тот же знак. Совершенно монотонная убывающая зависимость предполагает, что эти различия всегда имеют противоположные знаки.

Коэффициент корреляции Спирмена часто называют «непараметрическим». Это может иметь два значения. Во-первых, идеальная корреляция Спирмена возникает, когда X и Y связаны какой-либо монотонной функцией . Сравните это с корреляцией Пирсона, которая дает идеальное значение только тогда, когда X и Y связаны линейной функцией. Другой смысл, в котором корреляция Спирмена является непараметрической, заключается в том, что ее точное выборочное распределение может быть получено без необходимости знания (т. е. знания параметров) совместного распределения вероятностей X и Y .

В этом примере произвольные необработанные данные из таблицы ниже используются для расчета корреляции между IQ человека и количеством часов, проведенных перед телевизором в неделю [использованы вымышленные значения].

IQ , Часов телевидения в неделю,
106 7
100 27
86 2
101 50
99 28
103 29
97 20
113 12
112 6
110 17

Во-первых, оцените . Для этого выполните следующие действия, отраженные в таблице ниже.

  1. Отсортируйте данные по первому столбцу ( ). Создать новый столбец и присвойте ему ранжированные значения 1, 2, 3, ..., n .
  2. Далее отсортируйте дополненные (с ) данные по второму столбцу ( ). Создайте четвертый столбец и аналогичным образом присвойте ему ранжированные значения 1, 2, 3, ..., n .
  3. Создать пятую колонну для хранения различий между двумя столбцами рангов ( и ).
  4. Создайте один последний столбец хранить значение столбца в квадрате.
IQ , Часов телевидения в неделю, классифицировать классифицировать
86 2 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

С нашли, добавьте их, чтобы найти . Значение n равно 10. Теперь эти значения можно подставить обратно в уравнение

дать

который оценивается как ρ = -29/165 = -0,175757575... со p значением = 0,627188 (с использованием t -распределения ).

График представленных данных. Видно, что может быть отрицательная корреляция, но взаимосвязь не является окончательной.

То, что значение близко к нулю, показывает, что корреляция между IQ и часами, проведенными за просмотром телевизора, очень низкая, хотя отрицательное значение предполагает, что чем дольше время, проведенное за просмотром телевизора, тем ниже IQ. В случае связи исходных значений эту формулу использовать не следует; вместо этого на основе рангов следует рассчитывать коэффициент корреляции Пирсона (где связям присваиваются ранги, как описано выше).

Доверительные интервалы

[ редактировать ]

Спирмена Доверительные интервалы для ρ можно легко получить, используя подход евклидова правдоподобия Джекнайфа в de Carvalho and Marques (2012). [ 11 ] Доверительный интервал с уровнем основано на теореме Уилкса, приведенной в последней статье, и имеет вид

где это квантиль распределения хи-квадрат с одной степенью свободы, а являются псевдозначениями складного ножа. Этот подход реализован в пакете R spearmanCI .

Определение значимости

[ редактировать ]

Один из подходов к проверке того, значительно ли наблюдаемое значение ρ отличается от нуля ( r всегда будет поддерживать −1 ≤ r ≤ 1 ), заключается в вычислении вероятности того, что оно будет больше или равно наблюдаемому r , учитывая нулевую гипотезу : с помощью теста перестановки . Преимущество этого подхода заключается в том, что он автоматически учитывает количество связанных значений данных в выборке и способ их обработки при вычислении ранговой корреляции.

Другой подход аналогичен использованию преобразования Фишера в случае коэффициента корреляции произведения-момента Пирсона. То есть доверительные интервалы и проверка гипотез, касающихся значения совокупности ρ, могут быть выполнены с использованием преобразования Фишера:

Если F ( r ) преобразование Фишера r , выборочный коэффициент ранговой корреляции Спирмена, а n размер выборки, затем

— это z -показатель для r , который приблизительно соответствует стандартному нормальному распределению при нулевой гипотезе статистической независимости ( ρ = 0 ). [ 12 ] [ 13 ]

Можно также проверить значимость, используя

которое распределяется примерно как Стьюдента t -распределение с n − 2 степенями свободы при нулевой гипотезе . [ 14 ] Обоснование этого результата основано на аргументе перестановки. [ 15 ]

Обобщение коэффициента Спирмена полезно в ситуации, когда имеется три или более условий, в каждом из них наблюдается несколько субъектов и прогнозируется, что наблюдения будут иметь определенный порядок. Например, каждому из нескольких испытуемых можно дать по три попытки выполнить одно и то же задание, и прогнозируется, что производительность будет улучшаться от попытки к попытке. Тест значимости тенденции между условиями в этой ситуации был разработан Э.Б. Пейджем. [ 16 ] и обычно его называют тестом тенденции Пейджа для упорядоченных альтернатив.

Спирмена Анализ соответствия на основе ρ

[ редактировать ]

Классический анализ соответствия — это статистический метод, который присваивает оценку каждому значению двух номинальных переменных. Таким образом, коэффициент корреляции Пирсона между ними максимизируется.

Существует эквивалент этого метода, называемый анализом соответствия оценок Спирмена , который максимизирует ρ или τ Кендалла . [ 17 ]

Спирмена Аппроксимация ρ из потока

[ редактировать ]

Существует два существующих подхода к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных. [ 18 ] [ 19 ] Первый подход [ 18 ] предполагает огрубление совместного распределения . Для непрерывного ценности: точки отсечения выбираются для и соответственно, дискретизация эти случайные величины. Точки обрезки по умолчанию добавляются в и . Матрица счета размера , обозначенный , затем строится где хранит количество наблюдений, которые попадают в двумерную ячейку с индексом . Для потоковой передачи данных при поступлении нового наблюдения соответствующий элемент увеличивается. Звание Копейщика затем можно вычислить корреляцию на основе матрицы подсчета , используя операции линейной алгебры (алгоритм 2 [ 18 ] ). Обратите внимание, что для дискретного случайного переменных, процедура дискретизации не требуется. Этот метод применим как к стационарным потоковым данным, так и к большим наборам данных. Для нестационарных потоковых данных, где коэффициент ранговой корреляции Спирмена может меняться со временем, можно применить ту же процедуру, но к скользящему окну наблюдений. При использовании движущегося окна требования к памяти растут линейно с выбранным размером окна.

Второй подход к аппроксимации коэффициента ранговой корреляции Спирмена на основе потоковых данных включает использование оценок на основе рядов Эрмита. [ 19 ] Эти оценки, основанные на полиномах Эрмита , позволяют последовательно оценивать функцию плотности вероятности и кумулятивную функцию распределения в одномерных и двумерных случаях. Плотность двумерного ряда Эрмита оценщики и оценщики кумулятивной функции распределения на основе одномерных рядов Эрмита подключаются к большой выборочной версии Оценка коэффициента ранговой корреляции Спирмена, чтобы получить последовательную оценку корреляции Спирмена. Эта оценка сформулирована в термины операций линейной алгебры для повышения эффективности вычислений (уравнение (8) и алгоритмы 1 и 2 [ 19 ] ). Эти алгоритмы применимы только к непрерывным данным случайных величин, но имеют определенные преимущества перед матричным подходом в этой ситуации. Первым преимуществом является повышение точности при применении к большому количеству наблюдений. Второе преимущество состоит в том, что коэффициент ранговой корреляции Спирмена может быть вычисляется на нестационарных потоках без использования движущегося окна. Вместо этого оценщик на основе рядов Эрмита использует экспоненциальную схему взвешивания для отслеживания изменяющейся во времени ранговой корреляции Спирмена на основе потоковых данных. который имеет постоянные требования к памяти относительно «эффективного» размера движущегося окна. Существует программная реализация этих алгоритмов на основе серии Эрмита. [ 20 ] и обсуждается в разделе «Реализации программного обеспечения».

Реализации программного обеспечения

[ редактировать ]
  • тест Базовый пакет статистики R реализует cor.test(x, y, method = "spearman") в пакете "stats" (также cor(x, y, method = "spearman") будет работать. Пакет spearmanCI вычисляет доверительные интервалы. Пакет отшельник [ 20 ] вычисляет быстрые пакетные оценки корреляции Спирмена наряду с последовательными оценками (т.е. оценки, которые обновляются в режиме онлайн/инкрементно по мере включения новых наблюдений).
  • Реализация Статы : spearman varlist вычисляет все коэффициенты парной корреляции для всех переменных в varlist .
  • MATLAB : Реализация [r,p] = corr(x,y,'Type','Spearman') где r – коэффициент ранговой корреляции Спирмена, p - значение p, и x и y являются векторами. [ 21 ]
  • В Python имеется множество различных реализаций статистики корреляции Спирмена: ее можно вычислить с помощью Спирмана функции scipy.stats модулем, а также с DataFrame.corr(method='spearman') метод из библиотеки pandas и метод corr(x, y, method='spearman') функция из статистического пакета pingouin .

См. также

[ редактировать ]
  1. ^ Спирмен, К. (январь 1904 г.). «Доказательство и измерение связи между двумя вещами» (PDF) . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR   1412159 .
  2. ^ Типы весов .
  3. ^ Леман, Энн (2005). Jmp для базовой одномерной и многомерной статистики: пошаговое руководство . Кэри, Северная Каролина: SAS Press. п. 123 . ISBN  978-1-59047-576-8 .
  4. ^ Королевское географическое общество. «Руководство по рангу копейщика» (PDF) .
  5. ^ Нино Арсов; Милан Дуковски; Милан Дуковски; Благоя Евкоски (ноябрь 2019 г.). «Мера сходства текстовых данных с использованием коэффициента ранговой корреляции Спирмена» .
  6. ^ Майерс, Джером Л.; Ну, Арнольд Д. (2003). План исследования и статистический анализ (2-е изд.). Лоуренс Эрльбаум. стр. 508 . ISBN  978-0-8058-4037-7 .
  7. ^ Додж, Ядола, изд. (2010). Краткая энциклопедия статистики Нью-Йорк, штат Нью-Йорк: Springer-Publishers. п. 502 . ISBN  978-0-387-31742-7 .
  8. ^ аль-Джабер, Ахмед Одех; Элайян, Хайфа Омар (2018). На пути к обеспечению качества и совершенству в высшем образовании . Речное издательство. п. 284. ИСБН  978-87-93609-54-9 .
  9. ^ Юл, ГУ; Кендалл, М.Г. (1968) [1950]. Введение в теорию статистики (14-е изд.). Чарльз Гриффин и компания с. 268.
  10. ^ Пиантадоси, Дж.; Хоулетт, П.; Боланд, Дж. (2007). «Сопоставление коэффициента корреляции оценок с помощью копулы с максимальным беспорядком» . Журнал оптимизации производства и управления . 3 (2): 305–312. дои : 10.3934/jimo.2007.3.305 .
  11. ^ де Карвалью, М.; Маркес, Ф. (2012). «Вывод Евклида Складного ножа, основанный на правдоподобии, для ро Спирмена» (PDF) . Североамериканский актуарный журнал . 16 (4): 487–492. дои : 10.1080/10920277.2012.10597644 . S2CID   55046385 .
  12. ^ Чой, Южная Каролина (1977). «Тестеры равенства зависимых коэффициентов корреляции». Биометрика . 64 (3): 645–647. дои : 10.1093/biomet/64.3.645 .
  13. ^ Филлер, ЕС; Хартли, Х.О.; Пирсон, ES (1957). «Тесты на коэффициенты ранговой корреляции. I». Биометрика . 44 (3–4): 470–481. CiteSeerX   10.1.1.474.9634 . дои : 10.1093/biomet/44.3-4.470 .
  14. ^ Нажимать; Веттеринг; Теукольский; Фланнери (1992). Численные рецепты в C: Искусство научных вычислений (2-е изд.). Издательство Кембриджского университета. п. 640. ИСБН  9780521437202 .
  15. ^ Кендалл, Миннесота; Стюарт, А. (1973). «Разделы 31.19, 31.21». Расширенная теория статистики, том 2: выводы и взаимосвязи . Грифон. ISBN  978-0-85264-215-3 .
  16. ^ Пейдж, Э.Б. (1963). «Упорядоченные гипотезы для нескольких методов лечения: тест значимости линейных рангов». Журнал Американской статистической ассоциации . 58 (301): 216–230. дои : 10.2307/2282965 . JSTOR   2282965 .
  17. ^ Ковальчик Т.; Плещиньска, Э.; Руланд, Ф., ред. (2004). Модели оценок и методы анализа данных с приложениями для анализа совокупностей данных . Исследования нечеткости и мягких вычислений. Том. 151. Берлин, Гейдельберг, Нью-Йорк: Springer Verlag. ISBN  978-3-540-21120-4 .
  18. ^ Перейти обратно: а б с Сяо, В. (2019). «Новые онлайн-алгоритмы для непараметрических корреляций с применением для анализа данных датчиков». Международная конференция IEEE по большим данным (Big Data) 2019 . стр. 404–412. дои : 10.1109/BigData47090.2019.9006483 . ISBN  978-1-7281-0858-2 . S2CID   211298570 .
  19. ^ Перейти обратно: а б с Стефану, Майкл; Варугезе, Мелвин (июль 2021 г.). «Последовательная оценка ранговой корреляции Спирмена с использованием оценщиков рядов Эрмита». Журнал многомерного анализа . 186 : 104783. arXiv : 2012.06287 . дои : 10.1016/j.jmva.2021.104783 . S2CID   235742634 .
  20. ^ Перейти обратно: а б Стефану М. и Варугезе М. (2023). «Hermiter: пакет R для последовательного непараметрического оценивания». Вычислительная статистика . arXiv : 2111.14091 . дои : 10.1007/s00180-023-01382-0 . S2CID   244715035 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  21. ^ «Линейная или ранговая корреляция — MATLAB corr» . www.mathworks.com .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4ddc47099e3b0ff0f04d8d0c480fb88a__1724308560
URL1:https://arc.ask3.ru/arc/aa/4d/8a/4ddc47099e3b0ff0f04d8d0c480fb88a.html
Заголовок, (Title) документа по адресу, URL1:
Spearman's rank correlation coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)