Коэффициент ранговой корреляции Кендалла
В статистике коэффициент ранговой корреляции Кендалла , обычно называемый коэффициентом Кендалла τ (от греческой буквы τ , тау), представляет собой статистику, используемую для измерения порядковой связи между двумя измеряемыми величинами. Тест τ — это непараметрический тест гипотезы на статистическую зависимость, основанный на коэффициенте τ. Это мера ранговой корреляции : сходство порядка данных при ранжировании по каждой из величин. Он назван в честь Мориса Кендалла , разработавшего его в 1938 году. [1] хотя Густав Фехнер предложил аналогичную меру в контексте временных рядов в 1897 году. [2]
Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный при корреляции 1) ранг (т. е. метку относительного положения наблюдений внутри переменной: 1-е, 2-е, 3-е и т. д.) между двумя переменные и низкий, когда наблюдения имеют разный (или полностью разный для корреляции -1) ранг между двумя переменными.
Оба Кендалла и Спирмена могут быть сформулированы как частные случаи более общего коэффициента корреляции . Его понятия согласия и несоответствия также появляются в других областях статистики, например, индекс Рэнда в кластерном анализе .
Определение [ править ]

Позволять быть набором наблюдений совместных случайных величин X и Y , таких, что все значения ( ) и ( ) уникальны (связями пренебрегаем для простоты). Любая пара наблюдений и , где , называются согласованными , если порядок сортировки и согласен: то есть, если либо оба и держится или и то, и другое и ; в противном случае о них говорят, что они несогласны .
Коэффициент Кендалла τ определяется как:
где — биномиальный коэффициент числа способов выбрать два предмета из n предметов.
Число несогласных пар равно числу инверсий , которые переставляют y-последовательность в тот же порядок, что и x-последовательность.
Свойства [ править ]
Знаменатель — это общее количество парных комбинаций, поэтому коэффициент должен находиться в диапазоне −1 ≤ τ ≤ 1.
- Если согласие между двумя рейтингами идеальное (т. е. два рейтинга одинаковы), коэффициент имеет значение 1.
- Если расхождение между двумя рейтингами абсолютное (т. е. один рейтинг является обратным другому), коэффициент имеет значение -1.
- Если X и Y — независимые случайные величины , а не постоянные, то математическое ожидание коэффициента равно нулю.
- Явное выражение для рангового коэффициента Кендалла: .
Проверка гипотезы [ править ]
Ранговый коэффициент Кендалла часто используется в качестве тестовой статистики при проверке статистических гипотез , чтобы установить, можно ли считать две переменные статистически зависимыми. Этот тест является непараметрическим , поскольку он не опирается на какие-либо предположения о распределениях X или Y или распределении ( X , Y ).
При нулевой гипотезе независимости X и Y выборочное распределение τ равное имеет ожидаемое значение, нулю. Точное распределение нельзя охарактеризовать с точки зрения обычных распределений, но его можно точно рассчитать для небольших выборок; для более крупных выборок обычно используется приближение к нормальному распределению со средним нулем и дисперсией . [4]
Теорема. Если выборки независимы, то .
нормальность . Асимптотическая предел, сходится по распределению к стандартному нормальному распределению.
Используйте результат из класса статистики с асимптотически нормальным распределением Hoeffding (1948). [7]
Случай стандартных распределений нормальных
Если представляют собой выборки IID из одного и того же совместно нормального распределения с известным коэффициентом корреляции Пирсона , то математическое ожидание ранговой корреляции Кендалла имеет формулу замкнутого вида. [8]
Равенство Грейнера — Если в целом нормальны, с корреляцией , затем
Имя приписывается Ричарду Грейнеру (1909). [9] ПАП Моран . [10]
Учет связей [ править ]
Пара называется связанным тогда и только тогда, когда или ; связанная пара не является ни согласованной, ни несогласной. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы сохранить его в диапазоне [-1, 1]:
Тау-а [ править ]
Статистика Тау-а проверяет силу связи перекрестных таблиц . Обе переменные должны быть порядковыми . Тау-а не будет делать никаких поправок на ничьи. Он определяется как:
где n c , nd . и n 0 определены, как в следующем разделе
Тау-б [ править ]
Статистика Тау-б, в отличие от Тау-а, вносит поправки на связи. [12] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или полная инверсия) до +1 (100% положительная ассоциация или полное согласие). Нулевое значение указывает на отсутствие ассоциации.
Коэффициент Кендалла Тау-b определяется как:
где
Простой алгоритм, разработанный на BASIC, вычисляет коэффициент Тау-b, используя альтернативную формулу. [13]
Имейте в виду, что некоторые статистические пакеты, например SPSS, используют альтернативные формулы для повышения эффективности вычислений с удвоенным «обычным» количеством согласующихся и несогласованных пар. [14]
Тау-с [ править ]
Тау-c (также называемый Стюарт-Кендалл Тау-c) [15] более подходит, чем Tau-b, для анализа данных на основе неквадратных (т.е. прямоугольных) таблиц сопряженности . [15] [16] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), тогда как другая может быть основана на более тонкой 10-балльной шкале.
Коэффициент Кендалла Тау-c определяется как: [16]
где
Тесты значимости [ править ]
Когда две величины статистически зависимы, распределение нелегко охарактеризовать в терминах известных распределений. Однако для следующая статистика, , приблизительно распределяется как стандартное нормальное распределение, когда переменные статистически независимы:
где .
Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется и находит кумулятивную вероятность для стандартного нормального распределения при . Для двустороннего теста умножьте это число на два, чтобы получить значение p . Если значение p ниже заданного уровня значимости, отвергается нулевая гипотеза (на этом уровне значимости) о том, что величины статистически независимы.
Необходимо внести многочисленные корректировки при учете связей. Следующая статистика, , имеет то же распределение, что и распределение и снова примерно равно стандартному нормальному распределению, когда величины статистически независимы:
где
Иногда его называют тестом Манна-Кендалла. [17]
Алгоритмы [ править ]
Прямое вычисление числителя , включает две вложенные итерации, что характеризуется следующим псевдокодом:
numer := 0 for i := 2..N do for j := 1..(i − 1) do numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j]) return numer
Хотя этот алгоритм быстр в реализации, он по сложности и становится очень медленным на больших выборках. Более сложный алгоритм [18] построенный на алгоритме сортировки слиянием, может использоваться для вычисления числителя в время.
Начните с сортировки точек данных по первому количеству, , и во вторую очередь (среди связей в ) по второй величине, . При таком первоначальном заказе не сортируется, и ядро алгоритма состоит в вычислении того, сколько шагов пузырьковой сортировке для сортировки этого начального потребуется . Усовершенствованный алгоритм сортировки слиянием , включающий сложности, может применяться для вычисления количества свопов, , это потребуется для пузырьковой сортировки . Тогда числитель для рассчитывается как:
где вычисляется как и , но что касается совместных связей в и .
Сортировка слиянием разделяет данные, подлежащие сортировке, на две примерно равные половины, и , затем сортирует каждую полурекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество свопов пузырьковой сортировки равно:
где и это отсортированные версии и , и характеризует эквивалент замены пузырьковой сортировки для операции слияния. вычисляется, как показано в следующем псевдокоде:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n − i + 1 j := j + 1 else i := i + 1 return nSwaps
Побочным эффектом вышеперечисленных шагов является то, что вы получите отсортированную версию и отсортированная версия . При этом факторы и используется для вычисления легко получить за один проход через отсортированные массивы за линейное время.
Программные реализации [ править ]
- R реализует тест на
cor.test(x, y, method = "kendall")
в пакете "stats" (такжеcor(x, y, method = "kendall")
будет работать, но последний не возвращает значение p). Все три версии коэффициента доступны в пакете «DescTools» вместе с доверительными интервалами:KendallTauA(x,y,conf.level=0.95)
для ,KendallTauB(x,y,conf.level=0.95)
для ,StuartTauC(x,y,conf.level=0.95)
для . - Для Python библиотека SciPy реализует вычисление в
scipy.stats.kendalltau
См. также [ править ]
- Корреляция
- Расстояние Кендалла Тау
- Кендаллс W
- Коэффициент ранговой корреляции Спирмена
- Гамма Гудмана и Краскала
- Оценщик Тейла – Сена
- U-критерий Манна-Уитни - он эквивалентен тау-коэффициенту корреляции Кендалла, если одна из переменных является двоичной.
Ссылки [ править ]
- ^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика . 30 (1–2): 81–89. дои : 10.1093/biomet/30.1-2.81 . JSTOR 2332226 .
- ^ Краскал, WH (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR 2281954 . МР 0100941 .
- ^ Нельсен, РБ (2001) [1994], «Тау-метрика Кендалла» , Энциклопедия математики , EMS Press
- ^ Прохоров, А.В. (2001) [1994], «Коэффициент ранговой корреляции Кендалла» , Энциклопедия математики , EMS Press
- ^ Валц, Пол Д.; Маклеод, А. Ян (февраль 1990 г.). «Упрощенный вывод дисперсии коэффициента ранговой корреляции Кендалла» . Американский статистик . 44 (1): 39–40. дои : 10.1080/00031305.1990.10475691 . ISSN 0003-1305 .
- ^ Валц, Пол Д.; Маклеод, А. Ян; Томпсон, Мэри Э. (февраль 1995 г.). «Кумулянтная производящая функция и приближения хвостовой вероятности для оценки Кендалла со связанными рейтингами» . Анналы статистики . 23 (1): 144–160. дои : 10.1214/aos/1176324460 . ISSN 0090-5364 .
- ^ Хоффдинг, Василий (1992), Коц, Сэмюэл; Джонсон, Норман Л. (ред.), «Класс статистики с асимптотически нормальным распределением» , «Прорывы в статистике: основы и базовая теория» , серия Спрингера по статистике, Нью-Йорк, штат Нью-Йорк: Springer, стр. 308–334, doi : 10.1007/978-1-4612-0919-5_20 , ISBN 978-1-4612-0919-5 , получено 19 января 2024 г.
- ^ Кендалл, МГ (1949). «Ранг и корреляция продукта-момента» . Биометрика . 36 (1/2): 177–193. дои : 10.2307/2332540 . ISSN 0006-3444 . JSTOR 2332540 . ПМИД 18132091 .
- ^ Ричард Грейнер, (1909), О системе ошибок теории коллективных измерений , Журнал математики и физики, том 57, Б. Г. Тойбнер, Лейпциг, страницы 121–158, 225–260, 337–373.
- ^ Моран, ПАП (1948). «Ранговая корреляция и корреляция продукта-момента» . Биометрика . 35 (1/2): 203–206. дои : 10.2307/2332641 . ISSN 0006-3444 . JSTOR 2332641 . ПМИД 18867425 .
- ^ Бергер, Дэниел (2016). «Доказательство равенства Грейнера» . Электронный журнал ССРН . дои : 10.2139/ssrn.2830471 . ISSN 1556-5068 .
- ^ Агрести, А. (2010). Анализ порядковых категориальных данных (второе изд.). Нью-Йорк: Джон Уайли и сыновья. ISBN 978-0-470-08289-8 .
- ^ Альфред Брофи (1986). «Алгоритм и программа для расчета коэффициента ранговой корреляции Кендалла» (PDF) . Методы, инструменты и компьютеры исследования поведения . 18 : 45–46. дои : 10.3758/BF03200993 . S2CID 62601552 .
- ^ ИБМ (2016). IBM SPSS Статистика 24 Алгоритмы . ИБМ. п. 168 . Проверено 31 августа 2017 г.
- ^ Jump up to: Перейти обратно: а б Берри, К.Дж.; Джонстон, Дж. Э.; Захран, С.; Мильке, PW (2009). «Тау-мера Стюарта величины эффекта для порядковых переменных: некоторые методологические соображения» . Методы исследования поведения . 41 (4): 1144–1148. дои : 10.3758/brm.41.4.1144 . ПМИД 19897822 .
- ^ Jump up to: Перейти обратно: а б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах сопряженности». Биометрика . 40 (1–2): 105–110. дои : 10.2307/2333101 . JSTOR 2333101 .
- ^ Валц, Пол Д.; Маклеод, А. Ян; Томпсон, Мэри Э. (февраль 1995 г.). «Кумулянтная производящая функция и приближения хвостовой вероятности для оценки Кендалла со связанными рейтингами» . Анналы статистики . 23 (1): 144–160. дои : 10.1214/aos/1176324460 . ISSN 0090-5364 .
- ^ Найт, В. (1966). «Компьютерный метод расчета тау Кендалла с использованием несгруппированных данных». Журнал Американской статистической ассоциации . 61 (314): 436–439. дои : 10.2307/2282833 . JSTOR 2282833 .
Дальнейшее чтение [ править ]
- Абди, Х. (2007). «Ранговая корреляция Кендалла» (PDF) . В Салкинде, штат Нью-Джерси (ред.). Энциклопедия измерений и статистики . Таузенд-Оукс (Калифорния): Сейдж.
- Дэниел, Уэйн В. (1990). «Тау Кендалла» . Прикладная непараметрическая статистика (2-е изд.). Бостон: PWS-Кент. стр. 365–377. ISBN 978-0-534-91976-4 .
- Кендалл, Морис; Гиббонс, Джин Дикинсон (1990) [Впервые опубликовано в 1948 году]. Методы ранговой корреляции . Серия книг Чарльза Гриффина (5-е изд.). Оксфорд: Издательство Оксфордского университета. ISBN 978-0195208375 .
- Бонетт, Дуглас Г.; Райт, Томас А. (2000). «Требования к размеру выборки для оценки корреляций Пирсона, Кендалла и Спирмена». Психометрика . 65 (1): 23–28. дои : 10.1007/BF02294183 . S2CID 120558581 .