~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ 2886FDAE42452B4EFFE9874C4ECEFED4__1716549660 ✰
Заголовок документа оригинал.:
✰ Kendall rank correlation coefficient - Wikipedia ✰
Заголовок документа перевод.:
✰ Коэффициент ранговой корреляции Кендалла — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/28/d4/2886fdae42452b4effe9874c4ecefed4.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/28/d4/2886fdae42452b4effe9874c4ecefed4__translat.html ✰
Дата и время сохранения документа:
✰ 16.06.2024 04:27:48 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 24 May 2024, at 14:21 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Коэффициент ранговой корреляции Кендалла — Википедия Jump to content

Коэффициент ранговой корреляции Кендалла

Из Википедии, бесплатной энциклопедии

В статистике коэффициент ранговой корреляции Кендалла , обычно называемый коэффициентом Кендалла τ (от греческой буквы τ , тау), представляет собой статистику, используемую для измерения порядковой связи между двумя измеряемыми величинами. Тест τ — это непараметрический тест гипотезы на статистическую зависимость, основанный на коэффициенте τ. Это мера ранговой корреляции : сходство порядка данных при ранжировании по каждой из величин. Он назван в честь Мориса Кендалла , разработавшего его в 1938 году. [1] хотя Густав Фехнер предложил аналогичную меру в контексте временных рядов в 1897 году. [2]

Интуитивно понятно, что корреляция Кендалла между двумя переменными будет высокой, когда наблюдения имеют одинаковый (или идентичный при корреляции 1) ранг (т. е. метку относительного положения наблюдений внутри переменной: 1-е, 2-е, 3-е и т. д.) между двумя переменные и низкий, когда наблюдения имеют разный (или полностью разный для корреляции -1) ранг между двумя переменными.

Оба Кендалла и Спирмена могут быть сформулированы как частные случаи более общего коэффициента корреляции . Его понятия согласия и несоответствия также появляются в других областях статистики, например, индекс Рэнда в кластерном анализе .

Определение [ править ]

Все точки в серой области согласуются, а все точки в белой области несогласны относительно точки. . С точек, всего возможные пары точек. В этом примере имеется 395 пар согласованных точек и 40 пар несогласованных точек, что приводит к коэффициенту ранговой корреляции Кендалла, равному 0,816.

Позволять быть набором наблюдений совместных случайных величин X и Y , таких, что все значения ( ) и ( ) уникальны (связями пренебрегаем для простоты). Любая пара наблюдений и , где , называются согласованными, если порядок сортировки и согласен: то есть, если либо оба и держится или и то, и другое и ; в противном случае о них говорят, что они несогласны .

Коэффициент Кендалла τ определяется как:

[3]

где биномиальный коэффициент количества способов выбрать два предмета из n предметов.

Число несогласных пар равно числу инверсий , которые переставляют y-последовательность в тот же порядок, что и x-последовательность.

Свойства [ править ]

Знаменатель это общее количество парных комбинаций, поэтому коэффициент должен находиться в диапазоне −1 ≤ τ ≤ 1.

  • Если согласие между двумя рейтингами идеальное (т. е. два рейтинга одинаковы), коэффициент имеет значение 1.
  • Если расхождение между двумя рейтингами абсолютное (т. е. один рейтинг является обратным другому), коэффициент имеет значение -1.
  • Если X и Y независимые случайные величины , а не постоянные, то математическое ожидание коэффициента равно нулю.
  • Явное выражение для рангового коэффициента Кендалла: .

Проверка гипотезы [ править ]

Ранговый коэффициент Кендалла часто используется в качестве тестовой статистики при проверке статистических гипотез, чтобы установить, можно ли считать две переменные статистически зависимыми. Этот тест является непараметрическим , поскольку он не основан на каких-либо предположениях о распределениях X или Y или распределении ( X , Y ).

При нулевой гипотезе независимости X и Y выборочное распределение τ , имеет ожидаемое значение равное нулю. Точное распределение нельзя охарактеризовать с точки зрения обычных распределений, но его можно точно рассчитать для небольших выборок; для более крупных выборок обычно используется приближение к нормальному распределению со средним нулем и дисперсией . [4]

Теорема. Если выборки независимы, то .

Доказательство

Асимптотическая . нормальность предел, сходится по распределению к стандартному нормальному распределению.

Доказательство

Используйте результат из класса статистики с асимптотически нормальным распределением Hoeffding (1948). [7]

Случай распределений стандартных нормальных

Если представляют собой выборки IID из одного и того же совместно нормального распределения с известным коэффициентом корреляции Пирсона , то математическое ожидание ранговой корреляции Кендалла имеет формулу замкнутого вида. [8]

Равенство Грейнера Если в целом нормальны, с корреляцией , затем

Имя приписывается Ричарду Грейнеру (1909). [9] ПАП Моран . [10]

Доказательство

Учет связей [ править ]

Пара называется связанным тогда и только тогда, когда или ; связанная пара не является ни согласованной, ни несогласной. Когда в данных возникают связанные пары, коэффициент можно изменить несколькими способами, чтобы сохранить его в диапазоне [-1, 1]:

Тау-а [ править ]

Статистика Тау-а проверяет силу связи перекрестных таблиц . Обе переменные должны быть порядковыми . Тау-а не будет делать никаких поправок на ничьи. Он определяется как:

где n c , nd . и n 0 определены, как в следующем разделе

Тау-б [ править ]

Статистика Тау-б, в отличие от Тау-а, вносит поправки на связи. [12] Значения Tau-b варьируются от -1 (100% отрицательная ассоциация или полная инверсия) до +1 (100% положительная ассоциация или полное согласие). Нулевое значение указывает на отсутствие ассоциации.

Коэффициент Кендалла Тау-b определяется как:

где

Простой алгоритм, разработанный на BASIC, вычисляет коэффициент Тау-b, используя альтернативную формулу. [13]

Имейте в виду, что некоторые статистические пакеты, например SPSS, используют альтернативные формулы для повышения эффективности вычислений с удвоенным «обычным» количеством согласующихся и несогласованных пар. [14]

Тау-с [ править ]

Тау-c (также называемый Стюарт-Кендалл Тау-c) [15] более подходит, чем Tau-b, для анализа данных на основе неквадратных (т.е. прямоугольных) таблиц сопряженности . [15] [16] Поэтому используйте Tau-b, если базовая шкала обеих переменных имеет одинаковое количество возможных значений (до ранжирования), и Tau-c, если они различаются. Например, одна переменная может быть оценена по 5-балльной шкале (очень хорошо, хорошо, средне, плохо, очень плохо), тогда как другая может быть основана на более тонкой 10-балльной шкале.

Коэффициент Кендалла Тау-c определяется как: [16]

где

Тесты значимости [ править ]

Когда две величины статистически зависимы, распределение нелегко охарактеризовать в терминах известных распределений. Однако для следующая статистика, , приблизительно распределяется как стандартное нормальное распределение, когда переменные статистически независимы:

где .

Таким образом, чтобы проверить, являются ли две переменные статистически зависимыми, вычисляется и находит кумулятивную вероятность для стандартного нормального распределения при . Для двустороннего теста умножьте это число на два, чтобы получить значение p . Если значение p ниже заданного уровня значимости, отвергается нулевая гипотеза (на этом уровне значимости) о том, что величины статистически независимы.

Необходимо внести многочисленные корректировки при учете связей. Следующая статистика, , имеет то же распределение, что и распределение и снова примерно равно стандартному нормальному распределению, когда величины статистически независимы:

где

Иногда его называют тестом Манна-Кендалла. [17]

Алгоритмы [ править ]

Прямое вычисление числителя , включает две вложенные итерации, что характеризуется следующим псевдокодом:

число := 0 
  для  i := 2..N  сделать 
     для  j := 1..(i − 1)  сделать 
          число:= число + знак(x[i] − x[j]) × знак(y[i] − y[j]) 
  возвращаемый  номер 
 

Хотя этот алгоритм быстр в реализации, он по сложности и становится очень медленным на больших выборках. Более сложный алгоритм [18] построенный на алгоритме сортировки слиянием, может использоваться для вычисления числителя в время.

Начните с сортировки точек данных по первому количеству, , и во вторую очередь (среди связей в ) по второй величине, . При таком первоначальном заказе не сортируется, и ядро ​​алгоритма состоит в вычислении того, сколько шагов пузырьковой сортировке для сортировки этого начального потребуется . Усовершенствованный алгоритм сортировки слиянием , включающий сложности, может применяться для вычисления количества свопов, , это потребуется для пузырьковой сортировки . Тогда числитель для рассчитывается как:

где вычисляется как и , но что касается совместных связей в и .

Сортировка слиянием разделяет данные, подлежащие сортировке, на две примерно равные половины, и , затем сортирует каждую полурекурсивно, а затем объединяет две отсортированные половины в полностью отсортированный вектор. Количество свопов пузырьковой сортировки равно:

где и это отсортированные версии и , и характеризует эквивалент замены пузырьковой сортировки для операции слияния. вычисляется, как показано в следующем псевдокоде:

функция  M(L[1..n], R[1..m])  есть 
      я := 1 
      j := 1 
      нСвапс := 0 
      в то время как  i ≤ n  и  j ≤ m  , 
         если  R[j] < L[i]  , то 
              nSwaps := nSwaps + n - i + 1 
              j := j + 1 
          еще 
              я := я + 1 
      вернуть  nSwaps 
 

Побочным эффектом вышеперечисленных шагов является то, что вы получите отсортированную версию и отсортированная версия . При этом факторы и используется для вычисления легко получить за один проход через отсортированные массивы за линейное время.

Программные реализации [ править ]

  • R реализует тест на cor.test(x, y, method = "kendall") в пакете "stats" (также cor(x, y, method = "kendall")будет работать, но последний не возвращает значение p). Все три версии коэффициента доступны в пакете «DescTools» вместе с доверительными интервалами: KendallTauA(x,y,conf.level=0.95) для , KendallTauB(x,y,conf.level=0.95) для , StuartTauC(x,y,conf.level=0.95) для .
  • Для Python библиотека SciPy реализует вычисление в scipy.stats.kendalltau

См. также [ править ]

Ссылки [ править ]

  1. ^ Кендалл, М. (1938). «Новая мера ранговой корреляции». Биометрика . 30 (1–2): 81–89. дои : 10.1093/biomet/30.1-2.81 . JSTOR   2332226 .
  2. ^ Краскал, WH (1958). «Обычные меры объединения». Журнал Американской статистической ассоциации . 53 (284): 814–861. дои : 10.2307/2281954 . JSTOR   2281954 . МР   0100941 .
  3. ^ Нельсен, РБ (2001) [1994], «Тау-метрика Кендалла» , Энциклопедия математики , EMS Press
  4. ^ Прохоров, А.В. (2001) [1994], «Коэффициент ранговой корреляции Кендалла» , Энциклопедия математики , EMS Press
  5. ^ Валц, Пол Д.; Маклеод, А. Ян (февраль 1990 г.). «Упрощенный вывод дисперсии коэффициента ранговой корреляции Кендалла» . Американский статистик . 44 (1): 39–40. дои : 10.1080/00031305.1990.10475691 . ISSN   0003-1305 .
  6. ^ Валц, Пол Д.; Маклеод, А. Ян; Томпсон, Мэри Э. (февраль 1995 г.). «Кумулянтная производящая функция и приближения хвостовой вероятности для оценки Кендалла со связанными рейтингами» . Анналы статистики . 23 (1): 144–160. дои : 10.1214/aos/1176324460 . ISSN   0090-5364 .
  7. ^ Хоффдинг, Василий (1992), Коц, Сэмюэл; Джонсон, Норман Л. (ред.), «Класс статистики с асимптотически нормальным распределением» , «Прорывы в статистике: основы и базовая теория» , серия Спрингера по статистике, Нью-Йорк, штат Нью-Йорк: Springer, стр. 308–334, doi : 10.1007/978-1-4612-0919-5_20 , ISBN  978-1-4612-0919-5 , получено 19 января 2024 г.
  8. ^ Кендалл, МГ (1949). «Ранг и корреляция продукта-момента» . Биометрика . 36 (1/2): 177–193. дои : 10.2307/2332540 . ISSN   0006-3444 . JSTOR   2332540 . ПМИД   18132091 .
  9. ^ Ричард Грейнер, (1909), О системе ошибок теории коллективных измерений , Журнал математики и физики, том 57, Б. Г. Тойбнер, Лейпциг, страницы 121–158, 225–260, 337–373.
  10. ^ Моран, ПАП (1948). «Ранговая корреляция и корреляция продукта-момента» . Биометрика . 35 (1/2): 203–206. дои : 10.2307/2332641 . ISSN   0006-3444 . JSTOR   2332641 . ПМИД   18867425 .
  11. ^ Бергер, Дэниел (2016). «Доказательство равенства Грейнера» . Электронный журнал ССРН . дои : 10.2139/ssrn.2830471 . ISSN   1556-5068 .
  12. ^ Агрести, А. (2010). Анализ порядковых категориальных данных (второе изд.). Нью-Йорк: Джон Уайли и сыновья. ISBN  978-0-470-08289-8 .
  13. ^ Альфред Брофи (1986). «Алгоритм и программа для расчета коэффициента ранговой корреляции Кендалла» (PDF) . Методы, инструменты и компьютеры исследования поведения . 18 : 45–46. дои : 10.3758/BF03200993 . S2CID   62601552 .
  14. ^ ИБМ (2016). IBM SPSS Статистика 24 Алгоритмы . ИБМ. п. 168 . Проверено 31 августа 2017 г.
  15. ^ Перейти обратно: а б Берри, К.Дж.; Джонстон, Дж. Э.; Захран, С.; Мильке, PW (2009). «Тау-мера Стюарта величины эффекта для порядковых переменных: некоторые методологические соображения» . Методы исследования поведения . 41 (4): 1144–1148. дои : 10.3758/brm.41.4.1144 . ПМИД   19897822 .
  16. ^ Перейти обратно: а б Стюарт, А. (1953). «Оценка и сравнение сильных сторон ассоциации в таблицах сопряженности». Биометрика . 40 (1–2): 105–110. дои : 10.2307/2333101 . JSTOR   2333101 .
  17. ^ Валц, Пол Д.; Маклеод, А. Ян; Томпсон, Мэри Э. (февраль 1995 г.). «Кумулянтная производящая функция и приближения хвостовой вероятности для оценки Кендалла со связанными рейтингами» . Анналы статистики . 23 (1): 144–160. дои : 10.1214/aos/1176324460 . ISSN   0090-5364 .
  18. ^ Найт, В. (1966). «Компьютерный метод расчета тау Кендалла с использованием несгруппированных данных». Журнал Американской статистической ассоциации . 61 (314): 436–439. дои : 10.2307/2282833 . JSTOR   2282833 .

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: 2886FDAE42452B4EFFE9874C4ECEFED4__1716549660
URL1:https://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient
Заголовок, (Title) документа по адресу, URL1:
Kendall rank correlation coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)