Jump to content

Коэффициент корреляции Пирсона

Примеры диаграмм рассеяния с разными значениями коэффициента корреляции ( ρ )
Несколько наборов точек ( x , y ) с коэффициентом корреляции x и y для каждого набора. Корреляция отражает силу и направление линейной зависимости (верхний ряд), но не наклон этой зависимости (средний) и многие аспекты нелинейных связей (нижний). Примечание: фигура в центре имеет наклон 0, но в этом случае коэффициент корреляции не определен, поскольку дисперсия Y равна нулю.

В статистике коэффициент корреляции Пирсона ( ПКК ) [а] — это коэффициент корреляции , который измеряет линейную корреляцию между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением их стандартных отклонений ; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и сама ковариация, эта мера может отражать только линейную корреляцию переменных и игнорировать многие другие типы отношений или корреляции. В качестве простого примера можно было бы ожидать, что возраст и рост выборки детей из начальной школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять собой нереально идеальную корреляцию).

Именование и история

[ редактировать ]

Она была разработана Карлом Пирсоном на основе схожей идеи, выдвинутой Фрэнсисом Гальтоном в 1880-х годах, математическая формула для которой была выведена и опубликована Огюстом Браве в 1844 году. [б] [6] [7] [8] [9] Таким образом, наименование коэффициента является примером закона Стиглера .

Определение

[ редактировать ]

Коэффициент корреляции Пирсона представляет собой ковариацию двух переменных, деленную на произведение их стандартных отклонений. Форма определения включает в себя «момент продукта», то есть среднее значение (первый момент начала координат) произведения случайных величин с поправкой на среднее значение; отсюда и модификатор product-moment в названии. [ нужна проверка ]

Для населения

[ редактировать ]

Коэффициент корреляции Пирсона, применительно к популяции , обычно обозначается греческой буквой ρ (rho) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . Учитывая пару случайных величин (например, Рост и Вес), формула для ρ [10] является [11]

где

  • это ковариация
  • стандартное отклонение
  • стандартное отклонение .

Формула для может быть выражено через среднее значение и ожидание . С [10]

формула для также можно записать как

где

  • и определены как указано выше
  • это среднее значение
  • это среднее значение
  • это ожидание.

Формула для можно выразить через нецентрированные моменты. С

формула для также можно записать как

Для образца

[ редактировать ]

Коэффициент корреляции Пирсона, примененный к выборке , обычно выражается формулой и может называться выборочным коэффициентом корреляции или выборочным коэффициентом корреляции Пирсона . Мы можем получить формулу для путем подстановки оценок ковариаций и дисперсий на основе выборки в приведенную выше формулу. Учитывая парные данные состоящий из пары, определяется как

где

  • размер выборки
  • отдельные точки выборки, индексированные i
  • (выборочное среднее); и аналогично для .

Перестановка дает нам это [10] формула для :

где определяются, как указано выше.

Повторная перестановка дает нам формулу для :

где определяются, как указано выше.

Эта формула предлагает удобный однопроходный алгоритм расчета выборочных корреляций, хотя в зависимости от задействованных чисел он иногда может быть численно нестабильным .

Эквивалентное выражение дает формулу для как среднее произведений стандартных оценок следующим образом:

где

  • определены, как указано выше, и определены ниже
  • — стандартный балл (аналогично для стандартного балла ).

Альтернативные формулы для также доступны. Например, можно использовать следующую формулу для :

где

  • определяются, как указано выше, и:
  • ( выборочное стандартное отклонение ); и аналогично для .

Для совместно гауссовских распределений

[ редактировать ]

Если является совместно гауссовским , со средним нулем и дисперсией , затем .

Практические вопросы

[ редактировать ]

В условиях сильного шума извлечение коэффициента корреляции между двумя наборами стохастических переменных является нетривиальной задачей, в частности, когда канонический корреляционный анализ сообщает об ухудшении значений корреляции из-за сильного шума. Обобщение подхода дано в другом месте. [12]

В случае отсутствия данных Гаррен вывел оценку максимального правдоподобия . [13]

Некоторые распределения (например, стабильные распределения, отличные от нормального распределения ) не имеют определенной дисперсии.

Математические свойства

[ редактировать ]

Значения коэффициентов корреляции Пирсона как для выборки, так и для совокупности находятся в диапазоне от -1 до 1 или между ними. Корреляции, равные +1 или -1, соответствуют точкам данных, лежащим точно на прямой (в случае выборочной корреляции), или двумерное распределение, полностью поддерживаемое линией (в случае корреляции населения). Коэффициент корреляции Пирсона симметричен: corr( X , Y ) = corr( Y , X ).

Ключевым математическим свойством коэффициента корреляции Пирсона является то, что он инвариантен при отдельных изменениях местоположения и масштаба двух переменных. То есть мы можем преобразовать X в a + bX и преобразовать Y в c + dY , где a , b , c и d — константы с b , d > 0 , без изменения коэффициента корреляции. (Это справедливо как для генеральных, так и для выборочных коэффициентов корреляции Пирсона.) Более общие линейные преобразования действительно меняют корреляцию: см. § Декорреляция n случайных величин, чтобы узнать об этом.

Интерпретация

[ редактировать ]

Коэффициент корреляции находится в диапазоне от -1 до 1. Абсолютное значение, равное ровно 1, означает, что линейное уравнение идеально описывает взаимосвязь между X и Y , причем все точки данных лежат на прямой . Знак корреляции определяется наклоном регрессии : значение +1 подразумевает, что все точки данных лежат на линии, для которой Y увеличивается по мере увеличения X , тогда как значение -1 подразумевает линию, на которой Y увеличивается, а X уменьшается. [14] Значение 0 означает, что между переменными нет линейной зависимости. [15]

В более общем смысле, ( X i - X )( Y i - Y ) является положительным тогда и только тогда, когда X i и Y i лежат по одну сторону от своих соответствующих средних значений. Таким образом, коэффициент корреляции является положительным, если X i и Y i имеют тенденцию быть одновременно больше или одновременно меньше своих соответствующих средних значений. Коэффициент корреляции является отрицательным ( антикорреляция ), если X i и Y i имеют тенденцию лежать на противоположных сторонах своих соответствующих средних значений. При этом чем сильнее та или иная тенденция, тем больше абсолютное значение коэффициента корреляции.

Роджерс и Найсвандер [16] каталогизировал тринадцать способов интерпретации корреляции или простых ее функций:

  • Функция необработанных оценок и средних значений
  • Стандартизованная ковариация
  • Стандартизованный наклон линии регрессии
  • Среднее геометрическое двух наклонов регрессии
  • Квадратный корень из отношения двух дисперсий
  • Среднее перекрестное произведение стандартизированных переменных
  • Функция угла между двумя стандартизированными линиями регрессии
  • Функция угла между двумя переменными векторами
  • Изменена дисперсия разницы между стандартизированными оценками.
  • Оценка по правилу воздушного шара
  • Связано с двумерными эллипсами изоконцентрации.
  • Функция статистики испытаний из запланированных экспериментов
  • Соотношение двух средств

Геометрическая интерпретация

[ редактировать ]
Линии регрессии для y = g X ( x ) [ красный ] и Икс знак равно г Y ( y ) [ синий ]

Для нецентрированных данных существует связь между коэффициентом корреляции и углом φ между двумя линиями регрессии, y = g X ( x ) и x = g Y ( y ) , полученными путем регрессии y по x и x по y соответственно. (Здесь φ измеряется против часовой стрелки в пределах первого квадранта, образованного вокруг точки пересечения линий, если r > 0 , или против часовой стрелки от четвертого до второго квадранта, если r < 0. ) Можно показать [17] что если стандартные отклонения равны, то r = sec φ − tan φ , где sec и tan — тригонометрические функции .

Для центрированных данных (т. е. данных, которые были сдвинуты выборочными средними их соответствующих переменных так, чтобы среднее значение каждой переменной было равно нулю), коэффициент корреляции также можно рассматривать как косинус угла θ . между двумя наблюдаемыми значениями векторы в N -мерном пространстве (для N наблюдений каждой переменной). [18]

Для набора данных можно определить как нецентрированные (не соответствующие Пирсону), так и центрированные коэффициенты корреляции. В качестве примера предположим, что валовой национальный продукт пяти стран составляет 1, 2, 3, 5 и 8 миллиардов долларов соответственно. Предположим, что в этих же пяти странах (в том же порядке) уровень бедности составляет 11%, 12%, 13%, 15% и 18%. Тогда пусть x и y — упорядоченные 5-элементные векторы, содержащие приведенные выше данные: x = (1, 2, 3, 5, 8) и y = (0,11, 0,12, 0,13, 0,15, 0,18) .

С помощью обычной процедуры нахождения угла θ между двумя векторами (см. скалярное произведение ) нецентрированный коэффициент корреляции равен

Этот нецентрированный коэффициент корреляции идентичен косинусному подобию . Приведенные выше данные были намеренно выбраны так, чтобы они идеально коррелировали: y = 0,10 + 0,01 x . Поэтому коэффициент корреляции Пирсона должен быть ровно один. Центрирование данных (сдвиг x на ℰ( x ) = 3,8 и y на ℰ( y ) = 0,138 ) дает x = (-2,8, -1,8, -0,8, 1,2, 4,2) и y = (-0,028, -0,018, −0,008, 0,012, 0,042) , откуда

как и ожидалось.

Интерпретация размера корреляции

[ редактировать ]
Этот рисунок дает представление о том, как полезность корреляции Пирсона для прогнозирования значений зависит от ее величины. Учитывая совместно нормальные X , Y с корреляцией ρ , (показано здесь как функция от ρ ) — это коэффициент, на который данный прогнозирования для Y может быть уменьшен при соответствующем значении X. интервал Например, если ρ = 0,5, то 95%-ный интервал прогнозирования Y | X будет примерно на 13% меньше 95%-го интервала прогнозирования Y .

Некоторые авторы предложили рекомендации по интерпретации коэффициента корреляции. [19] [20] Однако все подобные критерии в некоторой степени произвольны. [20] Интерпретация коэффициента корреляции зависит от контекста и целей. Корреляция 0,8 может быть очень низкой, если проверять физический закон с использованием высококачественных инструментов, но может считаться очень высокой в ​​социальных науках, где может быть больший вклад усложняющих факторов.

Статистический вывод, основанный на коэффициенте корреляции Пирсона, часто фокусируется на одной из следующих двух целей:

  • Одна из целей состоит в том, чтобы проверить нулевую гипотезу о том, что истинный коэффициент корреляции ρ равен 0, на основе значения выборочного коэффициента корреляции r .
  • Другая цель — получить доверительный интервал , который при повторной выборке с заданной вероятностью будет содержать ρ .

Методы достижения одной или обеих этих целей обсуждаются ниже.

Использование теста перестановки

[ редактировать ]

Тесты перестановок обеспечивают прямой подход к проверке гипотез и построению доверительных интервалов. Перестановочный тест коэффициента корреляции Пирсона включает в себя следующие два этапа:

  1. Используя исходные парные данные ( x i , y i ), случайным образом переопределите пары, чтобы создать новый набор данных ( x i , y i ' ), где i ' являются перестановкой набора {1,..., n }. Перестановка i выбирается случайным образом с равными вероятностями, размещенными на всех n ! возможные перестановки. Это эквивалентно рисованию i' случайным образом без замены из набора {1, ..., n }. При начальной загрузке , тесно связанном подходе, i и i' равны и рисуются с заменой из {1, ..., n };
  2. Постройте коэффициент корреляции r из рандомизированных данных.

Чтобы выполнить тест на перестановку, повторите шаги (1) и (2) большое количество раз. Значение p для теста перестановки — это доля значений r , полученных на этапе (2), которые превышают коэффициент корреляции Пирсона, рассчитанный на основе исходных данных. Здесь «больше» может означать либо то, что значение больше по величине, либо больше по знаку, в зависимости от того, ли двусторонний или односторонний требуется тест.

Использование бутстрапа

[ редактировать ]

Бутстрап можно использовать для построения доверительных интервалов для коэффициента корреляции Пирсона. В «непараметрическом» бутстрапе n пар ( x i , y i ) повторно выбираются «с заменой» из наблюдаемого набора из n пар, а коэффициент корреляции r вычисляется на основе повторно дискретизированных данных. Этот процесс повторяется большое количество раз, и эмпирическое распределение повторно выбранных значений r используется для аппроксимации выборочного распределения статистики. 95% доверительный интервал для ρ можно определить как интервал, охватывающий от 2,5 до 97,5 процентиля повторно выбранных значений r .

Стандартная ошибка

[ редактировать ]

Если и являются случайными величинами с простой линейной зависимостью между ними с аддитивным нормальным шумом (т. е. y= a + bx + e), то стандартная ошибка, связанная с корреляцией, равна

где это корреляция и размер выборки. [21] [22]

Стьюдента Тестирование с использованием t -распределения

[ редактировать ]
Критические значения коэффициента корреляции Пирсона, которые необходимо превысить, чтобы считаться значимо отличным от нуля на уровне 0,05.

Для пар из некоррелированного двумерного нормального распределения выборочное распределение стьюдентизированного коэффициента корреляции Пирсона следует Стьюдента t -распределению со степенями свободы n - 2. В частности, если базовые переменные имеют двумерное нормальное распределение, переменная

-распределение Стьюдента имеет t в нулевом случае (нулевая корреляция). [23] Это приблизительно справедливо в случае ненормальных наблюдаемых значений, если размеры выборки достаточно велики. [24] Для определения критических значений r необходима обратная функция:

В качестве альтернативы можно использовать асимптотические подходы на большой выборке.

Еще одна ранняя статья [25] предоставляет графики и таблицы для общих значений ρ для небольших размеров выборки и обсуждает вычислительные подходы.

-распределению Стьюдента В случае, когда основные переменные не являются нормальными, выборочное распределение коэффициента корреляции Пирсона следует t , но степени свободы уменьшаются. [26]

Использование точного распределения

[ редактировать ]

Для данных, которые следуют двумерному нормальному распределению , точная функция плотности f ( r ) для выборочного коэффициента корреляции r нормального двумерного распределения равна [27] [28] [29]

где и функция гамма - гипергеометрическая функция Гаусса .

В частном случае, когда (нулевая корреляция населения), точную функцию плотности f ( r ) можно записать как

где — это бета-функция , которая является одним из способов записи плотности t-распределения Стьюдента для коэффициента корреляции стьюдентизированной выборки, как указано выше.

Использование точного доверительного распределения

[ редактировать ]

Доверительные интервалы и тесты можно рассчитать на основе доверительного распределения . Точная доверительная плотность для ρ равна [30]

где — гипергеометрическая функция Гаусса и .

Использование преобразования Фишера

[ редактировать ]

На практике доверительные интервалы и проверка гипотез, касающихся ρ, обычно выполняются с использованием преобразования, стабилизирующего дисперсию , преобразования Фишера , :

F ( r ) приблизительно соответствует нормальному распределению с

    и стандартная ошибка

где n — размер выборки. Ошибка аппроксимации минимальна при большом объеме выборки. и маленький и и увеличивается в противном случае.

Используя аппроксимацию, z-показатель равен

при нулевой гипотезе , что , при условии, что пары выборок независимы, одинаково распределены и подчиняются двумерному нормальному распределению . Таким образом, приблизительное значение p можно получить из таблицы нормальной вероятности. Например, если наблюдается z = 2,2 и требуется двустороннее значение p для проверки нулевой гипотезы, согласно которой , значение p равно 2 Φ(−2,2) = 0,028 , где Φ — стандартная нормальная кумулятивная функция распределения .

Чтобы получить доверительный интервал для ρ, мы сначала вычисляем доверительный интервал для F ( ):

Обратное преобразование Фишера возвращает интервал в шкалу корреляции.

Например, предположим, что мы наблюдаем r = 0,7 при размере выборки n = 50 и хотим получить 95% доверительный интервал для ρ . Преобразованное значение , поэтому доверительный интервал преобразованной шкалы равен , или (0,5814, 1,1532). Преобразование обратно в шкалу корреляции дает (0,5237, 0,8188).

Регрессионный анализ по методу наименьших квадратов

[ редактировать ]

Квадрат выборочного коэффициента корреляции обычно обозначается r 2 и является частным случаем коэффициента детерминации . В этом случае он оценивает долю дисперсии Y , которая объясняется X в простой линейной регрессии . Итак, если у нас есть наблюдаемый набор данных и подобранный набор данных тогда в качестве отправной точки общее изменение Y i вокруг их среднего значения можно разложить следующим образом:

где представляют собой подобранные значения из регрессионного анализа. Это можно переставить, чтобы дать

Два слагаемых выше представляют собой долю дисперсии Y , которая объясняется X (справа) и необъясняется X (слева).

Далее мы применяем свойство моделей регрессии наименьших квадратов , заключающееся в том, что выборочная ковариация между и равен нулю. Таким образом, можно записать выборочный коэффициент корреляции между наблюдаемыми и подобранными значениями ответа в регрессии (расчеты ожидаются, предполагается статистика Гаусса).

Таким образом

где — это доля дисперсии Y, линейной функцией X. объясняемая

В приведенном выше выводе тот факт, что

можно доказать, заметив, что частные производные остаточной суммы квадратов ( RSS ) по β 0 и β 1 равны 0 в модели наименьших квадратов, где

.

В конечном итоге уравнение можно записать в виде

где

  • .

Символ называется регрессионной суммой квадратов, также называемой объясненной суммой квадратов , и общая сумма квадратов (пропорциональная дисперсии данных).

Чувствительность к распределению данных

[ редактировать ]

Существование

[ редактировать ]

Коэффициент корреляции Пирсона для населения определяется в терминах моментов и, следовательно, существует для любого двумерного распределения вероятностей , для которого генеральной совокупности ковариация определена предельные дисперсии генеральной совокупности и определены , которые не равны нулю. Некоторые распределения вероятностей, такие как распределение Коши , имеют неопределенную дисперсию и, следовательно, ρ не определен, если X или Y следует такому распределению. В некоторых практических приложениях, например, когда данные предположительно имеют распределение с тяжелым хвостом , это является важным фактором. Однако существование коэффициента корреляции обычно не вызывает беспокойства; например, если диапазон распределения ограничен, ρ всегда определен.

Размер выборки

[ редактировать ]
  • Если размер выборки умеренный или большой, а популяция нормальная, то в случае двумерного нормального распределения коэффициент корреляции выборки представляет собой оценку максимального правдоподобия коэффициента корреляции популяции и является асимптотически несмещенным и эффективным , что примерно означает что невозможно построить более точную оценку, чем выборочный коэффициент корреляции.
  • Если размер выборки велик, а совокупность не является нормальной, то коэффициент корреляции выборки остается примерно несмещенным, но может быть неэффективным.
  • Если размер выборки велик, то коэффициент корреляции выборки является последовательной оценкой коэффициента корреляции генеральной совокупности, пока выборочные средние, дисперсии и ковариация последовательны (что гарантируется при закона больших чисел ). применении
  • Если размер выборки невелик, то выборочный коэффициент корреляции r не является несмещенной оценкой ρ . [10] Вместо этого следует использовать скорректированный коэффициент корреляции: определение см. в других разделах этой статьи.
  • Корреляции могут быть разными для несбалансированных дихотомических данных, когда в выборке есть ошибка дисперсии. [31]

Надежность

[ редактировать ]

Как и многие широко используемые статистические данные, выборочная статистика r не является устойчивой . [32] поэтому его значение может ввести в заблуждение, если выбросы . присутствуют [33] [34] В частности, PMCC не является ни надежным с точки зрения распределения, ни [35] и не устойчив к выбросам [32] (см. Робастную статистику § Определение ). Проверка диаграммы рассеяния между X и Y обычно выявляет ситуацию, когда отсутствие устойчивости может быть проблемой, и в таких случаях может быть целесообразно использовать надежную меру связи. Однако обратите внимание, что, хотя большинство надежных оценок ассоциации каким-то образом измеряют статистическую зависимость , их, как правило, нельзя интерпретировать в той же шкале, что и коэффициент корреляции Пирсона.

Статистический вывод для коэффициента корреляции Пирсона чувствителен к распределению данных. Точные тесты и асимптотические тесты, основанные на преобразовании Фишера, могут применяться, если данные примерно нормально распределены, но в противном случае могут вводить в заблуждение. В некоторых ситуациях бутстреп можно применять для построения доверительных интервалов, а тесты перестановок можно применять для проверки гипотез. Эти непараметрические подходы могут дать более значимые результаты в некоторых ситуациях, когда двумерная нормальность не соблюдается. Однако стандартные версии этих подходов полагаются на возможность обмена данными, что означает отсутствие упорядочения или группировки анализируемых пар данных, которые могли бы повлиять на поведение оценки корреляции.

Стратифицированный анализ — это один из способов компенсировать отсутствие двумерной нормальности или изолировать корреляцию, возникающую в результате одного фактора, при этом контролируя другой. Если W представляет членство в кластере или другой фактор, который желательно контролировать, мы можем стратифицировать данные на основе значения W , а затем вычислить коэффициент корреляции внутри каждого слоя. Затем оценки на уровне страты можно объединить для оценки общей корреляции с учетом W . [36]

Варианты

[ редактировать ]

Вариации коэффициента корреляции можно рассчитывать для разных целей. Вот несколько примеров.

Скорректированный коэффициент корреляции

[ редактировать ]

Выборочный коэффициент корреляции r не является несмещенной оценкой ρ . Для данных, которые следуют двумерному нормальному распределению , математическое ожидание E[ r ] для выборочного коэффициента корреляции r нормального двумерного распределения равно [37]

поэтому r является смещенной оценкой

Уникальная несмещенная оценка минимальной дисперсии r adj определяется выражением [38]

( 1 )

где:

Приближенно несмещенную оценку r adj можно получить [ нужна ссылка ] усекая E[ r ] и решая это усеченное уравнение:

( 2 )

Примерное решение [ нужна ссылка ] к уравнению ( 2 ) есть

( 3 )

где в ( 3 )

  • определяются, как указано выше,
  • r adj — субоптимальная оценка, [ нужна ссылка ] [ нужны разъяснения ]
  • r adj также можно получить путем максимизации log( f ( r )),
  • r adj имеет минимальную дисперсию для больших значений n ,
  • r adj имеет смещение порядка 1 ( п - 1) .

Еще один предложенный [10] скорректированный коэффициент корреляции [ нужна ссылка ]

r adj r для больших значений n .

Взвешенный коэффициент корреляции

[ редактировать ]

Предположим, что наблюдения, подлежащие корреляции, имеют разную степень важности, которую можно выразить с помощью весового вектора w . Чтобы вычислить корреляцию между векторами x и y с весовым вектором w (все длины n ), [39] [40]

  • Взвешенное среднее:
  • Взвешенная ковариация
  • Взвешенная корреляция

Коэффициент отражательной корреляции

[ редактировать ]

Рефлексивная корреляция — это вариант корреляции Пирсона, в котором данные не сосредоточены вокруг их средних значений. [ нужна ссылка ] Рефлективная корреляция населения

Рефлексивная корреляция симметрична, но не инвариантна при трансляции:

Выборочная отражательная корреляция эквивалентна косинусному подобию :

Взвешенная версия выборочной отражательной корреляции:

Масштабированный коэффициент корреляции

[ редактировать ]

Масштабированная корреляция — это вариант корреляции Пирсона, при котором диапазон данных ограничивается намеренно и контролируемым образом, чтобы выявить корреляции между быстрыми компонентами временных рядов . [41] Масштабированная корреляция определяется как средняя корреляция между короткими сегментами данных.

Позволять быть количеством сегментов, которые могут вписаться в общую длину сигнала для заданного масштаба :

Масштабированная корреляция по всем сигналам затем вычисляется как

где - коэффициент корреляции Пирсона для сегмента .

Выбрав параметр , диапазон значений сужается и корреляции на длительном временном масштабе отфильтровываются, выявляются только корреляции на коротких временных масштабах. Таким образом, вклады медленных компонент удаляются, а вклады быстрых компонент сохраняются.

Расстояние Пирсона

[ редактировать ]

Метрика расстояния для двух переменных X и Y, известная как расстояние Пирсона, может быть определена на основе их коэффициента корреляции как [42]

Учитывая, что коэффициент корреляции Пирсона находится в диапазоне [−1, +1], расстояние Пирсона лежит в диапазоне [0, 2]. Расстояние Пирсона использовалось в кластерном анализе и обнаружении данных для связи и хранения с неизвестным усилением и смещением. [43]

Определенное таким образом «расстояние» Пирсона присваивает расстояние больше 1 отрицательным корреляциям. В действительности, имеют значение как сильная положительная, так и отрицательная корреляция, поэтому необходимо соблюдать осторожность, когда «расстояние» Пирсона используется для алгоритма ближайшего соседа, поскольку такой алгоритм будет включать только соседей с положительной корреляцией и исключать соседей с отрицательной корреляцией. Альтернативно, абсолютное расстояние, , который будет учитывать как положительные, так и отрицательные корреляции. Информацию о положительных и отрицательных ассоциациях можно будет извлечь позже отдельно.

Коэффициент круговой корреляции

[ редактировать ]

Для переменных X = { x 1 ,..., x n } и Y = { y 1 ,..., y n }, которые определены на единичной окружности [0, 2π) , можно определить круговой аналог коэффициента Пирсона. [44] Это делается путем преобразования точек данных по X и Y с помощью синусоидальной функции, так что коэффициент корреляции задается как:

где и являются средними X Y и . круговыми Эта мера может быть полезна в таких областях, как метеорология, где важно угловое направление данных.

Частичная корреляция

[ редактировать ]

Если совокупность или набор данных характеризуются более чем двумя переменными, коэффициент частичной корреляции измеряет силу зависимости между парой переменных, которая не учитывается тем, как они обе изменяются в ответ на изменения в выбранном подмножестве. других переменных.

Декорреляция n случайных величин

[ редактировать ]

Всегда можно удалить корреляции между всеми парами произвольного числа случайных величин с помощью преобразования данных, даже если связь между переменными нелинейна. Представление этого результата для распределения населения дано Коксом и Хинкли. [45]

Соответствующий результат существует для сведения выборочных корреляций к нулю. Предположим, что вектор из n случайных величин наблюдается m раз. Пусть X — матрица, где j -я переменная наблюдения i . Позволять быть m на квадратной матрицей размером m с каждым элементом 1. Тогда D — это данные, преобразованные так, что каждая случайная величина имеет нулевое среднее значение, а T — это данные, преобразованные так, чтобы все переменные имели нулевое среднее значение и нулевую корреляцию со всеми другими переменными — выборочная матрица корреляции. T . будет единичной матрицей Чтобы получить единичную дисперсию, это значение необходимо разделить на стандартное отклонение. Преобразованные переменные не будут коррелированы, хотя они могут и не быть независимыми .

где показатель степени + 1 2 представляет матричный квадратный корень из обратной матрицы. Корреляционная матрица T будет единичной матрицей. Если новое наблюдение данных x представляет собой вектор-строку из n можно применить то же преобразование, элементов, то к x чтобы получить преобразованные векторы d и t :

Эта декорреляция связана с анализом главных компонент многомерных данных.

Реализации программного обеспечения

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Также известный как Пирсона r , коэффициент корреляции момента произведения Пирсона ( PPMCC ), двумерная корреляция , [1] или просто неквалифицированный коэффициент корреляции [2]
  2. Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » для обозначения того, что впоследствии стало «регрессией». [3] [4] [5]
  1. ^ «Учебные пособия по SPSS: корреляция Пирсона» .
  2. ^ «Коэффициент корреляции: простое определение, формула, простые шаги» . Статистика Как сделать .
  3. ^ Гальтон, Ф. (5–19 апреля 1877 г.). «Типичные законы наследственности» . Природа . 15 (388, 389, 390): 492–495, 512–514, 532–533. Бибкод : 1877Природа..15..492. . дои : 10.1038/015492a0 . S2CID   4136393 . В «Приложении» на стр. 532 Гальтон использует термин «реверсия» и символ r .
  4. ^ Гальтон, Ф. (24 сентября 1885 г.). «Британская ассоциация: Секция II, Антропология: Вступительная речь Фрэнсиса Гальтона, ФРС и т. д., президента Антропологического института, президента секции» . Природа . 32 (830): 507–510.
  5. ^ Гальтон, Ф. (1886). «Регрессия к посредственности в наследственном статусе» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583 . JSTOR   2841583 .
  6. ^ Пирсон, Карл (20 июня 1895 г.). «Заметки о регрессии и наследовании в случае двух родителей» . Труды Лондонского королевского общества . 58 : 240–242. Бибкод : 1895RSPS...58..240P .
  7. ^ Стиглер, Стивен М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции» . Статистическая наука . 4 (2): 73–79. дои : 10.1214/ss/1177012580 . JSTOR   2245329 .
  8. ^ «Математический анализ вероятностей ситуационных ошибок точки» . Память акад. Рой. наук. Инст. Франция . наук. Математика и физика. (на французском языке). 9 : 255–332. 1844 г. - через Google Книги.
  9. ^ Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований . 20 (7): 557–585.
  10. ^ Jump up to: а б с д и Реальная статистика с использованием Excel, « Основные понятия корреляции », получено 22 февраля 2015 г.
  11. ^ Вайсштейн, Эрик В. «Статистическая корреляция» . Вольфрам Математический мир . Проверено 22 августа 2020 г.
  12. ^ Мория, Н. (2008). «Многомерный оптимальный совместный анализ, связанный с шумом, в продольных стохастических процессах». В Ян, Фэншань (ред.). Прогресс в прикладном математическом моделировании . Nova Science Publishers, Inc., стр. 223–260 . ISBN  978-1-60021-976-4 .
  13. ^ Гаррен, Стивен Т. (15 июня 1998 г.). «Оценка максимального правдоподобия коэффициента корреляции в двумерной нормальной модели с отсутствующими данными». Статистика и вероятностные буквы . 38 (3): 281–288. дои : 10.1016/S0167-7152(98)00035-2 .
  14. ^ «2,6 – (Пирсона) Коэффициент корреляции r» . СТАТ 462 . Проверено 10 июля 2021 г.
  15. ^ «Вводная бизнес-статистика: коэффициент корреляции r» . opentextbc.ca . Проверено 21 августа 2020 г.
  16. ^ Роджерс; Найсвандер (1988). «Тринадцать способов взглянуть на коэффициент корреляции» (PDF) . Американский статистик . 42 (1): 59–66. дои : 10.2307/2685263 . JSTOR   2685263 .
  17. ^ Шмид, Джон младший (декабрь 1947 г.). «Взаимосвязь между коэффициентом корреляции и углом между линиями регрессии». Журнал образовательных исследований . 41 (4): 311–313. дои : 10.1080/00220671.1947.10881608 . JSTOR   27528906 .
  18. ^ Раммель, Р.Дж. (1976). «Понимание корреляции» . гл. 5 (как показано для особого случая в следующем параграфе).
  19. ^ Буда, Анджей; Яриновский, Анджей (декабрь 2010 г.). Время жизни корреляций и его приложения . Независимое издательство. стр. 5–21. ISBN  9788391527290 .
  20. ^ Jump up to: а б Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.).
  21. ^ Боули, Алабама (1928). «Стандартное отклонение коэффициента корреляции» . Журнал Американской статистической ассоциации . 23 (161): 31–34. дои : 10.2307/2277400 . ISSN   0162-1459 . JSTOR   2277400 .
  22. ^ «Вывод стандартной ошибки для коэффициента корреляции Пирсона» . Крест проверен . Проверено 30 июля 2021 г.
  23. ^ Рахман, Н.А. (1968) Курс теоретической статистики , Чарльз Гриффин и компания, 1968
  24. ^ Кендалл, М.Г., Стюарт, А. (1973) Передовая теория статистики, Том 2: Выводы и взаимосвязи , Гриффин. ISBN   0-85264-215-6 (раздел 31.19)
  25. ^ Сопер, HE ; Янг, AW; Пещера, БМ; Ли, А.; Пирсон, К. (1917). «О распределении коэффициента корреляции в малых выборках. Приложение II к статьям «Студента» и Р.А. Фишера. Совместное исследование» . Биометрика . 11 (4): 328–413. дои : 10.1093/биомет/11.4.328 .
  26. ^ Дэйви, Кэтрин Э.; Грейден, Дэвид Б.; Иган, Гэри Ф.; Джонстон, Ли А. (январь 2013 г.). «Фильтрация вызывает корреляцию в данных о состоянии покоя фМРТ». НейроИмидж . 64 : 728–740. doi : 10.1016/j.neuroimage.2012.08.022 . hdl : 11343/44035 . ПМИД   22939874 . S2CID   207184701 .
  27. ^ Хотеллинг, Гарольд (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества . Серия Б (Методическая). 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR   2983768 .
  28. ^ Кенни, Дж. Ф.; Хранение, Е.С. (1951). Математика статистики . Том. Часть 2 (2-е изд.). Принстон, Нью-Джерси: Ван Ностранд.
  29. ^ Вайсштейн, Эрик В. «Коэффициент корреляции — двумерное нормальное распределение» . Вольфрам Математический мир .
  30. ^ Таральдсен, Гуннар (2020). «Уверенность в корреляции» . дои : 10.13140/RG.2.2.23673.49769 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
  31. ^ Лай, Чун Синг; Тао, Иншань; Сюй, Фанъюань; Нг, Крыло, Вайоминг; Цзя, Ювэй; Юань, Хаолян; Хуан, Чао; Лай, Лой Лей; Сюй, Чжао; Локателли, Джорджо (январь 2019 г.). «Надежная система корреляционного анализа для несбалансированных и дихотомических данных с неопределенностью» (PDF) . Информационные науки . 470 : 58–77. дои : 10.1016/j.ins.2018.08.017 . S2CID   52878443 .
  32. ^ Jump up to: а б Уилкокс, Рэнд Р. (2005). Введение в робастную оценку и проверку гипотез . Академическая пресса.
  33. ^ Девлин, Сьюзен Дж .; Гнанадэсикан, Р.; Кеттенринг-младший (1975). «Надежная оценка и обнаружение выбросов с помощью коэффициентов корреляции». Биометрика . 62 (3): 531–545. дои : 10.1093/biomet/62.3.531 . JSTOR   2335508 .
  34. ^ Хубер, Питер. Дж. (2004). Надежная статистика . Уайли. [ нужна страница ]
  35. ^ Ваарт, А.В. ван дер (13 октября 1998 г.). Асимптотическая статистика . Издательство Кембриджского университета. дои : 10.1017/cbo9780511802256 . ISBN  978-0-511-80225-6 .
  36. ^ Кац., Митчелл Х. (2006) Многопараметрический анализ – практическое руководство для клиницистов . 2-е издание. Издательство Кембриджского университета. ISBN   978-0-521-54985-1 . ISBN   0-521-54985-X
  37. ^ Хотеллинг, Х. (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества. Серия Б (Методическая) . 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR   2983768 .
  38. ^ Олкин, Ингрэм; Пратт, Джон В. (март 1958 г.). «Непредвзятая оценка некоторых коэффициентов корреляции» . Анналы математической статистики . 29 (1): 201–211. дои : 10.1214/aoms/1177706717 . JSTOR   2237306 . .
  39. ^ «Re: Вычислить взвешенную корреляцию» . sci.tech-archive.net .
  40. ^ «Матрица взвешенной корреляции – обмен файлами – MATLAB Central» .
  41. ^ Николич, Д; Муресан, РЦ; Фэн, В; Сингер, Вт (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы» (PDF) . Европейский журнал неврологии . 35 (5): 1–21. дои : 10.1111/j.1460-9568.2011.07987.x . ПМИД   22324876 . S2CID   4694570 .
  42. ^ Фулекар (ред.), MH (2009) Биоинформатика: приложения в науках о жизни и окружающей среде , Springer (стр. 110) ISBN   1-4020-8879-5
  43. ^ Имминк, К. Шухамер; Вебер, Дж. (октябрь 2010 г.). «Обнаружение минимального расстояния Пирсона для многоуровневых каналов с несоответствием усиления и/или смещения» . Транзакции IEEE по теории информации . 60 (10): 5966–5974. CiteSeerX   10.1.1.642.9971 . дои : 10.1109/tit.2014.2342744 . S2CID   1027502 . Проверено 11 февраля 2018 г.
  44. ^ Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы круговой статистики . Нью-Джерси: World Scientific. п. 176. ИСБН  978-981-02-3778-3 . Проверено 21 сентября 2016 г.
  45. ^ Кокс, доктор медицинских наук; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. Приложение 3. ISBN  0-412-12420-3 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bdae27f196c0a2d3dddc65223db42aca__1720724220
URL1:https://arc.ask3.ru/arc/aa/bd/ca/bdae27f196c0a2d3dddc65223db42aca.html
Заголовок, (Title) документа по адресу, URL1:
Pearson correlation coefficient - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)