Коэффициент корреляции Пирсона

В статистике коэффициент корреляции Пирсона ( ПКК ) ^[а] — это коэффициент корреляции , который измеряет линейную корреляцию между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением их стандартных отклонений ; таким образом, это, по сути, нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1. Как и сама ковариация, эта мера может отражать только линейную корреляцию переменных и игнорировать многие другие типы отношений или корреляции. В качестве простого примера можно было бы ожидать, что возраст и рост выборки подростков из средней школы будут иметь коэффициент корреляции Пирсона значительно больше 0, но меньше 1 (поскольку 1 будет представлять собой нереально идеальную корреляцию).

Именование и история [ править ]

Она была разработана Карлом Пирсоном на основе схожей идеи, выдвинутой Фрэнсисом Гальтоном в 1880-х годах, математическая формула для которой была выведена и опубликована Огюстом Браве в 1844 году. ^[б]^[6]^[7]^[8]^[9] Таким образом, наименование коэффициента является примером закона Стиглера .

Определение [ править ]

Коэффициент корреляции Пирсона представляет собой ковариацию двух переменных, деленную на произведение их стандартных отклонений. Форма определения включает в себя «момент продукта», то есть среднее значение (первый момент начала координат) произведения случайных величин с поправкой на среднее значение; отсюда и модификатор product-moment в названии. ^{[ нужна проверка ]}

Для населения [ править ]

Коэффициент корреляции Пирсона, применительно к популяции , обычно обозначается греческой буквой ρ (rho) и может называться коэффициентом корреляции популяции или коэффициентом корреляции Пирсона популяции . Учитывая пару случайных величин $(X,Y)$ (например, Рост и Вес), формула для ρ ^[10] является ^[11]

\rho _{X,Y}={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}

где

$\operatorname {cov}$ это ковариация
$\sigma _{X}$ стандартное отклонение $X$
$\sigma _{Y}$ стандартное отклонение $Y$ .

Формула для $\operatorname {cov} (X,Y)$ может быть выражено через среднее значение и ожидание . С ^[10]

\operatorname {cov} (X,Y)=\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})],

формула для $\rho$ также можно записать как

\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})]}{\sigma _{X}\sigma _{Y}}}

где

$\sigma _{Y}$ и $\sigma _{X}$ определены как указано выше
$\mu _{X}$ это среднее значение $X$
$\mu _{Y}$ это среднее значение $Y$
$\operatorname {\mathbb {E} }$ это ожидание.

Формула для $\rho$ можно выразить через нецентрированные моменты. С

{\begin{aligned}\mu _{X}={}&\operatorname {\mathbb {E} } [\,X\,]\\\mu _{Y}={}&\operatorname {\mathbb {E} } [\,Y\,]\\\sigma _{X}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(X-\operatorname {\mathbb {E} } [X]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}\\\sigma _{Y}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(Y-\operatorname {\mathbb {E} } [Y]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\,\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}\\&\operatorname {\mathbb {E} } [\,\left(X-\mu _{X}\right)\left(Y-\mu _{Y}\right)\,]=\operatorname {\mathbb {E} } [\,\left(X-\operatorname {\mathbb {E} } [\,X\,]\right)\left(Y-\operatorname {\mathbb {E} } [\,Y\,]\right)\,]=\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]\,,\end{aligned}}

формула для $\rho$ также можно записать как

\rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]}{{\sqrt {\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}}}~{\sqrt {\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}}}}}.

Для примера [ править ]

Коэффициент корреляции Пирсона, примененный к выборке , обычно выражается формулой $r_{xy}$ и может называться выборочным коэффициентом корреляции или выборочным коэффициентом корреляции Пирсона . Мы можем получить формулу для $r_{xy}$ путем подстановки оценок ковариаций и дисперсий на основе выборки в приведенную выше формулу. Учитывая парные данные $\left\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\right\}$ состоящий из $n$ пары, $r_{xy}$ определяется как

r_{xy}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}

где

$n$ размер выборки
$x_{i},y_{i}$ отдельные точки выборки, индексированные i
${\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}}$ (выборочное среднее); и аналогично для ${\bar {y}}$ .

Перестановка дает нам эту формулу для $r_{xy}$ :

r_{xy}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}}}~{\sqrt {n\sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}}}},

где $n,x_{i},y_{i}$ определяются, как указано выше.

Эта формула предлагает удобный однопроходный алгоритм расчета выборочных корреляций, хотя в зависимости от задействованных чисел он иногда может быть численно нестабильным .

Повторная перестановка дает нам это ^[10] формула для $r_{xy}$ :

r_{xy}={\frac {\sum _{i}x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{{\sqrt {\sum _{i}x_{i}^{2}-n{\bar {x}}^{2}}}~{\sqrt {\sum _{i}y_{i}^{2}-n{\bar {y}}^{2}}}}},

где $n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ определяются, как указано выше.

Эквивалентное выражение дает формулу для $r_{xy}$ как среднее произведений стандартных оценок следующим образом:

r_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)\left({\frac {y_{i}-{\bar {y}}}{s_{y}}}\right)

где

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ определены, как указано выше, и $s_{x},s_{y}$ определены ниже
${\textstyle \left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)}$ — стандартный балл (аналогично для стандартного балла $y$ ).

Альтернативные формулы для $r_{xy}$ также доступны. Например, можно использовать следующую формулу для $r_{xy}$ :

r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}

где

$n,x_{i},y_{i},{\bar {x}},{\bar {y}}$ определяются, как указано выше, и:
${\textstyle s_{x}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}$ ( выборочное стандартное отклонение ); и аналогично для $s_{y}$ .

Для совместно гауссовских распределений [ править ]

Если $(X,Y)$ является совместно гауссовским , со средним нулем и дисперсией $\Sigma$ , затем $\Sigma ={\begin{bmatrix}\sigma _{X}^{2}&\rho _{X,Y}\sigma _{X}\sigma _{Y}\\\rho _{X,Y}\sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{bmatrix}}$ .

Практические вопросы [ править ]

В условиях сильного шума извлечение коэффициента корреляции между двумя наборами стохастических переменных является нетривиальной задачей, в частности, когда канонический корреляционный анализ сообщает об ухудшении значений корреляции из-за сильного шума. Обобщение подхода дано в другом месте. ^[12]

В случае отсутствия данных Гаррен вывел оценку максимального правдоподобия . ^[13]

Некоторые распределения (например, стабильные распределения, отличные от нормального распределения ) не имеют определенной дисперсии.

Математические свойства [ править ]

Значения коэффициентов корреляции Пирсона выборки и генеральной совокупности находятся в пределах от -1 до 1 или между ними. Корреляции, равные +1 или -1, соответствуют точкам данных, лежащим точно на прямой (в случае выборочной корреляции), или двумерное распределение, полностью поддерживаемое линией (в случае корреляции населения). Коэффициент корреляции Пирсона симметричен: corr( X , Y ) = corr( Y , X ).

Ключевым математическим свойством коэффициента корреляции Пирсона является то, что он инвариантен при отдельных изменениях местоположения и масштаба двух переменных. То есть мы можем преобразовать X в $a + bX$ и преобразовать Y в $c + dY$ , где a , b , c и d — константы с $b, d > 0$ , без изменения коэффициента корреляции. (Это справедливо как для генеральных, так и для выборочных коэффициентов корреляции Пирсона.) Более общие линейные преобразования действительно меняют корреляцию: см. § Декорреляция n случайных величин, чтобы узнать об этом.

Интерпретация [ править ]

Коэффициент корреляции находится в диапазоне от -1 до 1. Абсолютное значение, равное ровно 1, означает, что линейное уравнение идеально описывает взаимосвязь между X и Y , при этом все точки данных лежат на прямой . Знак корреляции определяется наклоном регрессии : значение +1 подразумевает, что все точки данных лежат на линии, для которой Y увеличивается по мере увеличения X , тогда как значение -1 подразумевает линию, на которой Y увеличивается, а X уменьшается. ^[14] Значение 0 означает, что между переменными нет линейной зависимости. ^[15]

В более общем смысле, $(X i - X)(Y i - Y)$ является положительным тогда и только тогда, когда X _i и Y _i лежат по одну сторону от своих соответствующих средних значений. Таким образом, коэффициент корреляции является положительным, если X _i и Y _i имеют тенденцию быть одновременно больше или одновременно меньше своих соответствующих средних значений. Коэффициент корреляции является отрицательным ( антикорреляция ), если X _i и Y _i имеют тенденцию лежать на противоположных сторонах своих соответствующих средних значений. При этом чем сильнее та или иная тенденция, тем больше абсолютное значение коэффициента корреляции.

Роджерс и Найсвандер ^[16] каталогизировал тринадцать способов интерпретации корреляции или простых ее функций:

Функция необработанных оценок и средних значений
Стандартизованная ковариация
Стандартизованный наклон линии регрессии
Среднее геометрическое двух наклонов регрессии
Квадратный корень из отношения двух дисперсий
Среднее перекрестное произведение стандартизированных переменных
Функция угла между двумя стандартизированными линиями регрессии
Функция угла между двумя переменными векторами
Изменена дисперсия разницы между стандартизированными оценками.
Оценка по правилу воздушного шара
Связано с двумерными эллипсами изоконцентрации.
Функция статистики испытаний из запланированных экспериментов
Соотношение двух средств

интерпретация Геометрическая

Для нецентрированных данных существует связь между коэффициентом корреляции и углом φ между двумя линиями регрессии, y = g _X ( x ) и x = g _Y ( y ) , полученными путем регрессии y по x и x по y соответственно. (Здесь φ измеряется против часовой стрелки в пределах первого квадранта, образованного вокруг точки пересечения линий, если $r > 0$ , или против часовой стрелки от четвертого до второго квадранта, если r < 0. ) Можно показать ^[17] что если стандартные отклонения равны, то r = sec φ − tan φ , где sec и tan — тригонометрические функции .

Для центрированных данных (т. е. данных, которые были сдвинуты выборочными средними их соответствующих переменных так, чтобы среднее значение каждой переменной было равно нулю), коэффициент корреляции также можно рассматривать как косинус угла θ . между двумя наблюдаемыми значениями векторы в N -мерном пространстве (для N наблюдений каждой переменной). ^[18]

Для набора данных можно определить как нецентрированные (не соответствующие Пирсону), так и центрированные коэффициенты корреляции. В качестве примера предположим, что валовой национальный продукт пяти стран составляет 1, 2, 3, 5 и 8 миллиардов долларов соответственно. Предположим, что в этих же пяти странах (в том же порядке) уровень бедности составляет 11%, 12%, 13%, 15% и 18%. Тогда пусть x и y — упорядоченные 5-элементные векторы, содержащие приведенные выше данные: x = (1, 2, 3, 5, 8) и y = (0,11, 0,12, 0,13, 0,15, 0,18) .

С помощью обычной процедуры нахождения угла θ между двумя векторами (см. скалярное произведение ) нецентрированный коэффициент корреляции равен

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.

Этот нецентрированный коэффициент корреляции идентичен косинусному подобию . Приведенные выше данные были намеренно выбраны так, чтобы они идеально коррелировали: $y = 0,10 + 0,01 x$ . Поэтому коэффициент корреляции Пирсона должен быть ровно один. Центрирование данных (смещение x на $ℰ(x) = 3,8$ и y на $ℰ(y) = 0,138$ ) дает $x = (-2,8, -1,8, -0,8, 1,2, 4,2)$ и $y = (-0,028, -0,018, -0,008, 0,012, 0,042)$ , откуда

\cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},

как и ожидалось.

Интерпретация величины корреляции [ править ]

Некоторые авторы предложили рекомендации по интерпретации коэффициента корреляции. ^[19]^[20] Однако все подобные критерии в некоторой степени произвольны. ^[20] Интерпретация коэффициента корреляции зависит от контекста и целей. Корреляция 0,8 может быть очень низкой, если проверять физический закон с использованием высококачественных инструментов, но может считаться очень высокой в социальных науках, где может быть больший вклад усложняющих факторов.

Вывод [ править ]

Статистический вывод, основанный на коэффициенте корреляции Пирсона, часто фокусируется на одной из следующих двух целей:

Одна из целей состоит в том, чтобы проверить нулевую гипотезу о том, что истинный коэффициент корреляции ρ равен 0, на основе значения выборочного коэффициента корреляции r .
Другая цель — получить доверительный интервал , который при повторной выборке с заданной вероятностью будет содержать ρ .

Методы достижения одной или обеих этих целей обсуждаются ниже.

Использование теста перестановки [ править ]

Тесты перестановок обеспечивают прямой подход к проверке гипотез и построению доверительных интервалов. Перестановочный тест коэффициента корреляции Пирсона включает в себя следующие два этапа:

Используя исходные парные данные ( x _i , y _i ), случайным образом переопределите пары, чтобы создать новый набор данных ( x _i , y _{i '} ), где i ' являются перестановкой набора {1,..., n }. Перестановка i выбирается случайным образом с равными вероятностями, размещенными на всех n ! возможные перестановки. Это эквивалентно рисованию i' случайным образом без замены из набора {1, ..., n }. При начальной загрузке , тесно связанном подходе, i и i' равны и рисуются с заменой из {1, ..., n };
Постройте коэффициент корреляции r из рандомизированных данных.

Чтобы выполнить тест на перестановку, повторите шаги (1) и (2) большое количество раз. Значение p для теста перестановки — это доля значений r , полученных на этапе (2), которые превышают коэффициент корреляции Пирсона, рассчитанный на основе исходных данных. Здесь «больше» может означать либо то, что значение больше по величине, либо больше по знаку, в зависимости от того, ли двусторонний или односторонний требуется тест.

Использование начальной загрузки [ править ]

Бутстрап можно использовать для построения доверительных интервалов для коэффициента корреляции Пирсона. В «непараметрическом» бутстрапе n пар ( x _i , y _i ) повторно выбираются «с заменой» из наблюдаемого набора из n пар, а коэффициент корреляции r вычисляется на основе повторно дискретизированных данных. Этот процесс повторяется большое количество раз, и эмпирическое распределение повторно выбранных значений r используется для аппроксимации выборочного распределения статистики. 95% доверительный интервал для ρ можно определить как интервал, охватывающий от 2,5 до 97,5 процентиля повторно выбранных значений r .

Стандартная ошибка [ править ]

Если $x$ и $y$ являются случайными величинами с простой линейной связью между ними с аддитивным нормальным шумом (т. е. y = a + bx + e), тогда как стандартная ошибка , связанная с корреляцией, равна

\sigma _{r}={\sqrt {\frac {1-r^{2}}{n-2}}}

где $r$ это корреляция и $n$ размер выборки. ^[21]^[22]

Стьюдента t - распределения с использованием Тестирование

Для пар из некоррелированного двумерного нормального распределения выборочное распределение стьюдентизированного коэффициента корреляции Пирсона следует Стьюдента t -распределению со степенями свободы n - 2. В частности, если базовые переменные имеют двумерное нормальное распределение, переменная

t={\frac {r}{\sigma _{r}}}=r{\sqrt {\frac {n-2}{1-r^{2}}}}

-распределение Стьюдента имеет t в нулевом случае (нулевая корреляция). ^[23] Это приблизительно справедливо в случае ненормальных наблюдаемых значений, если размеры выборки достаточно велики. ^[24] Для определения критических значений r необходима обратная функция:

r={\frac {t}{\sqrt {n-2+t^{2}}}}.

В качестве альтернативы можно использовать асимптотические подходы на большой выборке.

Еще одна ранняя статья ^[25] предоставляет графики и таблицы для общих значений ρ для небольших размеров выборки и обсуждает вычислительные подходы.

-распределению Стьюдента В случае, когда основные переменные не являются нормальными, выборочное распределение коэффициента корреляции Пирсона следует t , но степени свободы уменьшаются. ^[26]

Использование точного распределения [ править ]

Для данных, которые следуют двумерному нормальному распределению , точная функция плотности f ( r ) для выборочного коэффициента корреляции r нормального двумерного распределения равна ^[27]^[28]^[29]

f(r)={\frac {(n-2)\,\mathrm {\Gamma } (n-1)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\operatorname {\Gamma } {\mathord {\left(n-{\tfrac {1}{2}}\right)}}(1-\rho r)^{n-{\frac {3}{2}}}}}{}_{2}\mathrm {F} _{1}{\mathord {\left({\tfrac {1}{2}},{\tfrac {1}{2}};{\tfrac {1}{2}}(2n-1);{\tfrac {1}{2}}(\rho r+1)\right)}}

где $\Gamma$ и функция гамма - ${}_{2}\mathrm {F} _{1}(a,b;c;z)$ — гипергеометрическая функция Гаусса .

В частном случае, когда $\rho =0$ (нулевая корреляция населения), точную функцию плотности f ( r ) можно записать как

f(r)={\frac {\left(1-r^{2}\right)^{\frac {n-1}{2}}}{\operatorname {\mathrm {B} } {\mathord {\left({\tfrac {1}{2}},{\tfrac {n+1}{2}}\right)}}}},

где $\mathrm {B}$ — это бета-функция , которая является одним из способов записи плотности t-распределения Стьюдента для коэффициента корреляции стьюдентизированной выборки, как указано выше.

точного доверительного распределения Использование

Доверительные интервалы и тесты можно рассчитать на основе доверительного распределения . Точная доверительная плотность для ρ равна ^[30]

\pi (\rho \mid r)={\frac {\nu (\nu -1)\Gamma (\nu -1)}{{\sqrt {2\pi }}\Gamma \left(\nu +{\frac {1}{2}}\right)}}\left(1-r^{2}\right)^{\frac {\nu -1}{2}}\cdot \left(1-\rho ^{2}\right)^{\frac {\nu -2}{2}}\cdot \left(1-r\rho \right)^{\frac {1-2\nu }{2}}\operatorname {F} \left({\tfrac {3}{2}},-{\tfrac {1}{2}};\nu +{\tfrac {1}{2}};{\tfrac {1+r\rho }{2}}\right)

где $\operatorname {F}$ — гипергеометрическая функция Гаусса и $\nu =n-1>1$ .

Использование преобразования Фишера [ править ]

На практике доверительные интервалы и проверка гипотез, касающихся ρ, обычно выполняются с использованием преобразования, стабилизирующего дисперсию , преобразования Фишера , $F$ :

F(r)\equiv {\tfrac {1}{2}}\,\ln \left({\frac {1+r}{1-r}}\right)=\operatorname {artanh} (r)

F ( r ) приблизительно соответствует нормальному распределению с

{\text{mean}}=F(\rho )=\operatorname {artanh} (\rho )

и стандартная ошибка

={\text{SE}}={\frac {1}{\sqrt {n-3}}},

где n — размер выборки. Ошибка аппроксимации минимальна при большом объеме выборки. $n$ и маленький $r$ и $\rho _{0}$ и увеличивается в противном случае.

Используя аппроксимацию, z-показатель равен

z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}

при нулевой гипотезе , что $\rho =\rho _{0}$ , при условии, что пары выборок независимы, одинаково распределены и подчиняются двумерному нормальному распределению . Таким образом, приблизительное значение p можно получить из таблицы нормальной вероятности. Например, если наблюдается z = 2,2 и требуется двустороннее значение p для проверки нулевой гипотезы, согласно которой $\rho =0$ , значение p равно 2 Φ(−2,2) = 0,028 , где Φ — стандартная нормальная кумулятивная функция распределения .

Чтобы получить доверительный интервал для ρ, мы сначала вычисляем доверительный интервал для F ( $\rho$ ):

100(1-\alpha )\%{\text{CI}}:\operatorname {artanh} (\rho )\in [\operatorname {artanh} (r)\pm z_{\alpha /2}{\text{SE}}]

Обратное преобразование Фишера возвращает интервал в шкалу корреляции.

100(1-\alpha )\%{\text{CI}}:\rho \in [\tanh(\operatorname {artanh} (r)-z_{\alpha /2}{\text{SE}}),\tanh(\operatorname {artanh} (r)+z_{\alpha /2}{\text{SE}})]

Например, предположим, что мы наблюдаем r = 0,7 при размере выборки n = 50 и хотим получить 95% доверительный интервал для ρ . Преобразованное значение ${\textstyle \operatorname {arctanh} \left(r\right)=0.8673}$ , поэтому доверительный интервал преобразованной шкалы равен $0.8673\pm {\frac {1.96}{\sqrt {47}}}$ , или (0,5814, 1,1532). Преобразование обратно в шкалу корреляции дает (0,5237, 0,8188).

Регрессионный анализ по методу наименьших квадратов [ править ]

Квадрат выборочного коэффициента корреляции обычно обозначается r ² и является частным случаем коэффициента детерминации . В этом случае он оценивает долю дисперсии Y , которая объясняется X в простой линейной регрессии . Итак, если у нас есть наблюдаемый набор данных $Y_{1},\dots ,Y_{n}$ и подобранный набор данных ${\hat {Y}}_{1},\dots ,{\hat {Y}}_{n}$ тогда в качестве отправной точки общее изменение Y _i вокруг их среднего значения можно разложить следующим образом:

\sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},

где ${\hat {Y}}_{i}$ представляют собой подобранные значения из регрессионного анализа. Это можно переставить, чтобы дать

1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.

Два слагаемых выше представляют собой долю дисперсии Y , которая объясняется X (справа) и необъясняется X (слева).

Далее мы применяем свойство моделей регрессии наименьших квадратов , заключающееся в том, что выборочная ковариация между ${\hat {Y}}_{i}$ и $Y_{i}-{\hat {Y}}_{i}$ равен нулю. Таким образом, можно записать выборочный коэффициент корреляции между наблюдаемыми и подобранными значениями ответа в регрессии (расчеты ожидаются, предполагается статистика Гаусса).

{\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}

Таким образом

r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}

где $r(Y,{\hat {Y}})^{2}$ — это доля дисперсии Y, линейной функцией X. объясняемая

В приведенном выше выводе тот факт, что

\sum _{i}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})=0

можно доказать, заметив, что частные производные остаточной суммы квадратов ( $RSS$ ) по β ₀ и β ₁ равны 0 в модели наименьших квадратов, где

{\text{RSS}}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}

.

В конечном итоге уравнение можно записать в виде

r(Y,{\hat {Y}})^{2}={\frac {{\text{SS}}_{\text{reg}}}{{\text{SS}}_{\text{tot}}}}

где

${\text{SS}}_{\text{reg}}=\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}$
${\text{SS}}_{\text{tot}}=\sum _{i}(Y_{i}-{\bar {Y}})^{2}$ .

Символ ${\text{SS}}_{\text{reg}}$ называется регрессионной суммой квадратов, также называемой объясненной суммой квадратов , и ${\text{SS}}_{\text{tot}}$ — общая сумма квадратов (пропорциональная дисперсии данных).

распространению Чувствительность данных к

Существование [ править ]

Коэффициент корреляции Пирсона для генеральной совокупности определяется в моментах и, следовательно, существует для любого двумерного распределения вероятностей , для которого генеральной совокупности ковариация определена предельные дисперсии генеральной совокупности и определены , которые не равны нулю. Некоторые распределения вероятностей, такие как распределение Коши , имеют неопределенную дисперсию и, следовательно, ρ не определен, если X или Y следует такому распределению. В некоторых практических приложениях, например, когда данные предположительно имеют распределение с тяжелым хвостом , это является важным фактором. Однако существование коэффициента корреляции обычно не вызывает беспокойства; например, если диапазон распределения ограничен, ρ всегда определен.

Размер выборки [ править ]

Если размер выборки умеренный или большой, а популяция нормальная, то в случае двумерного нормального распределения коэффициент корреляции выборки представляет собой оценку максимального правдоподобия коэффициента корреляции популяции и является асимптотически несмещенным и эффективным , что примерно означает что невозможно построить более точную оценку, чем выборочный коэффициент корреляции.
Если размер выборки велик, а совокупность не является нормальной, то коэффициент корреляции выборки остается примерно несмещенным, но может быть неэффективным.
Если размер выборки велик, то коэффициент корреляции выборки является последовательной оценкой коэффициента корреляции генеральной совокупности, пока выборочные средние, дисперсии и ковариация последовательны (что гарантируется при закона больших чисел ). применении
Если размер выборки невелик, то выборочный коэффициент корреляции r не является несмещенной оценкой ρ . ^[10] Вместо этого необходимо использовать скорректированный коэффициент корреляции: определение см. в других разделах этой статьи.
Корреляции могут быть разными для несбалансированных дихотомических данных, когда в выборке есть ошибка дисперсии. ^[31]

Прочность [ править ]

Как и многие другие часто используемые статистические данные, выборочная статистика r не является устойчивой . ^[32] поэтому его значение может ввести в заблуждение, если выбросы . присутствуют ^[33]^[34] В частности, PMCC не является ни надежным с точки зрения распределения, ни ^[35] и не устойчив к выбросам ^[32] (см. Робастную статистику § Определение ). Проверка диаграммы рассеяния между X и Y обычно выявляет ситуацию, когда отсутствие устойчивости может быть проблемой, и в таких случаях может быть целесообразно использовать надежную меру связи. Однако обратите внимание, что, хотя большинство надежных оценок ассоциации каким-то образом измеряют статистическую зависимость , их, как правило, нельзя интерпретировать в той же шкале, что и коэффициент корреляции Пирсона.

Статистический вывод для коэффициента корреляции Пирсона чувствителен к распределению данных. Точные тесты и асимптотические тесты, основанные на преобразовании Фишера, могут применяться, если данные примерно нормально распределены, но в противном случае могут вводить в заблуждение. В некоторых ситуациях бутстрап можно применять для построения доверительных интервалов, а тесты перестановок можно применять для проверки гипотез. Эти непараметрические подходы могут дать более значимые результаты в некоторых ситуациях, когда двумерная нормальность не соблюдается. Однако стандартные версии этих подходов полагаются на возможность обмена данными, что означает отсутствие упорядочения или группировки анализируемых пар данных, которые могли бы повлиять на поведение оценки корреляции.

Стратифицированный анализ — это один из способов либо компенсировать отсутствие двумерной нормальности, либо изолировать корреляцию, возникающую в результате одного фактора, при этом контролируя другой. Если W представляет членство в кластере или другой фактор, который желательно контролировать, мы можем стратифицировать данные на основе значения W , а затем рассчитать коэффициент корреляции внутри каждого слоя. Затем оценки на уровне страты можно объединить для оценки общей корреляции с учетом W . ^[36]

Варианты [ править ]

Вариации коэффициента корреляции можно рассчитывать для разных целей. Вот несколько примеров.

коэффициент Скорректированный корреляции

Выборочный коэффициент корреляции $r$ не является несмещенной оценкой $ρ$ . Для данных, которые следуют двумерному нормальному распределению , математическое ожидание $E[r]$ для выборочного коэффициента корреляции $r$ нормального двумерного распределения равно ^[37]

\operatorname {\mathbb {E} } \left[r\right]=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2n}}+\cdots ,\quad

поэтому

r

является смещенной оценкой

\rho .

Уникальная несмещенная оценка минимальной дисперсии $r adj$ определяется выражением ^[38]

r_{\text{adj}}=r\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}{2}};{\frac {n-1}{2}};1-r^{2}\right),

( 1 )

где:

$r,n$ определяются, как указано выше,
$\mathbf {_{2}F_{1}} (a,b;c;z)$ — гипергеометрическая функция Гаусса .

Приближенно несмещенную оценку $r adj$ можно получить ^{[ нужна ссылка ]} усекая $E[r]$ и решая это усеченное уравнение:

r=\operatorname {\mathbb {E} } [r]\approx r_{\text{adj}}-{\frac {r_{\text{adj}}\left(1-r_{\text{adj}}^{2}\right)}{2n}}.

( 2 )

Примерное решение ^{[ нужна ссылка ]} к уравнению ( 2 ) есть

r_{\text{adj}}\approx r\left[1+{\frac {1-r^{2}}{2n}}\right],

( 3 )

где в ( 3 )

$r,n$ определяются, как указано выше,
$r adj$ — субоптимальная оценка, ^{[ нужна ссылка ]}^{[ нужны разъяснения ]}
$r adj$ также можно получить путем максимизации log( f ( r )),
$r adj$ имеет минимальную дисперсию для больших значений $n$ ,
$r adj$ имеет смещение порядка $.mw-parser-output .frac{white-space:nowrap}.mw-parser-output .frac .num,.mw-parser-output .frac .den{font-size:80%;line-height:0;vertical-align:super}.mw-parser-output .frac .den{vertical-align:sub}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1 ⁄ ( п - 1)$ .

Еще один предложенный ^[10] скорректированный коэффициент корреляции ^{[ нужна ссылка ]}

r_{\text{adj}}={\sqrt {1-{\frac {(1-r^{2})(n-1)}{(n-2)}}}}.

$r adj \approx r$ для больших значений $n$ .

корреляции Взвешенный коэффициент

Предположим, что наблюдения, подлежащие корреляции, имеют разную степень важности, которую можно выразить с помощью весового вектора w . Чтобы вычислить корреляцию между векторами x и y с весовым вектором w (все длины n ), ^[39]^[40]

Взвешенное среднее: $\operatorname {m} (x;w)={\frac {\sum _{i}w_{i}x_{i}}{\sum _{i}w_{i}}}.$
Взвешенная ковариация $\operatorname {cov} (x,y;w)={\frac {\sum _{i}w_{i}\cdot (x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w))}{\sum _{i}w_{i}}}.$
Взвешенная корреляция $\operatorname {corr} (x,y;w)={\frac {\operatorname {cov} (x,y;w)}{\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.$

корреляции отражательной Коэффициент

Рефлексивная корреляция — это вариант корреляции Пирсона, в котором данные не сосредоточены вокруг их средних значений. ^{[ нужна ссылка ]} Рефлективная корреляция населения

\operatorname {corr} _{r}(X,Y)={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]}{\sqrt {\operatorname {\mathbb {E} } [\,X^{2}\,]\cdot \operatorname {\mathbb {E} } [\,Y^{2}\,]}}}.

Рефлексивная корреляция симметрична, но не инвариантна при трансляции:

\operatorname {corr} _{r}(X,Y)=\operatorname {corr} _{r}(Y,X)=\operatorname {corr} _{r}(X,bY)\neq \operatorname {corr} _{r}(X,a+bY),\quad a\neq 0,b>0.

Выборочная отражательная корреляция эквивалентна косинусному подобию :

rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.

Взвешенная версия выборочной отражательной корреляции:

rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.

корреляции Масштабированный коэффициент

Масштабированная корреляция — это вариант корреляции Пирсона, при котором диапазон данных ограничивается намеренно и контролируемым образом, чтобы выявить корреляции между быстрыми компонентами временных рядов . ^[41] Масштабированная корреляция определяется как средняя корреляция между короткими сегментами данных.

Позволять $K$ быть количеством сегментов, которые могут вписаться в общую длину сигнала $T$ для заданного масштаба $s$ :

K=\operatorname {round} \left({\frac {T}{s}}\right).

Масштабированная корреляция по всем сигналам ${\bar {r}}_{s}$ затем вычисляется как

{\bar {r}}_{s}={\frac {1}{K}}\sum \limits _{k=1}^{K}r_{k},

где $r_{k}$ - коэффициент корреляции Пирсона для сегмента $k$ .

Выбрав параметр $s$ , диапазон значений сокращается и корреляции на длительном временном масштабе отфильтровываются, выявляются только корреляции на коротких временных масштабах. Таким образом, вклады медленных компонент удаляются, а вклады быстрых компонент сохраняются.

Расстояние Пирсона [ править ]

Метрика расстояния для двух переменных X и Y, известная как расстояние Пирсона, может быть определена на основе их коэффициента корреляции как ^[42]

d_{X,Y}=1-\rho _{X,Y}.

Учитывая, что коэффициент корреляции Пирсона находится в диапазоне [−1, +1], расстояние Пирсона лежит в диапазоне [0, 2]. Расстояние Пирсона использовалось в кластерном анализе и обнаружении данных для связи и хранения с неизвестным усилением и смещением. ^[43]

Определенное таким образом «расстояние» Пирсона присваивает расстояние больше 1 отрицательным корреляциям. В действительности, имеют значение как сильная положительная, так и отрицательная корреляция, поэтому необходимо соблюдать осторожность, когда «расстояние» Пирсона используется для алгоритма ближайшего соседа, поскольку такой алгоритм будет включать только соседей с положительной корреляцией и исключать соседей с отрицательной корреляцией. Альтернативно, абсолютное расстояние, $d_{X,Y}=1-|\rho _{X,Y}|$ , который будет учитывать как положительные, так и отрицательные корреляции. Информацию о положительных и отрицательных ассоциациях можно будет извлечь позже отдельно.

круговой Коэффициент корреляции

Для переменных X = { x ₁ ,..., x _n } и Y = { y ₁ ,..., y _n }, которые определены на единичной окружности $[0, 2π)$ , можно определить круговой аналог коэффициента Пирсона. ^[44] Это делается путем преобразования точек данных по X и Y с помощью синусоидальной функции, так что коэффициент корреляции задается как:

r_{\text{circular}}={\frac {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})\sin(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}\sin(y_{i}-{\bar {y}})^{2}}}}}

где ${\bar {x}}$ и ${\bar {y}}$ являются средними X Y и . круговыми Эта мера может быть полезна в таких областях, как метеорология, где важно угловое направление данных.

Частичная корреляция

Если совокупность или набор данных характеризуются более чем двумя переменными, коэффициент частичной корреляции измеряет силу зависимости между парой переменных, которая не учитывается тем, как они обе изменяются в ответ на изменения в выбранном подмножестве. других переменных.

Декорреляция n случайных величин [ править ]

Всегда можно удалить корреляции между всеми парами произвольного числа случайных величин с помощью преобразования данных, даже если связь между переменными нелинейна. Представление этого результата для распределения населения дано Коксом и Хинкли. ^[45]

Соответствующий результат существует для сведения выборочных корреляций к нулю. Предположим, что вектор из n случайных величин наблюдается m раз. Пусть X — матрица, где $X_{i,j}$ — j -я переменная наблюдения i . Позволять $Z_{m,m}$ быть m на квадратной матрицей размером m с каждым элементом 1. Тогда D — это данные, преобразованные так, что каждая случайная величина имеет нулевое среднее значение, а T — это данные, преобразованные так, чтобы все переменные имели нулевое среднее значение и нулевую корреляцию со всеми другими переменными — выборочная матрица корреляции T . будет единичной матрицей Чтобы получить единичную дисперсию, это значение необходимо разделить на стандартное отклонение. Преобразованные переменные не будут коррелированы, хотя они могут и не быть независимыми .

D=X-{\frac {1}{m}}Z_{m,m}X

T=D(D^{\mathsf {T}}D)^{-{\frac {1}{2}}},

где показатель степени − + 1 ⁄ 2 представляет матричный квадратный корень из обратной матрицы. Корреляционная матрица T будет единичной матрицей. Если новое наблюдение данных x представляет собой вектор-строку из n элементов, то то же преобразование можно применить к x, чтобы получить преобразованные векторы d и t :

d=x-{\frac {1}{m}}Z_{1,m}X,

t=d(D^{\mathsf {T}}D)^{-{\frac {1}{2}}}.

Эта декорреляция связана с анализом главных компонент многомерных данных.

Программные реализации [ править ]

R реализует коэффициент корреляции с Базовый пакет статистики cor(x, y), или (также со значением P) с cor.test(x, y).
Библиотека SciPy Python через pearsonr(x, y).
Библиотека Pandas Python реализует расчет коэффициента корреляции Пирсона в качестве опции по умолчанию для метода. pandas.DataFrame.corr
Wolfram Mathematica через Correlation функции, или (со значением P) с CorrelationTest.
Библиотека Boost C++ через correlation_coefficient функция.
Excel имеет встроенный correl(array1, array2) функция для расчета коэффициента корреляции Пирсона.

См. также [ править ]

Сноски [ править ]

^ Также известный как Пирсона r , коэффициент корреляции момента произведения Пирсона ( PPMCC ), двумерная корреляция , ^[1] или просто неквалифицированный коэффициент корреляции ^[2]
↑ Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » для обозначения того, что впоследствии стало «регрессией». ^[3]^[4]^[5]

Ссылки [ править ]

^ «Учебные пособия по SPSS: корреляция Пирсона» .
^ «Коэффициент корреляции: простое определение, формула, простые шаги» . Статистика Как сделать .
^ Гальтон, Ф. (5–19 апреля 1877 г.). «Типичные законы наследственности» . Природа . 15 (388, 389, 390): 492–495, 512–514, 532–533. Бибкод : 1877Природа..15..492. . дои : 10.1038/015492a0 . S2CID 4136393 . В «Приложении» на стр. 532 Гальтон использует термин «реверсия» и символ r .
^ Гальтон, Ф. (24 сентября 1885 г.). «Британская ассоциация: Секция II, Антропология: Вступительная речь Фрэнсиса Гальтона, ФРС и т. д., президента Антропологического института, президента секции» . Природа . 32 (830): 507–510.
^ Гальтон, Ф. (1886). «Регрессия к посредственности в наследственном статусе» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583 . JSTOR 2841583 .
^ Пирсон, Карл (20 июня 1895 г.). «Заметки о регрессии и наследовании в случае двух родителей» . Труды Лондонского королевского общества . 58 : 240–242. Бибкод : 1895RSPS...58..240P .
^ Стиглер, Стивен М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции» . Статистическая наука . 4 (2): 73–79. дои : 10.1214/ss/1177012580 . JSTOR 2245329 .
^ «Математический анализ вероятностей ситуационных ошибок точки» . Память акад. Рой. наук. Инст. Франция . наук. Математика и физика. (на французском языке). 9 : 255–332. 1844 г. - через Google Книги.
^ Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований . 20 (7): 557–585.
^ Jump up to: ^а ^б ^с ^д ^и Реальная статистика с использованием Excel, « Основные понятия корреляции », получено 22 февраля 2015 г.
^ Вайсштейн, Эрик В. «Статистическая корреляция» . Вольфрам Математический мир . Проверено 22 августа 2020 г.
^ Мория, Н. (2008). «Многомерный оптимальный совместный анализ, связанный с шумом, в продольных стохастических процессах». В Ян, Фэншань (ред.). Прогресс в прикладном математическом моделировании . Nova Science Publishers, Inc., стр. 223–260 . ISBN 978-1-60021-976-4 .
^ Гаррен, Стивен Т. (15 июня 1998 г.). «Оценка максимального правдоподобия коэффициента корреляции в двумерной нормальной модели с отсутствующими данными». Статистика и вероятностные буквы . 38 (3): 281–288. дои : 10.1016/S0167-7152(98)00035-2 .
^ «2,6 – (Пирсона) Коэффициент корреляции r» . СТАТ 462 . Проверено 10 июля 2021 г.
^ «Вводная статистика бизнеса: коэффициент корреляции r» . opentextbc.ca . Проверено 21 августа 2020 г.
^ Роджерс; Найсвандер (1988). «Тринадцать способов взглянуть на коэффициент корреляции» (PDF) . Американский статистик . 42 (1): 59–66. дои : 10.2307/2685263 . JSTOR 2685263 .
^ Шмид, Джон младший (декабрь 1947 г.). «Взаимосвязь между коэффициентом корреляции и углом между линиями регрессии». Журнал образовательных исследований . 41 (4): 311–313. дои : 10.1080/00220671.1947.10881608 . JSTOR 27528906 .
^ Раммель, Р.Дж. (1976). «Понимание корреляции» . гл. 5 (как показано для особого случая в следующем параграфе).
^ Буда, Анджей; Ярыновский, Анджей (декабрь 2010 г.). Время жизни корреляций и его приложения . Независимое издательство. стр. 5–21. ISBN 9788391527290 .
^ Jump up to: ^а ^б Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.).
^ Боули, Алабама (1928). «Стандартное отклонение коэффициента корреляции» . Журнал Американской статистической ассоциации . 23 (161): 31–34. дои : 10.2307/2277400 . ISSN 0162-1459 . JSTOR 2277400 .
^ «Вывод стандартной ошибки для коэффициента корреляции Пирсона» . Крест проверен . Проверено 30 июля 2021 г.
^ Рахман, Н.А. (1968) Курс теоретической статистики , Чарльз Гриффин и компания, 1968
^ Кендалл, М.Г., Стюарт, А. (1973) Передовая теория статистики, Том 2: Выводы и взаимосвязи , Гриффин. ISBN 0-85264-215-6 (раздел 31.19)
^ Сопер, HE ; Янг, AW; Пещера, БМ; Ли, А.; Пирсон, К. (1917). «О распределении коэффициента корреляции в малых выборках. Приложение II к статьям «Студента» и Р.А. Фишера. Совместное исследование» . Биометрика . 11 (4): 328–413. дои : 10.1093/биомет/11.4.328 .
^ Дэйви, Кэтрин Э.; Грейден, Дэвид Б.; Иган, Гэри Ф.; Джонстон, Ли А. (январь 2013 г.). «Фильтрация вызывает корреляцию в данных о состоянии покоя фМРТ». НейроИмидж . 64 : 728–740. doi : 10.1016/j.neuroimage.2012.08.022 . hdl : 11343/44035 . ПМИД 22939874 . S2CID 207184701 .
^ Хотеллинг, Гарольд (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества . Серия Б (Методическая). 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR 2983768 .
^ Кенни, Дж. Ф.; Хранение, Е.С. (1951). Математика статистики . Том. Часть 2 (2-е изд.). Принстон, Нью-Джерси: Ван Ностранд.
^ Вайсштейн, Эрик В. «Коэффициент корреляции — двумерное нормальное распределение» . Вольфрам Математический мир .
^ Таральдсен, Гуннар (2020). «Уверенность в корреляции» . Исследовательские ворота . дои : 10.13140/RG.2.2.23673.49769 .
^ Лай, Чун Синг; Тао, Иншань; Сюй, Фанъюань; Нг, Крыло, Вайоминг; Цзя, Ювэй; Юань, Хаолян; Хуан, Чао; Лай, Лой Лей; Сюй, Чжао; Локателли, Джорджо (январь 2019 г.). «Надежная система корреляционного анализа для несбалансированных и дихотомических данных с неопределенностью» (PDF) . Информационные науки . 470 : 58–77. дои : 10.1016/j.ins.2018.08.017 . S2CID 52878443 .
^ Jump up to: ^а ^б Уилкокс, Рэнд Р. (2005). Введение в робастную оценку и проверку гипотез . Академическая пресса.
^ Девлин, Сьюзен Дж .; Гнанадэсикан, Р.; Кеттенринг-младший (1975). «Надежная оценка и обнаружение выбросов с помощью коэффициентов корреляции». Биометрика . 62 (3): 531–545. дои : 10.1093/biomet/62.3.531 . JSTOR 2335508 .
^ Хубер, Питер. Дж. (2004). Надежная статистика . Уайли. ^{[ нужна страница ]}
^ Ваарт, А.В. ван дер (13 октября 1998 г.). Асимптотическая статистика . Издательство Кембриджского университета. ISBN 978-0-511-80225-6 .
^ Кац., Митчелл Х. (2006) Многопараметрический анализ – практическое руководство для клиницистов . 2-е издание. Издательство Кембриджского университета. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X
^ Хотеллинг, Х. (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества. Серия Б (Методическая) . 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR 2983768 .
^ Олкин, Ингрэм; Пратт, Джон В. (март 1958 г.). «Непредвзятая оценка некоторых коэффициентов корреляции» . Анналы математической статистики . 29 (1): 201–211. дои : 10.1214/aoms/1177706717 . JSTOR 2237306 . .
^ «Re: Вычислить взвешенную корреляцию» . sci.tech-archive.net .
^ «Матрица взвешенной корреляции – обмен файлами – MATLAB Central» .
^ Николич, Д; Муресан, РЦ; Фэн, В; Сингер, Вт (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы» (PDF) . Европейский журнал неврологии . 35 (5): 1–21. дои : 10.1111/j.1460-9568.2011.07987.x . ПМИД 22324876 . S2CID 4694570 .
^ Фулекар (ред.), MH (2009) Биоинформатика: приложения в науках о жизни и окружающей среде , Springer (стр. 110) ISBN 1-4020-8879-5
^ Имминк, К. Шухамер; Вебер, Дж. (октябрь 2010 г.). «Обнаружение минимального расстояния Пирсона для многоуровневых каналов с несоответствием усиления и/или смещения» . Транзакции IEEE по теории информации . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . дои : 10.1109/tit.2014.2342744 . S2CID 1027502 . Проверено 11 февраля 2018 г.
^ Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы круговой статистики . Нью-Джерси: World Scientific. п. 176. ИСБН 978-981-02-3778-3 . Проверено 21 сентября 2016 г.
^ Кокс, доктор медицинских наук; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. Приложение 3. ISBN 0-412-12420-3 .

Внешние ссылки [ править ]

«кокор» . сайт сравнения корреляций . – Бесплатный веб-интерфейс и пакет R для статистического сравнения двух зависимых или независимых корреляций с перекрывающимися или непересекающимися переменными.
«Корреляция» . nagysandor.eu . – интерактивное Flash-моделирование корреляции двух нормально распределенных переменных.
«Калькулятор коэффициентов корреляции» . hackmath.net . Линейная регрессия.
«Критические значения коэффициента корреляции Пирсона» (PDF) . Frank.mtsu.edu/~dkfuller . – большой стол.
«Угадай соотношение» . – Игра, в которой игроки угадывают, насколько коррелируют две переменные на диаграмме рассеяния, чтобы лучше понять концепцию корреляции.

[3] Также известный как Пирсона r , коэффициент корреляции момента произведения Пирсона ( PPMCC ), двумерная корреляция , ^[1] или просто неквалифицированный коэффициент корреляции ^[2]

[7] Еще в 1877 году Гальтон использовал термин «реверсия» и символ « r » для обозначения того, что впоследствии стало «регрессией». ^[3]^[4]^[5]

[1] «Учебные пособия по SPSS: корреляция Пирсона» .

[2] «Коэффициент корреляции: простое определение, формула, простые шаги» . Статистика Как сделать .

[4] Гальтон, Ф. (5–19 апреля 1877 г.). «Типичные законы наследственности» . Природа . 15 (388, 389, 390): 492–495, 512–514, 532–533. Бибкод : 1877Природа..15..492. . дои : 10.1038/015492a0 . S2CID 4136393 . В «Приложении» на стр. 532 Гальтон использует термин «реверсия» и символ r .

[5] Гальтон, Ф. (24 сентября 1885 г.). «Британская ассоциация: Секция II, Антропология: Вступительная речь Фрэнсиса Гальтона, ФРС и т. д., президента Антропологического института, президента секции» . Природа . 32 (830): 507–510.

[6] Гальтон, Ф. (1886). «Регрессия к посредственности в наследственном статусе» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583 . JSTOR 2841583 .

[8] Пирсон, Карл (20 июня 1895 г.). «Заметки о регрессии и наследовании в случае двух родителей» . Труды Лондонского королевского общества . 58 : 240–242. Бибкод : 1895RSPS...58..240P .

[9] Стиглер, Стивен М. (1989). «Отчет Фрэнсиса Гальтона об изобретении корреляции» . Статистическая наука . 4 (2): 73–79. дои : 10.1214/ss/1177012580 . JSTOR 2245329 .

[10] «Математический анализ вероятностей ситуационных ошибок точки» . Память акад. Рой. наук. Инст. Франция . наук. Математика и физика. (на французском языке). 9 : 255–332. 1844 г. - через Google Книги.

[11] Райт, С. (1921). «Корреляция и причинно-следственная связь». Журнал сельскохозяйственных исследований . 20 (7): 557–585.

[RealCorBasic-12] Jump up to: ^а ^б ^с ^д ^и Реальная статистика с использованием Excel, « Основные понятия корреляции », получено 22 февраля 2015 г.

[13] Вайсштейн, Эрик В. «Статистическая корреляция» . Вольфрам Математический мир . Проверено 22 августа 2020 г.

[14] Мория, Н. (2008). «Многомерный оптимальный совместный анализ, связанный с шумом, в продольных стохастических процессах». В Ян, Фэншань (ред.). Прогресс в прикладном математическом моделировании . Nova Science Publishers, Inc., стр. 223–260 . ISBN 978-1-60021-976-4 .

[15] Гаррен, Стивен Т. (15 июня 1998 г.). «Оценка максимального правдоподобия коэффициента корреляции в двумерной нормальной модели с отсутствующими данными». Статистика и вероятностные буквы . 38 (3): 281–288. дои : 10.1016/S0167-7152(98)00035-2 .

[STAT_462-16] «2,6 – (Пирсона) Коэффициент корреляции r» . СТАТ 462 . Проверено 10 июля 2021 г.

[17] «Вводная статистика бизнеса: коэффициент корреляции r» . opentextbc.ca . Проверено 21 августа 2020 г.

[18] Роджерс; Найсвандер (1988). «Тринадцать способов взглянуть на коэффициент корреляции» (PDF) . Американский статистик . 42 (1): 59–66. дои : 10.2307/2685263 . JSTOR 2685263 .

[19] Шмид, Джон младший (декабрь 1947 г.). «Взаимосвязь между коэффициентом корреляции и углом между линиями регрессии». Журнал образовательных исследований . 41 (4): 311–313. дои : 10.1080/00220671.1947.10881608 . JSTOR 27528906 .

[20] Раммель, Р.Дж. (1976). «Понимание корреляции» . гл. 5 (как показано для особого случая в следующем параграфе).

[Buda-21] Буда, Анджей; Ярыновский, Анджей (декабрь 2010 г.). Время жизни корреляций и его приложения . Независимое издательство. стр. 5–21. ISBN 9788391527290 .

[Cohen88-22] Jump up to: ^а ^б Коэн, Дж. (1988). Статистический анализ мощности для поведенческих наук (2-е изд.).

[23] Боули, Алабама (1928). «Стандартное отклонение коэффициента корреляции» . Журнал Американской статистической ассоциации . 23 (161): 31–34. дои : 10.2307/2277400 . ISSN 0162-1459 . JSTOR 2277400 .

[24] «Вывод стандартной ошибки для коэффициента корреляции Пирсона» . Крест проверен . Проверено 30 июля 2021 г.

[25] Рахман, Н.А. (1968) Курс теоретической статистики , Чарльз Гриффин и компания, 1968

[26] Кендалл, М.Г., Стюарт, А. (1973) Передовая теория статистики, Том 2: Выводы и взаимосвязи , Гриффин. ISBN 0-85264-215-6 (раздел 31.19)

[27] Сопер, HE ; Янг, AW; Пещера, БМ; Ли, А.; Пирсон, К. (1917). «О распределении коэффициента корреляции в малых выборках. Приложение II к статьям «Студента» и Р.А. Фишера. Совместное исследование» . Биометрика . 11 (4): 328–413. дои : 10.1093/биомет/11.4.328 .

[28] Дэйви, Кэтрин Э.; Грейден, Дэвид Б.; Иган, Гэри Ф.; Джонстон, Ли А. (январь 2013 г.). «Фильтрация вызывает корреляцию в данных о состоянии покоя фМРТ». НейроИмидж . 64 : 728–740. doi : 10.1016/j.neuroimage.2012.08.022 . hdl : 11343/44035 . ПМИД 22939874 . S2CID 207184701 .

[29] Хотеллинг, Гарольд (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества . Серия Б (Методическая). 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR 2983768 .

[30] Кенни, Дж. Ф.; Хранение, Е.С. (1951). Математика статистики . Том. Часть 2 (2-е изд.). Принстон, Нью-Джерси: Ван Ностранд.

[31] Вайсштейн, Эрик В. «Коэффициент корреляции — двумерное нормальное распределение» . Вольфрам Математический мир .

[32] Таральдсен, Гуннар (2020). «Уверенность в корреляции» . Исследовательские ворота . дои : 10.13140/RG.2.2.23673.49769 .

[33] Лай, Чун Синг; Тао, Иншань; Сюй, Фанъюань; Нг, Крыло, Вайоминг; Цзя, Ювэй; Юань, Хаолян; Хуан, Чао; Лай, Лой Лей; Сюй, Чжао; Локателли, Джорджо (январь 2019 г.). «Надежная система корреляционного анализа для несбалансированных и дихотомических данных с неопределенностью» (PDF) . Информационные науки . 470 : 58–77. дои : 10.1016/j.ins.2018.08.017 . S2CID 52878443 .

[wilcox-34] Jump up to: ^а ^б Уилкокс, Рэнд Р. (2005). Введение в робастную оценку и проверку гипотез . Академическая пресса.

[35] Девлин, Сьюзен Дж .; Гнанадэсикан, Р.; Кеттенринг-младший (1975). «Надежная оценка и обнаружение выбросов с помощью коэффициентов корреляции». Биометрика . 62 (3): 531–545. дои : 10.1093/biomet/62.3.531 . JSTOR 2335508 .

[36] Хубер, Питер. Дж. (2004). Надежная статистика . Уайли. ^{[ нужна страница ]}

[37] Ваарт, А.В. ван дер (13 октября 1998 г.). Асимптотическая статистика . Издательство Кембриджского университета. ISBN 978-0-511-80225-6 .

[38] Кац., Митчелл Х. (2006) Многопараметрический анализ – практическое руководство для клиницистов . 2-е издание. Издательство Кембриджского университета. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X

[39] Хотеллинг, Х. (1953). «Новый взгляд на коэффициент корреляции и его преобразования». Журнал Королевского статистического общества. Серия Б (Методическая) . 15 (2): 193–232. дои : 10.1111/j.2517-6161.1953.tb00135.x . JSTOR 2983768 .

[40] Олкин, Ингрэм; Пратт, Джон В. (март 1958 г.). «Непредвзятая оценка некоторых коэффициентов корреляции» . Анналы математической статистики . 29 (1): 201–211. дои : 10.1214/aoms/1177706717 . JSTOR 2237306 . .

[41] «Re: Вычислить взвешенную корреляцию» . sci.tech-archive.net .

[42] «Матрица взвешенной корреляции – обмен файлами – MATLAB Central» .

[Nikolicetal-43] Николич, Д; Муресан, РЦ; Фэн, В; Сингер, Вт (2012). «Масштабированный корреляционный анализ: лучший способ вычисления кросс-коррелограммы» (PDF) . Европейский журнал неврологии . 35 (5): 1–21. дои : 10.1111/j.1460-9568.2011.07987.x . ПМИД 22324876 . S2CID 4694570 .

[44] Фулекар (ред.), MH (2009) Биоинформатика: приложения в науках о жизни и окружающей среде , Springer (стр. 110) ISBN 1-4020-8879-5

[45] Имминк, К. Шухамер; Вебер, Дж. (октябрь 2010 г.). «Обнаружение минимального расстояния Пирсона для многоуровневых каналов с несоответствием усиления и/или смещения» . Транзакции IEEE по теории информации . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . дои : 10.1109/tit.2014.2342744 . S2CID 1027502 . Проверено 11 февраля 2018 г.

[SRJ-46] Джаммаламадака, С. Рао; СенГупта, А. (2001). Темы круговой статистики . Нью-Джерси: World Scientific. п. 176. ИСБН 978-981-02-3778-3 . Проверено 21 сентября 2016 г.

[47] Кокс, доктор медицинских наук; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл. Приложение 3. ISBN 0-412-12420-3 .

[а]

[б]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[1]

[2]

[3]

[4]

[5]

v т и машинного обучения Метрики оценки
Regression	MSE MAE sMAPE MAPE MASE MSPE RMS RMSE/RMSD R² MDA MAD
Classification	F-score P4 Accuracy Precision Recall Kappa MCC AUC ROC Sensitivity and specificity Logarithmic Loss
Clustering	Silhouette Calinski-Harabasz index Davies-Bouldin Dunn index Hopkins statistic Jaccard index Rand index Similarity measure SMC SimHash
Ranking	MRR NDCG AP
Computer Vision	PSNR SSIM IoU
NLP	Perplexity BLEU
Deep Learning Related Metrics	Inception score FID
Recommender system	Coverage Intra-list Similarity
Similarity	Cosine similarity Euclidean distance Pearson correlation coefficient
Confusion matrix