Частичная корреляция
В теории вероятностей и статистике частичная корреляция измеряет степень связи между двумя случайными величинами без учета влияния набора управляющих случайных величин. При определении числовой взаимосвязи между двумя интересующими переменными использование их коэффициента корреляции приведет к вводящим в заблуждение результатам, если существует другая искажающая переменная , численно связанная с обеими интересующими переменными. Этой вводящей в заблуждение информации можно избежать, контролируя искажающую переменную, что осуществляется путем вычисления частного коэффициента корреляции. Именно это и является причиной включения других правых переменных в множественную регрессию ; но хотя множественная регрессия дает несмещенные результаты для размера эффекта , она не дает численного значения меры силы связи между двумя интересующими переменными.
Например, учитывая экономические данные о потреблении, доходе и богатстве различных людей, рассмотрим взаимосвязь между потреблением и доходом. Если не учесть богатство при расчете коэффициента корреляции между потреблением и доходом, результат будет ошибочным, поскольку доход может быть численно связан с богатством, которое, в свою очередь, может быть численно связано с потреблением; измеренная корреляция между потреблением и доходом может фактически быть искажена этими другими корреляциями. Использование частичной корреляции позволяет избежать этой проблемы.
Как и коэффициент корреляции, частный коэффициент корреляции принимает значение в диапазоне от –1 до 1. Значение –1 передает идеальную отрицательную корреляцию, контролирующую некоторые переменные (то есть точную линейную зависимость, при которой более высокие значения одной переменной связаны с более низкими ценностями другого); значение 1 соответствует идеальной положительной линейной зависимости, а значение 0 означает отсутствие линейной зависимости.
Частная корреляция совпадает с условной корреляцией , если случайные величины совместно распределены как многомерное нормальное , другое эллиптическое , многомерное гипергеометрическое , многомерное отрицательное гипергеометрическое , многомерное распределение или распределение Дирихле , но не в противном случае. [1]
Формальное определение [ править ]
Формально частичная корреляция между X и Y с учетом набора из n управляющих переменных Z = { Z 1 , Z 2 , ..., Z n }, записанная ρ XY · Z , представляет собой корреляцию между остатками e X и e Y в результате линейной регрессии X Z с Z и Y с соответственно . Частная корреляция первого порядка (т. е. при n = 1) представляет собой разность между корреляцией и произведением устранимых корреляций, деленную на произведение коэффициентов отчуждения устранимых корреляций. Коэффициент отчуждения и его связь с совместной дисперсией посредством корреляции доступны у Гилфорда (1973, стр. 344–345). [2]
Вычисление [ править ]
Использование линейной регрессии [ править ]
Простой способ вычислить выборочную частичную корреляцию для некоторых данных — решить две связанные задачи линейной регрессии и вычислить корреляцию между остатками. Пусть X и Y — случайные величины, принимающие действительные значения, и пусть Z — n -мерная векторная случайная величина. Пусть x i , y i и z i обозначают i-е число iid -наблюдения из некоторого совместного распределения вероятностей по реальным случайным переменным X , Y и Z , при этом zi был увеличен на 1, чтобы обеспечить постоянный член в регрессии. Решение задачи линейной регрессии сводится к нахождению ( n +1)-мерных векторов коэффициентов регрессии. и такой, что
где количество наблюдений, а скалярное произведение векторов и .
Остатки тогда
и выборочная частичная корреляция затем определяется по обычной формуле выборочной корреляции , но между этими новыми производными значениями:
В первом выражении все три члена после знака минус равны 0, поскольку каждый из них содержит сумму остатков обычной регрессии наименьших квадратов .
Пример [ править ]
Рассмотрим следующие данные о трех переменных: X , Y и Z :
Икс | И | С |
---|---|---|
2 | 1 | 0 |
4 | 2 | 0 |
15 | 3 | 1 |
20 | 4 | 1 |
Вычисление коэффициента корреляции Пирсона между переменными X и Y дает примерно 0,970, а вычисление частной корреляции между X и Y по формуле, приведенной выше, дает частичную корреляцию 0,919. Вычисления проводились с использованием R со следующим кодом.
> X <- c ( 2 , 4 , 15 , 20 )
> Y <- c ( 1 , 2 , 3 , 4 )
> Z <- c ( 0 , 0 , 1 , 1 )
> mm1 <- lm ( X ~ Z )
> res1 <- мм1 $ остатки
> мм2 <- lm ( Y ~ Z )
> res2 <- мм2 $ остатки
> cor ( res1 , res2 )
[1] 0,919145
> cor ( X , Y )
[1] 0,9695016
> GeneralCorr :: parcorMany ( cbind ( X , Y , Z ))
nami namj partij partji rijMrji
[1,] "X" "Y" "0.8844" "1" "-0.1156"
[2,] "X" "Z" "0.1581 " "1" "-0,8419"
Нижняя часть приведенного выше кода сообщает, что обобщенный нелинейный коэффициент частичной корреляции между X и Y после удаления нелинейного эффекта Z равен 0,8844. Кроме того, обобщенный частный коэффициент корреляции между X и Z после удаления нелинейного эффекта Y составит 0,1581. Подробности смотрите в пакете R `generalCorr' и его описаниях. Моделирование и другие подробности приведены в Виноде (2017) «Обобщенная корреляция и ядерная причинность с приложениями в экономике развития», Communications in Статистика – Моделирование и вычисления, том. 46, [4513, 4534], доступно онлайн: 29 декабря 2015 г., URL https://doi.org/10.1080/03610918.2015.1122048 .
Использование рекурсивной формулы [ править ]
Решение задач линейной регрессии может оказаться дорогостоящим в вычислительном отношении. На самом деле, частная корреляция n -го порядка (т. е. с | Z | = n ) может быть легко вычислена из трех ( n - 1)-го порядка частных корреляций. Частная корреляция нулевого порядка ρ XY ·Ø определяется как коэффициент регулярной корреляции ρ XY .
Оно справедливо для любого что [3]
Наивная реализация этого вычисления в виде рекурсивного алгоритма приводит к экспоненциальной временной сложности . Однако это вычисление имеет свойство перекрывающихся подзадач , например, использование динамического программирования или простое кэширование результатов рекурсивных вызовов приводит к сложности .
Обратите внимание, что в случае, когда Z — одна переменная, это сводится к: [ нужна цитата ]
Использование обращения матрицы [ править ]
Частную корреляцию также можно записать в терминах совместной матрицы точности. Рассмотрим набор случайных величин, мощности n . Нам нужна частичная корреляция между двумя переменными и учитывая все остальные, т.е. . Предположим, что (совместная/полная) ковариационная матрица положительно определена и, следовательно, обратима . Если матрица точности определяется как , затем
( 1 ) |
Для расчета этого требуется , обратная ковариационной матрице который проходит в время (с использованием выборочной ковариационной матрицы для получения выборочной частичной корреляции). Обратите внимание, что требуется только одна инверсия матрицы, чтобы получить все частные корреляции между парами переменных в .
Чтобы доказать уравнение ( 1 ), вернитесь к предыдущим обозначениям (т.е. ) и начнем с определения частичной корреляции: ρ XY · Z — это корреляция между остатками e X и e Y возникающая в результате линейной регрессии X , с Z и Y с Z соответственно.
Во-первых, предположим – коэффициенты аппроксимации линейной регрессии; то есть,
Напишите совместную ковариационную матрицу для вектора как
где
Следовательно, остатки можно записать как
Обратите внимание, что имеет нулевое ожидание из-за включения члена в . Вычисление ковариации теперь дает
( 2 ) |
Далее напишите матрицу точности в аналогичной форме блока:
Тогда по формуле Шура для обращения блочно-матрицы :
Элементы правой матрицы — это в точности ковариации, вычисленные ранее в ( 2 ), что дает
Использование формулы обратной матрицы 2×2 дает
Действительно, частичная корреляция
как заявлено в ( 1 ).
Интерпретация [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/9/9e/PartialCorrelationGeometrically.svg/512px-PartialCorrelationGeometrically.svg.png)
Геометрический [ править ]
Пусть три переменные X , Y , Z (где Z «контрольная» или «дополнительная переменная») выбраны из совместного распределения вероятностей по n переменным V. — Далее, пусть v i , 1 ≤ i ≤ N , будет N n -мерными наблюдениями iid , взятыми из совместного распределения вероятностей по V . Геометрическая интерпретация исходит из рассмотрения N -мерных векторов x (сформированных последовательными значениями X по наблюдениям), y (сформированных значениями Y ) и z (сформированных значениями Z ).
Можно показать, что остатки e X,i, полученные в результате линейной регрессии X на Z , если их также рассматривать как N -мерный вектор e X (обозначенный r X на прилагаемом графике), имеют нулевое скалярное произведение с вектором z порожденный Z. , что вектор невязок лежит на ( N –1)-мерной гиперплоскости S z перпендикулярной , z . Это означает ,
То же самое относится и к остаткам e Y,i, порождающим вектор e Y . желаемая частная корреляция представляет собой угла φ между проекциями eX и x eY на гиперплоскость , и соответственно косинус y Тогда перпендикулярную z . [4] : гл. 7
условной Как тест независимости
При предположении, что все задействованные переменные являются многомерными гауссовыми , частичная корреляция ρ XY · Z равна нулю тогда и только тогда, когда условно от независима Y при заданном Z. X [1] Это свойство не выполняется в общем случае.
Чтобы проверить , является ли выборочная частичная корреляция означает, что истинная частичная корреляция популяции отличается от 0, z-преобразование Фишера частной корреляции можно использовать :
Нулевая гипотеза – это , для проверки на двустороннюю альтернативу . можно отклонить, если
где — кумулятивная функция распределения гауссова распределения с нулевым средним значением и единичным стандартным отклонением , это уровень значимости , и это размер выборки . Это z -преобразование является приблизительным, и фактическое распределение выборочного (частного) коэффициента корреляции не является прямым. Однако доступен точный t-критерий , основанный на сочетании коэффициента частичной регрессии, коэффициента частичной корреляции и частных дисперсий. [5]
Распределение выборочной частичной корреляции было описано Фишером. [6]
Получастичная корреляция (частичная корреляция) [ править ]
Статистика получастичной (или частичной) корреляции аналогична статистике частичной корреляции; оба сравнивают изменения двух переменных после учета определенных факторов. Однако для расчета получастичной корреляции необходимо сохранять третью переменную константой либо для X , либо для Y , но не для обоих; тогда как для частной корреляции третья переменная остается постоянной для обеих. [7] Получастичная корреляция сравнивает уникальную вариацию одной переменной (без удаления вариации, связанной с переменными Z )) с нефильтрованной вариацией другой, тогда как частичная корреляция сравнивает уникальную вариацию одной переменной с уникальной вариацией другой.
Получастичную корреляцию можно рассматривать как более уместную с практической точки зрения, «поскольку она масштабируется (т. е. относительно) общей изменчивости зависимой переменной (отклика)». [8] И наоборот, он менее полезен теоретически, поскольку менее точно определяет роль уникального вклада независимой переменной.
Абсолютное значение получастичной корреляции X с Y всегда меньше или равно абсолютному значению частичной корреляции X с Y . Причина в следующем: предположим, что корреляция X с Z удалена из X , что дает вектор остатка e x . При вычислении получастичной корреляции Y так и дисперсию из-за ее связи с Z. по-прежнему содержит как уникальную дисперсию , Но ex с , будучи некоррелированным с Z может объяснить только некоторую уникальную часть дисперсии Y , а не часть, связанную Z. , Напротив, при частичной корреляции необходимо объяснить только e y (часть дисперсии Y , не связанную с Z может объяснить , меньше ), поэтому дисперсия того типа, которую ex не .
анализе временных рядов Использование в
При анализе временных рядов определяется частичная автокорреляционная функция (иногда «частичная корреляционная функция») временного ряда для задержки , как [ нужна цитата ]
Эта функция используется для определения подходящей длины задержки для авторегрессии .
См. также [ править ]
- Линейная регрессия
- Условная независимость
- Множественная корреляция
- Частичная декомпозиция информации
Ссылки [ править ]
- ^ Перейти обратно: а б Баба, Кунихиро; Ритеи Сибата; Масааки Сибуя (2004). «Частичная корреляция и условная корреляция как меры условной независимости». Статистический журнал Австралии и Новой Зеландии . 46 (4): 657–664. дои : 10.1111/j.1467-842X.2004.00360.x . S2CID 123130024 .
- ^ Гилфорд Дж. П., Фрухтер Б. (1973). Фундаментальная статистика в психологии и образовании . Токио: McGraw-Hill Kogakusha, LTD.
- ^ Ким, Сонхо (ноябрь 2015 г.). «ppcor: пакет R для быстрого расчета получастичных коэффициентов корреляции» . Коммуникации для статистических приложений и методов . 22 (6): 665–674. дои : 10.5351/CSAM.2015.22.6.665 . ISSN 2287-7843 . ПМЦ 4681537 . ПМИД 26688802 .
- ^ Раммель, Р.Дж. (1976). «Понимание корреляции» .
- ^ Кендалл М.Г., Стюарт А. (1973) Расширенная теория статистики , Том 2 (3-е издание), ISBN 0-85264-215-6 , раздел 27.22
- ^ Фишер, Р.А. (1924). «Распределение частного коэффициента корреляции» . Метрон . 3 (3–4): 329–332.
- ^ «Частичная и получастичная корреляция» . Архивировано из оригинала 6 февраля 2014 года.
- ^ StatSoft, Inc. (2010). «Получастичная (или частичная) корреляция» , Электронный учебник статистики. Талса, штат Оклахома: StatSoft, по состоянию на 15 января 2011 г.
Внешние ссылки [ править ]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/0b/Wikiversity_logo_2017.svg/40px-Wikiversity_logo_2017.svg.png)
- Прохоров, А.В. (2001) [1994], «Частный коэффициент корреляции» , Энциклопедия математики , EMS Press
- Математические формулы в разделе «Описание» процедуры PCORR числовой библиотеки IMSL.
- Пример с тремя переменными