Частичная корреляция

Из Википедии, бесплатной энциклопедии

В теории вероятностей и статистике частичная корреляция измеряет степень связи между двумя случайными величинами без учета влияния набора управляющих случайных величин. При определении числовой взаимосвязи между двумя интересующими переменными использование их коэффициента корреляции приведет к вводящим в заблуждение результатам, если существует другая искажающая переменная , численно связанная с обеими интересующими переменными. Этой вводящей в заблуждение информации можно избежать, контролируя искажающую переменную, что осуществляется путем вычисления частного коэффициента корреляции. Именно это и является причиной включения других правых переменных в множественную регрессию ; но хотя множественная регрессия дает несмещенные результаты для размера эффекта , она не дает численного значения меры силы связи между двумя интересующими переменными.

Например, учитывая экономические данные о потреблении, доходе и богатстве различных людей, рассмотрим взаимосвязь между потреблением и доходом. Если не учесть богатство при расчете коэффициента корреляции между потреблением и доходом, результат будет ошибочным, поскольку доход может быть численно связан с богатством, которое, в свою очередь, может быть численно связано с потреблением; измеренная корреляция между потреблением и доходом может фактически быть искажена этими другими корреляциями. Использование частичной корреляции позволяет избежать этой проблемы.

Как и коэффициент корреляции, частный коэффициент корреляции принимает значение в диапазоне от –1 до 1. Значение –1 передает идеальную отрицательную корреляцию, контролирующую некоторые переменные (то есть точную линейную зависимость, при которой более высокие значения одной переменной связаны с более низкими ценностями другого); значение 1 соответствует идеальной положительной линейной зависимости, а значение 0 означает отсутствие линейной зависимости.

Частная корреляция совпадает с условной корреляцией , если случайные величины совместно распределены как многомерное нормальное , другое эллиптическое , многомерное гипергеометрическое , многомерное отрицательное гипергеометрическое , многомерное распределение или распределение Дирихле , но не в противном случае. [1]

Формальное определение [ править ]

Формально частичная корреляция между X и Y с учетом набора из n управляющих переменных Z = { Z 1 , Z 2 , ..., Z n }, записанная ρ XY · Z , представляет собой корреляцию между остатками e X и e Y в результате линейной регрессии X Z с Z и Y с соответственно . Частная корреляция первого порядка (т. е. при n = 1) представляет собой разность между корреляцией и произведением устранимых корреляций, деленную на произведение коэффициентов отчуждения устранимых корреляций. Коэффициент отчуждения и его связь с совместной дисперсией посредством корреляции доступны у Гилфорда (1973, стр. 344–345). [2]

Вычисление [ править ]

Использование линейной регрессии [ править ]

Простой способ вычислить выборочную частичную корреляцию для некоторых данных — решить две связанные задачи линейной регрессии и вычислить корреляцию между остатками. Пусть X и Y — случайные величины, принимающие действительные значения, и пусть Z n -мерная векторная случайная величина. Пусть x i , y i и z i обозначают i-е число iid -наблюдения из некоторого совместного распределения вероятностей по реальным случайным переменным X , Y и Z , при этом zi был увеличен на 1, чтобы обеспечить постоянный член в регрессии. Решение задачи линейной регрессии сводится к нахождению ( n +1)-мерных векторов коэффициентов регрессии. и такой, что

где количество наблюдений, а скалярное произведение векторов и .

Остатки тогда

и выборочная частичная корреляция затем определяется по обычной формуле выборочной корреляции , но между этими новыми производными значениями:

В первом выражении все три члена после знака минус равны 0, поскольку каждый из них содержит сумму остатков обычной регрессии наименьших квадратов .

Пример [ править ]

Рассмотрим следующие данные о трех переменных: X , Y и Z :

Икс И С
2 1 0
4 2 0
15 3 1
20 4 1

Вычисление коэффициента корреляции Пирсона между переменными X и Y дает примерно 0,970, а вычисление частной корреляции между X и Y по формуле, приведенной выше, дает частичную корреляцию 0,919. Вычисления проводились с использованием R со следующим кодом.

>  X   <-   c  (  2  ,  4  ,  15  ,  20  ) 
 >  Y   <-   c  (  1  ,  2  ,  3  ,  4  ) 
 >  Z   <-   c  (  0  ,  0  ,  1  ,  1  ) 
 >  mm1   <-   lm  (  X  ~  Z  ) 
 >  res1   <-   мм1  $  остатки 
 >  мм2   <-   lm  (  Y  ~  Z  ) 
 >  res2   <-   мм2  $  остатки 
 >  cor  (  res1  ,  res2  ) 
 [1] 0,919145 
 >  cor  (  X  ,  Y  ) 
 [1] 0,9695016 
 >  GeneralCorr  ::  parcorMany  (  cbind  (  X  ,  Y  ,  Z  )) 
                 
 nami namj partij partji rijMrji 
 [1,] "X" "Y" "0.8844" "1" "-0.1156" 
 [2,] "X" "Z" "0.1581 " "1" "-0,8419" 

Нижняя часть приведенного выше кода сообщает, что обобщенный нелинейный коэффициент частичной корреляции между X и Y после удаления нелинейного эффекта Z равен 0,8844. Кроме того, обобщенный частный коэффициент корреляции между X и Z после удаления нелинейного эффекта Y составит 0,1581. Подробности смотрите в пакете R `generalCorr' и его описаниях. Моделирование и другие подробности приведены в Виноде (2017) «Обобщенная корреляция и ядерная причинность с приложениями в экономике развития», Communications in Статистика – Моделирование и вычисления, том. 46, [4513, 4534], доступно онлайн: 29 декабря 2015 г., URL https://doi.org/10.1080/03610918.2015.1122048 .

Использование рекурсивной формулы [ править ]

Решение задач линейной регрессии может оказаться дорогостоящим в вычислительном отношении. На самом деле, частная корреляция n -го порядка (т. е. с | Z | = n ) может быть легко вычислена из трех ( n - 1)-го порядка частных корреляций. Частная корреляция нулевого порядка ρ XY ·Ø определяется как коэффициент регулярной корреляции ρ XY .

Оно справедливо для любого что [3]

Наивная реализация этого вычисления в виде рекурсивного алгоритма приводит к экспоненциальной временной сложности . Однако это вычисление имеет свойство перекрывающихся подзадач , например, использование динамического программирования или простое кэширование результатов рекурсивных вызовов приводит к сложности .

Обратите внимание, что в случае, когда Z — одна переменная, это сводится к: [ нужна цитата ]

Использование обращения матрицы [ править ]

Частную корреляцию также можно записать в терминах совместной матрицы точности. Рассмотрим набор случайных величин, мощности n . Нам нужна частичная корреляция между двумя переменными и учитывая все остальные, т.е. . Предположим, что (совместная/полная) ковариационная матрица положительно определена и, следовательно, обратима . Если матрица точности определяется как , затем

( 1 )

Для расчета этого требуется , обратная ковариационной матрице который проходит в время (с использованием выборочной ковариационной матрицы для получения выборочной частичной корреляции). Обратите внимание, что требуется только одна инверсия матрицы, чтобы получить все частные корреляции между парами переменных в .

Чтобы доказать уравнение ( 1 ), вернитесь к предыдущим обозначениям (т.е. ) и начнем с определения частичной корреляции: ρ XY · Z — это корреляция между остатками e X и e Y возникающая в результате линейной регрессии X , с Z и Y с Z соответственно.

Во-первых, предположим – коэффициенты аппроксимации линейной регрессии; то есть,

Напишите совместную ковариационную матрицу для вектора как

где

Тогда стандартная формула линейной регрессии дает

Следовательно, остатки можно записать как

Обратите внимание, что имеет нулевое ожидание из-за включения члена в . Вычисление ковариации теперь дает

( 2 )

Далее напишите матрицу точности в аналогичной форме блока:

Тогда по формуле Шура для обращения блочно-матрицы :

Элементы правой матрицы — это в точности ковариации, вычисленные ранее в ( 2 ), что дает

Использование формулы обратной матрицы 2×2 дает

Действительно, частичная корреляция

как заявлено в ( 1 ).

Интерпретация [ править ]

Геометрическая интерпретация частной корреляции для случая N = 3 наблюдений и, следовательно, двумерной гиперплоскости

Геометрический [ править ]

Пусть три переменные X , Y , Z (где Z «контрольная» или «дополнительная переменная») выбраны из совместного распределения вероятностей по n переменным V. — Далее, пусть v i , 1 ≤ i N , будет N n -мерными наблюдениями iid , взятыми из совместного распределения вероятностей по V . Геометрическая интерпретация исходит из рассмотрения N -мерных векторов x (сформированных последовательными значениями X по наблюдениям), y (сформированных значениями Y ) и z (сформированных значениями Z ).

Можно показать, что остатки e X,i, полученные в результате линейной регрессии X на Z , если их также рассматривать как N -мерный вектор e X (обозначенный r X на прилагаемом графике), имеют нулевое скалярное произведение с вектором z порожденный Z. , что вектор невязок лежит на ( N –1)-мерной гиперплоскости S z перпендикулярной , z . Это означает ,

То же самое относится и к остаткам e Y,i, порождающим вектор e Y . желаемая частная корреляция представляет собой угла φ между проекциями eX и x eY на гиперплоскость , и соответственно косинус y Тогда перпендикулярную z . [4] : гл. 7

условной Как тест независимости

При предположении, что все задействованные переменные являются многомерными гауссовыми , частичная корреляция ρ XY · Z равна нулю тогда и только тогда, когда условно от независима Y при заданном Z. X [1] Это свойство не выполняется в общем случае.

Чтобы проверить , является ли выборочная частичная корреляция означает, что истинная частичная корреляция популяции отличается от 0, z-преобразование Фишера частной корреляции можно использовать :

Нулевая гипотеза – это , для проверки на двустороннюю альтернативу . можно отклонить, если

где кумулятивная функция распределения гауссова распределения с нулевым средним значением и единичным стандартным отклонением , это уровень значимости , и это размер выборки . Это z -преобразование является приблизительным, и фактическое распределение выборочного (частного) коэффициента корреляции не является прямым. Однако доступен точный t-критерий , основанный на сочетании коэффициента частичной регрессии, коэффициента частичной корреляции и частных дисперсий. [5]

Распределение выборочной частичной корреляции было описано Фишером. [6]

Получастичная корреляция (частичная корреляция) [ править ]

Статистика получастичной (или частичной) корреляции аналогична статистике частичной корреляции; оба сравнивают изменения двух переменных после учета определенных факторов. Однако для расчета получастичной корреляции необходимо сохранять третью переменную константой либо для X , либо для Y , но не для обоих; тогда как для частной корреляции третья переменная остается постоянной для обеих. [7] Получастичная корреляция сравнивает уникальную вариацию одной переменной (без удаления вариации, связанной с переменными Z )) с нефильтрованной вариацией другой, тогда как частичная корреляция сравнивает уникальную вариацию одной переменной с уникальной вариацией другой.

Получастичную корреляцию можно рассматривать как более уместную с практической точки зрения, «поскольку она масштабируется (т. е. относительно) общей изменчивости зависимой переменной (отклика)». [8] И наоборот, он менее полезен теоретически, поскольку менее точно определяет роль уникального вклада независимой переменной.

Абсолютное значение получастичной корреляции X с Y всегда меньше или равно абсолютному значению частичной корреляции X с Y . Причина в следующем: предположим, что корреляция X с Z удалена из X , что дает вектор остатка e x . При вычислении получастичной корреляции Y так и дисперсию из-за ее связи с Z. по-прежнему содержит как уникальную дисперсию , Но ex с , будучи некоррелированным с Z может объяснить только некоторую уникальную часть дисперсии Y , а не часть, связанную Z. , Напротив, при частичной корреляции необходимо объяснить только e y (часть дисперсии Y , не связанную с Z может объяснить , меньше ), поэтому дисперсия того типа, которую ex не .

анализе временных рядов Использование в

При анализе временных рядов определяется частичная автокорреляционная функция (иногда «частичная корреляционная функция») временного ряда для задержки , как [ нужна цитата ]

Эта функция используется для определения подходящей длины задержки для авторегрессии .

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б Баба, Кунихиро; Ритеи Сибата; Масааки Сибуя (2004). «Частичная корреляция и условная корреляция как меры условной независимости». Статистический журнал Австралии и Новой Зеландии . 46 (4): 657–664. дои : 10.1111/j.1467-842X.2004.00360.x . S2CID   123130024 .
  2. ^ Гилфорд Дж. П., Фрухтер Б. (1973). Фундаментальная статистика в психологии и образовании . Токио: McGraw-Hill Kogakusha, LTD.
  3. ^ Ким, Сонхо (ноябрь 2015 г.). «ppcor: пакет R для быстрого расчета получастичных коэффициентов корреляции» . Коммуникации для статистических приложений и методов . 22 (6): 665–674. дои : 10.5351/CSAM.2015.22.6.665 . ISSN   2287-7843 . ПМЦ   4681537 . ПМИД   26688802 .
  4. ^ Раммель, Р.Дж. (1976). «Понимание корреляции» .
  5. ^ Кендалл М.Г., Стюарт А. (1973) Расширенная теория статистики , Том 2 (3-е издание), ISBN   0-85264-215-6 , раздел 27.22
  6. ^ Фишер, Р.А. (1924). «Распределение частного коэффициента корреляции» . Метрон . 3 (3–4): 329–332.
  7. ^ «Частичная и получастичная корреляция» . Архивировано из оригинала 6 февраля 2014 года.
  8. ^ StatSoft, Inc. (2010). «Получастичная (или частичная) корреляция» , Электронный учебник статистики. Талса, штат Оклахома: StatSoft, по состоянию на 15 января 2011 г.

Внешние ссылки [ править ]