Корреляция расстояний
В статистике и вероятностей теории дистанционная корреляция или дистанционная ковариация — это мера зависимости между двумя парными случайными векторами произвольной, не обязательно одинаковой размерности . Коэффициент корреляции расстояний населения равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, дистанционная корреляция измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это контрастирует с корреляцией Пирсона , которая может обнаружить только линейную связь между двумя случайными величинами .
Дистанционная корреляция может использоваться для проведения статистического теста зависимости с помощью теста перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование евклидовых матриц расстояний) между двумя случайными векторами, а затем сравнивается это значение с корреляциями расстояний при многих перетасовках данных.
Предыстория [ править ]
Классическая мера зависимости – коэффициент корреляции Пирсона , [1] в основном чувствителен к линейной зависимости между двумя переменными. Дистанционная корреляция была введена в 2005 году Габором Дж. Секели Пирсона в нескольких лекциях для устранения этого недостатка корреляции , а именно того, что она может легко равняться нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, тогда как корреляция расстояний = 0 подразумевает независимость. Первые результаты по дистанционной корреляции были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что ковариация расстояния аналогична броуновской ковариации. [3] Эти меры являются примерами энергетических расстояний .
Корреляция расстояний выводится из ряда других величин, которые используются в ее спецификации, а именно: дисперсия расстояния , стандартное отклонение расстояния и ковариация расстояния . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции произведения-момента Пирсона .
Определения [ править ]
Ковариация расстояний [ править ]
Начнем с определения ковариации выборочного расстояния . Пусть ( X k , Y k ), k = 1, 2, ..., n будет статистической выборкой из пары случайных величин с действительным или векторным значением ( X , Y ). Сначала вычислите n размером на n матрицы расстояний ( a j , k ) и ( b j , k ), содержащие все попарные расстояния .
где ||⋅ || обозначает евклидову норму . Затем возьмем все двуцентровые расстояния
где среднее значение j -й строки, - среднее значение k -го столбца, а — среднее значение матрицы расстояний X. выборки Обозначения аналогичны для значений b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) сумма всех строк и всех столбцов равна нулю.) Квадрат ковариации выборочного расстояния (скаляр) представляет собой просто среднее арифметическое произведений A j , к Б j , к :
Статистика T n = n dCov 2 n ( X , Y ) определяет последовательный многомерный тест независимости случайных векторов в произвольных измерениях. Информацию о реализации см. dcov.test функции в пакете Energy для R. в [4]
Популяционное значение ковариации расстояния можно определить аналогичным образом. Пусть X — случайная величина, принимающая значения в p -мерном евклидовом пространстве с распределением вероятностей µ, и пусть Y — случайная величина, принимающая значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечные значения. ожидания. Писать
Наконец, определите генеральное значение ковариации квадрата расстояния X и Y как
Можно показать, что это эквивалентно следующему определению:
где E обозначает ожидаемую стоимость, а и независимы и одинаково распределены. Штрихованные случайные величины и обозначатьнезависимые и одинаково распределенные (iid) копии переменных и и аналогично iid. [5] Ковариация расстояния может быть выражена через классическую ковариацию Пирсона : cov следующим образом:
Это тождество показывает, что ковариация расстояний не совпадает с ковариацией расстояний cov(‖ X − X' ‖, ‖ Y − Y' ‖ ). Это может быть ноль, даже если X и Y не являются независимыми.
Альтернативно, ковариация расстояния может быть определена как взвешенное L 2 норма расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]
где , , и являются функциями характеристическими ( X , Y ), X и Y соответственно, p , q обозначают евклидову размерность X и Y , и, таким образом, s и t , а c p , c q являются константами. Весовая функция выбирается для создания масштабно-эквивариантной и инвариантной меры вращения, которая не стремится к нулю для зависимых переменных. [6] [7] Одна из интерпретаций определения характеристической функции состоит в том, что переменные e isX и е ЭТО являются циклическими представлениями X и Y с разными периодами, заданными s и t , и выражением φ X , Y ( s , t ) − φ X ( s ) φ Y ( t ) в числителе характеристической функции определения дистанционной ковариации это просто классическая ковариация e isX и е ЭТО . Определение характеристической функции ясно показывает, чтоdCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.
Отклонение расстояния и стандартное отклонение расстояния
Дисперсия расстояния — это частный случай ковариации расстояния, когда две переменные идентичны. Популяционное значение дисперсии расстояний представляет собой квадратный корень из
где , , и являются независимыми и одинаково распределенными случайными величинами , обозначает ожидаемое значение и для функции , например, .
Дисперсия выборочного расстояния представляет собой квадратный корень из
что является родственником Коррадо Джини , средней разницы введенной в 1912 году (но Джини не работал с центральными расстояниями). [8]
Стандартное отклонение расстояния — это квадратный корень из дисперсии расстояния .
Корреляция расстояний [ править ]
расстояний Корреляция [2] [3] двух случайных величин получается путем деления их ковариации расстояния на произведение их стандартных отклонений расстояний . Корреляция расстояний представляет собой квадратный корень из
а корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния на приведенные выше коэффициенты генеральной совокупности.
Для простого вычисления корреляции расстояний выборки см. функцию dcor в пакете Energy для R . [4]
Свойства [ править ]
Корреляция расстояний [ править ]
- и ;это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
- тогда и только тогда, когда X и Y независимы.
- подразумевает, что размеры линейных подпространств, натянутых выборками X и Y соответственно, почти наверняка равны, и если предположить, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .
Ковариация расстояний [ править ]
- и ;
- для всех постоянных векторов , скаляры и ортонормированные матрицы .
- Если случайные векторы и тогда независимы
- тогда и только тогда, когда X и Y независимы.
Последнее свойство является наиболее важным эффектом при работе с центральными расстояниями.
Статистика является смещенной оценкой . При независимости X и Y [9]
Непредвзятый оценщик дают Секели и Риццо. [10]
Разница в расстоянии [ править ]
- тогда и только тогда, когда почти наверняка.
- тогда и только тогда, когда все выборочные наблюдения идентичны.
- для всех постоянных векторов A , скаляров b и ортонормированных матриц .
- Если X и Y независимы, то .
Равенство выполняется в (iv) тогда и только тогда, когда одна из случайных величин X или Y является константой.
Обобщение [ править ]
Ковариацию расстояния можно обобщить, включив в нее степени евклидова расстояния. Определять
Тогда для каждого , и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не справедлива для показателя ; в данном случае для двумерной , является детерминированной функцией корреляции Пирсона. [2] Если и являются степени соответствующих расстояний, , затем Ковариацию выборочного расстояния можно определить как неотрицательное число, для которого
Можно продлить к метрическом пространстве со значениями в случайным величинам и : Если имеет закон в метрическом пространстве с метрикой , затем определите , , и (при условии конечно, т.е. имеет конечный первый момент), . Тогда, если имеет закон (возможно, в другом метрическом пространстве с конечным первым моментом), определим
Это неотрицательно для всех таких тогда и только тогда, когда оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если изометрично гильбертова подмножеству пространства . [12] Если оба метрических пространства имеют сильный отрицательный тип, то если только независимы. [11]
определение ковариации Альтернативное расстояния
Исходная ковариация расстояния была определена как квадратный корень из , а не сам квадрат коэффициента. обладает тем свойством, что это энергетическое расстояние между совместным распределением и продукт его предельных значений. Однако согласно этому определению дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.
В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: В этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка ковариации расстояния генеральной совокупности. [10]
Согласно этим альтернативным определениям, корреляция расстояний также определяется как квадрат , а не квадратный корень.
: броуновская ковариация формулировка Альтернативная
Броуновская ковариация мотивирована обобщением понятия ковариации на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:
где E обозначает ожидаемое значение , а штрих обозначает независимые и одинаково распределенные копии. Нам понадобится следующее обобщение этой формулы. Если U(s), V(t) — произвольные случайные процессы, определенные для всех действительных s и t, то определите U-центрированную версию X по формуле
всякий раз, когда вычтенное условное ожидаемое значение существует, и обозначим Y V V-центрированную версию Y. [3] [13] [14] Ковариация (U,V) для (X,Y) определяется как неотрицательное число, квадрат которого равен
всякий раз, когда правая часть неотрицательна и конечна. Самый важный пример - когда U и V являются двусторонними независимыми броуновскими движениями / винеровскими процессами с нулевым математическим ожиданием и ковариацией | s | + | т | − | с - т | = 2 min( s , t ) (только для неотрицательных s, t). (Это в два раза больше ковариации стандартного винеровского процесса; здесь фактор 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается
Есть удивительное совпадение: броуновская ковариация совпадает с ковариацией расстояния:
и, таким образом, броуновская корреляция аналогична корреляции расстояний.
С другой стороны, если мы заменим броуновское движение детерминированной тождественной функцией id, тогда Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,
Связанные показатели [ править ]
Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как дистанционная корреляция, так и метрики на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, чтобы получить более высокую статистическую мощность .
См. также [ править ]
- Коэффициент РВ
- Соответствующую статистику третьего порядка см. в разделе Асимметрия расстояний .
Примечания [ править ]
- ^ Пирсон 1895a , 1895b
- ^ Jump up to: Перейти обратно: а б с Секели, Риццо и Бакиров 2007 .
- ^ Jump up to: Перейти обратно: а б с д Секели и Риццо, 2009a .
- ^ Jump up to: Перейти обратно: а б Риццо и Секели 2021 .
- ^ Секели и Риццо 2014 , с. 11.
- ^ Jump up to: Перейти обратно: а б Секели и Риццо 2009a , с. 1249, Теорема 7, (3.7).
- ^ Секели и Риццо 2012 .
- ^ Джини 1912 .
- ^ Секели и Риццо 2009b .
- ^ Jump up to: Перейти обратно: а б Секели и Риццо 2014 .
- ^ Jump up to: Перейти обратно: а б Лион 2014 .
- ^ Клебанов 2005 , с. [ нужна страница ] .
- ^ Бикель и Сюй 2009 .
- ^ Косорок 2009 .
Ссылки [ править ]
- Бикель, Питер Дж.; Сюй, Ин (2009). «Обсуждение: ковариация броуновского расстояния» . Анналы прикладной статистики . 3 (4): 1266–1269. arXiv : 0912.3295 . doi : 10.1214/09-AOAS312A .
- Джини, К. (1912). Изменчивость и мутабельность . Болонья: типография Паоло Куппини. Бибкод : 1912vamu.book.....G .
- Клебанов, Л.Б. (2005). N -расстояния и их приложения . Прага: Каролинум Пресс , Карлов университет. ISBN 9788024611525 .
- Косорок, Майкл Р. (2009). «Обсуждение: ковариация броуновского расстояния». Анналы прикладной статистики . 3 (4): 1270–1278. arXiv : 1010.0822 . doi : 10.1214/09-AOAS312B . S2CID 88518490 .
- Лайонс, Рассел (2014). «Ковариация расстояний в метрических пространствах». Анналы вероятности . 41 (5): 3284–3305. arXiv : 1106.5758 . дои : 10.1214/12-AOP803 . S2CID 73677891 .
- Пирсон, К. (1895a). «Заметка о регрессии и наследовании в случае двух родителей». Труды Королевского общества . 58 : 240–242. Бибкод : 1895RSPS...58..240P .
- Пирсон, К. (1895b). «Заметки по истории корреляции» . Биометрика . 13 : 25–45. дои : 10.1093/biomet/13.1.25 .
- Риццо, Мария; Секели, Габор (22 февраля 2021 г.). «Энергия: электронная статистика: многомерный вывод через энергию данных» . Версия: 1.7-8 . Проверено 31 октября 2021 г.
- Секели, Габор Дж.; Риццо, Мария Л.; Бакиров, Наиль К. (2007). «Измерение и проверка независимости путем корреляции расстояний». Анналы статистики . 35 (6): 2769–2794. arXiv : 0803.4101 . дои : 10.1214/009053607000000505 . S2CID 5661488 .
- Секели, Габор Дж.; Риццо, Мария Л. (2009a). «Ковариация броуновского расстояния» . Анналы прикладной статистики . 3 (4): 1236–1265. дои : 10.1214/09-AOAS312 . ПМЦ 2889501 . ПМИД 20574547 .
- Секели, Габор Дж.; Риццо, Мария Л. (2009b). «Ответ: ковариация броуновского расстояния» . Анналы прикладной статистики . 3 (4): 1303–1308. arXiv : 1010.0844 . doi : 10.1214/09-AOAS312REJ .
- Секели, Габор Дж.; Риццо, Мария Л. (2012). «О единственности дистанционной ковариации». Статистика и вероятностные буквы . 82 (12): 2278–2282. дои : 10.1016/j.spl.2012.08.007 .
- Секели, Габор Дж.; Риццо, Мария Л. (2014). «Частичная корреляция расстояний с методами определения несходств». Анналы статистики . 42 (6): 2382–2412. arXiv : 1310.2926 . Бибкод : 2014arXiv1310.2926S . дои : 10.1214/14-AOS1255 . S2CID 55801702 .
Внешние ссылки [ править ]
- Электронная статистика (статистика энергетики). Архивировано 13 сентября 2019 г. на Wayback Machine.