Jump to content

Корреляция расстояний

(Перенаправлено из «Отклонение расстояния »)

В статистике и вероятностей теории дистанционная корреляция или дистанционная ковариация — это мера зависимости между двумя парными случайными векторами произвольной, не обязательно одинаковой размерности . Коэффициент корреляции расстояний населения равен нулю тогда и только тогда, когда случайные векторы независимы . Таким образом, дистанционная корреляция измеряет как линейную, так и нелинейную связь между двумя случайными величинами или случайными векторами. Это контрастирует с корреляцией Пирсона , которая может обнаружить только линейную связь между двумя случайными величинами .

Дистанционная корреляция может использоваться для проведения статистического теста зависимости с помощью теста перестановки . Сначала вычисляется корреляция расстояний (включая повторное центрирование евклидовых матриц расстояний) между двумя случайными векторами, а затем сравнивается это значение с корреляциями расстояний при многих перетасовках данных.

Несколько наборов точек ( x , y ) с коэффициентом корреляции расстояний x и y для каждого набора. Сравните с графиком корреляции

Предыстория [ править ]

Классическая мера зависимости – коэффициент корреляции Пирсона , [1] в основном чувствителен к линейной зависимости между двумя переменными. Дистанционная корреляция была введена в 2005 году Габором Дж. Секели Пирсона в нескольких лекциях для устранения этого недостатка корреляции , а именно того, что она может легко равняться нулю для зависимых переменных. Корреляция = 0 (некоррелированность) не подразумевает независимости, тогда как корреляция расстояний = 0 подразумевает независимость. Первые результаты по дистанционной корреляции были опубликованы в 2007 и 2009 годах. [2] [3] Было доказано, что ковариация расстояния аналогична броуновской ковариации. [3] Эти меры являются примерами энергетических расстояний .

Корреляция расстояний выводится из ряда других величин, которые используются в ее спецификации, а именно: дисперсия расстояния , стандартное отклонение расстояния и ковариация расстояния . Эти величины играют ту же роль, что и обычные моменты с соответствующими названиями в спецификации коэффициента корреляции произведения-момента Пирсона .

Определения [ править ]

Ковариация расстояний [ править ]

Начнем с определения ковариации выборочного расстояния . Пусть ( X k , Y k ), k = 1, 2, ..., n будет статистической выборкой из пары случайных величин с действительным или векторным значением ( X , Y ). Сначала вычислите n размером на n матрицы расстояний ( a j , k ) и ( b j , k ), содержащие все попарные расстояния .

где ||⋅ || обозначает евклидову норму . Затем возьмем все двуцентровые расстояния

где среднее значение j -й строки, - среднее значение k -го столбца, а среднее значение матрицы расстояний X. выборки Обозначения аналогичны для значений b . (В матрицах центрированных расстояний ( A j , k ) и ( B j , k ) сумма всех строк и всех столбцов равна нулю.) Квадрат ковариации выборочного расстояния (скаляр) представляет собой просто среднее арифметическое произведений A j , к Б j , к :

Статистика T n = n dCov 2 n ( X , Y ) определяет последовательный многомерный тест независимости случайных векторов в произвольных измерениях. Информацию о реализации см. dcov.test функции в пакете Energy для R. в [4]

Популяционное значение ковариации расстояния можно определить аналогичным образом. Пусть X — случайная величина, принимающая значения в p -мерном евклидовом пространстве с распределением вероятностей µ, и пусть Y — случайная величина, принимающая значения в q -мерном евклидовом пространстве с распределением вероятностей ν , и предположим, что X и Y имеют конечные значения. ожидания. Писать

Наконец, определите генеральное значение ковариации квадрата расстояния X и Y как

Можно показать, что это эквивалентно следующему определению:

где E обозначает ожидаемую стоимость, а и независимы и одинаково распределены. Штрихованные случайные величины и обозначатьнезависимые и одинаково распределенные (iid) копии переменных и и аналогично iid. [5] Ковариация расстояния может быть выражена через классическую ковариацию Пирсона : cov следующим образом:

Это тождество показывает, что ковариация расстояний не совпадает с ковариацией расстояний cov(‖ X X' ‖, ‖ Y Y' ). Это может быть ноль, даже если X и Y не являются независимыми.

Альтернативно, ковариация расстояния может быть определена как взвешенное L 2 норма расстояния между совместной характеристической функцией случайных величин и произведением их маргинальных характеристических функций: [6]

где , , и являются функциями характеристическими ( X , Y ), X и Y соответственно, p , q обозначают евклидову размерность X и Y , и, таким образом, s и t , а c p , c q являются константами. Весовая функция выбирается для создания масштабно-эквивариантной и инвариантной меры вращения, которая не стремится к нулю для зависимых переменных. [6] [7] Одна из интерпретаций определения характеристической функции состоит в том, что переменные e isX и е ЭТО являются циклическими представлениями X и Y с разными периодами, заданными s и t , и выражением φ X , Y ( s , t ) − φ X ( s ) φ Y ( t ) в числителе характеристической функции определения дистанционной ковариации это просто классическая ковариация e isX и е ЭТО . Определение характеристической функции ясно показывает, чтоdCov 2 ( X , Y ) = 0 тогда и только тогда, когда X и Y независимы.

Отклонение расстояния и стандартное отклонение расстояния

Дисперсия расстояния — это частный случай ковариации расстояния, когда две переменные идентичны. Популяционное значение дисперсии расстояний представляет собой квадратный корень из

где , , и являются независимыми и одинаково распределенными случайными величинами , обозначает ожидаемое значение и для функции , например, .

Дисперсия выборочного расстояния представляет собой квадратный корень из

что является родственником Коррадо Джини , средней разницы введенной в 1912 году (но Джини не работал с центральными расстояниями). [8]

Стандартное отклонение расстояния — это квадратный корень из дисперсии расстояния .

Корреляция расстояний [ править ]

расстояний Корреляция [2] [3] двух случайных величин получается путем деления их ковариации расстояния на произведение их стандартных отклонений расстояний . Корреляция расстояний представляет собой квадратный корень из

а корреляция выборочного расстояния определяется путем замены ковариации выборочного расстояния и дисперсии расстояния на приведенные выше коэффициенты генеральной совокупности.

Для простого вычисления корреляции расстояний выборки см. функцию dcor в пакете Energy для R . [4]

Свойства [ править ]

Корреляция расстояний [ править ]

  1. и ;это контрастирует с корреляцией Пирсона, которая может быть отрицательной.
  2. тогда и только тогда, когда X и Y независимы.
  3. подразумевает, что размеры линейных подпространств, натянутых выборками X и Y соответственно, почти наверняка равны, и если предположить, что эти подпространства равны, то в этом подпространстве для некоторого вектора A , скаляра b и ортонормированной матрицы .

Ковариация расстояний [ править ]

  1. и ;
  2. для всех постоянных векторов , скаляры и ортонормированные матрицы .
  3. Если случайные векторы и тогда независимы
    Равенство имеет место тогда и только тогда, когда и обе константы, или и обе константы, или являются взаимно независимыми.
  4. тогда и только тогда, когда X и Y независимы.

Последнее свойство является наиболее важным эффектом при работе с центральными расстояниями.

Статистика является смещенной оценкой . При независимости X и Y [9]

Непредвзятый оценщик дают Секели и Риццо. [10]

Разница в расстоянии [ править ]

  1. тогда и только тогда, когда почти наверняка.
  2. тогда и только тогда, когда все выборочные наблюдения идентичны.
  3. для всех постоянных векторов A , скаляров b и ортонормированных матриц .
  4. Если X и Y независимы, то .

Равенство выполняется в (iv) тогда и только тогда, когда одна из случайных величин X или Y является константой.

Обобщение [ править ]

Ковариацию расстояния можно обобщить, включив в нее степени евклидова расстояния. Определять

Тогда для каждого , и независимы тогда и только тогда, когда . Важно отметить, что эта характеристика не справедлива для показателя ; в данном случае для двумерной , является детерминированной функцией корреляции Пирсона. [2] Если и являются степени соответствующих расстояний, , затем Ковариацию выборочного расстояния можно определить как неотрицательное число, для которого

Можно продлить к метрическом пространстве со значениями в случайным величинам и : Если имеет закон в метрическом пространстве с метрикой , затем определите , , и (при условии конечно, т.е. имеет конечный первый момент), . Тогда, если имеет закон (возможно, в другом метрическом пространстве с конечным первым моментом), определим

Это неотрицательно для всех таких тогда и только тогда, когда оба метрических пространства имеют отрицательный тип. [11] Здесь метрическое пространство имеет отрицательный тип, если изометрично гильбертова подмножеству пространства . [12] Если оба метрических пространства имеют сильный отрицательный тип, то если только независимы. [11]

определение ковариации Альтернативное расстояния

Исходная ковариация расстояния была определена как квадратный корень из , а не сам квадрат коэффициента. обладает тем свойством, что это энергетическое расстояние между совместным распределением и продукт его предельных значений. Однако согласно этому определению дисперсия расстояния, а не стандартное отклонение расстояния, измеряется в тех же единицах, что и расстояния.

В качестве альтернативы можно определить ковариацию расстояния как квадрат энергетического расстояния: В этом случае стандартное отклонение расстояния измеряется в тех же единицах, что и расстояние, и существует несмещенная оценка ковариации расстояния генеральной совокупности. [10]

Согласно этим альтернативным определениям, корреляция расстояний также определяется как квадрат , а не квадратный корень.

: броуновская ковариация формулировка Альтернативная

Броуновская ковариация мотивирована обобщением понятия ковариации на случайные процессы. Квадрат ковариации случайных величин X и Y можно записать в следующем виде:

где E обозначает ожидаемое значение , а штрих обозначает независимые и одинаково распределенные копии. Нам понадобится следующее обобщение этой формулы. Если U(s), V(t) — произвольные случайные процессы, определенные для всех действительных s и t, то определите U-центрированную версию X по формуле

всякий раз, когда вычтенное условное ожидаемое значение существует, и обозначим Y V V-центрированную версию Y. [3] [13] [14] Ковариация (U,V) для (X,Y) определяется как неотрицательное число, квадрат которого равен

всякий раз, когда правая часть неотрицательна и конечна. Самый важный пример - когда U и V являются двусторонними независимыми броуновскими движениями / винеровскими процессами с нулевым математическим ожиданием и ковариацией | s | + | т | − | с - т | = 2 min( s , t ) (только для неотрицательных s, t). (Это в два раза больше ковариации стандартного винеровского процесса; здесь фактор 2 упрощает вычисления.) В этом случае ковариация ( U , V ) называется броуновской ковариацией и обозначается

Есть удивительное совпадение: броуновская ковариация совпадает с ковариацией расстояния:

и, таким образом, броуновская корреляция аналогична корреляции расстояний.

С другой стороны, если мы заменим броуновское движение детерминированной тождественной функцией id, тогда Cov id ( X , Y ) будет просто абсолютным значением классической ковариации Пирсона ,

Связанные показатели [ править ]

Другие корреляционные метрики, включая корреляционные метрики на основе ядра (такие как критерий независимости Гильберта-Шмидта или HSIC), также могут обнаруживать линейные и нелинейные взаимодействия. Как дистанционная корреляция, так и метрики на основе ядра могут использоваться в таких методах, как канонический корреляционный анализ и анализ независимых компонентов, чтобы получить более высокую статистическую мощность .

См. также [ править ]

Примечания [ править ]

Ссылки [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bef4fabcfb0ab9597c5df82ce751f76f__1716015780
URL1:https://arc.ask3.ru/arc/aa/be/6f/bef4fabcfb0ab9597c5df82ce751f76f.html
Заголовок, (Title) документа по адресу, URL1:
Distance correlation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)