Ковариация

Из Википедии, бесплатной энциклопедии
Знак ковариации двух случайных величин X и Y

Ковариация в теории вероятностей и статистике является мерой совместной изменчивости двух случайных величин . [1]

Таким образом, знак ковариации показывает тенденцию линейной зависимости между переменными. Если более высокие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое справедливо для меньших значений (т. е. переменные имеют тенденцию демонстрировать одинаковое поведение), ковариация положительна. [2] В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (т. е. переменные имеют тенденцию проявлять противоположное поведение), ковариация отрицательна. Величина ковариации представляет собой среднее геометрическое дисперсий, общих для двух случайных величин. Коэффициент корреляции нормализует ковариацию путем деления на среднее геометрическое общих дисперсий для двух случайных величин.

Необходимо проводить различие между (1) ковариацией двух случайных величин, которая является совокупности параметром , который можно рассматривать как свойство совместного распределения вероятностей , и (2) выборочной ковариацией, которая помимо того, что служит дескриптором выборки также служит оценочным значением параметра совокупности.

Математическое определение [ править ]

Для двух совместно распределенных действительных величин случайных и с конечными вторыми моментами ковариация определяется как ожидаемое значение (или среднее) произведения их отклонений от их индивидуальных ожидаемых значений: [3] [4] : 119 

где ожидаемое значение , также известный как среднее значение . Ковариацию также иногда обозначают или , по аналогии с дисперсией . Используя свойство линейности ожиданий, это можно упростить до ожидаемого значения их продукта минус произведение их ожидаемых значений:

но это уравнение подвержено катастрофическому сокращению (см. раздел о численных вычислениях ниже).

Единицы измерения ковариации являются те из раз больше, чем . Напротив, коэффициенты корреляции , которые зависят от ковариации, являются безразмерной мерой линейной зависимости. (На самом деле коэффициенты корреляции можно понимать просто как нормализованную версию ковариации.)

Сложные случайные величины [ править ]

Ковариация между двумя комплексными случайными величинами определяется как [4] : 119 

Обратите внимание на комплексное сопряжение второго фактора в определении.

связанную псевдоковариацию Также можно определить .

Дискретные случайные величины [ править ]

Если пара (реальных) случайных величин может принимать значения для , с равными вероятностями , то ковариацию можно эквивалентно записать через средние значения и как

Это также можно эквивалентно выразить, без прямой ссылки на средства, как [5]

В более общем плане, если есть возможные реализации , а именно но с возможно неравными вероятностями для , то ковариация равна

В случае, когда две дискретные случайные величины и имеют совместное распределение вероятностей, представленное элементами соответствующие совместным вероятностям , ковариация рассчитывается с помощью двойного суммирования по индексам матрицы:

Примеры [ править ]

Рассмотрим 3 независимые случайные величины и две константы .

В частном случае и , ковариация между и , это просто дисперсия и название «ковариантность» вполне уместно.

Геометрическая интерпретация примера ковариации. Каждый кубоид представляет собой выровненную по оси ограничивающую рамку своей точки ( x , y , f ( x , y )), а X и Y означают (пурпурная точка). Ковариация представляет собой сумму объемов кубоидов в 1-м и 3-м квадрантах (красный) минус объемы 2-го и 4-го (синий).

Предположим, что и имеют следующую совместную функцию массы вероятности : [6] в котором шесть центральных ячеек дают дискретные совместные вероятности из шести гипотетических реализаций :

Икс
5 6 7
и 8 0 0.4 0.1 0.5
9 0.3 0 0.2 0.5
0.3 0.4 0.3 1

может принимать три значения (5, 6 и 7), а можно взять двоих (8 и 9). Их средства и . Затем,

Свойства [ править ]

Ковариация сама с собой [ править ]

Дисперсия : — это частный случай ковариации, при котором две переменные идентичны (то есть, когда одна переменная имеет такое же распределение, как и другая) [4] : 121 

Ковариация линейных комбинаций [ править ]

Если , , , и являются действительными случайными величинами и являются действительными константами, то следствием определения ковариации являются следующие факты:

Для последовательности случайных величин в вещественных и константах , у нас есть

Хеффдинга тождественность Ковариационная

Полезное тождество для вычисления ковариации между двумя случайными величинами. - ковариационное тождество Хеффдинга: [7]

где - совместная кумулятивная функция распределения случайного вектора и являются маргиналами .

Некоррелированность и независимость [ править ]

Случайные величины, ковариация которых равна нулю, называются некоррелированными . [4] : 121  Аналогично, компоненты случайных векторов, чья ковариационная матрица равна нулю в каждой записи за пределами главной диагонали, также называются некоррелированными.

Если и являются независимыми случайными величинами , то их ковариация равна нулю. [4] : 123  [8] Это следует из того, что в условиях независимости

Обратное, однако, в целом неверно. Например, пусть быть равномерно распределены в и разреши . Четко, и не являются независимыми, но

В этом случае отношения между и является нелинейным, а корреляция и ковариация являются мерами линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины некоррелированы, это, как правило, не означает, что они независимы. Однако если две переменные совместно нормально распределены (но не в том случае, если они просто нормально распределены по отдельности ), некоррелированность действительно подразумевает независимость. [9]

и ковариация которых положительна, называются положительно коррелированными, что означает, что если тогда вероятно . Наоборот, и с отрицательной ковариацией отрицательно коррелируют, и если тогда вероятно .

внутренними продуктами Связь с

Многие свойства ковариации можно элегантно извлечь, заметив, что она удовлетворяет свойствам, аналогичным свойствам внутреннего продукта :

  1. билинейный : для констант и и случайные величины
  2. симметричный:
  3. положительная полуопределенная : для всех случайных величин , и подразумевает, что постоянен почти наверняка .

Фактически эти свойства подразумевают, что ковариация определяет скалярное произведение в фактор-векторном пространстве , полученное путем взятия подпространства случайных величин с конечным вторым моментом и идентификации любых двух, которые отличаются константой. (Эта идентификация превращает положительную полуопределенность, указанную выше, в положительную определенность.) Это фактор-векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и средним нулем; в этом подпространстве ковариация равна в точности L 2 внутренний продукт вещественных функций в выборочном пространстве.

В результате для случайных величин с конечной дисперсией неравенство

выполняется посредством неравенства Коши–Шварца .

Доказательство: если , то оно выполняется тривиально. В противном случае пусть случайная величина

Тогда у нас есть

Вычисление выборочной ковариации [ править ]

Выборочные ковариации среди переменные, основанные на наблюдения каждого из них, взятые из ненаблюдаемой популяции, представлены матрица с записями

что является оценкой ковариации между переменной и переменная .

Выборочное среднее и выборочная ковариационная матрица представляют собой несмещенные оценки среднего . и ковариационной матрицы случайного вектора , вектор, j- й элемент которого является одной из случайных величин. Причина, по которой выборочная ковариационная матрица имеет в знаменателе, а не по сути, это то, что население имеет в виду неизвестно и заменяется выборочным средним значением . Если население имеет в виду известна, аналогичная несмещенная оценка дается формулой

.

Обобщения [ править ]

автоковариации действительных векторов Матрица случайных

Для вектора из совместно распределенные случайные величины с конечными вторыми моментами, их автоковариационная матрица (также известная как дисперсионно-ковариационная матрица или просто ковариационная матрица ) (также обозначается или ) определяется как [10] : 335 

Позволять случайный вектор с ковариационной матрицей Σ , и пусть A — матрица, которая может действовать на слева. Ковариационная матрица произведения матрицы-вектора AX равна:

Это прямой результат линейности ожидания и полезен. при применении линейного преобразования , такого как преобразование отбеливания , к вектору.

перекрестной ковариации действительных векторов случайных Матрица

Для реальных случайных векторов и , матрица перекрестной ковариации равна [10] : 336 

( Уравнение 2 )

где транспонирование вектора (или матрицы) .

The -й элемент этой матрицы равен ковариации между i -й скалярной составляющей и j -я скалярная компонента . В частности, это транспонирование .

случайных векторов в действительном или комплексном пространстве гильбертовом Кросс-ковариационная полуторалинейная форма

В общем, пусть и , — гильбертово пространство над или с антилинейный по первой переменной, и пусть быть соотв. ценные случайные величины. Тогда ковариация и представляет собой полуторалинейную форму на (антилинейный по первой переменной), определяемый формулой

Численные вычисления [ править ]

Когда , уравнение склонен к катастрофической отмене , если и не вычисляются точно, и поэтому их следует избегать в компьютерных программах, если данные ранее не были центрированы. [11] численно устойчивым алгоритмам . В этом случае следует отдавать предпочтение [12]

Комментарии [ править ]

Ковариацию иногда называют мерой «линейной зависимости» между двумя случайными величинами. Это не означает то же самое, что в контексте линейной алгебры (см. линейную зависимость ). Когда ковариация нормализуется, получается коэффициент корреляции Пирсона , который показывает степень соответствия наилучшей возможной линейной функции, описывающей связь между переменными. В этом смысле ковариация представляет собой линейную меру зависимости.

Приложения [ править ]

В генетике и молекулярной биологии [ править ]

Ковариация является важной мерой в биологии . Определенные последовательности ДНК более консервативны среди видов, чем другие, и поэтому для изучения вторичных и третичных структур белков или структур РНК последовательности сравнивают у близкородственных видов. ) обнаруживаются изменения последовательности или вообще не обнаруживаются изменения Если в некодирующей РНК (например, микроРНК , то оказывается, что последовательности необходимы для общих структурных мотивов, таких как петля РНК. В генетике ковариация служит основой для расчета матрицы генетических отношений (GRM) (также известной как матрица родства), позволяющей делать выводы о структуре популяции на основе выборки без известных близких родственников, а также делать выводы для оценки наследственности сложных признаков.

В теории эволюции и естественного отбора описывает уравнение цены , как частота генетического признака меняется с течением времени. Уравнение использует ковариацию между признаком и приспособленностью , чтобы дать математическое описание эволюции и естественного отбора. Это дает возможность понять влияние передачи генов и естественного отбора на долю генов в каждом новом поколении популяции. [13] [14]

В финансовой экономике [ править ]

Ковариации играют ключевую роль в финансовой экономике , особенно в современной теории портфеля и в модели ценообразования капитальных активов . Ковариации между доходностью различных активов используются для определения, при определенных предположениях, относительных сумм различных активов, которые инвесторы должны (в нормативном анализе ) или, по прогнозам, (в позитивном анализе ) предпочитают держать в контексте диверсификации .

В усвоении метеорологических и океанографических данных [ править ]

Ковариационная матрица важна для оценки начальных условий, необходимых для запуска моделей прогноза погоды, — процедуры, известной как ассимиляция данных . «Ковариационная матрица ошибок прогноза» обычно строится на основе возмущений вокруг среднего состояния (климатологического или ансамблевого среднего). «Ковариационная матрица ошибок наблюдения» строится для представления величины комбинированных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (вне диагонали). Это пример его широкого применения для фильтрации Калмана и более общей оценки состояния изменяющихся во времени систем.

В микрометеорологии [ править ]

Метод вихревой ковариации является ключевым методом измерения атмосферных явлений, при котором ковариация между мгновенным отклонением вертикальной скорости ветра от среднего значения и мгновенным отклонением концентрации газа является основой для расчета вертикальных турбулентных потоков.

В обработке сигналов [ править ]

Ковариационная матрица используется для фиксации спектральной изменчивости сигнала. [15]

В статистике и обработке изображений [ править ]

Ковариационная матрица используется в анализе главных компонент для уменьшения размерности признаков при предварительной обработке данных .

См. также [ править ]

Ссылки [ править ]

  1. ^ Райс, Джон (2007). Математическая статистика и анализ данных . Брукс/Коул Сенгедж Обучение. п. 138. ИСБН  9780534399429 .
  2. ^ Вайсштейн, Эрик В. «Ковариантность» . Математический мир .
  3. ^ Оксфордский статистический словарь, Oxford University Press, 2002, стр. 104.
  4. ^ Перейти обратно: а б с д Это Пак, Кун Иль (2018). Основы теории вероятности и случайных процессов с приложениями к средствам связи . Спрингер. ISBN  9783319680743 .
  5. ^ Юли Чжан; Хуайюй Ву; Лей Ченг (июнь 2012 г.). «Некоторые новые формулы деформации дисперсии и ковариации». Материалы 4-й Международной конференции по моделированию, идентификации и контролю (ICMIC2012) . стр. 987–992.
  6. ^ «Ковариация X и Y | STAT 414/415» . Государственный университет Пенсильвании. Архивировано из оригинала 17 августа 2017 года . Проверено 4 августа 2019 г.
  7. ^ Папулис (1991). Вероятность, случайные величины и случайные процессы . МакГроу-Хилл.
  8. ^ Зигрист, Кайл. «Ковариация и корреляция» . Университет Алабамы в Хантсвилле . Проверено 3 октября 2022 г.
  9. ^ Деккинг, Мишель, изд. (2005). Современное введение в вероятность и статистику: понимание почему и как . Тексты Спрингера в статистике. Лондон [Гейдельберг]: Springer. ISBN  978-1-85233-896-1 .
  10. ^ Перейти обратно: а б Губнер, Джон А. (2006). Вероятность и случайные процессы для инженеров-электриков и вычислительной техники . Издательство Кембриджского университета. ISBN  978-0-521-86470-1 .
  11. ^ Дональд Э. Кнут (1998). Искусство компьютерного программирования , том 2: Получисловые алгоритмы , 3-е изд., с. 232. Бостон: Аддисон-Уэсли.
  12. ^ Шуберт, Эрих; Герц, Майкл (2018). «Численно стабильное параллельное вычисление (ко) дисперсии» . Материалы 30-й Международной конференции по управлению научными и статистическими базами данных . Боцен-Больцано, Италия: ACM Press. стр. 1–12. дои : 10.1145/3221269.3223036 . ISBN  978-1-4503-6505-5 . S2CID   49665540 .
  13. ^ Прайс, Джордж (1970). «Отбор и ковариация». Природа (журнал) . 227 (5257): 520–521. Бибкод : 1970Natur.227..520P . дои : 10.1038/227520a0 . ПМИД   5428476 . S2CID   4264723 .
  14. ^ Харман, Орен (2020). «Когда наука отражает жизнь: о происхождении уравнения Прайса» . Философские труды Королевского общества B: Биологические науки . 375 (1797). royalsocietypublishing.org: 1–7. дои : 10.1098/rstb.2019.0352 . ПМК   7133509 . ПМИД   32146891 .
  15. ^ Сахидулла, штат Мэриленд; Киннунен, Томи (март 2016 г.). «Функции локальной спектральной изменчивости для проверки динамиков» . Цифровая обработка сигналов . 50 : 1–11. дои : 10.1016/j.dsp.2015.10.011 .