Общая корреляция

В теории вероятностей и, в частности, в теории информации , полная корреляция (Ватанабэ, 1960) является одним из нескольких обобщений взаимной информации . Оно также известно как многомерное ограничение (Гарнер, 1962) или мультиинформация (Студены и Вейнарова, 1999). Он количественно определяет избыточность или зависимость среди набора из n случайных величин.

Определение

Для заданного набора из n случайных величин $\{X_{1},X_{2},\ldots ,X_{n}\}$ , общая корреляция $C(X_{1},X_{2},\ldots ,X_{n})$ определяется как расхождение Кульбака – Лейблера от совместного распределения $p(X_{1},\ldots ,X_{n})$ к независимому распространению $p(X_{1})p(X_{2})\cdots p(X_{n})$ ,

C(X_{1},X_{2},\ldots ,X_{n})\equiv \operatorname {D_{KL}} \left[p(X_{1},\ldots ,X_{n})\|p(X_{1})p(X_{2})\cdots p(X_{n})\right]\;.

Это расхождение сводится к более простой разнице энтропий:

C(X_{1},X_{2},\ldots ,X_{n})=\left[\sum _{i=1}^{n}H(X_{i})\right]-H(X_{1},X_{2},\ldots ,X_{n})

где $H(X_{i})$ – информационная энтропия переменной $X_{i}\,$ , и $H(X_{1},X_{2},\ldots ,X_{n})$ - совместная энтропия набора переменных $\{X_{1},X_{2},\ldots ,X_{n}\}$ . В терминах дискретных распределений вероятностей переменных $\{X_{1},X_{2},\ldots ,X_{n}\}$ , общая корреляция определяется выражением

C(X_{1},X_{2},\ldots ,X_{n})=\sum _{x_{1}\in {\mathcal {X}}_{1}}\sum _{x_{2}\in {\mathcal {X}}_{2}}\ldots \sum _{x_{n}\in {\mathcal {X}}_{n}}p(x_{1},x_{2},\ldots ,x_{n})\log {\frac {p(x_{1},x_{2},\ldots ,x_{n})}{p(x_{1})p(x_{2})\cdots p(x_{n})}}.

Общая корреляция — это объем информации, разделяемой между переменными в наборе. Сумма ${\begin{matrix}\sum _{i=1}^{n}H(X_{i})\end{matrix}}$ представляет собой количество информации в битах (при условии логарифмов с основанием 2), которым переменные обладали бы, если бы они были полностью независимы друг от друга (неизбыточны), или, что то же самое, среднюю длину кода для передачи значений всех переменных, если каждая переменная (оптимально) кодировалась независимо. Термин $H(X_{1},X_{2},\ldots ,X_{n})$ - это фактический объем информации, который содержит набор переменных, или, что эквивалентно, средняя длина кода для передачи значений всех переменных, если набор переменных был (оптимально) закодирован вместе. Разница междуследовательно, эти термины представляют собой абсолютную избыточность (в битах), присутствующую в данномнабора переменных и, таким образом, обеспечивает общую количественную меру структура или организация, воплощенная в наборе переменных(Ротштейн, 1952). Общая корреляция также представляет собой расхождение Кульбака – Лейблера между фактическим распределением $p(X_{1},X_{2},\ldots ,X_{n})$ и его приближение к максимальному произведению энтропии $p(X_{1})p(X_{2})\cdots p(X_{n})$ .

Общая корреляция количественно определяет степень зависимости между группой переменных. Общая корреляция, близкая к нулю, указывает на то, что переменные в группе по существу статистически независимы; они совершенно не связаны между собой в том смысле, что знание значения одной переменной не дает никакого представления о значениях других переменных. С другой стороны, максимальная общая корреляция (при фиксированном наборе индивидуальных энтропий $H(X_{1}),...,H(X_{n})$ ) определяется

C_{\max }=\sum _{i=1}^{n}H(X_{i})-\max \limits _{X_{i}}H(X_{i}),

и происходит, когда одна из переменных определяет все остальные переменные. Тогда переменные максимально связаны в том смысле, что знание значения одной переменной дает полную информацию о значениях всех остальных переменных, а переменные можно образно рассматривать как шестеренки, в которых положение одной шестерни определяет положения всех остальных переменных. остальные (Ротштейн, 1952).

Важно отметить, что общая корреляция учитывает все избыточности среди набора переменных, но эти избыточности могут распределяться по набору переменных множеством сложных способов (Garner 1962). Например, некоторые переменные в наборе могут быть полностью взаимоизбыточными, тогда как другие в наборе полностью независимы. Возможно, еще более важно то, что избыточность может присутствовать во взаимодействиях различной степени: группа переменных может не обладать никакой парной избыточностью, но может обладать избыточностью взаимодействия более высокого порядка , примером которой является функция четности. Разложение полной корреляции на составляющие ее избыточности исследуется в ряде источников (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Хан 1980).

Условная общая корреляция

Условная общая корреляция определяется аналогично полной корреляции, но с добавлением условия к каждому члену. Условная общая корреляция аналогично определяется как расхождение Кульбака-Лейблера между двумя условными распределениями вероятностей:

C(X_{1},X_{2},\ldots ,X_{n}|Y=y)\equiv \operatorname {D_{KL}} \left[p(X_{1},\ldots ,X_{n}|Y=y)\|p(X_{1}|Y=y)p(X_{2}|Y=y)\cdots p(X_{n}|Y=y)\right]\;.

Аналогично предыдущему, условная полная корреляция сводится к разнице условных энтропий,

C(X_{1},X_{2},\ldots ,X_{n}|Y=y)=\sum _{i=1}^{n}H(X_{i}|Y=y)-H(X_{1},X_{2},\ldots ,X_{n}|Y=y)

Использование полной корреляции

Алгоритмы кластеризации и выбора признаков , основанные на полной корреляции, были исследованы Ватанабэ. Альфонсо и др. (2010) применили концепцию полной корреляции для оптимизации сетей мониторинга воды.

См. также

Ссылки

Альфонсо Л., Лоббрехт А. и Прайс Р. (2010). Оптимизация сети мониторинга уровня воды в польдерных системах с использованием теории информации , Исследования водных ресурсов , 46, W12553, 13 стр., 2010, дои : 10.1029/2009WR008953 .
Гарнер В.Р. (1962). Неопределенность и структура как психологические концепции , JohnWiley & Sons, Нью-Йорк.
Хан ТС (1978). Неотрицательные энтропийные меры многомерных симметричных корреляций, Информация и управление 36 , 133–156.
Хан ТС (1980). Множественная взаимная информация и множественные взаимодействия в частотных данных, Информация и управление 46 , 26–45.
Якулин А и Братко И (2003а). Анализ зависимостей атрибутов, в Н. Лавра\quad{c}, Д. Гамбергер, Л. Тодоровски и Х. Блокил, ред., Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных , Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
Якулин А и Братко И (2003b). Количественная оценка и визуализация взаимодействия атрибутов [1] .
Марголин А., Ван К., Калифано А. и Неменман I (2010). Многомерная зависимость и вывод генетических сетей. ИЭПП Сист Биол 4 , 428.
МакГилл У.Дж. (1954). Многомерная передача информации, Психометрика 19 , 97–116.
Неменман I (2004). Теория информации, многомерная зависимость и вывод генетических сетей [2] .
Ротштейн Дж (1952). Организация и энтропия, Журнал прикладной физики 23 , 1281–1282.
Студеный М и Вейнарова Ю (1999). Мультиинформационная функция как инструмент измерения стохастической зависимости, в изд. М. И. Джордана, « Обучение графическим моделям» , MIT Press, Кембридж, Массачусетс, стр. 261–296.
Ватанабэ С. (1960). Информационно-теоретический анализ многомерной корреляции, IBM Journal of Research and Development 4 , 66–82.