Jump to content

Общая корреляция

В теории вероятностей и, в частности, в теории информации , полная корреляция (Ватанабэ, 1960) является одним из нескольких обобщений взаимной информации . Оно также известно как многомерное ограничение (Гарнер, 1962) или мультиинформация (Студены и Вейнарова, 1999). Он количественно определяет избыточность или зависимость среди набора из n случайных величин.

Определение

[ редактировать ]

Для заданного набора из n случайных величин , общая корреляция определяется как расхождение Кульбака – Лейблера от совместного распределения к независимому распространению ,

Это расхождение сводится к более простой разнице энтропий:

где информационная энтропия переменной , и - совместная энтропия набора переменных . В терминах дискретных распределений вероятностей переменных , общая корреляция определяется выражением

Общая корреляция — это объем информации, разделяемой между переменными в наборе. Сумма представляет собой количество информации в битах (при условии логарифмов с основанием 2), которым переменные обладали бы, если бы они были полностью независимы друг от друга (неизбыточны), или, что то же самое, среднюю длину кода для передачи значений всех переменных, если каждая переменная (оптимально) кодировалась независимо. Термин - это фактический объем информации, который содержит набор переменных, или, что эквивалентно, средняя длина кода для передачи значений всех переменных, если набор переменных был (оптимально) закодирован вместе. Разница междуследовательно, эти термины представляют собой абсолютную избыточность (в битах), присутствующую в данномнабора переменных и, таким образом, обеспечивает общую количественную меру структура или организация, воплощенная в наборе переменных(Ротштейн, 1952). Общая корреляция также представляет собой расхождение Кульбака – Лейблера между фактическим распределением и его приближение к максимальному произведению энтропии .

Общая корреляция количественно определяет степень зависимости между группой переменных. Общая корреляция, близкая к нулю, указывает на то, что переменные в группе по существу статистически независимы; они совершенно не связаны между собой в том смысле, что знание значения одной переменной не дает никакого представления о значениях других переменных. С другой стороны, максимальная общая корреляция (при фиксированном наборе индивидуальных энтропий ) определяется

и происходит, когда одна из переменных определяет все остальные переменные. Тогда переменные максимально связаны в том смысле, что знание значения одной переменной дает полную информацию о значениях всех остальных переменных, а переменные можно образно рассматривать как шестеренки, в которых положение одной шестерни определяет положения всех остальных переменных. остальные (Ротштейн, 1952).

Важно отметить, что общая корреляция учитывает все избыточности среди набора переменных, но эти избыточности могут распределяться по набору переменных множеством сложных способов (Garner 1962). Например, некоторые переменные в наборе могут быть полностью взаимоизбыточными, тогда как другие в наборе полностью независимы. Возможно, еще более важно то, что избыточность может присутствовать во взаимодействиях различной степени: группа переменных может не обладать никакой парной избыточностью, но может обладать избыточностью взаимодействия более высокого порядка , примером которой является функция четности. Разложение полной корреляции на составляющие ее избыточности исследуется в ряде источников (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin et al. 2008, Han 1978, Хан 1980).

Условная общая корреляция

[ редактировать ]

Условная общая корреляция определяется аналогично полной корреляции, но с добавлением условия к каждому члену. Условная общая корреляция аналогично определяется как расхождение Кульбака-Лейблера между двумя условными распределениями вероятностей:

Аналогично предыдущему, условная полная корреляция сводится к разнице условных энтропий,

Использование полной корреляции

[ редактировать ]

Алгоритмы кластеризации и выбора признаков , основанные на полной корреляции, были исследованы Ватанабэ. Альфонсо и др. (2010) применили концепцию полной корреляции для оптимизации сетей мониторинга воды.

См. также

[ редактировать ]
  • Альфонсо Л., Лоббрехт А. и Прайс Р. (2010). Оптимизация сети мониторинга уровня воды в польдерных системах с использованием теории информации , Исследования водных ресурсов , 46, W12553, 13 стр., 2010, дои : 10.1029/2009WR008953 .
  • Гарнер В.Р. (1962). Неопределенность и структура как психологические концепции , JohnWiley & Sons, Нью-Йорк.
  • Хан ТС (1978). Неотрицательные энтропийные меры многомерных симметричных корреляций, Информация и управление 36 , 133–156.
  • Хан ТС (1980). Множественная взаимная информация и множественные взаимодействия в частотных данных, Информация и управление 46 , 26–45.
  • Якулин А и Братко И (2003а). Анализ зависимостей атрибутов, в Н. Лавра\quad{c}, Д. Гамбергер, Л. Тодоровски и Х. Блокил, ред., Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных , Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
  • Якулин А и Братко И (2003b). Количественная оценка и визуализация взаимодействия атрибутов [1] .
  • Марголин А., Ван К., Калифано А. и Неменман I (2010). Многомерная зависимость и вывод генетических сетей. ИЭПП Сист Биол 4 , 428.
  • МакГилл У.Дж. (1954). Многомерная передача информации, Психометрика 19 , 97–116.
  • Неменман I (2004). Теория информации, многомерная зависимость и вывод генетических сетей [2] .
  • Ротштейн Дж (1952). Организация и энтропия, Журнал прикладной физики 23 , 1281–1282.
  • Студеный М и Вейнарова Ю (1999). Мультиинформационная функция как инструмент измерения стохастической зависимости, в изд. М. И. Джордана, « Обучение графическим моделям» , MIT Press, Кембридж, Массачусетс, стр. 261–296.
  • Ватанабэ С. (1960). Информационно-теоретический анализ многомерной корреляции, IBM Journal of Research and Development 4 , 66–82.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7008e110df3fa227190b298ddd5af863__1639058280
URL1:https://arc.ask3.ru/arc/aa/70/63/7008e110df3fa227190b298ddd5af863.html
Заголовок, (Title) документа по адресу, URL1:
Total correlation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)