Количество информации

Вводящий в заблуждение ^[1] информационная диаграмма, показывающая аддитивные и субтрактивные отношения между переменных основными количествами информации Шеннона для коррелирующих $X$ и $Y$ . Площадь, содержащаяся в обоих кругах, представляет собой совместную энтропию. $\mathrm {H} (X,Y)$ . Круг слева (красный и фиолетовый) — это индивидуальная энтропия. $\mathrm {H} (X)$ , где красный цвет — условная энтропия $\mathrm {H} (X|Y)$ . Круг справа (синий и фиолетовый) $\mathrm {H} (Y)$ , с синим существом $\mathrm {H} (Y|X)$ . Фиолетовый – это взаимная информация $\operatorname {I} (X;Y)$ .

Математическая теория информации основана на теории вероятностей и статистике и измеряет информацию с помощью нескольких количеств информации . Выбор логарифмической основы в следующих формулах определяет единицу информационной энтропии используемую . Наиболее распространенной единицей информации является бит , или, точнее, шеннон . ^[2] на основе двоичного логарифма . Хотя «бит» чаще используется вместо «шеннон», его имя не отличается от бита , который используется при обработке данных для обозначения двоичного значения или потока независимо от его энтропии (информационного содержания). Другие единицы включают в себя nat. , основанный на натуральном логарифме , и Хартли , основанный на десятичном или десятичном логарифме .

Далее выражение вида $p\log p\,$ по соглашению считается равным нулю всякий раз, когда $p$ равен нулю. Это оправдано, поскольку $\lim _{p\rightarrow 0+}p\log p=0$ для любого логарифмического основания. ^[3]

Самоинформация [ править ]

Шеннон вывел меру информационного содержания, названную самоинформацией или « сюрпризом» сообщения. $m$ :

\operatorname {I} (m)=\log \left({\frac {1}{p(m)}}\right)=-\log(p(m))\,

где $p(m)=\mathrm {Pr} (M=m)$ вероятность того, что сообщение $m$ выбирается из всех возможных вариантов в пространстве сообщений $M$ . Основание логарифма влияет только на коэффициент масштабирования и, следовательно, на единицы, в которых выражается измеренное содержание информации. Если логарифм имеет основание 2, мера информации выражается в единицах Шеннон или, чаще, просто в «битах» ( бит в других контекстах скорее определяется как «двоичная цифра», среднее информационное содержание которой составляет не более 1 Шеннона). .

Информация из источника получается получателем только в том случае, если у получателя еще не было этой информации с самого начала. Сообщения, которые передают информацию об определенном (P=1) событии (или о событии, которое точно известно , например, через обратный канал), не предоставляют никакой информации, как показывает приведенное выше уравнение. Редко встречающиеся сообщения содержат больше информации, чем более часто встречающиеся сообщения.

Также можно показать, что составное сообщение из двух (или более) несвязанных сообщений будет содержать количество информации, которое является суммой мер информации каждого сообщения в отдельности. Это можно получить, используя это определение, рассматривая составное сообщение. $m\&n$ предоставление информации о значениях двух случайных величин M и N с использованием сообщения, которое представляет собой объединение элементарных сообщений m и n , информационное содержание каждого из которых определяется выражением $\operatorname {I} (m)$ и $\operatorname {I} (n)$ соответственно. Если сообщения m и n зависят каждое только от M и N, а процессы M и N независимы , то, поскольку $P(m\&n)=P(m)P(n)$ (определение статистической независимости) из приведенного выше определения ясно, что $\operatorname {I} (m\&n)=\operatorname {I} (m)+\operatorname {I} (n)$ .

Пример: прогноз погоды звучит так: «Прогноз на сегодня: темно. Продолжается темнота, пока утром не станет рассеянным свет». Это сообщение практически не содержит никакой информации. Однако прогноз метели наверняка будет содержать информацию, поскольку такое случается не каждый вечер. , будет еще больше информации В точном прогнозе выпадения снега для теплого места, такого как Майами . Объем информации в прогнозе выпадения снега для места, где снег никогда не идет (невозможное событие), является самым высоким (бесконечность).

Энтропия [ править ]

Энтропия дискретного пространства сообщений $M$ является мерой степени неопределенности относительно того, какое сообщение будет выбрано. Он определяется как средняя информативность сообщения. $m$ из этого пространства сообщений:

\mathrm {H} (M)=\mathbb {E} \left[\operatorname {I} (M)\right]=\sum _{m\in M}p(m)\operatorname {I} (m)=-\sum _{m\in M}p(m)\log p(m).

где

\mathbb {E} [-]

обозначает операцию ожидаемого значения .

Важным свойством энтропии является то, что она максимизируется, когда все сообщения в пространстве сообщений равновероятны (например, $p(m)=1/|M|$ ). В этом случае $\mathrm {H} (M)=\log |M|$ .

Иногда функция $\mathrm {H}$ выражается через вероятности распределения:

\mathrm {H} (p_{1},p_{2},\ldots ,p_{k})=-\sum _{i=1}^{k}p_{i}\log p_{i},

где каждый

p_{i}\geq 0

и

\sum _{i=1}^{k}p_{i}=1.

Важным частным случаем этого является функция двоичной энтропии :

\mathrm {H} _{\mbox{b}}(p)=\mathrm {H} (p,1-p)=-p\log p-(1-p)\log(1-p).\,

энтропия Совместная

Совместная энтропия двух дискретных случайных величин $X$ и $Y$ определяется как энтропия совместного распределения $X$ и $Y$ :

\mathrm {H} (X,Y)=\mathbb {E} _{X,Y}\left[-\log p(x,y)\right]=-\sum _{x,y}p(x,y)\log p(x,y)\,

Если $X$ и $Y$ независимы , то общая энтропия представляет собой просто сумму их индивидуальных энтропий.

(Примечание: совместную энтропию не следует путать с перекрестной энтропией , несмотря на схожие обозначения.)

Условная энтропия (двусмысленность) [ править ]

Учитывая конкретное значение случайной величины $Y$ , условная энтропия $X$ данный $Y=y$ определяется как:

\mathrm {H} (X|y)=\mathbb {E} _{\left[X|Y\right]}[-\log p(x|y)]=-\sum _{x\in X}p(x|y)\log p(x|y)

где $p(x|y)={\frac {p(x,y)}{p(y)}}$ это условная вероятность $x$ данный $y$ .

Условная энтропия $X$ данный $Y$ называемый двусмысленностью , также $X$ о $Y$ тогда дается:

\mathrm {H} (X|Y)=\mathbb {E} _{Y}\left[\mathrm {H} \left(X|y\right)\right]=-\sum _{y\in Y}p(y)\sum _{x\in X}p(x|y)\log p(x|y)=\sum _{x,y}p(x,y)\log {\frac {p(y)}{p(x,y)}}.

При этом используется условное ожидание теории вероятностей.

Основное свойство условной энтропии заключается в том, что:

\mathrm {H} (X|Y)=\mathrm {H} (X,Y)-\mathrm {H} (Y).\,

– Лейблера (прирост информации Кульбака Расхождение )

Дивергенция Кульбака -Лейблера (или информационная дивергенция , прирост информации или относительная энтропия ) — это способ сравнения двух распределений, «истинное» распределение вероятностей. $p$ и произвольное распределение вероятностей $q$ . Если мы сжимаем данные таким образом, который предполагает $q$ — это распределение, лежащее в основе некоторых данных, тогда как на самом деле $p$ – правильное распределение, расхождение Кульбака – Лейблера – это среднее количество дополнительных битов на единицу данных, необходимое для сжатия, или, математически,

D_{\mathrm {KL} }{\bigl (}p(X)\|q(X){\bigr )}=\sum _{x\in X}p(x)\log {\frac {p(x)}{q(x)}}.

В некотором смысле это «расстояние» от $q$ к $p$ , хотя это не настоящая метрика, поскольку она несимметрична.

Взаимная информация (трансинформация) [ править ]

Оказывается, одной из самых полезных и важных мер информации является взаимная информация , или трансинформация . Это мера того, сколько информации можно получить об одной случайной величине, наблюдая за другой. Взаимная информация $X$ относительно $Y$ (что концептуально представляет собой средний объем информации о $X$ что можно получить, наблюдая $Y$ ) дается:

\operatorname {I} (X;Y)=\sum _{y\in Y}p(y)\sum _{x\in X}{p(x|y)\log {\frac {p(x|y)}{p(x)}}}=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}.

Основное свойство взаимной информации заключается в том, что:

\operatorname {I} (X;Y)=\mathrm {H} (X)-\mathrm {H} (X|Y).\,

То есть, зная $Y$ , мы можем сэкономить в среднем $\operatorname {I} (X;Y)$ биты в кодировке $X$ по сравнению с незнанием $Y$ . Взаимная информация симметрична :

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)=\mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y).\,

Взаимную информацию можно выразить как среднее расхождение Кульбака – Лейблера (прирост информации) апостериорного вероятностей распределения $X$ учитывая ценность $Y$ к предыдущему распределению по $X$ :

\operatorname {I} (X;Y)=\mathbb {E} _{p(y)}\left[D_{\mathrm {KL} }{\bigl (}p(X|Y=y)\|p(X){\bigr )}\right].

Другими словами, это мера того, насколько в среднем распределение вероятностей на $X$ изменится, если нам дать значение $Y$ . Это часто пересчитывается как расхождение произведения предельных распределений к фактическому совместному распределению:

\operatorname {I} (X;Y)=D_{\mathrm {KL} }{\bigl (}p(X,Y)\|p(X)p(Y){\bigr )}.

Взаимная информация тесно связана с тестом логарифмического отношения правдоподобия в контексте таблиц сопряженности и полиномиального распределения, а также с критерием Пирсона χ. ² тест : взаимная информация может рассматриваться как статистика для оценки независимости между парой переменных и имеет четко определенное асимптотическое распределение.

Дифференциальная энтропия [ править ]

Основные меры дискретной энтропии были расширены по аналогии с непрерывными пространствами путем замены сумм интегралами и функций массы вероятности функциями плотности вероятности . Хотя в обоих случаях взаимная информация выражает количество битов информации, общих для двух рассматриваемых источников, аналогия не предполагает идентичных свойств; например, дифференциальная энтропия может быть отрицательной.

Дифференциальные аналогии энтропии, совместной энтропии, условной энтропии и взаимной информации определяются следующим образом: