Дифференциальная энтропия

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция теории информации , которая возникла как попытка Клода Шеннона распространить идею энтропии (Шеннона) — меры среднего (сюрприза) случайной величины — на непрерывные распределения вероятностей. . К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. ^[1]^{: 181–218} Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретной энтропией .

С точки зрения теории меры , дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры до меры Лебега , причем последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормирована.

Определение [ править ]

Позволять $X$ быть случайной величиной с функцией плотности вероятности $f$ которого поддержка представляет собой множество ${\mathcal {X}}$ . Дифференциальная энтропия $h(X)$ или $h(f)$ определяется как ^[2]^: 243

$h(X)=\operatorname {E} [-\log(f(X))]=-\int _{\mathcal {X}}f(x)\log f(x)\,dx$

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля : $Q(p)$ , затем $h(Q)$ можно определить через производную $Q(p)$ т.е. функция плотности квантиля $Q'(p)$ как ^[3]^: 54–59

h(Q)=\int _{0}^{1}\log Q'(p)\,dp

.

Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия , определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения. $X$ . ^[4]^{: 183–184} Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию log(1000) больше, чем такая же величина, деленная на 1000.

Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение ${\mathcal {U}}(0,1/2)$ имеет отрицательную дифференциальную энтропию; т. е. он лучше упорядочен, чем ${\mathcal {U}}(0,1)$ как показано сейчас

\int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)\,

быть меньше, чем у ${\mathcal {U}}(0,1)$ который имеет нулевую дифференциальную энтропию. Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.

Непрерывная взаимная информация $I(X;Y)$ поскольку фактически является пределом дискретной взаимной информации разделов отличается тем, что сохраняет свое фундаментальное значение как мера дискретной информации , $X$ и $Y$ поскольку эти перегородки становятся все тоньше и тоньше. Таким образом, оно инвариантно относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), ^[5] в том числе линейный ^[6] трансформации $X$ и $Y$ , и по-прежнему представляет собой количество дискретной информации, которая может быть передана по каналу, допускающему непрерывное пространство значений.

Чтобы узнать о прямом аналоге дискретной энтропии, расширенном на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства дифференциальной энтропии

Для плотностей вероятности $f$ и $g$ , расхождение Кульбака–Лейблера $D_{KL}(f\parallel g)$ больше или равно 0 с равенством только в том случае, если $f=g$ почти везде . Аналогично для двух случайных величин $X$ и $Y$ , $I(X;Y)\geq 0$ и $h(X\mid Y)\leq h(X)$ с равенством тогда и только тогда, когда $X$ и $Y$ независимы .
Цепное правило для дифференциальной энтропии выполняется так же, как и в дискретном случае. ^[2]^: 253

h(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}h(X_{i}\mid X_{1},\ldots ,X_{i-1})\leq \sum _{i=1}^{n}h(X_{i})

.

Дифференциальная энтропия является трансляционным инвариантом, т.е. для константы $c$ . ^[2]^: 253

h(X+c)=h(X)

Дифференциальная энтропия, вообще говоря, не инвариантна относительно произвольных обратимых отображений.

В частности, для постоянной

a

h(aX)=h(X)+\log |a|

Для векторной случайной величины

\mathbf {X}

и обратимая (квадратная) матрица

\mathbf {A}

h(\mathbf {A} \mathbf {X} )=h(\mathbf {X} )+\log \left(|\det \mathbf {A} |\right)

^[2]^: 253

В общем случае для преобразования случайного вектора в другой случайный вектор той же размерности $\mathbf {Y} =m\left(\mathbf {X} \right)$ , соответствующие энтропии связаны соотношением

h(\mathbf {Y} )\leq h(\mathbf {X} )+\int f(x)\log \left\vert {\frac {\partial m}{\partial x}}\right\vert \,dx

где

\left\vert {\frac {\partial m}{\partial x}}\right\vert

является якобианом преобразования

m

. ^[7] Приведенное выше неравенство становится равенством, если преобразование является биекцией. Кроме того, когда

m

представляет собой жесткое вращение, перемещение или их комбинацию, определитель Якобиана всегда равен 1, и

h(Y)=h(X)

.

Если случайный вектор $X\in \mathbb {R} ^{n}$ имеет нулевое среднее и ковариационную матрицу $K$ , $h(\mathbf {X} )\leq {\frac {1}{2}}\log(\det {2\pi eK})={\frac {1}{2}}\log[(2\pi e)^{n}\det {K}]$ с равенством тогда и только тогда, когда $X$ является совместно гауссовским (см. ниже ). ^[2]^: 254

Однако дифференциальная энтропия не обладает другими желательными свойствами:

Он не инвариантен при изменении переменных и поэтому наиболее полезен при работе с безразмерными переменными.
Оно может быть отрицательным.

Модификацией дифференциальной энтропии, которая устраняет эти недостатки, является относительная информационная энтропия , также известная как дивергенция Кульбака – Лейблера, которая включает инвариантный коэффициент меры (см. предельную плотность дискретных точек ).

Максимизация в нормальном распределении [ править ]

Теорема [ править ]

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссова случайная величина имеет наибольшую энтропию среди всех случайных величин с равной дисперсией или, альтернативно, максимальное распределение энтропии при ограничениях среднего значения и дисперсии является гауссовым. ^[2]^: 255

Доказательство [ править ]

Позволять $g(x)$ быть гауссовой PDF со средним значением µ и дисперсией $\sigma ^{2}$ и $f(x)$ произвольный PDF-файл с той же дисперсией. Поскольку дифференциальная энтропия трансляционно-инвариантна, мы можем предположить, что $f(x)$ имеет то же самое значение $\mu$ как $g(x)$ .

Рассмотрим расхождение Кульбака – Лейблера между двумя распределениями.

0\leq D_{KL}(f\parallel g)=\int _{-\infty }^{\infty }f(x)\log \left({\frac {f(x)}{g(x)}}\right)\,dx=-h(f)-\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx.

Теперь обратите внимание, что

{\begin{aligned}\int _{-\infty }^{\infty }f(x)\log(g(x))\,dx&=\int _{-\infty }^{\infty }f(x)\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\right)\,dx\\&=\int _{-\infty }^{\infty }f(x)\log {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}dx\,+\,\log(e)\int _{-\infty }^{\infty }f(x)\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\,dx\\&=-{\tfrac {1}{2}}\log(2\pi \sigma ^{2})-\log(e){\frac {\sigma ^{2}}{2\sigma ^{2}}}\\&=-{\tfrac {1}{2}}\left(\log(2\pi \sigma ^{2})+\log(e)\right)\\&=-{\tfrac {1}{2}}\log(2\pi e\sigma ^{2})\\&=-h(g)\end{aligned}}

потому что результат не зависит от $f(x)$ кроме как через дисперсию. Объединение двух результатов дает

h(g)-h(f)\geq 0\!

с равенством, когда $f(x)=g(x)$ следующее из свойств расходимости Кульбака–Лейблера.

Альтернативное доказательство [ править ]

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

L=\int _{-\infty }^{\infty }g(x)\ln(g(x))\,dx-\lambda _{0}\left(1-\int _{-\infty }^{\infty }g(x)\,dx\right)-\lambda \left(\sigma ^{2}-\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)

где g(x) — некоторая функция со средним µ. Когда энтропия g(x) максимальна и уравнения ограничений, состоящие из условия нормировки $\left(1=\int _{-\infty }^{\infty }g(x)\,dx\right)$ и требование фиксированной дисперсии $\left(\sigma ^{2}=\int _{-\infty }^{\infty }g(x)(x-\mu )^{2}\,dx\right)$ , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю:

0=\delta L=\int _{-\infty }^{\infty }\delta g(x)\left(\ln(g(x))+1+\lambda _{0}+\lambda (x-\mu )^{2}\right)\,dx

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

g(x)=e^{-\lambda _{0}-1-\lambda (x-\mu )^{2}}

Использование уравнений ограничений для решения λ ₀ и λ дает нормальное распределение:

g(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Пример: Экспоненциальное распределение [ править ]

Позволять $X$ быть экспоненциально распределенной случайной величиной с параметром $\lambda$ , то есть с функцией плотности вероятности

f(x)=\lambda e^{-\lambda x}{\mbox{ for }}x\geq 0.

Тогда его дифференциальная энтропия равна

$h_{e}(X)\,$	$=-\int _{0}^{\infty }\lambda e^{-\lambda x}\log(\lambda e^{-\lambda x})\,dx$
	$=-\left(\int _{0}^{\infty }(\log \lambda )\lambda e^{-\lambda x}\,dx+\int _{0}^{\infty }(-\lambda x)\lambda e^{-\lambda x}\,dx\right)$
	$=-\log \lambda \int _{0}^{\infty }f(x)\,dx+\lambda E[X]$
	$=-\log \lambda +1\,.$

Здесь, $h_{e}(X)$ использовался, а не $h(X)$ чтобы было ясно, что логарифм был взят по основанию e , чтобы упростить расчет.

Связь с ошибкой оценщика [ править ]

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины $X$ и оценщик ${\widehat {X}}$ имеет место следующее: ^[2]

\operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}

с равенством тогда и только тогда, когда $X$ является гауссовой случайной величиной и ${\widehat {X}}$ это среднее значение $X$ .

энтропия для различных распределений Дифференциальная

В таблице ниже $\Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt$ это гамма-функция , $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}$ это дигамма-функция , $B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}$ — бета-функция , а γ _E — константа Эйлера . ^[8]^{: 219–230}

Таблица дифференциальной энтропии
Название дистрибутива	Функция плотности вероятности (pdf)	Дифференциальная энтропия в натс	Поддерживать
Униформа	$f(x)={\frac {1}{b-a}}$	$\ln(b-a)\,$	$[a,b]\,$
Нормальный	$f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\ln \left(\sigma {\sqrt {2\,\pi \,e}}\right)$	$(-\infty ,\infty )\,$
Экспоненциальный	$f(x)=\lambda \exp \left(-\lambda x\right)$	$1-\ln \lambda \,$	$[0,\infty )\,$
Рэлей	$f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)$	$1+\ln {\frac {\sigma }{\sqrt {2}}}+{\frac {\gamma _{E}}{2}}$	$[0,\infty )\,$
Бета	$f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{B(\alpha ,\beta )}}$ для $0\leq x\leq 1$	$\ln B(\alpha ,\beta )-(\alpha -1)[\psi (\alpha )-\psi (\alpha +\beta )]\,$ $-(\beta -1)[\psi (\beta )-\psi (\alpha +\beta )]\,$	$[0,1]\,$
Коши	$f(x)={\frac {\gamma }{\pi }}{\frac {1}{\gamma ^{2}+x^{2}}}$	$\ln(4\pi \gamma )\,$	$(-\infty ,\infty )\,$
Тратить	$f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)$	$\ln {\frac {\Gamma (k/2)}{\sqrt {2}}}-{\frac {k-1}{2}}\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}$	$[0,\infty )\,$
Хи-квадрат	$f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)$	$\ln 2\Gamma \left({\frac {k}{2}}\right)-\left(1-{\frac {k}{2}}\right)\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}$	$[0,\infty )\,$
Эрланг	$f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)$	$(1-k)\psi (k)+\ln {\frac {\Gamma (k)}{\lambda }}+k$	$[0,\infty )\,$
Ф	$f(x)={\frac {n_{1}^{\frac {n_{1}}{2}}n_{2}^{\frac {n_{2}}{2}}}{B({\frac {n_{1}}{2}},{\frac {n_{2}}{2}})}}{\frac {x^{{\frac {n_{1}}{2}}-1}}{(n_{2}+n_{1}x)^{\frac {n_{1}+n2}{2}}}}$	$\ln {\frac {n_{1}}{n_{2}}}B\left({\frac {n_{1}}{2}},{\frac {n_{2}}{2}}\right)+\left(1-{\frac {n_{1}}{2}}\right)\psi \left({\frac {n_{1}}{2}}\right)-$ $\left(1+{\frac {n_{2}}{2}}\right)\psi \left({\frac {n_{2}}{2}}\right)+{\frac {n_{1}+n_{2}}{2}}\psi \left({\frac {n_{1}\!+\!n_{2}}{2}}\right)$	$[0,\infty )\,$
Гамма	$f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}$	$\ln(\theta \Gamma (k))+(1-k)\psi (k)+k\,$	$[0,\infty )\,$
Лаплас	$f(x)={\frac {1}{2b}}\exp \left(-{\frac {\|x-\mu \|}{b}}\right)$	$1+\ln(2b)\,$	$(-\infty ,\infty )\,$
Логистика	$f(x)={\frac {e^{-x/s}}{s(1+e^{-x/s})^{2}}}$	$\ln s+2\,$	$(-\infty ,\infty )\,$
Логнормальный	$f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\mu +{\frac {1}{2}}\ln(2\pi e\sigma ^{2})$	$[0,\infty )\,$
Максвелл – Больцман	$f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)$	$\ln(a{\sqrt {2\pi }})+\gamma _{E}-{\frac {1}{2}}$	$[0,\infty )\,$
Генерализованная норма	$f(x)={\frac {2\beta ^{\frac {\alpha }{2}}}{\Gamma ({\frac {\alpha }{2}})}}x^{\alpha -1}\exp(-\beta x^{2})$	$\ln {\frac {\Gamma (\alpha /2)}{2\beta ^{\frac {1}{2}}}}-{\frac {\alpha -1}{2}}\psi \left({\frac {\alpha }{2}}\right)+{\frac {\alpha }{2}}$	$(-\infty ,\infty )\,$
Парето	$f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}$	$\ln {\frac {x_{m}}{\alpha }}+1+{\frac {1}{\alpha }}$	$[x_{m},\infty )\,$
Студенческая т	$f(x)={\frac {(1+x^{2}/\nu )^{-{\frac {\nu +1}{2}}}}{{\sqrt {\nu }}B({\frac {1}{2}},{\frac {\nu }{2}})}}$	${\frac {\nu \!+\!1}{2}}\left(\psi \left({\frac {\nu \!+\!1}{2}}\right)\!-\!\psi \left({\frac {\nu }{2}}\right)\right)\!+\!\ln {\sqrt {\nu }}B\left({\frac {1}{2}},{\frac {\nu }{2}}\right)$	$(-\infty ,\infty )\,$
Треугольный	$f(x)={\begin{cases}{\frac {2(x-a)}{(b-a)(c-a)}}&\mathrm {for\ } a\leq x\leq c,\\[4pt]{\frac {2(b-x)}{(b-a)(b-c)}}&\mathrm {for\ } c<x\leq b,\\[4pt]\end{cases}}$	${\frac {1}{2}}+\ln {\frac {b-a}{2}}$	$[a,b]\,$
Вейбулл	$f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)$	${\frac {(k-1)\gamma _{E}}{k}}+\ln {\frac {\lambda }{k}}+1$	$[0,\infty )\,$
Многомерный нормальный	$f_{X}({\vec {x}})=$ ${\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left\|\Sigma \right\|^{1/2}}}$	${\frac {1}{2}}\ln\{(2\pi e)^{N}\det(\Sigma )\}$	$\mathbb {R} ^{N}$

Многие из дифференциальных энтропий происходят от. ^[9]^{: 120–122}

Варианты [ править ]

Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также оно не инвариантно относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей. ^[10]^{: 181–218}

Модификация дифференциальной энтропии добавляет инвариантный измерительный коэффициент, чтобы исправить это (см. Предельную плотность дискретных точек ). Если $m(x)$ Кроме того, ограничено плотностью вероятности, результирующее понятие называется относительной энтропией в теории информации :

D(p\parallel m)=\int p(x)\log {\frac {p(x)}{m(x)}}\,dx.

Определение дифференциальной энтропии, приведенное выше, можно получить путем разделения диапазона $X$ в контейнеры длины $h$ с соответствующими точками отбора проб $ih$ внутри бункеров, для $X$ Интегрируемая по Риману. Это дает квантованную версию $X$ , определяемый $X_{h}=ih$ если $ih\leq X\leq (i+1)h$ . Тогда энтропия $X_{h}=ih$ является ^[2]

H_{h}=-\sum _{i}hf(ih)\log(f(ih))-\sum hf(ih)\log(h).

Первый член справа аппроксимирует дифференциальную энтропию, а второй член примерно $-\log(h)$ . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть равна $\infty$ .

См. также [ править ]

Ссылки [ править ]

^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).
^ Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Обложка, Томас М.; Томас, Джой А. (1991). Элементы теории информации . Нью-Йорк: Уайли. ISBN 0-471-06259-6 .
^ Васичек, Олдрич (1976), «Тест на нормальность, основанный на выборочной энтропии», Журнал Королевского статистического общества, серия B , 38 (1): 54–59, doi : 10.1111/j.2517-6161.1976.tb01566.x , JSTOR 2984828 .
^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Сыновья Чарльза Скрибнера.
^ Красков, Александр; Стёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Физический обзор E . 60 (6): 066138. arXiv : cond-mat/0305641 . Бибкод : 2004PhRvE..69f6138K . дои : 10.1103/PhysRevE.69.066138 . ПМИД 15244698 . S2CID 1269438 .
^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации . Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2 .
^ «доказательство верхней оценки дифференциальной энтропии f ( X )» . Обмен стеками . 16 апреля 2016 г.
^ Пак, Сон Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . 150 (2). Эльзевир: 219–230. doi : 10.1016/j.jeconom.2008.12.014 . Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г.
^ Лазо, А. и П. Рэти (1978). «Об энтропии непрерывных вероятностных распределений». Транзакции IEEE по теории информации . 24 (1): 120–122. дои : 10.1109/TIT.1978.1055832 .
^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).

Внешние ссылки [ править ]

[1] Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).

[cover_thomas-2] Jump up to: Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Обложка, Томас М.; Томас, Джой А. (1991). Элементы теории информации . Нью-Йорк: Уайли. ISBN 0-471-06259-6 .

[3] Васичек, Олдрич (1976), «Тест на нормальность, основанный на выборочной энтропии», Журнал Королевского статистического общества, серия B , 38 (1): 54–59, doi : 10.1111/j.2517-6161.1976.tb01566.x , JSTOR 2984828 .

[gibbs-4] Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Сыновья Чарльза Скрибнера.

[5] Красков, Александр; Стёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Физический обзор E . 60 (6): 066138. arXiv : cond-mat/0305641 . Бибкод : 2004PhRvE..69f6138K . дои : 10.1103/PhysRevE.69.066138 . ПМИД 15244698 . S2CID 1269438 .

[Reza-6] Фазлолла М. Реза (1994) [1961]. Введение в теорию информации . Dover Publications, Inc., Нью-Йорк. ISBN 0-486-68210-2 .

[7] «доказательство верхней оценки дифференциальной энтропии f ( X )» . Обмен стеками . 16 апреля 2016 г.

[8] Пак, Сон Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . 150 (2). Эльзевир: 219–230. doi : 10.1016/j.jeconom.2008.12.014 . Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г.

[lazorathie-9] Лазо, А. и П. Рэти (1978). «Об энтропии непрерывных вероятностных распределений». Транзакции IEEE по теории информации . 24 (1): 120–122. дои : 10.1109/TIT.1978.1055832 .

[10] Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]