Бинарная функция энтропии

В теории информации двоичная функция энтропии , обозначаемая $\operatorname {H} (p)$ или $\operatorname {H} _{\text{b}}(p)$ , определяется как энтропия процесса Бернулли ( iid двоичная переменная ) с вероятностью $p$ одного из двух значений и определяется по формуле:

\operatorname {H} (X)=-p\log p-(1-p)\log(1-p).

Основание логарифма соответствует выбору единиц информации ; основание е соответствует нац и математически удобно, тогда как основание 2 ( двоичный логарифм ) соответствует Шеннонсу и является условным (как показано на графике); явно:

\operatorname {H} (X)=-p\log _{2}p-(1-p)\log _{2}(1-p).

Обратите внимание, что значения 0 и 1 задаются пределом $\textstyle 0\log 0:=\lim _{x\to 0^{+}}x\log x=0$ (по правилу Лопиталя ); и что «двоичный» относится к двум возможным значениям переменной, а не к единицам информации.

Когда $p=1/2$ , двоичная функция энтропии достигает максимального значения, 1 шеннон (1 двоичная единица информации); это случай беспристрастного подбрасывания монеты . Когда $p=0$ или $p=1$ двоичная энтропия равна 0 (в любых единицах измерения), что соответствует отсутствию информации, поскольку в переменной нет неопределенности.

Обозначения

Бинарная энтропия $\operatorname {H} (X)$ является частным случаем $\mathrm {H} (X)$ , функция энтропии . $\operatorname {H} (p)$ отличается от функции энтропии $\mathrm {H} (X)$ одно действительное число, в том, что первый принимает в качестве параметра тогда как второй принимает в качестве параметра распределение или случайную величину. Таким образом, двоичная энтропия ( p ) — это энтропия распределения $\operatorname {Ber} (p)$ , так $\operatorname {H} (p)=\mathrm {H} (\operatorname {Ber} (p))$ .

Записывая вероятность того, что каждое из двух значений будет p и q , так $p+q=1$ и $q=1-p$ , это соответствует

\operatorname {H} (X)=-p\log p-(1-p)\log(1-p)=-p\log p-q\log q=-\sum _{x\in X}\operatorname {Pr} (X=x)\cdot \log \operatorname {Pr} (X=x)=\mathrm {H} (\operatorname {Ber} (p)).

Иногда функцию двоичной энтропии также записывают как $\operatorname {H} _{2}(p)$ . Однако она отличается от энтропии Реньи и ее не следует путать с ней , которая обозначается как $\mathrm {H} _{2}(X)$ .

Объяснение

С точки зрения теории информации, энтропия считается мерой неопределенности сообщения. Интуитивно говоря, предположим, $p=0$ . При этой вероятности событие наверняка никогда не произойдет, и поэтому неопределенности вообще нет, что приводит к энтропии, равной 0. Если $p=1$ , результат снова очевиден, поэтому энтропия здесь также равна 0. Когда $p=1/2$ , неопределенность максимальна; если в этом случае сделать честную ставку на исход, то нельзя получить никакого преимущества, зная заранее вероятности. В этом случае энтропия максимальна при значении 1 бит. Промежуточные значения находятся между этими случаями; например, если $p=1/4$ , все еще существует определенная степень неопределенности в отношении результата, но чаще всего результат можно предсказать правильно, поэтому мера неопределенности, или энтропия, составляет менее 1 полного бита.

Характеристики

Производная

Производная может быть двоичной функции энтропии выражена как отрицательное значение логит- функции:

{d \over dp}\operatorname {H} _{\text{b}}(p)=-\operatorname {logit} _{2}(p)=-\log _{2}\left({\frac {p}{1-p}}\right)

.

{d^{2} \over dp^{2}}\operatorname {H} _{\text{b}}(p)=-{\frac {1}{p(1-p)\ln 2}}

Выпуклое сопряжение

Выпуклое сопряжение (в частности, преобразование Лежандра ) двоичной энтропии (с основанием e ) является отрицательной функцией softplus . Это связано с тем, что (согласно определению преобразования Лежандра: производные являются обратными функциями) производная отрицательной двоичной энтропии — это логит, обратной функцией которого является логистическая функция , которая является производной softplus.

Softplus можно интерпретировать как логистические потери , поэтому по двойственности минимизация логистических потерь соответствует максимизации энтропии. Это оправдывает принцип максимальной энтропии как минимизации потерь.