Бинарная функция энтропии

В теории информации двоичная функция энтропии , обозначаемая или , определяется как энтропия процесса Бернулли ( iid двоичная переменная ) с вероятностью одного из двух значений и определяется по формуле:
Основание логарифма соответствует выбору единиц информации ; основание е соответствует нац и математически удобно, тогда как основание 2 ( двоичный логарифм ) соответствует Шеннонсу и является условным (как показано на графике); явно:
Обратите внимание, что значения 0 и 1 задаются пределом (по правилу Лопиталя ); и что «двоичный» относится к двум возможным значениям переменной, а не к единицам информации.
Когда , двоичная функция энтропии достигает максимального значения, 1 шеннон (1 двоичная единица информации); это случай беспристрастного подбрасывания монеты . Когда или двоичная энтропия равна 0 (в любых единицах измерения), что соответствует отсутствию информации, поскольку в переменной нет неопределенности.
Обозначения
[ редактировать ]Бинарная энтропия является частным случаем , функция энтропии . отличается от функции энтропии одно действительное число, в том, что первый принимает в качестве параметра тогда как второй принимает в качестве параметра распределение или случайную величину. Таким образом, двоичная энтропия ( p ) — это энтропия распределения , так .
Записывая вероятность того, что каждое из двух значений будет p и q , так и , это соответствует
Иногда функцию двоичной энтропии также записывают как . Однако она отличается от энтропии Реньи и ее не следует путать с ней , которая обозначается как .
Объяснение
[ редактировать ]С точки зрения теории информации, энтропия считается мерой неопределенности сообщения. Интуитивно говоря, предположим, . При этой вероятности событие наверняка никогда не произойдет, и поэтому неопределенности вообще нет, что приводит к энтропии, равной 0. Если , результат снова очевиден, поэтому энтропия здесь также равна 0. Когда , неопределенность максимальна; если в этом случае сделать честную ставку на исход, то нельзя получить никакого преимущества, зная заранее вероятности. В этом случае энтропия максимальна при значении 1 бит. Промежуточные значения находятся между этими случаями; например, если , все еще существует определенная степень неопределенности в отношении результата, но чаще всего результат можно предсказать правильно, поэтому мера неопределенности, или энтропия, составляет менее 1 полного бита.
Характеристики
[ редактировать ]Производная
[ редактировать ]Производная может быть двоичной функции энтропии выражена как отрицательное значение логит- функции:
- .
Выпуклое сопряжение
[ редактировать ]Выпуклое сопряжение (в частности, преобразование Лежандра ) двоичной энтропии (с основанием e ) является отрицательной функцией softplus . Это связано с тем, что (согласно определению преобразования Лежандра: производные являются обратными функциями) производная отрицательной двоичной энтропии — это логит, обратной функцией которого является логистическая функция , которая является производной softplus.
Softplus можно интерпретировать как логистические потери , поэтому по двойственности минимизация логистических потерь соответствует максимизации энтропии. Это оправдывает принцип максимальной энтропии как минимизации потерь.
Серия Тейлора
[ редактировать ]Ряд Тейлора бинарной функции энтропии в 1/2 равен
которая сходится к бинарной функции энтропии для всех значений .
Границы
[ редактировать ]Для : [1]
и
где обозначает натуральный логарифм.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Топсе, Флемминг (2001). «Границы энтропии и дивергенции для распределений по двухэлементному множеству» . ДЖИПАМ. Журнал неравенств в чистой и прикладной математике . 2 (2): Бумага №25, 13 стр.-Бумага №25, 13 стр.
Дальнейшее чтение
[ редактировать ]- Маккей, Дэвид Дж. К. Теория информации, вывод и алгоритмы обучения. Кембридж: Издательство Кембриджского университета, 2003. ISBN 0-521-64298-1