Дифференциальная энтропия

Из Википедии, бесплатной энциклопедии

Дифференциальная энтропия (также называемая непрерывной энтропией ) — это концепция теории информации , которая возникла как попытка Клода Шеннона распространить идею энтропии (Шеннона) — меры среднего (сюрприза) случайной величины — на непрерывные распределения вероятностей. . К сожалению, Шеннон не вывел эту формулу, а просто предположил, что это правильный непрерывный аналог дискретной энтропии, но это не так. [1] : 181–218  Фактическая непрерывная версия дискретной энтропии — это предельная плотность дискретных точек (LDDP). Дифференциальная энтропия (описанная здесь) часто встречается в литературе, но это предельный случай LDDP, который теряет свою фундаментальную связь с дискретной энтропией .

С точки зрения теории меры , дифференциальная энтропия вероятностной меры — это отрицательная относительная энтропия от этой меры до меры Лебега , причем последняя рассматривается так, как если бы она была вероятностной мерой, несмотря на то, что она ненормирована.

Определение [ править ]

Позволять быть случайной величиной с функцией плотности вероятности которого поддержка представляет собой множество . Дифференциальная энтропия или определяется как [2] : 243 

Для распределений вероятностей, которые не имеют явного выражения функции плотности, но имеют явное выражение функции квантиля : , затем можно определить через производную т.е. функция плотности квантиля как [3] : 54–59 

.

Как и в случае с его дискретным аналогом, единицы дифференциальной энтропии зависят от основания логарифма , которое обычно равно 2 (т. е. единицами являются биты ). См. логарифмические единицы для логарифмов, взятых в разных основаниях. Связанные понятия, такие как совместная , условная дифференциальная энтропия и относительная энтропия, определяются аналогичным образом. В отличие от дискретного аналога, дифференциальная энтропия имеет смещение, которое зависит от единиц измерения. . [4] : 183–184  Например, дифференциальная энтропия величины, измеренной в миллиметрах, будет на log(1000) больше, чем такая же величина, измеренная в метрах; безразмерная величина будет иметь дифференциальную энтропию log(1000) больше, чем такая же величина, деленная на 1000.

Следует проявлять осторожность, пытаясь применить свойства дискретной энтропии к дифференциальной энтропии, поскольку функции плотности вероятности могут быть больше 1. Например, равномерное распределение имеет отрицательную дифференциальную энтропию; т. е. он лучше упорядочен, чем как показано сейчас

быть меньше, чем у который имеет нулевую дифференциальную энтропию. Таким образом, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии.

Непрерывная взаимная информация отличается тем, что сохраняет свое фундаментальное значение как мера дискретной информации, поскольку фактически является пределом дискретной взаимной разделов информации и поскольку эти перегородки становятся все тоньше и тоньше. Таким образом, оно инвариантно относительно нелинейных гомеоморфизмов (непрерывных и однозначно обратимых отображений), [5] в том числе линейный [6] трансформации и , и по-прежнему представляет собой количество дискретной информации, которая может быть передана по каналу, допускающему непрерывное пространство значений.

Чтобы узнать о прямом аналоге дискретной энтропии, расширенном на непрерывное пространство, см. предельную плотность дискретных точек .

Свойства энтропии дифференциальной

  • Для плотностей вероятности и , расхождение Кульбака–Лейблера больше или равно 0 с равенством только в том случае, если почти везде . Аналогично для двух случайных величин и , и с равенством тогда и только тогда, когда и независимы .
  • Цепное правило для дифференциальной энтропии выполняется так же, как и в дискретном случае. [2] : 253 
.
  • Дифференциальная энтропия является трансляционным инвариантом, т. е. для константы . [2] : 253 
  • Дифференциальная энтропия, вообще говоря, не инвариантна относительно произвольных обратимых отображений.
В частности, для постоянной
Для векторной случайной величины и обратимая (квадратная) матрица
[2] : 253 
  • В общем случае для преобразования случайного вектора в другой случайный вектор той же размерности , соответствующие энтропии связаны соотношением
где является якобианом преобразования . [7] Приведенное выше неравенство становится равенством, если преобразование является биекцией. Кроме того, когда представляет собой жесткое вращение, перемещение или их комбинацию, определитель Якобиана всегда равен 1, и .
  • Если случайный вектор имеет нулевое среднее и ковариационную матрицу , с равенством тогда и только тогда, когда является совместно гауссовским (см. ниже ). [2] : 254 

Однако дифференциальная энтропия не обладает другими желательными свойствами:

  • Он не инвариантен при изменении переменных и поэтому наиболее полезен при работе с безразмерными переменными.
  • Оно может быть отрицательным.

Модификацией дифференциальной энтропии, устраняющей эти недостатки, является относительная информационная энтропия , также известная как дивергенция Кульбака – Лейблера, которая включает в себя инвариантный коэффициент меры (см. предельную плотность дискретных точек ).

Максимизация в нормальном распределении [ править ]

Теорема [ править ]

При нормальном распределении дифференциальная энтропия максимизируется для заданной дисперсии. Гауссова случайная величина имеет наибольшую энтропию среди всех случайных величин с равной дисперсией или, альтернативно, максимальное распределение энтропии при ограничениях среднего значения и дисперсии является гауссовым. [2] : 255 

Доказательство [ править ]

Позволять быть гауссовой PDF со средним значением µ и дисперсией и произвольный PDF-файл с той же дисперсией. Поскольку дифференциальная энтропия является трансляционно-инвариантной, мы можем предположить, что имеет то же самое значение как .

Рассмотрим расхождение Кульбака – Лейблера между двумя распределениями.

Теперь обратите внимание, что

потому что результат не зависит от кроме как через дисперсию. Объединение двух результатов дает

с равенством, когда следующее из свойств расходимости Кульбака–Лейблера.

Альтернативное доказательство [ править ]

Этот результат можно также продемонстрировать с помощью вариационного исчисления . Функция Лагранжа с двумя множителями Лагранжа может быть определена как:

где g(x) — некоторая функция со средним µ. Когда энтропия g(x) максимальна и уравнения ограничений, состоящие из условия нормировки и требование фиксированной дисперсии , оба удовлетворены, то небольшое изменение δg ( x ) относительно g ( x ) приведет к изменению δL относительно L , которое равно нулю:

Поскольку это должно выполняться для любого малого δ g ( x ), член в скобках должен быть равен нулю, и решение для g(x) дает:

Использование уравнений ограничений для решения λ 0 и λ дает нормальное распределение:

Пример: Экспоненциальное распределение [ править ]

Позволять быть экспоненциально распределенной случайной величиной с параметром , то есть с функцией плотности вероятности

Тогда его дифференциальная энтропия равна

Здесь, использовался, а не чтобы было ясно, что логарифм был взят по основанию e , чтобы упростить расчет.

Связь с ошибкой оценщика [ править ]

Дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщика . Для любой случайной величины и оценщик имеет место следующее: [2]

с равенством тогда и только тогда, когда является гауссовой случайной величиной и это среднее значение .

Дифференциальная энтропия различных для распределений

В таблице ниже это гамма-функция , это дигамма-функция , бета-функция , а γ E константа Эйлера . [8] : 219–230 

Таблица дифференциальной энтропии
Название дистрибутива Функция плотности вероятности (pdf) Дифференциальная энтропия в натс Поддерживать
Униформа
Нормальный
Экспоненциальный
Рэлей
Бета для
Коши
Тратить
Хи-квадрат
Эрланг
Ф
Гамма
Лаплас
Логистика
Логнормальный
Максвелл – Больцман
Генерализованная норма
Парето
Студенческая т
Треугольный
Вейбулл
Многомерный нормальный

Многие из дифференциальных энтропий происходят от. [9] : 120–122 

Варианты [ править ]

Как описано выше, дифференциальная энтропия не обладает всеми свойствами дискретной энтропии. Например, дифференциальная энтропия может быть отрицательной; также оно не инвариантно относительно непрерывных преобразований координат. Эдвин Томпсон Джейнс фактически показал, что приведенное выше выражение не является правильным пределом выражения для конечного набора вероятностей. [10] : 181–218 

Модификация дифференциальной энтропии добавляет инвариантный измерительный коэффициент, чтобы исправить это (см. Предельную плотность дискретных точек ). Если Кроме того, ограничено плотностью вероятности, результирующее понятие называется относительной энтропией в теории информации :

Определение дифференциальной энтропии, приведенное выше, можно получить путем разделения диапазона в контейнеры длины с соответствующими точками отбора проб внутри бункеров, для Интегрируемая по Риману. Это дает квантованную версию , определяется если . Тогда энтропия является [2]

Первый член справа аппроксимирует дифференциальную энтропию, а второй член примерно . Обратите внимание, что эта процедура предполагает, что энтропия в дискретном смысле непрерывной случайной величины должна быть равна .

См. также [ править ]

Ссылки [ править ]

  1. ^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).
  2. ^ Перейти обратно: а б с д Это ж г час Обложка, Томас М.; Томас, Джой А. (1991). Элементы теории информации . Нью-Йорк: Уайли. ISBN  0-471-06259-6 .
  3. ^ Васичек, Олдрич (1976), «Тест на нормальность, основанный на выборочной энтропии», Журнал Королевского статистического общества, серия B , 38 (1): 54–59, doi : 10.1111/j.2517-6161.1976.tb01566.x , JSTOR   2984828 .
  4. ^ Гиббс, Джозайя Уиллард (1902). Элементарные принципы статистической механики, разработанные с особым упором на рациональные основы термодинамики . Нью-Йорк: Сыновья Чарльза Скрибнера.
  5. ^ Красков, Александр; Стёгбауэр, Грассбергер (2004). «Оценка взаимной информации». Физический обзор E . 60 (6): 066138. arXiv : cond-mat/0305641 . Бибкод : 2004PhRvE..69f6138K . дои : 10.1103/PhysRevE.69.066138 . ПМИД   15244698 . S2CID   1269438 .
  6. ^ Фазлолла М. Реза (1994) [1961]. Введение в теорию информации . Dover Publications, Inc., Нью-Йорк. ISBN  0-486-68210-2 .
  7. ^ «доказательство верхней оценки дифференциальной энтропии f ( X . Обмен стеками . 16 апреля 2016 г.
  8. ^ Пак, Сон Ю.; Бера, Анил К. (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией» (PDF) . Журнал эконометрики . 150 (2). Эльзевир: 219–230. doi : 10.1016/j.jeconom.2008.12.014 . Архивировано из оригинала (PDF) 7 марта 2016 г. Проверено 2 июня 2011 г.
  9. ^ Лазо, А. и П. Рэти (1978). «Об энтропии непрерывных вероятностных распределений». Транзакции IEEE по теории информации . 24 (1): 120–122. дои : 10.1109/TIT.1978.1055832 .
  10. ^ Джейнс, ET (1963). «Теория информации и статистическая механика» (PDF) . Лекции по теоретической физике в Летнем институте Университета Брандейса . 3 (раздел 4б).

Внешние ссылки [ править ]