Расхождение Кульбака – Лейблера
В математической статистике Кульбака -Лейблера ( KL ) дивергенция (также называемая относительной энтропией и I-дивергенцией) [1] ), обозначенный , — это тип статистического расстояния : мера того, насколько одно вероятностей P отличается от второго, эталонного распределения вероятностей Q. распределение [2] [3] Математически это определяется как
Простая интерпретация KL-расхождения P и Q — это ожидаемое избыточное удивление от использования Q в качестве модели вместо P когда фактическое распределение равно P. , Хотя это мера того, насколько различны два распределения, и, таким образом, в некотором смысле является «расстоянием», на самом деле это не метрика , которая является наиболее знакомым и формальным типом расстояния. В частности, оно не симметрично в двух распределениях (в отличие от изменения информации ) и не удовлетворяет неравенству треугольника . Напротив, с точки зрения информационной геометрии , это своего рода дивергенция . [4] обобщение квадрата расстояния , и для определенных классов распределений (особенно экспоненциального семейства ) оно удовлетворяет обобщенной теореме Пифагора (которая применяется к квадратам расстояний). [5]
Относительная энтропия всегда представляет собой неотрицательное действительное число со значением 0 тогда и только тогда, когда два рассматриваемых распределения идентичны. Он имеет разнообразные приложения, как теоретические, такие как характеристика относительной (Шенноновской) энтропии в информационных системах, случайности в непрерывных временных рядах , так и прирост информации при сравнении статистических моделей вывода ; и практические, такие как прикладная статистика, механика жидкости , нейробиология , биоинформатика и машинное обучение .
Введение и контекст
[ редактировать ]Рассмотрим два распределения P и Q. вероятностей Обычно P представляет данные, наблюдения или измеренное распределение вероятностей. Вместо этого распределение Q представляет собой теорию, модель, описание или приближение P . Расхождение Кульбака – Лейблера затем интерпретируется как средняя разница количества битов, необходимых для кодирования выборок P с использованием кода, оптимизированного для Q, а не кода, оптимизированного P. для Обратите внимание, что роли P и Q можно поменять местами в некоторых ситуациях, когда это легче вычислить, например, с помощью алгоритма максимизации ожидания (EM) и вычислений нижней границы доказательств (ELBO) .
Этимология
[ редактировать ]Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в работе Kullback & Leibler (1951) как «средняя информация для различения между и за наблюдение от ", [6] где сравниваются две вероятностные меры , и — это гипотезы, которые выбираются из меры (соответственно). Они обозначали это и определил «расхождение» между и " как симметризованная величина , который уже был определен и использован Гарольдом Джеффрисом в 1948 году. [7] У Кульбака (1959) симметризованная форма снова называется «дивергенцией», а относительные энтропии в каждом направлении называются «направленными дивергенциями» между двумя распределениями; [8] Кульбак предпочитал термин «дискриминационная информация» . [9] Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. [10] Многочисленные ссылки на более раннее использование симметризованной дивергенции и других статистических расстояний даны у Кульбака (1959 , стр. 6–7, §1.3 Дивергенция). Асимметричная «направленная дивергенция» стала известна как дивергенция Кульбака – Лейблера, а симметризованная «дивергенция» теперь называется дивергенцией Джеффриса .
Определение
[ редактировать ]Для дискретных распределений вероятностей P и Q, определенных в одном и том же выборочном пространстве , относительная энтропия от Q до P определяется [11] быть
что эквивалентно
Другими словами, это математическое ожидание логарифмической разницы между вероятностями P и Q , где ожидание берется с использованием P. вероятностей
Относительная энтропия определяется таким образом только в том случае, если для x всех подразумевает ( абсолютная непрерывность ). В противном случае его часто определяют как , [1] но ценность возможно, даже если повсюду, [12] [13] при условии, что бесконечна по протяженности. Аналогичные комментарии применимы к случаям непрерывной и общей меры, определенным ниже.
В любое время равен нулю, вклад соответствующего члена интерпретируется как ноль, поскольку
Для распределений P и Q непрерывной случайной величины относительная энтропия определяется как интеграл [14]
где p и q обозначают вероятности P и Q. плотности
В более общем смысле, если P и Q являются вероятностными мерами в измеримом пространстве и P относительно абсолютно непрерывен Q , то относительная энтропия от Q до P определяется как
где является производной Радона–Никодима P Q по , т . е. единственной Q, определенной почти всюду функцией r на такой, что которое существует потому, что P абсолютно непрерывен относительно Q . Также мы предполагаем, что выражение в правой части существует. Эквивалентно (по правилу цепочки ) это можно записать как
является энтропией P относительно Q. что Продолжая в этом случае, если является ли какая-либо мера по для которых плотности p и q с и существуют (это означает, что P и Q абсолютно непрерывны относительно ), то относительная энтропия от Q до P определяется как
Отметим, что такая мера для которого можно определить плотности, всегда существует, поскольку можно взять хотя на практике это обычно будет то, что в контексте, например, считающая мера для дискретных распределений, или мера Лебега или ее удобный вариант, такой как мера Гаусса или равномерная мера на сфере , мера Хаара на группе Ли и т. д. для непрерывных распределений. Логарифмы в этих формулах обычно принимаются по основанию 2, если информация измеряется в битах , или по основанию е , если информация измеряется в нац . Большинство формул, включающих относительную энтропию, справедливы независимо от основания логарифма.
Существуют различные соглашения для обозначения словами. Часто это называют расхождением между P и Q , но это не может передать фундаментальную асимметрию в отношениях. Иногда, как в этой статье, это можно описать как расхождение P от Q расхождение от Q до P. или как Это отражает байесовского вывода , начинается предшествующего Q и P. обновляется до апостериорного асимметрию с который Еще один распространенный способ обращения к это относительная энтропия P по отношению к Q или прирост информации от P над Q .
Базовый пример
[ редактировать ]Кульбак [3] приводит следующий пример (табл. 2.1, пример 2.1). Пусть P и Q — распределения, показанные в таблице и на рисунке. P — распределение в левой части рисунка, биномиальное распределение с и . Q — распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами. 0 , 1 , 2 (т.е. ), каждый с вероятностью .
х | 0 | 1 | 2 |
---|---|---|---|
Распределение | |||
Распределение |
Относительная энтропия и рассчитываются следующим образом. В этом примере используется натуральный журнал с основанием e , обозначенным ln, для получения результатов в nats (см. единицы измерения ):
Интерпретации
[ редактировать ]Статистика
[ редактировать ]В области статистики лемма Неймана-Пирсона гласит, что наиболее эффективный способ отличить два распределения P и Q на основе наблюдения Y (взятого из одного из них) — это логарифм отношения их правдоподобий: . Дивергенция KL — это ожидаемое значение этой статистики, если фактически получено из P. Y Кульбак мотивировал эту статистику ожидаемым логарифмическим отношением правдоподобия. [15]
Кодирование
[ редактировать ]В контексте теории кодирования может быть построен путем измерения ожидаемого количества дополнительных битов, необходимых для кодирования выборок из P с использованием кода, оптимизированного для , а не кода, оптимизированного для P. Q
Вывод
[ редактировать ]В контексте машинного обучения , часто называют информационным выигрышем , достигнутым, если будет использоваться P. вместо Q , который используется в настоящее время, называется относительной энтропией P Q. по отношению к По аналогии с теорией информации это
Выражаясь на языке байесовского вывода , является мерой информации, полученной путем пересмотра своих убеждений от распределения вероятностей Q до апостериорного распределения вероятностей P. априорного Другими словами, это количество информации, теряемой при аппроксимации Q для P. использовании [16]
Информационная геометрия
[ редактировать ]В приложениях P обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, тогда как представляет собой теорию, модель, описание или приближение P. Q обычно Чтобы найти распределение Q , наиболее близкое к P , мы можем минимизировать расхождение KL и вычислить информационную проекцию .
Хотя это статистическое расстояние , это не метрика , наиболее известный тип расстояния, а скорее расхождение . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем не равно , а асимметрия является важной частью геометрии. [4] Бесконечно малая форма относительной энтропии, в частности ее гессиан , дает метрический тензор , равный информационной метрике Фишера ; см. § Информационная метрика Фишера . Относительная энтропия удовлетворяет обобщенной теореме Пифагора для экспоненциальных семейств (геометрически интерпретируемых как дуально плоские многообразия ), и это позволяет минимизировать относительную энтропию геометрическими средствами, например, с помощью информационной проекции и оценки максимального правдоподобия . [5]
Относительная энтропия — это дивергенция Брегмана, порожденная отрицательной энтропией, но она также имеет форму f -дивергенции . Для вероятностей в конечном алфавите он уникален тем, что принадлежит к обоим этим классам статистических расхождений .
Финансы (теория игр)
[ редактировать ]Рассмотрим инвестора, оптимизирующего рост, в честной игре с взаимоисключающими результатами. (например, «скачки», в которых сумма официальных коэффициентов равна единице).Норма прибыли, ожидаемая таким инвестором, равна относительной энтропии. между предполагаемыми инвесторами вероятностями и официальными шансами. [17] Это частный случай гораздо более общей связи между финансовой доходностью и показателями дивергенции. [18]
Финансовые риски связаны с через информационную геометрию. [19] Взгляды инвесторов, преобладающая точка зрения на рынке и рискованные сценарии образуют треугольники на соответствующем многообразии распределений вероятностей. Форма треугольников определяет ключевые финансовые риски (как качественно, так и количественно). Например, тупые треугольники, в которых взгляды инвесторов и сценарии риска появляются на «противоположных сторонах» относительно рынка, описывают отрицательные риски, острые треугольники описывают положительную подверженность, а прямоугольная ситуация в середине соответствует нулевому риску.
Мотивация
[ редактировать ]В теории информации теорема Крафта-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования сообщения для идентификации одного значения из набора возможностей X можно рассматривать как представляющее неявное распределение вероятностей над X , где длина кода для в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на единицу данных, которая должна быть передана, если код, оптимальный для данного (неправильного) распределения Q используется , по сравнению с использованием кода, основанного на истинном распределении P : это избыточная энтропия.
где - перекрестная энтропия P Q и и , - это энтропия P . (которая равна перекрестной энтропии P с самим собой)
Относительная энтропия геометрически можно рассматривать как статистическое расстояние , меру того, насколько далеко распределение находится от распределения P. Q Геометрически это дивергенция : асимметричная, обобщенная форма квадрата расстояния. Перекрестная энтропия само по себе является таким измерением (формально функцией потерь ), но его нельзя мыслить как расстояние, поскольку не равен нулю. Это можно исправить, вычитая сделать более точно согласуются с нашим понятием расстояния как избыточной потери. Результирующая функция асимметрична, и хотя ее можно симметрично (см. § Симметризованная дивергенция ), асимметричная форма более полезна. см. в § Интерпретации Дополнительную информацию о геометрической интерпретации .
Относительная энтропия относится к « функции скорости » в теории больших уклонений . [20] [21]
Артур Хобсон доказал, что относительная энтропия является единственной мерой различия между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . [22] Следовательно, взаимная информация является единственной мерой взаимной зависимости, подчиняющейся определенным связанным условиям, поскольку ее можно определить в терминах дивергенции Кульбака – Лейблера .
Характеристики
[ редактировать ]- Относительная энтропия всегда неотрицательна . результат, известный как неравенство Гиббса , с равно нулю тогда и только тогда, когда как меры.
В частности, если и , затем - почти везде . Энтропия таким образом устанавливает минимальное значение перекрестной энтропии , ожидаемое количество битов , необходимое при использовании кода, основанного на Q, а не на P ; и поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать для идентификации значения x, из X , если используется код, соответствующий распределению вероятностей Q , а не «истинному» распределению P. полученного
- Для общего случая верхней границы не существует. Однако показано, что если P и Q — два дискретных распределения вероятностей, построенные путем распределения одной и той же дискретной величины, то максимальное значение можно рассчитать. [23]
- Относительная энтропия остается четко определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразований параметров . Например, если производится преобразование переменной x в переменную , тогда, поскольку и где является абсолютным значением производной или, в более общем смысле, якобиана , относительную энтропию можно переписать: где и . Хотя предполагалось, что трансформация была непрерывной, это не обязательно так. Это также показывает, что относительная энтропия производит размерно согласованную величину, поскольку, если x является размерной переменной, и также имеют размеры, поскольку, например, является безразмерным. Аргумент логарифмического члена был и остается безразмерным, как и должно быть. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства теории информации. [24] (например, самоинформация или энтропия Шеннона ), которая может стать неопределенной или отрицательной для недискретных вероятностей.
- Относительная энтропия является аддитивной для независимых распределений во многом так же, как энтропия Шеннона. Если являются независимыми дистрибутивами, и , и аналогично для независимых дистрибутивов затем
- Относительная энтропия является выпуклой относительно пары вероятностных мер , то есть если и две пары вероятностных мер, тогда
- может быть расширено Тейлором относительно своего минимума (т.е. ) как которая сходится тогда и только тогда, когда почти наверняка .
Формула двойственности для вариационного вывода
[ редактировать ]Следующий результат, полученный Донскером и Варадханом: [25] известна как вариационная формула Донскера и Варадхана .
Теорема [Формула двойственности для вариационного вывода] — Пусть быть набором, наделенным соответствующим -поле и две вероятностные меры P и Q , которые формулируют два вероятностных пространства и , с . ( указывает на то, что Q абсолютно непрерывен относительно P. ) Пусть h — вещественная интегрируемая случайная величина на . Тогда имеет место равенство
Далее, верхняя грань в правой части достигается тогда и только тогда, когда выполняется
почти наверняка относительно вероятностной меры P , где обозначает производную Радона-Никодима Q по P .
Для краткого доказательства, предполагающего интегрируемость относительно P пусть иметь P -плотность , то есть Затем
Поэтому,
где последнее неравенство следует из , для которого равенство имеет место тогда и только тогда, когда . Вывод следующий.
Альтернативное доказательство с использованием теории меры см. [26]
Примеры
[ редактировать ]Многомерные нормальные распределения
[ редактировать ]Предположим, что у нас есть два многомерных нормальных распределения со средними значениями и с (несингулярными) ковариационными матрицами Если два распределения имеют одинаковую размерность k , то относительная энтропия между распределениями выглядит следующим образом: [27]
Логарифм e в последнем члене необходимо брать по основанию e, поскольку все члены, кроме последнего, являются логарифмами по основанию выражений , которые либо являются множителями функции плотности, либо возникают естественным образом иным образом. Таким образом, уравнение дает результат, измеряемый в натс . Разделив все выражение выше на дает расхождение в битах .
В численной реализации полезно выразить результат через разложения Холецкого. такой, что и . Тогда с M и y решениями треугольных линейных систем , и ,
Особым случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным распределением и стандартным нормальным распределением (с нулевым средним значением и единичной дисперсией):
Для двух одномерных нормальных распределений p и q приведенное выше упрощается до [28]
В случае соцентрированных нормальных распределений с , это упрощает [29] к:
Равномерные распределения
[ редактировать ]Рассмотрим два равномерных распределения с поддержкой заключенный внутри ( ). Тогда прирост информации составит:
Интуитивно, [29] Прирост информации в k раз уже при равномерном распределении содержит биты. Это связано с использованием битов в вычислительной технике, где битов потребуются для идентификации одного элемента длинного потока k .
Связь с метриками
[ редактировать ]Хотя относительная энтропия — это статистическое расстояние , она не является метрикой пространства вероятностных распределений, а представляет собой дивергенцию . [4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения в целом асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем не равно , и хотя это можно симметризировать (см. § Симметризованная дивергенция ), асимметрия является важной частью геометрии. [4]
Он генерирует топологию в пространстве вероятностных распределений . Более конкретно, если представляет собой последовательность распределений такую, что
- ,
тогда говорят, что
- .
Неравенство Пинскера означает, что
- ,
где последнее означает обычную сходимость в полной вариации .
Информационная метрика Фишера
[ редактировать ]Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно выразить следующим образом. Предположим, что распределения вероятностей P и Q параметризованы некоторым (возможно, многомерным) параметром. . Рассмотрим тогда два близких значения и так что параметр лишь незначительно отличается от значения параметра . В частности, до первого порядка (используя соглашение о суммировании Эйнштейна )
с небольшое изменение в направлении j , и соответствующую скорость изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 для , то есть , оно меняется только до второго порядка по малым параметрам . Более формально, как и для любого минимума, первые производные дивергенции обращаются в нуль.
и по разложению Тейлора имеем до второго порядка
где матрица Гессе дивергенции
должно быть положительно полуопределенным . Сдача в аренду варьировать (и отбрасывая субиндекс 0) гессиан определяет (возможно, вырожденную) риманову метрику в пространстве параметров θ , называемую информационной метрикой Фишера.
Теорема Фишера об информационной метрике
[ редактировать ]Когда удовлетворяет следующим условиям регулярности:
- существовать,
где ξ не зависит от ρ
затем:
Изменение информации
[ редактировать ]Другой теоретико-информационный показатель — это изменение информации , которое примерно представляет собой симметризацию условной энтропии . Это метрика множества разбиений дискретного вероятностного пространства .
Связь с другими величинами теории информации
[ редактировать ]Многие другие величины теории информации можно интерпретировать как применение относительной энтропии к конкретным случаям.
Самоинформация
[ редактировать ]Самоинформация , , также известная как информационное содержание сигнала, случайной величины или события определяется как отрицательный логарифм вероятности наступления данного результата.
Применительно к дискретной случайной величине самоинформацию можно представить как [ нужна ссылка ]
- относительная энтропия распределения вероятностей из дельты Кронекера, представляющей уверенность в том, что — т.е. количество дополнительных битов, которые необходимо передать для идентификации i, если только распределение вероятностей доступен получателю, не факт, что .
Взаимная информация
[ редактировать ]Взаимная информация ,
- относительная энтропия совместного распределения вероятностей из продукта из двух предельных распределений вероятностей — т.е. ожидаемое количество дополнительных битов, которые необходимо передать для идентификации X и Y , если они закодированы с использованием только их предельных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность известно , это ожидаемое количество дополнительных битов, которые в среднем необходимо отправить для идентификации Y, если значение X еще не известно получателю.
Энтропия Шеннона
[ редактировать ]Шеннона Энтропия ,
- это количество битов, которое необходимо передать, чтобы идентифицировать из N равновероятных возможностей, за вычетом относительной энтропии равномерного распределения случайных величин X X , , от истинного распределения - т.е. меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение X было закодировано в соответствии с равномерным распределением. а не истинное распределение . Это определение энтропии Шеннона лежит в основе альтернативного обобщения Э. Т. Джейнса на непрерывные распределения, предельной плотности дискретных точек (в отличие от обычной дифференциальной энтропии ), которое определяет непрерывную энтропию как
что эквивалентно:
Условная энтропия
[ редактировать ]- это количество битов, которое необходимо было бы передать, чтобы идентифицировать X из N равновероятных возможностей, за вычетом относительной энтропии распределения продукта. от истинного совместного распределения - т.е. меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение X было закодировано в соответствии с равномерным распределением. а не условное распределение из X условии Y. при
Перекрестная энтропия
[ редактировать ]Когда у нас есть набор возможных событий, поступающих из распределения p , мы можем закодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . При этом данные сжимаются путем замены каждого входного символа фиксированной длины соответствующим уникальным кодом переменной длины без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) могут быть закодированы как биты (0, 10, 11)). Если мы заранее знаем распределение p , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем наименьшую длину (при условии, что закодированные события выбраны из p ), которая будет равна Шеннона энтропии p (обозначается как ). Однако если мы используем другое распределение вероятностей ( q ) при создании схемы энтропийного кодирования, то большее количество битов для идентификации события из набора возможностей будет использовано (в среднем). Это новое (большое) число измеряется перекрестной энтропией между p и q .
Перекрестная энтропия между двумя распределениями вероятностей ( p и q ) измеряет среднее количество битов, необходимых для идентификации события из набора возможностей, если используется схема кодирования, основанная на заданном распределении вероятностей q , а не на «истинном» распределении. п . Таким образом, перекрестная энтропия для двух распределений p и q в одном и том же вероятностном пространстве определяется следующим образом.
Подробную информацию об этом см. в разделе «Мотивация» выше.
В этом сценарии относительные энтропии (kl-дивергенция) можно интерпретировать как дополнительное количество битов, в среднем, которое необходимо (помимо ) для кодирования событий из-за использования q для построения схемы кодирования вместо p .
Байесовское обновление
[ редактировать ]В байесовской статистике относительная энтропия может использоваться как мера прироста информации при переходе от априорного распределения к апостериорному : . Если какой-то новый факт обнаружен, его можно использовать для обновления апостериорного распределения X от к новому апостериорному распределению используя теорему Байеса :
Это распределение имеет новую энтропию :
которая может быть меньше или больше исходной энтропии . Однако с точки зрения нового распределения вероятностей можно оценить, что для использования исходного кода, основанного на вместо нового кода на основе добавил бы ожидаемое количество бит:
к длине сообщения. Таким образом, это представляет собой количество полезной информации или прироста информации о X , который был получен путем открытия .
Если дальнейший фрагмент данных, , то распределение вероятностей для x может быть дополнительно обновлено, чтобы дать новое наилучшее предположение . Если кто-то повторно исследует получение информации от использования скорее, чем , оказывается, что оно может быть как больше, так и меньше ранее оцененного:
- может быть ≤ или > чем
и поэтому совокупный прирост информации не подчиняется неравенству треугольника:
- может быть <, = или > чем
Все, что можно сказать, это то, что в среднем при использовании , обе стороны усредняются.
Байесовский экспериментальный план
[ редактировать ]Общая цель байесовского экспериментального плана — максимизировать ожидаемую относительную энтропию между априорным и апостериорным. [31] Когда апостериорные данные аппроксимируются гауссовскими распределениями, схема, максимизирующая ожидаемую относительную энтропию, называется байесовским d-оптимальным .
Информация о дискриминации
[ редактировать ]Относительная энтропия также можно интерпретировать как ожидаемую информацию о дискриминации для над : средняя информация на выборку для различения в пользу гипотезы. против гипотезы , когда гипотеза это правда. [32] Другое название этой величины, данное ей И. Дж. Гудом , — «ожидаемая масса свидетельств» над следует ожидать от каждого образца.
Ожидаемый вес доказательств в пользу над не то же самое, что ожидаемый прирост информации о распределении вероятностей для каждой выборки гипотез,
Любую из двух величин можно использовать в качестве функции полезности в байесовском плане эксперимента, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приведут к довольно разным экспериментальным стратегиям.
По шкале энтропии информационного выигрыша разница между почти достоверностью и абсолютной достоверностью очень мала — кодирование в соответствии с почти достоверностью требует едва ли больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весомыми доказательствами, разница между ними огромна – возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку у вас есть математическое доказательство. эти две разные шкалы функции потерь для неопределенности Обе полезны в зависимости от того, насколько хорошо каждая из них отражает конкретные обстоятельства рассматриваемой проблемы.
Принцип минимальной дискриминационной информации
[ редактировать ]Идея относительной энтропии как информации о различении привела Кульбака к предложению принципа Минимальная информация о дискриминации ( MDI ): учитывая новые факты, следует выбрать новое распределение f , которое так же сложно отличить от исходного распределения. насколько это возможно; так, чтобы новые данные приносили как можно меньше информационного прироста насколько это возможно.
Например, если у вас уже был предыдущий дистрибутив над x и a , и впоследствии узнал, что истинное распределение a было , то относительная энтропия между новым совместным распределением x и a , , а более раннее предварительное распределение будет:
т.е. сумма относительной энтропии предыдущий дистрибутив из обновленного дистрибутива плюс ожидаемое значение (с использованием распределения вероятностей ) относительной энтропии предварительного условного распределения из нового условного распределения . (Обратите внимание, что часто более позднее ожидаемое значение называют условной относительной энтропией (или условной дивергенцией Кульбака – Лейблера ) и обозначают [3] [30] ) Это минимизируется, если за всю поддержку ; и отметим, что этот результат включает в себя теорему Байеса, если новое распределение на самом деле это δ-функция, представляющая уверенность в том, что a имеет одно конкретное значение.
MDI можно рассматривать как расширение Лапласа принципа недостаточного основания и принципа максимальной энтропии Джейнса Э. Т. . В частности, это естественное расширение принципа максимальной энтропии с дискретных распределений на непрерывные, для которых энтропия Шеннона перестает быть столь полезной (см. дифференциальная энтропия ), но относительная энтропия продолжает оставаться столь же актуальной.
В инженерной литературе MDI иногда называют принципом минимальной перекрестной энтропии (MCE) или Minxent сокращенно . Минимизация относительной энтропии от m до p по отношению к m эквивалентна минимизации перекрестной энтропии p и m , поскольку
что подходит, если кто-то пытается выбрать адекватное приближение к p . Однако зачастую это не та задача, которую пытаются достичь. Вместо этого так же часто m является некоторой фиксированной априорной эталонной мерой, а p пытаются оптимизировать путем минимизации подчиняется некоторым ограничениям. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, переопределяя перекрестную энтропию как , скорее, чем [ нужна ссылка ] .
Отношение к доступной работе
[ редактировать ]Сюрпризы [33] добавьте туда, где вероятности умножаются. Сюрприз для события с вероятностью p определяется как . Если к тогда сюрприз nats, биты или так что, например, существует N битов неожиданности, если при броске N монет выпадут все «орлы».
Состояния наилучшего предположения (например, для атомов в газе) выводятся путем максимизации среднего значения неожиданности S ( энтропии ) для заданного набора управляющих параметров (например, давления P или объема V ). Эта ограниченная максимизация энтропии , как классически, так и [34] и квантовомеханически, [35] минимизирует доступность Гиббса в единицах энтропии [36] где Z — ограниченная кратность или статистическая сумма .
Когда температура T фиксирована, свободная энергия ( ) также сведено к минимуму. Таким образом, если и число молекул N постоянны, свободная энергия Гельмгольца (где U — энергия, а S — энтропия) минимизируется по мере «уравновешивания» системы. Если T и P остаются постоянными (скажем, во время процессов в вашем теле), свободная энергия Гиббса вместо этого сводится к минимуму. Изменение свободной энергии в этих условиях является мерой доступной работы , которую можно совершить в этом процессе. Таким образом, доступная работа для идеального газа при постоянной температуре и давление является где и (см. также неравенство Гиббса ).
В более общем плане [37] работа , доступная относительно некоторой окружающей среды, получается путем умножения температуры окружающей среды относительной энтропией или чистым сюрпризом определяется как среднее значение где - вероятность данного состояния в условиях окружающей среды. Например, работа, доступная по приведению одноатомного идеального газа в равновесие с окружающими значениями и таким образом , где относительная энтропия
Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, налагают ограничения на преобразование горячего в холодное, как в системах кондиционирования воздуха с пламенным двигателем или в устройствах без питания для преобразования температуры кипения. вода в ледяную воду обсуждается здесь. [38] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.
Квантовая теория информации
[ редактировать ]Для матриц плотности P и Q в гильбертовом пространстве квантовая относительная энтропия от Q до P определяется как
В квантовой информатике минимум по всем сепарабельным состояниям Q использоваться как мера запутанности в состоянии P. также может
Связь между моделями и реальностью
[ редактировать ]Точно так же, как относительная энтропия «реальности от окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности от модели» также полезна, даже если единственными подсказками, которые мы имеем о реальности, являются некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) количество доступной работы , тогда как во втором случае она говорит вам о сюрпризах, которые реальность приготовила в рукаве или, другими словами, насколько модель еще предстоит научиться .
Хотя этот инструмент для оценки моделей по сравнению с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях. [39] и книга [40] Бернэм и Андерсон. Короче говоря, относительная энтропия реальности из модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора одной из моделей.
При попытке подогнать параметризованные модели к данным существуют различные средства оценки, которые пытаются минимизировать относительную энтропию, например, средства оценки максимального правдоподобия и максимального интервала . [ нужна ссылка ]
Симметризованная дивергенция
[ редактировать ]Кульбак и Лейблер (1951) также рассмотрел симметричную функцию: [6]
которое они называли «дивергенцией», хотя сегодня «дивергенция KL» относится к асимметричной функции (см. § Этимологию эволюции этого термина). Эта функция симметрична и неотрицательна и уже была определена и использована Гарольдом Джеффрисом в 1948 году; [7] соответственно, это называется дивергенцией Джеффриса .
Эту величину иногда использовали для выбора признаков в задачах классификации , где P и Q — условные PDF-файлы признака двух разных классов. В банковской и финансовой отраслях эта величина называется Индексом стабильности населения ( PSI ) и используется для оценки изменений распределения характеристик модели во времени.
Альтернатива предоставляется через -расхождение,
который можно интерпретировать как ожидаемый прирост информации о X от выяснения того, какое распределение вероятностей X взято, P или Q , если у них в настоящее время есть вероятности. и соответственно. [ нужны разъяснения ] [ нужна ссылка ]
Значение дает расхождение Дженсена-Шеннона , определяемое формулой
где M — среднее значение двух распределений,
Мы также можем интерпретировать как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные P и Q. распределения Дивергенция Дженсена-Шеннона, как и все f -дивергенции, локально пропорциональна информационной метрике Фишера . Она похожа на метрику Хеллингера (в том смысле, что она индуцирует ту же аффинную связность на статистическом многообразии ).
Более того, расхождение Дженсена-Шеннона можно обобщить с помощью абстрактных статистических М-смесей, опираясь на абстрактное среднее значение М. [41] [42]
Связь с другими мерами вероятностного расстояния
[ редактировать ]Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:
- Расстояние полной вариации , . Это связано с расхождением через неравенство Пинскера : Неравенство Пинскера бессмысленно для любых распределений, где , поскольку общее расстояние вариации не превосходит 1 . Для таких распределений можно использовать альтернативную оценку, предложенную Бретаньоллем и Хубером. [43] (см. также Цыбаков [44] ):
- Семейство расходимостей Реньи обобщает относительную энтропию. В зависимости от значения определенного параметра, , можно вывести различные неравенства.
Другие известные меры расстояния включают расстояние Хеллингера , пересечение гистограммы , статистику Хи-квадрат , расстояние квадратичной формы , расстояние совпадения , расстояние Колмогорова-Смирнова и расстояние землеройного машины . [45]
Различие данных
[ редактировать ]Точно так же, как абсолютная энтропия служит теоретической основой для данных сжатия , относительная энтропия служит теоретической основой для данных различения : абсолютная энтропия набора данных в этом смысле представляет собой данные, необходимые для его восстановления (минимальный сжатый размер), а относительная энтропия целевого набора данных с учетом исходного набора данных — это данные, необходимые для восстановления цели с учетом источника (минимальный размер исправления ) .
См. также
[ редактировать ]- Информационный критерий Акаике
- Байесовский информационный критерий
- Дивергенция Брегмана
- Перекрестная энтропия
- Информационный критерий отклонения
- Энтропийное значение под угрозой
- Неравенство энтропийной мощности
- Расстояние Хеллингера
- Получение информации в деревьях решений
- Коэффициент получения информации
- Теория информации и теория меры
- Расхождение Дженсена-Шеннона
- Квантовая относительная энтропия
- Соломон Кульбак и Ричард Лейблер
Ссылки
[ редактировать ]- ^ Jump up to: а б Чисар, I (февраль 1975 г.). «I-дивергентная геометрия вероятностных распределений и задачи минимизации» . Энн. Вероятно . 3 (1): 146–158. дои : 10.1214/aop/1176996454 .
- ^ Кульбак, С. ; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR 2236703 . МР 0039968 .
- ^ Jump up to: а б с Кульбак 1959 год .
- ^ Jump up to: а б с д и Амари 2016 , с. 11.
- ^ Jump up to: а б Амари 2016 , с. 28
- ^ Jump up to: а б Кульбак и Лейблер 1951 , с. 80.
- ^ Jump up to: а б Джеффрис 1948 , с. 158.
- ^ Кульбак 1959 , с. 7.
- ^ Кульбак, С. (1987). «Письмо в редакцию: расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. дои : 10.1080/00031305.1987.10475510 . JSTOR 2684769 .
- ^ Кульбак 1959 , с. 6.
- ^ Маккей, Дэвид Дж. К. (2003). Теория информации, вывод и алгоритмы обучения (1-е изд.). Издательство Кембриджского университета. п. 34. ISBN 9780521642989 – через Google Книги.
- ^ «Каково максимальное значение расхождения Кульбака-Лейблера (KL)?» . Машинное обучение. Обмен стеками статистики (stats.stackexchange.com) . Перекрестная проверка.
- ^ «В каких ситуациях интеграл равен бесконечности?» . Интеграция. Обмен стеками математики (math.stackexchange.com) .
- ^ Бишоп, Кристофер М. Распознавание образов и машинное обучение . п. 55. OCLC 1334664824 .
- ^ Кульбак 1959 , с. 5.
- ^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Спрингер. п. 51 . ISBN 9780387953649 .
- ^ Келли, Дж. Л. младший (1956). «Новая интерпретация скорости информации». Белл Сист. Тех. Дж . 2 (4): 917–926. дои : 10.1002/j.1538-7305.1956.tb03809.x .
- ^ Соклаков, АН (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи» . Энтропия . 22 (8): 860. arXiv : 1811.08308 . Бибкод : 2020Entrp..22..860S . дои : 10.3390/e22080860 . ПМЦ 7517462 . ПМИД 33286632 .
- ^ Соклаков, АН (2023). «Информационная геометрия рисков и доходности». Риск . Июнь . ССНН 4134885 .
- ^ Санов И. Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.
- ^ Новак С.Ю. (2011), Методы экстремальных значений с применением в финансах, гл. 14.5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 .
- ^ Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405 .
- ^ Бонничи, В. (2020). «Расхождение Кульбака-Лейблера между квантовыми распределениями и его верхняя граница». arXiv : 2008.05932 [ cs.LG ].
- ^ См. раздел «Дифференциальная энтропия - 4» в «Относительная энтропия видеолекции Серджио Верду NIPS », 2009 г.
- ^ Донскер, Монро Д.; Варадхан, С.Р. Шриниваса (1983). «Асимптотическая оценка некоторых ожиданий марковского процесса на большом времени. IV». Сообщения по чистой и прикладной математике . 36 (2): 183–212. дои : 10.1002/cpa.3160360204 .
- ^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214 . S2CID 220935477 .
- ^ Дучи Дж. «Выводы для линейной алгебры и оптимизации» (PDF) . п. 13.
- ^ Белов Дмитрий Иванович; Армстронг, Рональд Д. (15 апреля 2011 г.). «Распределения расходимости Кульбака-Лейблера с приложениями» . Британский журнал математической и статистической психологии . 64 (2): 291–309. дои : 10.1348/000711010x522227 . ISSN 0007-1102 . ПМИД 21492134 .
- ^ Jump up to: а б Бюхнер, Йоханнес (29 апреля 2022 г.). Интуиция для физиков: получение информации в результате экспериментов . OCLC 1363563215 .
- ^ Jump up to: а б Обложка, Томас М.; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons , с. 22
- ^ Чалонер, К.; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. дои : 10.1214/ss/1177009939 . hdl : 11299/199630 .
- ^ Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Численные рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .
- ^ Трибус, Мирон (1959). Термостатика и термодинамика: введение в энергию, информацию и состояния материи с инженерными приложениями . Ван Ностранд.
- ^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Бибкод : 1957PhRv..106..620J . дои : 10.1103/physrev.106.620 . S2CID 17870175 .
- ^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Бибкод : 1957PhRv..108..171J . дои : 10.1103/physrev.108.171 .
- ^ Гиббс, Джозия Уиллард (1871). Метод геометрического представления термодинамических свойств веществ с помощью поверхностей . Академия. сноска на стр. 52.
- ^ Трибус, М.; МакИрвин, EC (1971). «Энергия и информация». Научный американец . 224 (3): 179–186. Бибкод : 1971SciAm.225c.179T . doi : 10.1038/scientificamerican0971-179 .
- ^ Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Бибкод : 2008Cmplx..13c..18F . дои : 10.1002/cplx.20195 . S2CID 20794688 . Архивировано из оригинала 13 августа 2011 г.
- ^ Бернхэм, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для сильных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. дои : 10.1071/WR99107 .
- ^ Бернэм, Кеннет П. (декабрь 2010 г.). Выбор модели и многомодельный вывод: практический теоретико-информационный подход . Спрингер. ISBN 978-1-4419-2973-0 . OCLC 878132909 .
- ^ Нильсен, Франк (2019). «О симметризации расстояний Дженсена-Шеннона, основанной на абстрактных средствах» . Энтропия . 21 (5): 485. arXiv : 1904.04017 . Бибкод : 2019Entrp..21..485N . дои : 10.3390/e21050485 . ПМЦ 7514974 . ПМИД 33267199 .
- ^ Нильсен, Франк (2020). «Об обобщении дивергенции Дженсена-Шеннона и центроида Дженсена-Шеннона» . Энтропия . 22 (2): 221. arXiv : 1912.00610 . Бибкод : 2020Entrp..22..221N . дои : 10.3390/e22020221 . ПМЦ 7516653 . ПМИД 33285995 .
- ^ Бретаньолле, Ж.; Хубер, К. (1978), «Оценка плотностей: минимаксный риск», Семинар по вероятностям XII , Конспекты лекций по математике (на французском языке), том. 649, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 342–363, номер домена : 10.1007/bfb0064610 , ISBN. 978-3-540-08761-8 , S2CID 122597694 , получено 14 февраля 2023 г. Лемма 2.1
- ^ Б.), Цыбаков А.Б. (Александр (2010). Введение в непараметрическое оценивание . Springer. ISBN 978-1-4419-2709-5 . OCLC 757859245 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) Уравнение 2.25. - ^ Рубнер, Ю.; Томази, К.; Гибас, ЖЖ (2000). «Расстояние землеройной машины как показатель для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. дои : 10.1023/A:1026543900054 . S2CID 14106275 .
- Амари, Сюн-ичи (2016). Информационная геометрия и ее приложения . Прикладные математические науки. Том. 194. Спрингер Япония. стр. XIII, 374. doi : 10.1007/978-4-431-55978-8 . ISBN 978-4-431-55977-1 .
- Кульбак, Соломон (1959), Теория информации и статистика , John Wiley & Sons . Переиздано Dover Publications в 1968 году; перепечатано в 1978 г.: ISBN 0-8446-5625-9 .
- Джеффрис, Гарольд (1948). Теория вероятностей (второе изд.). Издательство Оксфордского университета.
Внешние ссылки
[ редактировать ]- Набор инструментов для теоретических информационных оценок
- Рубиновый камень для расчета дивергенции Кульбака – Лейблера
- Учебник Джона Шленса по дивергенции Кульбака – Лейблера и теории правдоподобия
- Код Matlab для расчета расходимости Кульбака – Лейблера для дискретных распределений
- Серджио Верду , Относительная энтропия , NIPS 2009. Часовая видеолекция.
- Современное краткое изложение мер информационной дивергенции