Расхождение Кульбака – Лейблера

В математической статистике Кульбака -Лейблера ( KL ) дивергенция (также называемая относительной энтропией и I-дивергенцией) ^[1]), обозначенный $D_{\text{KL}}(P\parallel Q)$ , — это тип статистического расстояния : мера того, насколько одно вероятностей $P$ отличается от второго, эталонного распределения вероятностей $Q.$ распределение ^[2]^[3] Математически это определяется как

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right).

Простая интерпретация KL-расхождения $P$ и $Q$ — это ожидаемое избыточное удивление от использования $Q$ в качестве модели вместо $P$ когда фактическое распределение равно $P.$ , Хотя это мера того, насколько различны два распределения, и, таким образом, в некотором смысле является «расстоянием», на самом деле это не метрика , которая является наиболее знакомым и формальным типом расстояния. В частности, оно не симметрично в двух распределениях (в отличие от изменения информации ) и не удовлетворяет неравенству треугольника . Вместо этого, с точки зрения информационной геометрии , это своего рода дивергенция . ^[4] обобщение квадрата расстояния , и для определенных классов распределений (особенно экспоненциального семейства ) оно удовлетворяет обобщенной теореме Пифагора (которая применяется к квадратам расстояний). ^[5]

Относительная энтропия всегда представляет собой неотрицательное действительное число со значением 0 тогда и только тогда, когда два рассматриваемых распределения идентичны. Он имеет разнообразные приложения, как теоретические, такие как характеристика относительной (Шенноновской) энтропии в информационных системах, случайности в непрерывных временных рядах , так и прирост информации при сравнении статистических моделей вывода ; и практические, такие как прикладная статистика, механика жидкости , нейробиология , биоинформатика и машинное обучение .

Введение и контекст

Рассмотрим два распределения $P$ и $Q.$ вероятностей Обычно $P$ представляет данные, наблюдения или измеренное распределение вероятностей. Вместо этого распределение $Q$ представляет собой теорию, модель, описание или приближение $P$ . Расхождение Кульбака – Лейблера $D_{\text{KL}}(P\parallel Q)$ затем интерпретируется как средняя разница количества битов, необходимых для кодирования выборок $P$ с использованием кода, оптимизированного для $Q,$ а не кода, оптимизированного $P.$ для Обратите внимание, что роли $P$ и $Q$ можно поменять местами в некоторых ситуациях, когда это легче вычислить, например, с помощью алгоритма максимизации ожидания (EM) и вычислений нижней границы доказательств (ELBO) .

Этимология

Относительная энтропия была введена Соломоном Кульбаком и Ричардом Лейблером в работе Kullback & Leibler (1951) как «средняя информация для различения между $H_{1}$ и $H_{2}$ за наблюдение от $\mu _{1}$ ", ^[6] где сравниваются две вероятностные меры $\mu _{1},\mu _{2}$ , и $H_{1},H_{2}$ — это гипотезы, которые выбираются из меры $\mu _{1},\mu _{2}$ (соответственно). Они обозначали это $I(1:2)$ и определил «расхождение» между $\mu _{1}$ и $\mu _{2}$ " как симметризованная величина $J(1,2)=I(1:2)+I(2:1)$ , который уже был определен и использован Гарольдом Джеффрисом в 1948 году. ^[7] У Кульбака (1959) симметризованная форма снова называется «дивергенцией», а относительные энтропии в каждом направлении называются «направленными дивергенциями» между двумя распределениями; ^[8] Кульбак предпочитал термин «дискриминационная информация» . ^[9] Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. ^[10] Многочисленные ссылки на более раннее использование симметризованной дивергенции и других статистических расстояний даны у Кульбака (1959 , стр. 6–7, §1.3 Дивергенция). Асимметричная «направленная дивергенция» стала известна как дивергенция Кульбака – Лейблера, а симметризованная «дивергенция» теперь называется дивергенцией Джеффриса .

Определение

Для дискретных распределений вероятностей $P$ и $Q,$ определенных в одном и том же выборочном пространстве , $\ {\mathcal {X}}\ ,$ относительная энтропия от $Q$ до $P$ определяется ^[11] быть

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ P(x)\ }{Q(x)}}\right)\ ,

что эквивалентно

D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\ \log \left({\frac {\ Q(x)\ }{P(x)}}\right)~.

Другими словами, это математическое ожидание логарифмической разницы между вероятностями $P$ и $Q$ , где ожидание берется с использованием $P.$ вероятностей

Относительная энтропия определяется таким образом только в том случае, если для $x$ всех $\ Q(x)=0\$ подразумевает $\ P(x)=0\$ ( абсолютная непрерывность ). В противном случае его часто определяют как $+\infty$ , ^[1] но ценность $\ +\infty \$ возможно, даже если $\ Q(x)\neq 0\$ повсюду, ^[12]^[13] при условии, что $\ {\mathcal {X}}\$ бесконечна по протяженности. Аналогичные комментарии применимы к случаям непрерывной и общей меры, определенным ниже.

В любое время $\ P(x)\$ равен нулю, вклад соответствующего члена интерпретируется как ноль, поскольку

\lim _{x\to 0^{+}}x\log(x)=0~.

Для распределений $P$ и $Q$ непрерывной случайной величины относительная энтропия определяется как интеграл ^[14]

D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\ \log \left({\frac {p(x)}{q(x)}}\right)\ \mathrm {d} \ \!x\ ,

где $p$ и $q$ обозначают вероятности P $$ и $Q.$ плотности

В более общем смысле, если $P$ и $Q$ являются вероятностными мерами в измеримом пространстве $\ {\mathcal {X}}\ ,$ и $P$ относительно абсолютно непрерывен Q $,$ то относительная энтропия от $Q$ до $P$ определяется как

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}\ \log \left({\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\right)\ P(\mathrm {d} \ \!x)\ ,

где $\ {\frac {\ P(\mathrm {d} \ \!x)\ }{Q(\mathrm {d} \ \!x)\ }}$ является производной Радона–Никодима P $Q$ по $, т .$ е. единственной $Q,$ определенной почти всюду функцией $r$ на $\ {\mathcal {X}}\$ такой, что $\ P(\mathrm {d} \ \!x)=r(x)Q(\mathrm {d} \ \!x)\$ которое существует потому, что $P$ абсолютно непрерывен относительно $Q$ . Также мы предполагаем, что выражение в правой части существует. Эквивалентно (по правилу цепочки ) это можно записать как

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}{\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\ \log \left({\frac {P(\mathrm {d} \ \!x)}{Q(\mathrm {d} \ \!x)}}\right)\ Q(\mathrm {d} \ \!x)\ ,

является энтропией P $$ относительно $Q.$ что Продолжая в этом случае, если $\mu$ является ли какая-либо мера по ${\mathcal {X}}$ для которых плотности $p$ и $q$ с $\ P(\mathrm {d} \ \!x)=p(x)\mu (\mathrm {d} \ \!x)\$ и $\ Q(\mathrm {d} \ \!x)=q(x)\mu (\mathrm {d} \ \!x)\$ существуют (это означает, что $P$ и $Q$ абсолютно непрерывны относительно $\ \mu \$ ), то относительная энтропия от $Q$ до $P$ определяется как

D_{\text{KL}}(P\parallel Q)=\int _{x\in {\mathcal {X}}}p(x)\ \log \left({\frac {\ p(x)\ }{q(x)}}\right)\ \mu (\mathrm {d} \ \!x)~.

Отметим, что такая мера $\mu$ для которого можно определить плотности, всегда существует, поскольку можно взять $\ \mu ={\frac {1}{2}}\left(P+Q\right)\$ хотя на практике это обычно будет то, что в контексте, например, считающая мера для дискретных распределений, или мера Лебега или ее удобный вариант, такой как мера Гаусса или равномерная мера на сфере , мера Хаара на группе Ли и т. д. для непрерывных распределений. Логарифмы в этих формулах обычно принимаются по основанию 2, если информация измеряется в битах , или по основанию $е$ , если информация измеряется в нац . Большинство формул, включающих относительную энтропию, справедливы независимо от основания логарифма.

Существуют различные соглашения для обозначения $\ D_{\text{KL}}(P\parallel Q)\$ словами. Часто это называют расхождением между $P$ и $Q$ , но это не может передать фундаментальную асимметрию в отношениях. Иногда, как в этой статье, это можно описать как расхождение $P$ от $Q$ расхождение от $Q$ до $P.$ или как Это отражает байесовского вывода , начинается предшествующего Q и $P.$ обновляется до апостериорного асимметрию $с$ который Еще один распространенный способ обращения к $\ D_{\text{KL}}(P\parallel Q)\$ это относительная энтропия $P$ по отношению к $Q$ или прирост информации от $P$ над $Q$ .

Базовый пример

Кульбак ^[3] приводит следующий пример (табл. 2.1, пример 2.1). Пусть $P$ и $Q$ — распределения, показанные в таблице и на рисунке. $P$ — распределение в левой части рисунка, биномиальное распределение с $N=2$ и $p=0.4$ . $Q$ — распределение в правой части рисунка, дискретное равномерное распределение с тремя возможными исходами. $x=$ 0 , 1 , 2 (т.е. ${\mathcal {X}}=\{0,1,2\}$ ), каждый с вероятностью $p=1/3$ .

$х$	0	1	2
Распределение $P(x)$	${\frac {9}{25}}$	${\frac {12}{25}}$	${\frac {4}{25}}$
Распределение $Q(x)$	${\frac {1}{3}}$	${\frac {1}{3}}$	${\frac {1}{3}}$

Относительная энтропия $D_{\text{KL}}(P\parallel Q)$ и $D_{\text{KL}}(Q\parallel P)$ рассчитываются следующим образом. В этом примере используется натуральный журнал с основанием $e$ , обозначенным $ln,$ для получения результатов в nats (см. единицы измерения ):

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}P(x)\ln \left({\frac {P(x)}{Q(x)}}\right)\\&={\frac {9}{25}}\ln \left({\frac {9/25}{1/3}}\right)+{\frac {12}{25}}\ln \left({\frac {12/25}{1/3}}\right)+{\frac {4}{25}}\ln \left({\frac {4/25}{1/3}}\right)\\&={\frac {1}{25}}\left(32\ln(2)+55\ln(3)-50\ln(5)\right)\approx 0.0852996,\end{aligned}}

{\begin{aligned}D_{\text{KL}}(Q\parallel P)&=\sum _{x\in {\mathcal {X}}}Q(x)\ln \left({\frac {Q(x)}{P(x)}}\right)\\&={\frac {1}{3}}\ln \left({\frac {1/3}{9/25}}\right)+{\frac {1}{3}}\ln \left({\frac {1/3}{12/25}}\right)+{\frac {1}{3}}\ln \left({\frac {1/3}{4/25}}\right)\\&={\frac {1}{3}}\left(-4\ln(2)-6\ln(3)+6\ln(5)\right)\approx 0.097455.\end{aligned}}

Интерпретации

Статистика

В области статистики лемма Неймана-Пирсона гласит, что наиболее эффективный способ отличить два распределения $P$ и $Q$ на основе наблюдения $Y$ (взятого из одного из них) — это логарифм отношения их правдоподобий: $\log P(Y)-\log Q(Y)$ . Дивергенция KL — это ожидаемое значение этой статистики, если $фактически$ получено из $P.$ Y Кульбак мотивировал эту статистику ожидаемым логарифмическим отношением правдоподобия. ^[15]

Кодирование

В контексте теории кодирования $D_{\text{KL}}(P\parallel Q)$ может быть построен путем измерения ожидаемого количества дополнительных битов, необходимых для кодирования выборок из $P$ с использованием кода, оптимизированного для $,$ а не кода, оптимизированного для $P.$ Q

Вывод

В контексте машинного обучения , $D_{\text{KL}}(P\parallel Q)$ часто называют информационным выигрышем , достигнутым, если $будет использоваться P.$ вместо $Q$ , который используется в настоящее время, называется относительной энтропией P $Q.$ по отношению к $По аналогии$ с теорией информации это

Выражаясь на языке байесовского вывода , $D_{\text{KL}}(P\parallel Q)$ является мерой информации, полученной путем пересмотра своих убеждений от распределения вероятностей $Q$ до апостериорного распределения вероятностей $P.$ априорного Другими словами, это количество информации, теряемой при $аппроксимации$ Q для $P.$ использовании ^[16]

Информационная геометрия

В приложениях $P$ обычно представляет собой «истинное» распределение данных, наблюдений или точно рассчитанное теоретическое распределение, тогда как $представляет$ собой теорию, модель, описание или приближение P. $Q$ обычно Чтобы найти распределение $Q$ , наиболее близкое к $P$ , мы можем минимизировать расхождение KL и вычислить информационную проекцию .

Хотя это статистическое расстояние , это не метрика , наиболее известный тип расстояния, а скорее расхождение . ^[4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем $D_{\text{KL}}(P\parallel Q)$ не равно $D_{\text{KL}}(Q\parallel P)$ , а асимметрия является важной частью геометрии. ^[4] Бесконечно малая форма относительной энтропии, в частности ее гессиан , дает метрический тензор , равный информационной метрике Фишера ; см. § Информационная метрика Фишера . Относительная энтропия удовлетворяет обобщенной теореме Пифагора для экспоненциальных семейств (геометрически интерпретируемых как дуально плоские многообразия ), и это позволяет минимизировать относительную энтропию геометрическими средствами, например, с помощью информационной проекции и оценки максимального правдоподобия . ^[5]

Относительная энтропия — это дивергенция Брегмана, порожденная отрицательной энтропией, но она также имеет форму $f$ -дивергенции . Для вероятностей в конечном алфавите он уникален тем, что принадлежит к обоим этим классам статистических расхождений .

Финансы (теория игр)

Рассмотрим инвестора, оптимизирующего рост, в честной игре с взаимоисключающими результатами. (например, «скачки», в которых сумма официальных коэффициентов равна единице).Норма прибыли, ожидаемая таким инвестором, равна относительной энтропии. между предполагаемыми инвесторами вероятностями и официальными шансами. ^[17]Это частный случай гораздо более общей связи между финансовой доходностью и показателями дивергенции. ^[18]

Финансовые риски связаны с $D_{\text{KL}}$ через информационную геометрию. ^[19] Взгляды инвесторов, преобладающие взгляды на рынок и рискованные сценарии образуют треугольники на соответствующем многообразии распределений вероятностей. Форма треугольников определяет ключевые финансовые риски (как качественно, так и количественно). Например, тупые треугольники, в которых взгляды инвесторов и сценарии риска появляются на «противоположных сторонах» относительно рынка, описывают отрицательные риски, острые треугольники описывают положительную подверженность, а прямоугольная ситуация в середине соответствует нулевому риску.

Мотивация

Иллюстрация относительной энтропии для двух нормальных распределений . Типичная асимметрия отчетливо видна.

В теории информации теорема Крафта-Макмиллана устанавливает, что любая непосредственно декодируемая схема кодирования сообщения для идентификации одного значения $x_{i}$ из набора возможностей $X$ можно рассматривать как представляющее неявное распределение вероятностей $q(x_{i})=2^{-\ell _{i}}$ над $X$ , где $\ell _{i}$ длина кода для $x_{i}$ в битах. Следовательно, относительную энтропию можно интерпретировать как ожидаемую дополнительную длину сообщения на единицу данных, которая должна быть передана, если $код, оптимальный для данного (неправильного) распределения Q$ используется $, по сравнению с использованием кода, основанного на истинном распределении P$ : это избыточная энтропия.

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{q(x)}}-\sum _{x\in {\mathcal {X}}}p(x)\log {\frac {1}{p(x)}}\\[5pt]&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}

где $\mathrm {H} (P,Q)$ - перекрестная энтропия P $Q$ и $и$ , $\mathrm {H} (P)$ - это энтропия P $.$ (которая равна перекрестной энтропии P с самим собой)

Относительная энтропия $D_{\text{KL}}(P\parallel Q)$ геометрически можно рассматривать как статистическое расстояние , меру того, насколько далеко распределение $находится$ от распределения $P.$ Q Геометрически это дивергенция : асимметричная, обобщенная форма квадрата расстояния. Перекрестная энтропия $H(P,Q)$ само по себе является таким измерением (формально функцией потерь ), но его нельзя мыслить как расстояние, поскольку $H(P,P)=:H(P)$ не равен нулю. Это можно исправить, вычитая $H(P)$ сделать $D_{\text{KL}}(P\parallel Q)$ более точно согласуются с нашим понятием расстояния как избыточной потери. Результирующая функция асимметрична, и хотя ее можно симметрично (см. § Симметризованная дивергенция ), асимметричная форма более полезна. см . в разделе «Интерпретации» Дополнительную информацию о геометрической интерпретации .

Относительная энтропия относится к « функции скорости » в теории больших уклонений . ^[20]^[21]

Артур Хобсон доказал, что относительная энтропия является единственной мерой различия между распределениями вероятностей, которая удовлетворяет некоторым желаемым свойствам, которые являются каноническим расширением тех, которые появляются в обычно используемой характеристике энтропии . ^[22] Следовательно, взаимная информация является единственной мерой взаимной зависимости, подчиняющейся определенным связанным условиям, поскольку ее можно определить в терминах дивергенции Кульбака – Лейблера .

Характеристики

Относительная энтропия всегда неотрицательна . $D_{\text{KL}}(P\parallel Q)\geq 0,$ результат, известный как неравенство Гиббса , с $D_{\text{KL}}(P\parallel Q)$ равно нулю тогда и только тогда, когда $P=Q$ как меры.

В частности, если $P(dx)=p(x)\mu (dx)$ и $Q(dx)=q(x)\mu (dx)$ , затем $p(x)=q(x)$ $\mu$ - почти везде . Энтропия $\mathrm {H} (P)$ таким образом устанавливает минимальное значение перекрестной энтропии $\mathrm {H} (P,Q)$ , ожидаемое количество битов , необходимое при использовании кода, основанного на $Q,$ а не на $P$ ; и поэтому расхождение Кульбака-Лейблера представляет собой ожидаемое количество дополнительных битов, которые необходимо передать для идентификации значения $x,$ из $X$ , если используется код, соответствующий распределению вероятностей $Q$ , а не «истинному» распределению $P.$ полученного

Для общего случая верхней границы не существует. Однако показано, что если $P$ и $Q$ — два дискретных распределения вероятностей, построенные путем распределения одной и той же дискретной величины, то максимальное значение $D_{\text{KL}}(P\parallel Q)$ можно рассчитать. ^[23]
Относительная энтропия остается четко определенной для непрерывных распределений и, кроме того, инвариантна относительно преобразований параметров . Например, если производится преобразование переменной $x$ в переменную $y(x)$ , тогда, поскольку $P(dx)=p(x)\,dx={\tilde {p}}(y)\,dy={\tilde {p}}(y(x))|{\tfrac {dy}{dx}}(x)|\,dx$ и $Q(dx)=q(x)\,dx={\tilde {q}}(y)\,dy={\tilde {q}}(y)|{\tfrac {dy}{dx}}(x)|dx$ где $|{\tfrac {dy}{dx}}(x)|$ является абсолютным значением производной или, в более общем смысле, якобиана , относительную энтропию можно переписать: ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}p(x)\log \left({\frac {p(x)}{q(x)}}\right)\,dx\\[6pt]&=\int _{x_{a}}^{x_{b}}{\tilde {p}}(y(x))|{\frac {dy}{dx}}(x)|\log \left({\frac {{\tilde {p}}(y(x))\,|{\frac {dy}{dx}}(x)|}{{\tilde {q}}(y(x))\,|{\frac {dy}{dx}}(x)|}}\right)\,dx\\&=\int _{y_{a}}^{y_{b}}{\tilde {p}}(y)\log \left({\frac {{\tilde {p}}(y)}{{\tilde {q}}(y)}}\right)\,dy\end{aligned}}$ где $y_{a}=y(x_{a})$ и $y_{b}=y(x_{b})$ . Хотя предполагалось, что трансформация была непрерывной, это не обязательно так. Это также показывает, что относительная энтропия производит размерно согласованную величину, поскольку, если $x$ является размерной переменной, $p(x)$ и $q(x)$ также имеют размеры, поскольку, например, $P(dx)=p(x)\,dx$ является безразмерным. Аргумент логарифмического члена был и остается безразмерным, как и должно быть. Поэтому его можно рассматривать как в некотором смысле более фундаментальную величину, чем некоторые другие свойства теории информации. ^[24] (например, самоинформация или энтропия Шеннона ), которая может стать неопределенной или отрицательной для недискретных вероятностей.
Относительная энтропия является аддитивной для независимых распределений во многом так же, как энтропия Шеннона. Если $P_{1},P_{2}$ являются независимыми дистрибутивами, и $P(dx,dy)=P_{1}(dx)P_{2}(dy)$ , и аналогично $Q(dx,dy)=Q_{1}(dx)Q_{2}(dy)$ для независимых дистрибутивов $Q_{1},Q_{2}$ затем $D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).$
Относительная энтропия $D_{\text{KL}}(P\parallel Q)$ является выпуклой относительно пары вероятностных мер $(P,Q)$ , то есть если $(P_{1},Q_{1})$ и $(P_{2},Q_{2})$ две пары вероятностных мер, тогда $D_{\text{KL}}(\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2})\leq \lambda D_{\text{KL}}(P_{1}\parallel Q_{1})+(1-\lambda )D_{\text{KL}}(P_{2}\parallel Q_{2}){\text{ for }}0\leq \lambda \leq 1.$
$D_{\text{KL}}(P\parallel Q)$ может быть расширено Тейлором относительно своего минимума (т.е. $P=Q$ ) как $D_{\text{KL}}(P\parallel Q)=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}$ которая сходится тогда и только тогда, когда $P\leq 2Q$ почти наверняка $Q$ .

[Доказательство]

Denote $f(\alpha ):=D_{\text{KL}}((1-\alpha )Q+\alpha P\parallel Q)$ and note that $D_{\text{KL}}(P\parallel Q)=f(1)$ . The first derivative of $f$ may be derived and evaluated as follows ${\begin{aligned}f'(\alpha )&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\left(\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)+1\right)\\&=\sum _{x\in {\mathcal {X}}}(P(x)-Q(x))\log \left({\frac {(1-\alpha )Q(x)+\alpha P(x)}{Q(x)}}\right)\\f'(0)&=0\end{aligned}}$ Further derivatives may be derived and evaluated as follows ${\begin{aligned}f''(\alpha )&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{(1-\alpha )Q(x)+\alpha P(x)}}\\f''(0)&=\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{2}}{Q(x)}}\\f^{(n)}(\alpha )&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{\left((1-\alpha )Q(x)+\alpha P(x)\right)^{n-1}}}\\f^{(n)}(0)&=(-1)^{n}(n-2)!\sum _{x\in {\mathcal {X}}}{\frac {(P(x)-Q(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ Hence solving for $D_{\text{KL}}(P\parallel Q)$ via the Taylor expansion of $f$ about $0$ evaluated at $\alpha =1$ yields ${\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\sum _{n=0}^{\infty }{\frac {f^{(n)}(0)}{n!}}\\&=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\end{aligned}}$ $P\leq 2Q$ a.s. is a sufficient condition for convergence of the series by the following absolute convergence argument ${\begin{aligned}\sum _{n=2}^{\infty }\left\vert {\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}{\frac {(Q(x)-P(x))^{n}}{Q(x)^{n-1}}}\right\vert &=\sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \left\vert 1-{\frac {P(x)}{Q(x)}}\right\vert ^{n-1}\\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\sum _{x\in {\mathcal {X}}}\left\vert Q(x)-P(x)\right\vert \\&\leq \sum _{n=2}^{\infty }{\frac {1}{n(n-1)}}\\&=1\end{aligned}}$ $P\leq 2Q$ a.s. is also a necessary condition for convergence of the series by the following proof by contradiction. Assume that $P>2Q$ with measure strictly greater than $0$ . It then follows that there must exist some values $\epsilon >0$ , $\rho >0$ , and $U<\infty$ such that $P\geq 2Q+\epsilon$ and $Q\leq U$ with measure $\rho$ . The previous proof of sufficiency demonstrated that the measure $1-\rho$ component of the series where $P\leq 2Q$ is bounded, so we need only concern ourselves with the behavior of the measure $\rho$ component of the series where $P\geq 2Q+\epsilon$ . The absolute value of the $n$ th term of this component of the series is then lower bounded by ${\frac {1}{n(n-1)}}\rho \left(1+{\frac {\epsilon }{U}}\right)^{n}$ , which is unbounded as $n\to \infty$ , so the series diverges.

Формула двойственности для вариационного вывода

Следующий результат, полученный Донскером и Варадханом: ^[25] известна как вариационная формула Донскера и Варадхана .

Теорема [Формула двойственности для вариационного вывода] — Пусть $\Theta$ быть множеством, наделенным соответствующим $\sigma$ -поле ${\mathcal {F}}$ и две вероятностные меры $P$ и $Q$ , которые формулируют два вероятностных пространства $(\Theta ,{\mathcal {F}},P)$ и $(\Theta ,{\mathcal {F}},Q)$ , с $Q\ll P$ . ( $Q\ll P$ указывает на то, что $Q$ абсолютно непрерывен относительно $P.$ ) Пусть $h$ — вещественная интегрируемая случайная величина на $(\Theta ,{\mathcal {F}},P)$ . Тогда имеет место равенство

\log E_{P}[\exp h]={\text{sup}}_{Q\ll P}\{E_{Q}[h]-D_{\text{KL}}(Q\parallel P)\}.

Далее, верхняя грань в правой части достигается тогда и только тогда, когда выполняется

{\frac {Q(d\theta )}{P(d\theta )}}={\frac {\exp h(\theta )}{E_{P}[\exp h]}},

почти наверняка относительно вероятностной меры $P$ , где ${\frac {Q(d\theta )}{P(d\theta )}}$ обозначает производную Радона-Никодима $Q$ по $P$ .

Доказательство

Для краткого доказательства, предполагающего интегрируемость $\exp(h)$ относительно $P$ пусть $Q^{*}$ иметь $P$ -плотность ${\frac {\exp h(\theta )}{E_{P}[\exp h]}}$ , то есть $Q^{*}(d\theta )={\frac {\exp h(\theta )}{E_{P}[\exp h]}}P(d\theta )$ Затем

D_{\text{KL}}(Q\parallel Q^{*})-D_{\text{KL}}(Q\parallel P)=-E_{Q}[h]+\log E_{P}[\exp h].

Поэтому,

E_{Q}[h]-D_{\text{KL}}(Q\parallel P)=\log E_{P}[\exp h]-D_{\text{KL}}(Q\parallel Q^{*})\leq \log E_{P}[\exp h],

где последнее неравенство следует из $D_{\text{KL}}(Q\parallel Q^{*})\geq 0$ , для которого равенство имеет место тогда и только тогда, когда $Q=Q^{*}$ . Вывод следующий.

Альтернативное доказательство с использованием теории меры см. ^[26]

Примеры

Многомерные нормальные распределения

Предположим, что у нас есть два многомерных нормальных распределения со средними значениями $\mu _{0},\mu _{1}$ и с (несингулярными) ковариационными матрицами $\Sigma _{0},\Sigma _{1}.$ Если два распределения имеют одинаковую размерность $k$ , то относительная энтропия между распределениями выглядит следующим образом: ^[27]

D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left(\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)-k+\left(\mu _{1}-\mu _{0}\right)^{\mathsf {T}}\Sigma _{1}^{-1}\left(\mu _{1}-\mu _{0}\right)+\ln \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

Логарифм e в последнем члене необходимо брать по основанию $e,$ поскольку все члены, кроме последнего, являются логарифмами по основанию $выражений$ , которые либо являются факторами функции плотности, либо возникают естественным образом иным образом. Таким образом, уравнение дает результат, измеряемый в натс . Разделив все выражение выше на $\ln(2)$ дает расхождение в битах .

В численной реализации полезно выразить результат через разложения Холецкого. $L_{0},L_{1}$ такой, что $\Sigma _{0}=L_{0}L_{0}^{T}$ и $\Sigma _{1}=L_{1}L_{1}^{T}$ . Тогда с $M$ и $y$ решениями треугольных линейных систем $L_{1}M=L_{0}$ , и $L_{1}y=\mu _{1}-\mu _{0}$ ,

D_{\text{KL}}\left({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1}\right)={\frac {1}{2}}\left(\sum _{i,j=1}^{k}(M_{ij})^{2}-k+|y|^{2}+2\sum _{i=1}^{k}\ln {\frac {(L_{1})_{ii}}{(L_{0})_{ii}}}\right).

Особым случаем и общей величиной в вариационном выводе является относительная энтропия между диагональным многомерным нормальным распределением и стандартным нормальным распределением (с нулевым средним значением и единичной дисперсией):

D_{\text{KL}}\left({\mathcal {N}}\left(\left(\mu _{1},\ldots ,\mu _{k}\right)^{\mathsf {T}},\operatorname {diag} \left(\sigma _{1}^{2},\ldots ,\sigma _{k}^{2}\right)\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={1 \over 2}\sum _{i=1}^{k}\left(\sigma _{i}^{2}+\mu _{i}^{2}-1-\ln \left(\sigma _{i}^{2}\right)\right).

Для двух одномерных нормальных распределений $p$ и $q$ приведенное выше упрощается до ^[28]

D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {\sigma _{1}}{\sigma _{0}}}+{\frac {\sigma _{0}^{2}+(\mu _{0}-\mu _{1})^{2}}{2\sigma _{1}^{2}}}-{\frac {1}{2}}

В случае соцентрированных нормальных распределений с $k=\sigma _{1}/\sigma _{0}$ , это упрощает ^[29] к:

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log _{2}k+(k^{-2}-1)/2/\ln(2)\mathrm {bits}$

Равномерные распределения

Рассмотрим два равномерных распределения с поддержкой $p=[A,B]$ заключенный внутри $q=[C,D]$ ( $C\leq A<B\leq D$ ). Тогда прирост информации составит:

$D_{\text{KL}}\left({\mathcal {p}}\parallel {\mathcal {q}}\right)=\log {\frac {D-C}{B-A}}$

Интуитивно, ^[29] Прирост информации в $k$ раз уже при равномерном распределении содержит $\log _{2}k$ биты. Это связано с использованием битов в вычислительной технике, где $\log _{2}k$ битов потребуются для идентификации одного элемента $длинного потока k$ .

Связь с метриками

Хотя относительная энтропия является статистическим расстоянием , она не является метрикой пространства вероятностных распределений, а представляет собой дивергенцию . ^[4] В то время как метрики симметричны и обобщают линейное расстояние, удовлетворяя неравенству треугольника , расхождения в целом асимметричны и обобщают квадрат расстояния, в некоторых случаях удовлетворяя обобщенной теореме Пифагора . В общем $D_{\text{KL}}(P\parallel Q)$ не равно $D_{\text{KL}}(Q\parallel P)$ , и хотя это можно симметризировать (см. § Симметризованная дивергенция ), асимметрия является важной частью геометрии. ^[4]

Он генерирует топологию в пространстве вероятностных распределений . Более конкретно, если $\{P_{1},P_{2},\ldots \}$ представляет собой последовательность распределений такую, что

\lim _{n\to \infty }D_{\text{KL}}(P_{n}\parallel Q)=0

,

тогда говорят, что

P_{n}{\xrightarrow {D}}Q

.

Неравенство Пинскера означает, что

P_{n}\xrightarrow {D} P\Rightarrow P_{n}\xrightarrow {TV} P

,

где последнее означает обычную сходимость в полной вариации .

Информационная метрика Фишера

Относительная энтропия напрямую связана с информационной метрикой Фишера . Это можно выразить следующим образом. Предположим, что распределения вероятностей $P$ и $Q$ параметризованы некоторым (возможно, многомерным) параметром. $\theta$ . Рассмотрим тогда два близких значения $P=P(\theta )$ и $Q=P(\theta _{0})$ так что параметр $\theta$ лишь незначительно отличается от значения параметра $\theta _{0}$ . В частности, до первого порядка (используя соглашение о суммировании Эйнштейна )

P(\theta )=P(\theta _{0})+\Delta \theta _{j}\,P_{j}(\theta _{0})+\cdots

с $\Delta \theta _{j}=(\theta -\theta _{0})_{j}$ небольшое изменение $\theta$ в $направлении j$ , и $P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta _{j}}}(\theta _{0})$ соответствующую скорость изменения распределения вероятностей. Поскольку относительная энтропия имеет абсолютный минимум 0 для $P=Q$ , то есть $\theta =\theta _{0}$ , оно меняется только до второго порядка по малым параметрам $\Delta \theta _{j}$ . Более формально, как и для любого минимума, первые производные дивергенции обращаются в нуль.

\left.{\frac {\partial }{\partial \theta _{j}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))=0,

и по разложению Тейлора имеем до второго порядка

D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\,\Delta \theta _{j}\,\Delta \theta _{k}\,g_{jk}(\theta _{0})+\cdots

где матрица Гессе дивергенции

g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta _{j}\,\partial \theta _{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))

должно быть положительно полуопределенным . Сдача в аренду $\theta _{0}$ измените (и отбросьте субиндекс 0) гессиан $g_{jk}(\theta )$ определяет (возможно, вырожденную) риманову метрику в $пространстве параметров θ$ , называемую информационной метрикой Фишера.

Теорема Фишера об информационной метрике

Когда $p_{(x,\rho )}$ удовлетворяет следующим условиям регулярности:

{\frac {\partial \log(p)}{\partial \rho }},{\frac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}

существовать,

{\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}

где $ξ$ не зависит от $ρ$

\left.\int _{x=0}^{\infty }{\frac {\partial p(x,\rho )}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty }{\frac {\partial ^{2}p(x,\rho )}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0

затем:

{\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}\left(\rho ^{3}\right){\text{ as }}\rho \to 0.

Изменение информации

Другой теоретико-информационный показатель — это изменение информации , которое примерно представляет собой симметризацию условной энтропии . Это метрика множества разбиений дискретного вероятностного пространства .

Связь с другими величинами теории информации

Многие другие величины теории информации можно интерпретировать как применение относительной энтропии к конкретным случаям.

Самоинформация

Самоинформация , , также известная как информационное содержание сигнала, случайной величины или события определяется как отрицательный логарифм вероятности наступления данного результата.

Применительно к дискретной случайной величине самоинформацию можно представить как ^{[ нужна ссылка ]}

\operatorname {\operatorname {I} } (m)=D_{\text{KL}}\left(\delta _{\text{im}}\parallel \{p_{i}\}\right),

- относительная энтропия распределения вероятностей $P(i)$ из дельты Кронекера, представляющей уверенность в том, что $i=m$ — т. е. количество дополнительных битов, которые необходимо передать для идентификации $i,$ если только распределение вероятностей $P(i)$ доступен получателю, не факт, что $i=m$ .

Взаимная информация

Взаимная информация ,

{\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\[5pt]&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\[5pt]&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}

- относительная энтропия совместного распределения вероятностей $P(X,Y)$ из продукта $P(X)P(Y)$ из двух предельных распределений вероятностей — т.е. ожидаемое количество дополнительных битов, которые необходимо передать для идентификации $X$ и $Y$ , если они закодированы с использованием только их предельных распределений вместо совместного распределения. Эквивалентно, если совместная вероятность $P(X,Y)$ известно , это ожидаемое количество дополнительных битов, которые в среднем необходимо отправить для идентификации $Y,$ если значение $X$ еще не известно получателю.

Энтропия Шеннона

Шеннона Энтропия ,

{\begin{aligned}\mathrm {H} (X)&=\operatorname {E} \left[\operatorname {I} _{X}(x)\right]\\&=\log(N)-D_{\text{KL}}\left(p_{X}(x)\parallel P_{U}(X)\right)\end{aligned}}

- это количество битов, которое необходимо передать, чтобы идентифицировать $из$ N $равновероятных$ возможностей, за вычетом относительной энтропии равномерного распределения случайных величин X $X$ , $P_{U}(X)$ , от истинного распределения $P(X)$ - т.е. меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение $X$ было закодировано в соответствии с равномерным распределением. $P_{U}(X)$ а не истинное распределение $P(X)$ . Это определение энтропии Шеннона лежит в основе альтернативного обобщения Э. Т. Джейнса на непрерывные распределения, предельной плотности дискретных точек (в отличие от обычной дифференциальной энтропии ), которое определяет непрерывную энтропию как

\lim _{N\rightarrow \infty }H_{N}(X)=\log(N)-\int p(x)\log {\frac {p(x)}{m(x)}}\,dx,

что эквивалентно:

\log(N)-D_{\text{KL}}(p(x)||m(x))

Условная энтропия

Условная энтропия ^[30],

{\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\[5pt]&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\[5pt]&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\[5pt]&=\log(N)-\operatorname {E} _{Y}\left[D_{\text{KL}}\left(P\left(X\mid Y\right)\parallel P_{U}(X)\right)\right]\end{aligned}}

- это количество битов, которое необходимо передать, чтобы идентифицировать $X$ из $N$ равновероятных возможностей, за вычетом относительной энтропии распределения продукта. $P_{U}(X)P(Y)$ от истинного совместного распределения $P(X,Y)$ - т.е. меньше ожидаемого количества сохраненных битов, которые пришлось бы отправить, если бы значение $X$ было закодировано в соответствии с равномерным распределением. $P_{U}(X)$ а не условное распределение $P(X|Y)$ из $X$ условии $Y.$ при

Перекрестная энтропия

Когда у нас есть набор возможных событий, поступающих из распределения $p$ , мы можем закодировать их (со сжатием данных без потерь ), используя энтропийное кодирование . При этом данные сжимаются путем замены каждого входного символа фиксированной длины соответствующим уникальным кодом переменной длины без префиксов (например: события (A, B, C) с вероятностями p = (1/2, 1/4, 1/4) могут быть закодированы как биты (0, 10, 11)). Если мы заранее знаем распределение $p$ , мы можем разработать оптимальное кодирование (например, с использованием кодирования Хаффмана ). Это означает, что сообщения, которые мы кодируем, будут иметь в среднем наименьшую длину (при условии, что закодированные события выбраны из $p$ ), которая будет равна Шеннона энтропии $p$ (обозначается как $\mathrm {H} (p)$ ). Однако если мы используем другое распределение вероятностей ( $q$ ) при создании схемы энтропийного кодирования, то большее количество битов для идентификации события из набора возможностей будет использовано (в среднем). Это новое (большое) число измеряется перекрестной энтропией между $p$ и $q$ .

Перекрестная энтропия между двумя распределениями вероятностей ( $p$ и $q$ ) измеряет среднее количество битов, необходимых для идентификации события из набора возможностей, если используется схема кодирования, основанная на заданном распределении вероятностей $q$ , а не на «истинном» распределении. $п$ . Таким образом, перекрестная энтропия для двух распределений $p$ и $q$ в одном и том же вероятностном пространстве определяется следующим образом.

\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log(q)]=\mathrm {H} (p)+D_{\text{KL}}(p\parallel q).

Подробную информацию об этом см. в разделе «Мотивация» выше.

В этом сценарии относительные энтропии (kl-дивергенция) можно интерпретировать как дополнительное количество битов, в среднем, которое необходимо (помимо $\mathrm {H} (p)$ ) для кодирования событий из-за использования $q$ для построения схемы кодирования вместо $p$ .

Байесовское обновление

В байесовской статистике относительная энтропия может использоваться как мера прироста информации при переходе от априорного распределения к апостериорному : $p(x)\to p(x\mid I)$ . Если какой-то новый факт $Y=y$ обнаружен, его можно использовать для обновления апостериорного распределения $X$ от $p(x\mid I)$ к новому апостериорному распределению $p(x\mid y,I)$ используя теорему Байеса :

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}

Это распределение имеет новую энтропию :

\mathrm {H} {\big (}p(x\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

которая может быть меньше или больше исходной энтропии $\mathrm {H} (p(x\mid I))$ . Однако с точки зрения нового распределения вероятностей можно оценить, что для использования исходного кода, основанного на $p(x\mid I)$ вместо нового кода на основе $p(x\mid y,I)$ добавил бы ожидаемое количество бит:

D_{\text{KL}}{\big (}p(x\mid y,I)\parallel p(x\mid I){\big )}=\sum _{x}p(x\mid y,I)\log \left({\frac {p(x\mid y,I)}{p(x\mid I)}}\right)

к длине сообщения. Таким образом, это представляет собой количество полезной информации или прироста информации о $X$ , который был получен путем открытия $Y=y$ .

Если дальнейший фрагмент данных, $Y_{2}=y_{2}$ , то распределение вероятностей для $x$ может быть дополнительно обновлено, чтобы дать новое наилучшее предположение $p(x\mid y_{1},y_{2},I)$ . Если кто-то повторно исследует получение информации от использования $p(x\mid y_{1},I)$ скорее, чем $p(x\mid I)$ , то оказывается, что оно может быть как больше, так и меньше ранее оцененного:

\sum _{x}p(x\mid y_{1},y_{2},I)\log \left({\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}\right)

может быть ≤ или > чем

\displaystyle \sum _{x}p(x\mid y_{1},I)\log \left({\frac {p(x\mid y_{1},I)}{p(x\mid I)}}\right)

и поэтому совокупный прирост информации не подчиняется неравенству треугольника:

D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid I){\big )}

может быть <, = или > чем

D_{\text{KL}}{\big (}p(x\mid y_{1},y_{2},I)\parallel p(x\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(x\mid y_{1},I)\parallel p(x\mid I){\big )}

Все, что можно сказать, это то, что в среднем при использовании $p(y_{2}\mid y_{1},x,I)$ , обе стороны усредняются.

Байесовский экспериментальный план

Общая цель байесовского экспериментального плана — максимизировать ожидаемую относительную энтропию между априорным и апостериорным. ^[31] Когда апостериорные данные аппроксимируются гауссовскими распределениями, схема, максимизирующая ожидаемую относительную энтропию, называется байесовским d-оптимальным .

Информация о дискриминации

Относительная энтропия ${\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}$ также можно интерпретировать как ожидаемую информацию о дискриминации для $H_{1}$ над $H_{0}$ : средняя информация на выборку для различения в пользу гипотезы. $H_{1}$ против гипотезы $H_{0}$ , когда гипотеза $H_{1}$ это правда. ^[32] Другое название этой величины, данное ей И. Дж. Гудом , — «ожидаемая масса свидетельств» $H_{1}$ над $H_{0}$ следует ожидать от каждого образца.

Ожидаемый вес доказательств в пользу $H_{1}$ над $H_{0}$ не то же самое, что ожидаемый прирост информации о распределении вероятностей для каждой выборки $p(H)$ гипотез,

D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)).

Любую из двух величин можно использовать в качестве функции полезности в байесовском плане эксперимента, чтобы выбрать оптимальный следующий вопрос для исследования: но в целом они приведут к совершенно разным экспериментальным стратегиям.

По шкале энтропии информационного выигрыша разница между почти достоверностью и абсолютной достоверностью очень мала — кодирование в соответствии с почти достоверностью требует едва ли больше битов, чем кодирование в соответствии с абсолютной достоверностью. С другой стороны, в логит- шкале, подразумеваемой весомыми доказательствами, разница между ними огромна – возможно, бесконечна; это может отражать разницу между почти уверенностью (на вероятностном уровне) в том, что, скажем, гипотеза Римана верна, и уверенностью в ее правильности, поскольку у вас есть математическое доказательство. эти две разные шкалы функции потерь для неопределенности Обе полезны в зависимости от того, насколько хорошо каждая из них отражает конкретные обстоятельства рассматриваемой проблемы.

Принцип минимальной дискриминационной информации

Идея относительной энтропии как информации о различении привела Кульбака к предложению принципа Минимальная информация о дискриминации ( MDI ): учитывая новые факты, следует выбрать новое распределение $f$ , которое так же трудно отличить от исходного распределения. $f_{0}$ насколько это возможно; так, чтобы новые данные приносили как можно меньше информационного прироста $D_{\text{KL}}(f\parallel f_{0})$ насколько это возможно.

Например, если у вас уже был предыдущий дистрибутив $p(x,a)$ над $x$ и $a$ , и впоследствии узнал, что истинное распределение $a$ было $u(a)$ , то относительная энтропия между новым совместным распределением $x$ и $a$ , $q(x\mid a)u(a)$ , а более раннее предварительное распределение будет:

D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),

т.е. сумма относительной энтропии $p(a)$ предыдущий дистрибутив $из$ обновленного дистрибутива $u(a)$ плюс ожидаемое значение (с использованием распределения вероятностей $u(a)$ ) относительной энтропии предварительного условного распределения $p(x\mid a)$ из нового условного распределения $q(x\mid a)$ . (Обратите внимание, что часто более позднее ожидаемое значение называют условной относительной энтропией (или условной дивергенцией Кульбака–Лейблера ) и обозначают $D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))$ ^[3]^[30]) Это минимизируется, если $q(x\mid a)=p(x\mid a)$ за всю поддержку $u(a)$ ; и отметим, что этот результат включает в себя теорему Байеса, если новое распределение $u(a)$ на самом деле это δ-функция, представляющая уверенность в том, что $a$ имеет одно конкретное значение.

MDI можно рассматривать как расширение Лапласа принципа недостаточного основания и принципа максимальной энтропии Джейнса Э. Т. . В частности, это естественное расширение принципа максимальной энтропии с дискретных распределений на непрерывные, для которых энтропия Шеннона перестает быть столь полезной (см. дифференциальная энтропия ), но относительная энтропия продолжает оставаться столь же актуальной.

В инженерной литературе MDI иногда называют принципом минимальной перекрестной энтропии (MCE) или Minxent сокращенно . Минимизация относительной энтропии от $m$ до $p$ по отношению к $m$ эквивалентна минимизации перекрестной энтропии $p$ и $m$ , поскольку

\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\parallel m),

что подходит, если кто-то пытается выбрать адекватное приближение к $p$ . Однако зачастую это не та задача, которую пытаются достичь. Вместо этого так же часто $m$ является некоторой фиксированной априорной эталонной мерой, а $p$ пытаются оптимизировать путем минимизации $D_{\text{KL}}(p\parallel m)$ подчиняется некоторым ограничениям. Это привело к некоторой двусмысленности в литературе: некоторые авторы пытались разрешить это несоответствие, переопределяя перекрестную энтропию как $D_{\text{KL}}(p\parallel m)$ , скорее, чем $\mathrm {H} (p,m)$ ^{[ нужна ссылка ]}.

Отношение к доступной работе

График зависимости давления от объема доступной работы на моль газообразного аргона относительно окружающей среды, рассчитанный как $T_{o}$ раз расходимость Кульбака – Лейблера

Сюрпризы ^[33] добавьте туда, где вероятности умножаются. Сюрприз для события с вероятностью $p$ определяется как $s=k\ln(1/p)$ . Если $к$ $\left\{1,1/\ln 2,1.38\times 10^{-23}\right\}$ тогда сюрприз $\{$ nats, биты или $J/K\}$ так что, например, существует $N$ битов неожиданности, если при броске $N$ монет выпадут все «орлы».

Состояния наилучшего предположения (например, для атомов в газе) выводятся путем максимизации среднего значения неожиданности $S$ ( энтропии ) для заданного набора управляющих параметров (например, давления $P$ или объема $V$ ). Эта ограниченная максимизация энтропии , как классически, так и ^[34] и квантовомеханически, ^[35] минимизирует доступность Гиббса в единицах энтропии ^[36] $A\equiv -k\ln(Z)$ где $Z$ — ограниченная кратность или статистическая сумма .

Когда температура $T$ фиксирована, свободная энергия ( $T\times A$ ) также сведено к минимуму. Таким образом, если $T,V$ и число молекул $N$ постоянны, свободная энергия Гельмгольца $F\equiv U-TS$ (где $U$ — энергия, а $S$ — энтропия) минимизируется по мере «уравновешивания» системы. Если $T$ и $P$ остаются постоянными (скажем, во время процессов в вашем теле), свободная энергия Гиббса $G=U+PV-TS$ вместо этого сводится к минимуму. Изменение свободной энергии в этих условиях является мерой доступной работы , которую можно совершить в этом процессе. Таким образом, доступная работа для идеального газа при постоянной температуре $T_{o}$ и давление $P_{o}$ является $W=\Delta G=NkT_{o}\Theta (V/V_{o})$ где $V_{o}=NkT_{o}/P_{o}$ и $\Theta (x)=x-1-\ln x\geq 0$ (см. также неравенство Гиббса ).

В более общем плане ^[37] работа , доступная относительно некоторой окружающей среды, получается путем умножения температуры окружающей среды $T_{o}$ относительной энтропией или чистым сюрпризом $\Delta I\geq 0,$ определяется как среднее значение $k\ln(p/p_{o})$ где $p_{o}$ - вероятность данного состояния в условиях окружающей среды. Например, работа, доступная по приведению одноатомного идеального газа в равновесие с окружающими значениями $V_{o}$ и $T_{o}$ таким образом $W=T_{o}\Delta I$ , где относительная энтропия

\Delta I=Nk\left[\Theta \left({\frac {V}{V_{o}}}\right)+{\frac {3}{2}}\Theta \left({\frac {T}{T_{o}}}\right)\right].

Результирующие контуры постоянной относительной энтропии, показанные справа для моля аргона при стандартной температуре и давлении, например, налагают ограничения на преобразование горячего в холодное, как в системах кондиционирования воздуха с пламенным двигателем или в устройствах без электропитания для преобразования температуры кипения. вода в ледяную воду обсуждается здесь. ^[38] Таким образом, относительная энтропия измеряет термодинамическую доступность в битах.

Квантовая теория информации

Для матриц плотности $P$ и $Q$ в гильбертовом пространстве квантовая относительная энтропия от $Q$ до $P$ определяется как

D_{\text{KL}}(P\parallel Q)=\operatorname {Tr} (P(\log(P)-\log(Q))).

В квантовой информатике минимум $D_{\text{KL}}(P\parallel Q)$ по всем сепарабельным состояниям $Q$ использоваться как мера запутанности в состоянии $P.$ также может

Связь между моделями и реальностью

Точно так же, как относительная энтропия «реальности от окружающей среды» измеряет термодинамическую доступность, относительная энтропия «реальности от модели» также полезна, даже если единственными подсказками, которые мы имеем о реальности, являются некоторые экспериментальные измерения. В первом случае относительная энтропия описывает расстояние до равновесия или (при умножении на температуру окружающей среды) количество доступной работы , тогда как во втором случае она говорит вам о сюрпризах, которые реальность приготовила в рукаве или, другими словами, насколько модель еще предстоит научиться .

Хотя этот инструмент для оценки моделей по сравнению с системами, доступными экспериментально, может применяться в любой области, его применение для выбора статистической модели с помощью информационного критерия Акаике особенно хорошо описано в статьях. ^[39] и книга ^[40] Бернэм и Андерсон. Короче говоря, относительная энтропия реальности из модели может быть оценена с точностью до постоянного аддитивного члена как функция отклонений, наблюдаемых между данными и предсказаниями модели (например, среднеквадратичное отклонение ). Оценки такого расхождения для моделей, которые используют один и тот же аддитивный член, в свою очередь, могут использоваться для выбора одной из моделей.

При попытке подогнать параметризованные модели к данным существуют различные средства оценки, которые пытаются минимизировать относительную энтропию, например, средства оценки максимального правдоподобия и максимального интервала . ^{[ нужна ссылка ]}

Симметризованная дивергенция

Кульбак и Лейблер (1951) также рассмотрел симметричную функцию: ^[6]

D_{\text{KL}}(P\parallel Q)+D_{\text{KL}}(Q\parallel P)

которую они называли «дивергенцией», хотя сегодня «дивергенция KL» относится к асимметричной функции ( § Этимологии эволюцию этого термина см. в ). Эта функция симметрична и неотрицательна и уже была определена и использована Гарольдом Джеффрисом в 1948 году; ^[7] соответственно, это называется дивергенцией Джеффриса .

Эту величину иногда использовали для выбора признаков в задачах классификации , где $P$ и $Q$ — условные PDF-файлы признака двух разных классов. В банковской и финансовой отраслях эта величина называется Индексом стабильности населения ( PSI ) и используется для оценки изменений распределения характеристик модели во времени.

Альтернатива предоставляется через $\lambda$ -расхождение,

D_{\lambda }(P\parallel Q)=\lambda D_{\text{KL}}(P\parallel \lambda P+(1-\lambda )Q)+(1-\lambda )D_{\text{KL}}(Q\parallel \lambda P+(1-\lambda )Q),

который можно интерпретировать как ожидаемый прирост информации о $X$ от выяснения того, какое распределение вероятностей $X$ взято, $P$ или $Q$ , если у них в настоящее время есть вероятности. $\lambda$ и $1-\lambda$ соответственно. ^{[ нужны разъяснения ]} ^{[ нужна ссылка ]}

Значение $\lambda =0.5$ дает расхождение Дженсена-Шеннона , определяемое формулой

D_{\text{JS}}={\frac {1}{2}}D_{\text{KL}}(P\parallel M)+{\frac {1}{2}}D_{\text{KL}}(Q\parallel M)

где $M$ — среднее значение двух распределений,

M={\frac {1}{2}}(P+Q).

Мы также можем интерпретировать $D_{\text{JS}}$ как пропускная способность зашумленного информационного канала с двумя входами, дающими выходные $P$ и $Q.$ распределения Дивергенция Дженсена-Шеннона, как и все $f$ -дивергенции, локально пропорциональна информационной метрике Фишера . Она похожа на метрику Хеллингера (в том смысле, что она индуцирует ту же аффинную связность на статистическом многообразии ).

Более того, расхождение Дженсена-Шеннона можно обобщить с помощью абстрактных статистических M-смесей, опираясь на абстрактное среднее значение M. ^[41]^[42]

Связь с другими мерами вероятностного расстояния

Есть много других важных мер вероятностного расстояния . Некоторые из них особенно связаны с относительной энтропией. Например:

Расстояние полной вариации , $\delta (p,q)$ . Это связано с расхождением через неравенство Пинскера : $\delta (P,Q)\leq {\sqrt {{\frac {1}{2}}D_{\text{KL}}(P\parallel Q)}}.$ Неравенство Пинскера бессмысленно для любых распределений, где $D_{\mathrm {KL} }(P\parallel Q)>2$ , поскольку общее расстояние вариации не превосходит $1$ . Для таких распределений можно использовать альтернативную оценку, предложенную Бретаньоллем и Хубером. ^[43] (см. также Цыбаков ^[44]): $\delta (P,Q)\leq {\sqrt {1-e^{-D_{\mathrm {KL} }(P\parallel Q)}}}.$
Семейство расходимостей Реньи обобщает относительную энтропию. В зависимости от значения определенного параметра, $\alpha$ , можно вывести различные неравенства.

Другие известные меры расстояния включают расстояние Хеллингера , пересечение гистограммы , статистику Хи-квадрат , расстояние квадратичной формы , расстояние совпадения , расстояние Колмогорова-Смирнова и расстояние землеройного машины . ^[45]

Различие данных

Точно так же, как абсолютная энтропия служит теоретической основой для данных сжатия , относительная энтропия служит теоретической основой для данных различения : абсолютная энтропия набора данных в этом смысле представляет собой данные, необходимые для его восстановления (минимальный сжатый размер), а относительная энтропия целевого набора данных с учетом исходного набора данных — это данные, необходимые для восстановления цели с учетом источника (минимальный размер исправления ) .

См. также

Расстояние Бхаттачарья

Ссылки

^ Перейти обратно: ^а ^б Чисар, I (февраль 1975 г.). «I-дивергентная геометрия вероятностных распределений и задачи минимизации» . Энн. Вероятно . 3 (1): 146–158. дои : 10.1214/aop/1176996454 .
^ Кульбак, С. ; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR 2236703 . МР 0039968 .
^ Перейти обратно: ^а ^б ^с Кульбак 1959 год .
^ Перейти обратно: ^а ^б ^с ^д ^и Амари 2016 , с. 11.
^ Перейти обратно: ^а ^б Амари 2016 , с. 28.
^ Перейти обратно: ^а ^б Кульбак и Лейблер 1951 , с. 80.
^ Перейти обратно: ^а ^б Джеффрис 1948 , с. 158.
^ Кульбак 1959 , с. 7.
^ Кульбак, С. (1987). «Письмо в редакцию: расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. дои : 10.1080/00031305.1987.10475510 . JSTOR 2684769 .
^ Кульбак 1959 , с. 6.
^ Маккей, Дэвид Дж. К. (2003). Теория информации, вывод и алгоритмы обучения (1-е изд.). Издательство Кембриджского университета. п. 34. ISBN 9780521642989 – через Google Книги.
^ «Каково максимальное значение расхождения Кульбака-Лейблера (KL)?» . Машинное обучение. Обмен стеками статистики (stats.stackexchange.com) . Перекрестная проверка.
^ «В каких ситуациях интеграл равен бесконечности?» . Интеграция. Обмен стеками математики (math.stackexchange.com) .
^ Бишоп, Кристофер М. Распознавание образов и машинное обучение . п. 55. OCLC 1334664824 .
^ Кульбак 1959 , с. 5.
^ Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Спрингер. п. 51 . ISBN 9780387953649 .
^ Келли, Дж. Л. младший (1956). «Новая интерпретация скорости информации». Белл Сист. Тех. Дж . 2 (4): 917–926. дои : 10.1002/j.1538-7305.1956.tb03809.x .
^ Соклаков, АН (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи» . Энтропия . 22 (8): 860. arXiv : 1811.08308 . Бибкод : 2020Entrp..22..860S . дои : 10.3390/e22080860 . ПМЦ 7517462 . ПМИД 33286632 .
^ Соклаков, АН (2023). «Информационная геометрия рисков и доходности». Риск . Июнь . ССНН 4134885 .
^ Санов И. Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.
^ Новак С.Ю. (2011), Методы экстремальных значений с применением в финансах, гл. 14.5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 .
^ Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405 .
^ Бонничи, В. (2020). «Расхождение Кульбака-Лейблера между квантовыми распределениями и его верхняя граница». arXiv : 2008.05932 [ cs.LG ].
^ См. раздел «Дифференциальная энтропия - 4» в «Относительная энтропия видеолекции Серджио Верду NIPS », 2009 г.
^ Донскер, Монро Д.; Варадхан, С.Р. Шриниваса (1983). «Асимптотическая оценка некоторых ожиданий марковского процесса на большом времени. IV». Сообщения по чистой и прикладной математике . 36 (2): 183–212. дои : 10.1002/cpa.3160360204 .
^ Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214 . S2CID 220935477 .
^ Дучи Дж. «Выводы для линейной алгебры и оптимизации» (PDF) . п. 13.
^ Белов Дмитрий Иванович; Армстронг, Рональд Д. (15 апреля 2011 г.). «Распределения расходимости Кульбака-Лейблера с приложениями» . Британский журнал математической и статистической психологии . 64 (2): 291–309. дои : 10.1348/000711010x522227 . ISSN 0007-1102 . ПМИД 21492134 .
^ Перейти обратно: ^а ^б Бюхнер, Йоханнес (29 апреля 2022 г.). Интуиция для физиков: получение информации в результате экспериментов . OCLC 1363563215 .
^ Перейти обратно: ^а ^б Обложка, Томас М.; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons , с. 22
^ Чалонер, К.; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. дои : 10.1214/ss/1177009939 . hdl : 11299/199630 .
^ Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Численные рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .
^ Трибус, Мирон (1959). Термостатика и термодинамика: введение в энергию, информацию и состояния материи с инженерными приложениями . Ван Ностранд.
^ Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Бибкод : 1957PhRv..106..620J . дои : 10.1103/physrev.106.620 . S2CID 17870175 .
^ Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Бибкод : 1957PhRv..108..171J . дои : 10.1103/physrev.108.171 .
^ Гиббс, Джозия Уиллард (1871). Метод геометрического представления термодинамических свойств веществ с помощью поверхностей . Академия. сноска на стр. 52.
^ Трибус, М.; МакИрвин, EC (1971). «Энергия и информация». Научный американец . 224 (3): 179–186. Бибкод : 1971SciAm.225c.179T . doi : 10.1038/scientificamerican0971-179 .
^ Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Бибкод : 2008Cmplx..13c..18F . дои : 10.1002/cplx.20195 . S2CID 20794688 . Архивировано из оригинала 13 августа 2011 г.
^ Бернхэм, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для сильных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. дои : 10.1071/WR99107 .
^ Бернэм, Кеннет П. (декабрь 2010 г.). Выбор модели и многомодельный вывод: практический теоретико-информационный подход . Спрингер. ISBN 978-1-4419-2973-0 . OCLC 878132909 .
^ Нильсен, Франк (2019). «О симметризации расстояний Дженсена-Шеннона, основанной на абстрактных средствах» . Энтропия . 21 (5): 485. arXiv : 1904.04017 . Бибкод : 2019Entrp..21..485N . дои : 10.3390/e21050485 . ПМЦ 7514974 . ПМИД 33267199 .
^ Нильсен, Франк (2020). «Об обобщении дивергенции Дженсена-Шеннона и центроида Дженсена-Шеннона» . Энтропия . 22 (2): 221. arXiv : 1912.00610 . Бибкод : 2020Entrp..22..221N . дои : 10.3390/e22020221 . ПМЦ 7516653 . ПМИД 33285995 .
^ Бретаньолле, Ж.; Хубер, К. (1978), «Оценка плотностей: минимаксный риск», Семинар по вероятностям XII , Конспекты лекций по математике (на французском языке), том. 649, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 342–363, номер домена : 10.1007/bfb0064610 , ISBN. 978-3-540-08761-8 , S2CID 122597694 , получено 14 февраля 2023 г. Лемма 2.1
^ Б.), Цыбаков А.Б. (Александр (2010). Введение в непараметрическое оценивание . Springer. ISBN 978-1-4419-2709-5 . OCLC 757859245 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) Уравнение 2.25.
^ Рубнер, Ю.; Томази, К.; Гибас, ЖЖ (2000). «Расстояние землеройной машины как показатель для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. дои : 10.1023/A:1026543900054 . S2CID 14106275 .

Амари, Сюн-ичи (2016). Информационная геометрия и ее приложения . Прикладные математические науки. Том. 194. Спрингер Япония. стр. XIII, 374. doi : 10.1007/978-4-431-55978-8 . ISBN 978-4-431-55977-1 .
Кульбак, Соломон (1959), Теория информации и статистика , John Wiley & Sons . Переиздано Dover Publications в 1968 году; перепечатано в 1978 г.: ISBN 0-8446-5625-9 .
Джеффрис, Гарольд (1948). Теория вероятностей (второе изд.). Издательство Оксфордского университета.

Внешние ссылки

[Csiszar-1] Перейти обратно: ^а ^б Чисар, I (февраль 1975 г.). «I-дивергентная геометрия вероятностных распределений и задачи минимизации» . Энн. Вероятно . 3 (1): 146–158. дои : 10.1214/aop/1176996454 .

[KullbackLeibler1951-2] Кульбак, С. ; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR 2236703 . МР 0039968 .

[FOOTNOTEKullback1959-3] Перейти обратно: ^а ^б ^с Кульбак 1959 год .

[FOOTNOTEAmari201611-4] Перейти обратно: ^а ^б ^с ^д ^и Амари 2016 , с. 11.

[FOOTNOTEAmari201628-5] Перейти обратно: ^а ^б Амари 2016 , с. 28.

[FOOTNOTEKullbackLeibler195180-6] Перейти обратно: ^а ^б Кульбак и Лейблер 1951 , с. 80.

[FOOTNOTEJeffreys1948158-7] Перейти обратно: ^а ^б Джеффрис 1948 , с. 158.

[FOOTNOTEKullback19597-8] Кульбак 1959 , с. 7.

[Kullback1987-9] Кульбак, С. (1987). «Письмо в редакцию: расстояние Кульбака – Лейблера». Американский статистик . 41 (4): 340–341. дои : 10.1080/00031305.1987.10475510 . JSTOR 2684769 .

[FOOTNOTEKullback19596-10] Кульбак 1959 , с. 6.

[MacKey2003-11] Маккей, Дэвид Дж. К. (2003). Теория информации, вывод и алгоритмы обучения (1-е изд.). Издательство Кембриджского университета. п. 34. ISBN 9780521642989 – через Google Книги.

[12] «Каково максимальное значение расхождения Кульбака-Лейблера (KL)?» . Машинное обучение. Обмен стеками статистики (stats.stackexchange.com) . Перекрестная проверка.

[13] «В каких ситуациях интеграл равен бесконечности?» . Интеграция. Обмен стеками математики (math.stackexchange.com) .

[14] Бишоп, Кристофер М. Распознавание образов и машинное обучение . п. 55. OCLC 1334664824 .

[FOOTNOTEKullback19595-15] Кульбак 1959 , с. 5.

[16] Бернхэм, КП; Андерсон, Д.Р. (2002). Выбор модели и многомодельный вывод (2-е изд.). Спрингер. п. 51 . ISBN 9780387953649 .

[17] Келли, Дж. Л. младший (1956). «Новая интерпретация скорости информации». Белл Сист. Тех. Дж . 2 (4): 917–926. дои : 10.1002/j.1538-7305.1956.tb03809.x .

[18] Соклаков, АН (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи» . Энтропия . 22 (8): 860. arXiv : 1811.08308 . Бибкод : 2020Entrp..22..860S . дои : 10.3390/e22080860 . ПМЦ 7517462 . ПМИД 33286632 .

[19] Соклаков, АН (2023). «Информационная геометрия рисков и доходности». Риск . Июнь . ССНН 4134885 .

[Sanov-20] Санов И. Н. (1957). «О вероятности больших отклонений случайных величин». Мат. Сборник . 42 (84): 11–44.

[Novak-21] Новак С.Ю. (2011), Методы экстремальных значений с применением в финансах, гл. 14.5 ( Чепмен и Холл ). ISBN 978-1-4398-3574-6 .

[22] Хобсон, Артур (1971). Понятия статистической механики . Нью-Йорк: Гордон и Брич. ISBN 978-0677032405 .

[Bonnici2020-23] Бонничи, В. (2020). «Расхождение Кульбака-Лейблера между квантовыми распределениями и его верхняя граница». arXiv : 2008.05932 [ cs.LG ].

[VerduLecture-24] См. раздел «Дифференциальная энтропия - 4» в «Относительная энтропия видеолекции Серджио Верду NIPS », 2009 г.

[25] Донскер, Монро Д.; Варадхан, С.Р. Шриниваса (1983). «Асимптотическая оценка некоторых ожиданий марковского процесса на большом времени. IV». Сообщения по чистой и прикладной математике . 36 (2): 183–212. дои : 10.1002/cpa.3160360204 .

[26] Ли, Се Юн (2021). «Сэмплер Гиббса и вариационный вывод по координатному восхождению: теоретико-множественный обзор». Коммуникации в статистике - теория и методы . 51 (6): 1549–1568. arXiv : 2008.01006 . дои : 10.1080/03610926.2021.1921214 . S2CID 220935477 .

[27] Дучи Дж. «Выводы для линейной алгебры и оптимизации» (PDF) . п. 13.

[28] Белов Дмитрий Иванович; Армстронг, Рональд Д. (15 апреля 2011 г.). «Распределения расходимости Кульбака-Лейблера с приложениями» . Британский журнал математической и статистической психологии . 64 (2): 291–309. дои : 10.1348/000711010x522227 . ISSN 0007-1102 . ПМИД 21492134 .

[auto-29] Перейти обратно: ^а ^б Бюхнер, Йоханнес (29 апреля 2022 г.). Интуиция для физиков: получение информации в результате экспериментов . OCLC 1363563215 .

[CoverThomas-30] Перейти обратно: ^а ^б Обложка, Томас М.; Томас, Джой А. (1991), Элементы теории информации , John Wiley & Sons , с. 22

[31] Чалонер, К.; Вердинелли, И. (1995). «Байесовский экспериментальный дизайн: обзор» . Статистическая наука . 10 (3): 273–304. дои : 10.1214/ss/1177009939 . hdl : 11299/199630 .

[32] Пресс, WH; Теукольский, С.А.; Феттерлинг, WT; Фланнери, BP (2007). «Раздел 14.7.2. Расстояние Кульбака – Лейблера» . Численные рецепты: искусство научных вычислений (3-е изд.). Издательство Кембриджского университета. ISBN 978-0-521-88068-8 .

[33] Трибус, Мирон (1959). Термостатика и термодинамика: введение в энергию, информацию и состояния материи с инженерными приложениями . Ван Ностранд.

[34] Джейнс, ET (1957). «Теория информации и статистическая механика» (PDF) . Физический обзор . 106 (4): 620–630. Бибкод : 1957PhRv..106..620J . дои : 10.1103/physrev.106.620 . S2CID 17870175 .

[35] Джейнс, ET (1957). «Теория информации и статистическая механика II» (PDF) . Физический обзор . 108 (2): 171–190. Бибкод : 1957PhRv..108..171J . дои : 10.1103/physrev.108.171 .

[36] Гиббс, Джозия Уиллард (1871). Метод геометрического представления термодинамических свойств веществ с помощью поверхностей . Академия. сноска на стр. 52.

[37] Трибус, М.; МакИрвин, EC (1971). «Энергия и информация». Научный американец . 224 (3): 179–186. Бибкод : 1971SciAm.225c.179T . doi : 10.1038/scientificamerican0971-179 .

[38] Фраундорф, П. (2007). «Термические корни корреляционной сложности» . Сложность . 13 (3): 18–26. arXiv : 1103.2481 . Бибкод : 2008Cmplx..13c..18F . дои : 10.1002/cplx.20195 . S2CID 20794688 . Архивировано из оригинала 13 августа 2011 г.

[39] Бернхэм, КП; Андерсон, Д.Р. (2001). «Информация Кульбака – Лейблера как основа для сильных выводов в экологических исследованиях» . Исследования дикой природы . 28 (2): 111–119. дои : 10.1071/WR99107 .

[40] Бернэм, Кеннет П. (декабрь 2010 г.). Выбор модели и многомодельный вывод: практический теоретико-информационный подход . Спрингер. ISBN 978-1-4419-2973-0 . OCLC 878132909 .

[Nielsen2019-41] Нильсен, Франк (2019). «О симметризации расстояний Дженсена-Шеннона, основанной на абстрактных средствах» . Энтропия . 21 (5): 485. arXiv : 1904.04017 . Бибкод : 2019Entrp..21..485N . дои : 10.3390/e21050485 . ПМЦ 7514974 . ПМИД 33267199 .

[Nielsen2020-42] Нильсен, Франк (2020). «Об обобщении дивергенции Дженсена-Шеннона и центроида Дженсена-Шеннона» . Энтропия . 22 (2): 221. arXiv : 1912.00610 . Бибкод : 2020Entrp..22..221N . дои : 10.3390/e22020221 . ПМЦ 7516653 . ПМИД 33285995 .

[43] Бретаньолле, Ж.; Хубер, К. (1978), «Оценка плотностей: минимаксный риск», Семинар по вероятностям XII , Конспекты лекций по математике (на французском языке), том. 649, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 342–363, номер домена : 10.1007/bfb0064610 , ISBN. 978-3-540-08761-8 , S2CID 122597694 , получено 14 февраля 2023 г. Лемма 2.1

[44] Б.), Цыбаков А.Б. (Александр (2010). Введение в непараметрическое оценивание . Springer. ISBN 978-1-4419-2709-5 . OCLC 757859245 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) Уравнение 2.25.

[earth-45] Рубнер, Ю.; Томази, К.; Гибас, ЖЖ (2000). «Расстояние землеройной машины как показатель для поиска изображений». Международный журнал компьютерного зрения . 40 (2): 99–121. дои : 10.1023/A:1026543900054 . S2CID 14106275 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]