Дивергенция (статистика)

В информационной геометрии дивергенция бинарная — это своего рода статистическое расстояние : функция , которая устанавливает разделение от одного распределения вероятностей к другому на статистическом многообразии .

Простейшая дивергенция — это квадрат евклидова расстояния (SED), и дивергенции можно рассматривать как обобщение SED. Другое наиболее важное расхождение — это относительная энтропия (также называемая дивергенцией Кульбака-Лейблера ), которая занимает центральное место в теории информации . Существует множество других специфических расходимостей и классов расходимостей, в частности f -дивергенции и расходимости Брегмана (см. § Примеры ).

Определение

Учитывая дифференцируемое многообразие ^[а] $M$ размера $n$ , расхождение на $M$ это $C^{2}$ -функция $D:M\times M\to [0,\infty )$ удовлетворительно: ^[1]^[2]

$D(p,q)\geq 0$ для всех $p,q\in M$ (неотрицательность),
$D(p,q)=0$ тогда и только тогда, когда $p=q$ (позитивность),
В каждой точке $p\in M$ , $D(p,p+dp)$ является положительно определенной квадратичной формой для бесконечно малых перемещений $dp$ от $p$ .

В приложениях к статистике многообразие $M$ обычно представляет собой пространство параметров параметрического семейства вероятностных распределений .

Условие 3 означает, что $D$ определяет скалярное произведение в касательном пространстве $T_{p}M$ для каждого $p\in M$ . С $D$ является $C^{2}$ на $M$ , это определяет риманову метрику $g$ на $M$ .

Локально в $p\in M$ , мы можем построить локальную координатную карту с координатами $x$ , то расхождение $D(x(p),x(p)+dx)=\textstyle {\frac {1}{2}}dx^{T}g_{p}(x)dx+O(|dx|^{3})$ где $g_{p}(x)$ представляет собой матрицу размера $n\times n$ . Это риманова метрика в точке $p$ выраженный в координатах $x$ .

Размерный анализ условия 3 показывает, что дивергенция имеет размерность квадрата расстояния. ^[3]

Двойное расхождение $D^{*}$ определяется как

D^{*}(p,q)=D(q,p).

Когда мы хотим противопоставить $D$ против $D^{*}$ , мы ссылаемся на $D$ как первичное расхождение .

Учитывая любое расхождение $D$ , его симметризованная версия получается путем усреднения с двойной дивергенцией: ^[3]

D_{S}(p,q)=\textstyle {\frac {1}{2}}{\big (}D(p,q)+D(q,p){\big )}.

Отличие от других подобных концепций

В отличие от метрик , расхождения не обязаны быть симметричными, а асимметрия важна в приложениях. ^[3] Соответственно, часто асимметрично говорят об отличии « q от p » или «от p до q », а не «между p и q ». Во-вторых, расхождения обобщают квадрат расстояния, а не линейное расстояние, и, таким образом, не удовлетворяют неравенству треугольника , но некоторые расхождения (например, расхождение Брегмана ) удовлетворяют обобщениям теоремы Пифагора .

В общей статистике и теории вероятности «дивергенция» обычно относится к любому виду функции. $D(p,q)$ , где $p,q$ являются распределениями вероятностей или другими рассматриваемыми объектами, такими, что выполняются условия 1, 2. Условие 3 требуется для «расхождения», используемого в информационной геометрии.

Например, общее расстояние вариации , широко используемое статистическое расхождение, не удовлетворяет условию 3.

Обозначения

Обозначения дивергенций значительно различаются в зависимости от поля, хотя существуют некоторые соглашения.

Дивергенции обычно обозначаются заглавной буквой «D», например: $D(x,y)$ , чтобы отличать их от метрических расстояний, которые обозначаются строчной буквой «d». Когда используются множественные расхождения, они обычно выделяются индексами, как в $D_{\text{KL}}$ для дивергенции Кульбака–Лейблера (дивергенции КЛ).

Часто между параметрами используется другой разделитель, в частности, чтобы подчеркнуть асимметрию. В теории информации обычно используется двойная черта: $D(p\parallel q)$ ; это похоже на обозначение условной вероятности , но отличается от него . $P(A|B)$ и подчеркивает интерпретацию расхождения как относительного измерения, например, относительной энтропии ; это обозначение является общим для КЛ-дивергенции. Вместо этого можно использовать двоеточие, ^[б] как $D(p:q)$ ; это подчеркивает относительную информацию, подтверждающую два распределения.

Обозначения параметров также различаются. Прописные буквы $P,Q$ интерпретирует параметры как распределения вероятностей, а строчные буквы $p,q$ или $x,y$ интерпретирует их геометрически как точки в пространстве и $\mu _{1},\mu _{2}$ или $m_{1},m_{2}$ интерпретирует их как меры.

Геометрические свойства

Многие свойства расходимостей можно получить, если мы ограничим S статистическим многообразием, то есть его можно параметризовать конечномерной системой координат θ , так что для распределения p ∈ S мы можем записать p = p ( θ ) .

пары точек p , q ∈ S с координатами θp _Для и θq _как обозначим частные производные D ( p , q )

{\begin{aligned}D((\partial _{i})_{p},q)\ \ &{\stackrel {\mathrm {def} }{=}}\ \ {\tfrac {\partial }{\partial \theta _{p}^{i}}}D(p,q),\\D((\partial _{i}\partial _{j})_{p},(\partial _{k})_{q})\ \ &{\stackrel {\mathrm {def} }{=}}\ \ {\tfrac {\partial }{\partial \theta _{p}^{i}}}{\tfrac {\partial }{\partial \theta _{p}^{j}}}{\tfrac {\partial }{\partial \theta _{q}^{k}}}D(p,q),\ \ \mathrm {etc.} \end{aligned}}

Теперь ограничим эти функции диагональю p = q и обозначим ^[4]

{\begin{aligned}D[\partial _{i},\cdot ]\ &:\ p\mapsto D((\partial _{i})_{p},p),\\D[\partial _{i},\partial _{j}]\ &:\ p\mapsto D((\partial _{i})_{p},(\partial _{j})_{p}),\ \ \mathrm {etc.} \end{aligned}}

По определению функция D ( p , q ) минимизируется при p = q , и, следовательно,

{\begin{aligned}&D[\partial _{i},\cdot ]=D[\cdot ,\partial _{i}]=0,\\&D[\partial _{i}\partial _{j},\cdot ]=D[\cdot ,\partial _{i}\partial _{j}]=-D[\partial _{i},\partial _{j}]\ \equiv \ g_{ij}^{(D)},\end{aligned}}

где матрица g ^{( Д )} положительно полуопределена и определяет единственную риманову метрику на многообразии S .

Дивергенция D (·, ·) также определяет единственную кручения без аффинную связность ∇ ^{( Д )} с коэффициентами

\Gamma _{ij,k}^{(D)}=-D[\partial _{i}\partial _{j},\partial _{k}],

а двойственная к этой связности ∇* порождается двойственной дивергенцией D *.

Таким образом, дивергенция D (·, ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ^{( Д )}, ∇ ^{( Д )}, ∇ ^{( Д * )}). Обратное также верно: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть уникальной). ^[5]

Например, когда D является f-дивергенцией ^[6] для некоторой функции ƒ(·), то она порождает метрику g ^{( Д _ж )} = c·g и связность ∇ ^{( Д _ж )} = ∇ ^{( а )}, где g — каноническая информационная метрика Фишера , ∇ ^{( а )} является α-связностью , c = ƒ′′(1) и α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Примеры

Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака-Лейблера , расхождение КЛ), которое занимает центральное место в теории информации и статистике, и квадрат евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом линейных обратных задач решения с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . ^[7]

Двумя наиболее важными классами расходимостей являются f -дивергенции и дивергенции Брегмана ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение для вероятностей в конечном алфавите , которое является одновременно f -дивергенцией и дивергенцией Брегмана, - это дивергенция Кульбака – Лейблера. ^[8] Квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ⁠ $x^{2}$ ⁠ ), но не f -дивергенция.

f-расхождения

Дана выпуклая функция $f:[0,+\infty )\to (-\infty ,+\infty ]$ такой, что $f(0)=\lim _{t\to 0^{+}}f(t),f(1)=0$ , f -дивергенция, порожденная $f$ определяется как

D_{f}(p,q)=\int p(x)f{\bigg (}{\frac {q(x)}{p(x)}}{\bigg )}dx

.

Расхождение Кульбака – Лейблера :	$D_{\mathrm {KL} }(p,q)=\int p(x)\ln \left({\frac {p(x)}{q(x)}}\right)dx$
квадрат расстояния Хеллингера :	$H^{2}(p,\,q)=2\int {\Big (}{\sqrt {p(x)}}-{\sqrt {q(x)}}\,{\Big )}^{2}dx$
Расхождение Дженсена-Шеннона :	$D_{JS}(p,q)={\frac {1}{2}}\int p(x)\ln \left(p(x)\right)+q(x)\ln \left(q(x)\right)-(p(x)+q(x))\ln \left({\frac {p(x)+q(x)}{2}}\right)dx$
α-дивергенция	$D^{(\alpha )}(p,q)={\frac {4}{1-\alpha ^{2}}}{\bigg (}1-\int p(x)^{\frac {1-\alpha }{2}}q(x)^{\frac {1+\alpha }{2}}dx{\bigg )}$
расхождение хи-квадрат :	$D_{\chi ^{2}}(p,q)=\int {\frac {(p(x)-q(x))^{2}}{p(x)}}dx$
( α , β )-расхождение продуктов ^{[ нужна ссылка ]}:	$D_{\alpha ,\beta }(p,q)={\frac {2}{(1-\alpha )(1-\beta )}}\int {\Big (}1-{\Big (}{\tfrac {q(x)}{p(x)}}{\Big )}^{\!\!{\frac {1-\alpha }{2}}}{\Big )}{\Big (}1-{\Big (}{\tfrac {q(x)}{p(x)}}{\Big )}^{\!\!{\frac {1-\beta }{2}}}{\Big )}p(x)dx$

Расхождения Брегмана

Брегмановские расходимости соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклую , непрерывно дифференцируемую функцию $F$ на выпуклом множестве , известную как генератор Брегмана , расходимость Брегмана измеряет выпуклость: ошибки линейного приближения $F$ от $q$ как приближения значения в точке $p$ :

D_{F}(p,q)=F(p)-F(q)-\langle \nabla F(q),p-q\rangle .

Двойственная дивергенция к дивергенции Брегмана — это дивергенция, порожденная выпуклым сопряжением $F *$ генератора Брегмана исходной расходимости. Например, для квадрата евклидова расстояния генератор равен ⁠ $x^{2}$ ⁠ , а для относительной энтропии генератором является отрицательная энтропия ⁠ $x\log x$ ⁠ .

История

Использование термина «дивергенция» - как к каким функциям он относится, так и к каким различным статистическим расстояниям относятся - значительно менялось с течением времени, но на c. В 2000 году было решено использовать нынешнее использование в информационной геометрии, особенно в учебнике Амари и Нагаока (2000) . ^[1]

Термин «дивергенция» для статистического расстояния неофициально использовался в различных контекстах, начиная с c. 1910 г. до ок. 1940. Его официальное использование восходит, по крайней мере, к Bhattacharyya (1943) , озаглавленному «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», который определил расстояние Бхаттачарьи , и Bhattacharyya (1946) , озаглавленному «О мере Дивергенция между двумя полиномиальными популяциями», которая определила угол Бхаттачарьи . Этот термин стал популяризирован благодаря его использованию для обозначения расхождения Кульбака-Лейблера в работе Kullback & Leibler (1951) и его использованию в учебнике Kullback (1959) . Термин «дивергенция» обычно использовался Али и Силви (1966) для обозначения статистических расстояний. Многочисленные ссылки на более раннее использование статистических расстояний приведены в работах Адхикари и Джоши (1956) и Кульбака (1959 , стр. 6–7, §1.3 «Дивергенция»).

Кульбак и Лейблер (1951) фактически использовали термин «дивергенция» для обозначения симметричной дивергенции (эта функция уже была определена и использовалась Гарольдом Джеффрисом в 1948 году). ^[9]), ссылаясь на асимметричную функцию как на «среднюю информацию для дискриминации ... на одно наблюдение», ^[10] в то время как Кульбак (1959) называл асимметричную функцию «направленной дивергенцией». ^[11] Али и Силви (1966) вообще называли такую функцию «коэффициентом дивергенции» и показали, что многие существующие функции могут быть выражены как f -дивергенции, называя функцию Джеффриса «мерой дивергенции Джеффриса» (сегодня «мера дивергенции Джеффриса»). Дивергенция Джеффриса»), а асимметричная функция Кульбака-Лейблера (в каждом направлении) как «меры дискриминационной информации Кульбака и Лейблера» (сегодня «дивергенция Кульбака-Лейблера»). ^[12]

Определение дивергенции в информационной геометрии (предмет этой статьи) изначально упоминалось под альтернативными терминами, включая «квазирасстояние» Амари (1982 , стр. 369) и «функцию контраста» Эгучи (1985) , хотя «дивергенция» была использовался Амари (1985) для $α$ -дивергенции и стал стандартом для общего класса. ^[1]^[2]

Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. ^[13] Например, термин «расстояние Брегмана» все еще встречается, но теперь предпочтение отдается «дивергенции Брегмана».

Условно, Кульбак и Лейблер (1951) обозначили свою асимметричную функцию как $I(1:2)$ , а Али и Сильви (1966) обозначают свои функции строчной буквой «d» как $d\left(P_{1},P_{2}\right)$ .

См. также

Статистическое расстояние

Примечания

^ Всюду нам нужен только класс дифференцируемости C ² (непрерывный с непрерывными первой и второй производными), поскольку требуются только вторые производные. На практике обычно используемые статистические многообразия и дивергенции бесконечно дифференцируемы («гладкие»).
^ Двоеточие используется в Kullback & Leibler (1951 , стр. 80), где расхождение KL между мерой $\mu _{1}$ и $\mu _{2}$ написано как $I(1:2)$ .

Ссылки

^ Jump up to: ^а ^б ^с Амари и Нагаока 2000 , глава 3.2.
^ Jump up to: ^а ^б Амари 2016 , с. 10, Определение 1.1.
^ Jump up to: ^а ^б ^с Амари 2016 , с. 10.
^ Эгучи (1992)
^ Матумото (1993)
^ Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 :10–13. arXiv : 1309.3029 . дои : 10.1109/ЛСП.2013.2288355 . S2CID 4152365 .
^ Чисар 1991 .
^ Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN 0018-9448 . S2CID 13108908 .
^ Джеффрис 1948 , с. 158.
^ Кульбак и Лейблер 1951 , с. 80.
^ Кульбак 1959 , с. 7.
^ Али и Сильви 1966 , с. 139.
^ Кульбак 1959 , с. 6.

Библиография

Адхикари, БП; Джоши, Д.Д. (1956). «Расстояние, дискриминация и исчерпывающее резюме». Паб. Инст. Стат. унив. Париж . 5 :57–74.
Амари, Сюн-Ичи (1982). «Дифференциальная геометрия кривых экспоненциальных семейств-кривизны и потеря информации» . Анналы статистики . 10 (2): 357–385. дои : 10.1214/aos/1176345779 . ISSN 0090-5364 . JSTOR 2240672 .
Амари, Сюн-Ичи (1985). Дифференциально-геометрические методы в статистике . Конспект лекций по статистике. Том. 28. Шпрингер-Верлаг.
Амари, Сюнъити ; Нагаока, Хироши (2000). Методы информационной геометрии . Издательство Оксфордского университета. ISBN 0-8218-0531-2 .
Амари, Сюн-ичи (2016). Информационная геометрия и ее приложения . Прикладные математические науки. Том. 194. Спрингер Япония. стр. XIII, 374. doi : 10.1007/978-4-431-55978-8 . ISBN 978-4-431-55977-1 .
Бхаттачарья, А. (1946). «О мере расхождения между двумя многочленными популяциями». Санкхья: Индийский статистический журнал (1933–1960) . 7 (4): 401–406. ISSN 0036-4452 . JSTOR 25047882 .
Бхаттачарья, А. (1943). «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей». Бык. Калькуттская математика. Соц . 35 : 99–109.
Чисар, Имре (1 декабря 1991 г.). «Почему наименьшие квадраты и максимальная энтропия? Аксиоматический подход к выводу для линейных обратных задач» . Анналы статистики . 19 (4). дои : 10.1214/aos/1176348385 .
Эгути, Синто (1985). «Дифференциальный геометрический подход к статистическому выводу на основе контрастных функционалов» . Хиросимский математический журнал . 15 (2): 341–391. дои : 10.32917/hmj/1206130775 .
Эгучи, Синто (1992). «Геометрия минимального контраста» . Хиросимский математический журнал . 22 (3): 631–647. дои : 10.32917/hmj/1206128508 .
Али, С.М.; Сильви, SD (1966). «Общий класс коэффициентов отклонения одного распределения от другого». Журнал Королевского статистического общества. Серия Б (Методическая) . 28 (1): 131–142. дои : 10.1111/j.2517-6161.1966.tb00626.x . ISSN 0035-9246 . JSTOR 2984279 .
Джеффрис, Гарольд (1948). Теория вероятностей (второе изд.). Издательство Оксфордского университета.
Кульбак, С. ; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR 2236703 . МР 0039968 .
Кульбак, С. (1959), Теория информации и статистика , John Wiley & Sons . Переиздано Dover Publications в 1968 году; переиздано в 1978 году: ISBN 0-8446-5625-9
Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста — от C³-функций, принимающих минимум на диагонали многообразия произведений» . Хиросимский математический журнал . 23 (2): 327–332. дои : 10.32917/hmj/1206128255 .

[1] Всюду нам нужен только класс дифференцируемости C ² (непрерывный с непрерывными первой и второй производными), поскольку требуются только вторые производные. На практике обычно используемые статистические многообразия и дивергенции бесконечно дифференцируемы («гладкие»).

[5] Двоеточие используется в Kullback & Leibler (1951 , стр. 80), где расхождение KL между мерой $\mu _{1}$ и $\mu _{2}$ написано как $I(1:2)$ .

[FOOTNOTEAmariNagaoka2000chapter_3.2-2] Jump up to: ^а ^б ^с Амари и Нагаока 2000 , глава 3.2.

[FOOTNOTEAmari201610Definition_1.1-3] Jump up to: ^а ^б Амари 2016 , с. 10, Определение 1.1.

[FOOTNOTEAmari201610-4] Jump up to: ^а ^б ^с Амари 2016 , с. 10.

[6] Эгучи (1992)

[7] Матумото (1993)

[8] Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 :10–13. arXiv : 1309.3029 . дои : 10.1109/ЛСП.2013.2288355 . S2CID 4152365 .

[FOOTNOTECsiszar1991-9] Чисар 1991 .

[:02-10] Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN 0018-9448 . S2CID 13108908 .

[FOOTNOTEJeffreys1948158-11] Джеффрис 1948 , с. 158.

[FOOTNOTEKullbackLeibler195180-12] Кульбак и Лейблер 1951 , с. 80.

[FOOTNOTEKullback19597-13] Кульбак 1959 , с. 7.

[FOOTNOTEAliSilvey1966139-14] Али и Сильви 1966 , с. 139.

[FOOTNOTEKullback19596-15] Кульбак 1959 , с. 6.

[а]

[1]

[2]

[3]

[б]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]