Дивергенция (статистика)

Из Википедии, бесплатной энциклопедии

В информационной геометрии дивергенция , — это своего рода статистическое расстояние : бинарная функция которая устанавливает разделение от одного распределения вероятностей к другому на статистическом многообразии .

Простейшая дивергенция — это квадрат евклидова расстояния (SED), и дивергенции можно рассматривать как обобщение SED. Другое наиболее важное расхождение — это относительная энтропия (также называемая дивергенцией Кульбака-Лейблера ), которая занимает центральное место в теории информации . Существует множество других специфических расходимостей и классов расходимостей, в частности f -дивергенции и расходимости Брегмана (см. § Примеры ).

Определение [ править ]

Учитывая дифференцируемое многообразие [а] размера , расхождение на это -функция удовлетворительно: [1] [2]

  1. для всех (неотрицательность),
  2. если и только если (позитивность),
  3. В каждой точке , является положительно определенной квадратичной формой для бесконечно малых перемещений от .

В приложениях к статистике многообразие обычно представляет собой пространство параметров параметрического семейства вероятностных распределений .

Условие 3 означает, что определяет скалярное произведение в касательном пространстве для каждого . С является на , это определяет риманову метрику на .

Локально в , мы можем построить локальную координатную карту с координатами , то расхождение

где представляет собой матрицу размера . Это риманова метрика в точке выраженный в координатах .

Размерный анализ условия 3 показывает, что дивергенция имеет размерность квадрата расстояния. [3]

Двойное расхождение определяется как

Когда мы хотим противопоставить против , мы ссылаемся на как первичное расхождение .

Учитывая любое расхождение , его симметризованная версия получается путем усреднения с двойной дивергенцией: [3]

Отличие от других подобных концепций [ править ]

В отличие от метрик , расхождения не обязаны быть симметричными, а асимметрия важна в приложениях. [3] Соответственно, часто асимметрично говорят об отличии « q от p » или «от p до q », а не «между p и q ». Во-вторых, расхождения обобщают квадрат расстояния, а не линейное расстояние, и, таким образом, не удовлетворяют неравенству треугольника , но некоторые расхождения (например, расхождение Брегмана ) удовлетворяют обобщениям теоремы Пифагора .

В общей статистике и теории вероятности «дивергенция» обычно относится к любому виду функции. , где являются распределениями вероятностей или другими рассматриваемыми объектами, такими, что выполняются условия 1, 2. Условие 3 требуется для «расхождения», используемого в информационной геометрии.

Например, общее расстояние вариации , широко используемое статистическое расхождение, не удовлетворяет условию 3.

Обозначения [ править ]

Обозначения дивергенций значительно различаются в зависимости от поля, хотя существуют некоторые соглашения.

Дивергенции обычно обозначаются заглавной буквой «D», например: , чтобы отличать их от метрических расстояний, которые обозначаются строчной буквой «d». Когда используются множественные расхождения, они обычно выделяются индексами, как в для дивергенции Кульбака–Лейблера (дивергенции КЛ).

Часто между параметрами используется другой разделитель, в частности, чтобы подчеркнуть асимметрию. В теории информации обычно используется двойная черта: ; это похоже на обозначение условной вероятности , но отличается от него. и подчеркивает интерпретацию расхождения как относительного измерения, например, относительной энтропии ; это обозначение является общим для КЛ-дивергенции. Вместо этого можно использовать двоеточие, [б] как ; это подчеркивает относительную информацию, подтверждающую два распределения.

Обозначения параметров также различаются. Верхний регистр интерпретирует параметры как распределения вероятностей, а строчные буквы или интерпретирует их геометрически как точки в пространстве и или интерпретирует их как меры.

Геометрические свойства [ править ]

Многие свойства расходимостей можно получить, если мы ограничим S статистическим многообразием, то есть его можно параметризовать конечномерной системой координат θ , так что для распределения p S мы можем записать p = p ( θ ) .

Для пары точек p , q S координатами θp и , θq q обозначим частные производные D ( p с ) как

Теперь ограничим эти функции диагональю p = q и обозначим [4]

По определению функция D ( p , q ) минимизируется при p = q , и, следовательно,

где матрица g ( Д ) положительно полуопределена и определяет единственную риманову метрику на многообразии S .

Дивергенция D (·, ·) также определяет единственную кручения без аффинную связность ( Д ) с коэффициентами

а двойственное к этой связности ∇* порождается двойственной дивергенцией D *.

Таким образом, дивергенция D (·, ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ( Д ) , ∇ ( Д ) , ∇ ( Д * ) ). Обратное также верно: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть уникальной). [5]

Например, когда D является f-дивергенцией [6] для некоторой функции ƒ(·), то она порождает метрику g ( Д ж ) = c·g и связность ( Д ж ) = ∇ ( а ) , где g — каноническая информационная метрика Фишера , ∇ ( а ) является α-связностью , c = ƒ′′(1) и α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Примеры [ править ]

Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака-Лейблера , расхождение КЛ), которое занимает центральное место в теории информации и статистике, и квадрат евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом линейных обратных задач решения с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . [7]

Двумя наиболее важными классами расходимостей являются f -дивергенции и дивергенции Брегмана ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение для вероятностей в конечном алфавите , которое является одновременно f -дивергенцией и дивергенцией Брегмана, - это дивергенция Кульбака – Лейблера. [8] Квадрат евклидовой дивергенции является дивергенцией Брегмана (соответствует функции ), но не f -расхождение.

f-расхождения [ править ]

Учитывая выпуклую функцию такой, что , f -дивергенция, порожденная определяется как

.
Расхождение Кульбака – Лейблера :
квадрат расстояния Хеллингера :
Расхождение Дженсена-Шеннона :
α-дивергенция
расхождение хи-квадрат :
( α , β )-расхождение продуктов [ нужна цитата ] :

Расхождения Брегмана [ править ]

Брегмановские расходимости соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклую , непрерывно дифференцируемую функцию F на выпуклом множестве , известную как генератор Брегмана , расходимость Брегмана измеряет выпуклость: ошибки линейного приближения F от q как приближения значения в точке p :

Двойственная дивергенция к дивергенции Брегмана — это дивергенция, порожденная выпуклым сопряжением F * генератора Брегмана исходной расходимости. Например, для квадрата евклидова расстояния генератор имеет вид , а для относительной энтропии генератором является отрицательная энтропия .

История [ править ]

Использование термина «дивергенция» - как к функциям, к которым он относится, так и к тому, как называются различные статистические расстояния, - значительно менялось с течением времени, но на c. В 2000 году было решено использовать нынешнее использование в информационной геометрии, особенно в учебнике Амари и Нагаока (2000) . [1]

Термин «дивергенция» для статистического расстояния неофициально использовался в различных контекстах, начиная с c. 1910 г. до ок. 1940. Его официальное использование восходит, по крайней мере, к Bhattacharyya (1943) , озаглавленному «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», который определил расстояние Бхаттачарьи , и Bhattacharyya (1946) , озаглавленному «О мере Дивергенция между двумя полиномиальными популяциями», которая определила угол Бхаттачарьи . Этот термин стал популяризирован благодаря его использованию для обозначения расхождения Кульбака-Лейблера в работе Kullback & Leibler (1951) и его использованию в учебнике Kullback (1959) . Термин «дивергенция» обычно использовался Али и Силви (1966) для обозначения статистических расстояний. Многочисленные ссылки на более раннее использование статистических расстояний даны в работах Адхикари и Джоши (1956) и Кульбака (1959 , стр. 6–7, §1.3 «Дивергенция»).

Кульбак и Лейблер (1951) фактически использовали термин «дивергенция» для обозначения симметричной дивергенции (эта функция уже была определена и использовалась Гарольдом Джеффрисом в 1948 году). [9] ), ссылаясь на асимметричную функцию как на «среднюю информацию для дискриминации ... на одно наблюдение», [10] в то время как Кульбак (1959) называл асимметричную функцию «направленной дивергенцией». [11] Али и Силви (1966) вообще называли такую ​​функцию «коэффициентом дивергенции» и показали, что многие существующие функции могут быть выражены как f -дивергенции, называя функцию Джеффриса «мерой дивергенции Джеффриса» (сегодня «мера дивергенции Джеффриса»). Дивергенция Джеффриса»), а асимметричная функция Кульбака-Лейблера (в каждом направлении) как «меры дискриминационной информации Кульбака и Лейблера» (сегодня «дивергенция Кульбака-Лейблера»). [12]

Определение дивергенции в информационной геометрии (предмет этой статьи) первоначально упоминалось под альтернативными терминами, включая «квазирасстояние» Амари (1982 , стр. 369) и «функцию контраста» Эгучи (1985) , хотя «дивергенция» была использовался Амари (1985) для α -дивергенции и стал стандартом для общего класса. [1] [2]

Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. [13] Например, термин «расстояние Брегмана» все еще встречается, но теперь предпочтение отдается «дивергенции Брегмана».

Условно, Кульбак и Лейблер (1951) обозначили свою асимметричную функцию как , а Али и Сильви (1966) обозначают свои функции строчной буквой «d» как .

См. также [ править ]

Примечания [ править ]

  1. ^ Всюду нам нужен только класс дифференцируемости C 2 (непрерывный с непрерывными первой и второй производными), поскольку требуются только вторые производные. На практике обычно используемые статистические многообразия и дивергенции бесконечно дифференцируемы («гладкие»).
  2. ^ Двоеточие используется в Kullback & Leibler (1951 , стр. 80), где расхождение KL между мерой и написано как .

Ссылки [ править ]

  1. ^ Перейти обратно: а б с Амари и Нагаока 2000 , глава 3.2.
  2. ^ Перейти обратно: а б Амари 2016 , с. 10, Определение 1.1.
  3. ^ Перейти обратно: а б с Амари 2016 , с. 10.
  4. ^ Эгучи (1992)
  5. ^ Матумото (1993)
  6. ^ Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 :10–13. arXiv : 1309.3029 . дои : 10.1109/ЛСП.2013.2288355 . S2CID   4152365 .
  7. ^ Чисар 1991 .
  8. ^ Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN   0018-9448 . S2CID   13108908 .
  9. ^ Джеффрис 1948 , с. 158.
  10. ^ Кульбак и Лейблер 1951 , с. 80.
  11. ^ Кульбак 1959 , с. 7.
  12. ^ Али и Сильви 1966 , с. 139.
  13. ^ Кульбак 1959 , с. 6.

Библиография [ править ]