Jump to content

Дивергенция (статистика)

В информационной геометрии дивергенция бинарная — это своего рода статистическое расстояние : функция , которая устанавливает разделение от одного распределения вероятностей к другому на статистическом многообразии .

Простейшая дивергенция — это квадрат евклидова расстояния (SED), и дивергенции можно рассматривать как обобщение SED. Другое наиболее важное расхождение — это относительная энтропия (также называемая дивергенцией Кульбака-Лейблера ), которая занимает центральное место в теории информации . Существует множество других специфических расходимостей и классов расходимостей, в частности f -дивергенции и расходимости Брегмана (см. § Примеры ).

Определение

[ редактировать ]

Учитывая дифференцируемое многообразие [а] размера , расхождение на это -функция удовлетворительно: [1] [2]

  1. для всех (неотрицательность),
  2. тогда и только тогда, когда (позитивность),
  3. В каждой точке , является положительно определенной квадратичной формой для бесконечно малых перемещений от .

В приложениях к статистике многообразие обычно представляет собой пространство параметров параметрического семейства вероятностных распределений .

Условие 3 означает, что определяет скалярное произведение в касательном пространстве для каждого . С является на , это определяет риманову метрику на .

Локально в , мы можем построить локальную координатную карту с координатами , то расхождение где представляет собой матрицу размера . Это риманова метрика в точке выраженный в координатах .

Размерный анализ условия 3 показывает, что дивергенция имеет размерность квадрата расстояния. [3]

Двойное расхождение определяется как

Когда мы хотим противопоставить против , мы ссылаемся на как первичное расхождение .

Учитывая любое расхождение , его симметризованная версия получается путем усреднения с двойной дивергенцией: [3]

Отличие от других подобных концепций

[ редактировать ]

В отличие от метрик , расхождения не обязаны быть симметричными, а асимметрия важна в приложениях. [3] Соответственно, часто асимметрично говорят об отличии « q от p » или «от p до q », а не «между p и q ». Во-вторых, расхождения обобщают квадрат расстояния, а не линейное расстояние, и, таким образом, не удовлетворяют неравенству треугольника , но некоторые расхождения (например, расхождение Брегмана ) удовлетворяют обобщениям теоремы Пифагора .

В общей статистике и теории вероятности «дивергенция» обычно относится к любому виду функции. , где являются распределениями вероятностей или другими рассматриваемыми объектами, такими, что выполняются условия 1, 2. Условие 3 требуется для «расхождения», используемого в информационной геометрии.

Например, общее расстояние вариации , широко используемое статистическое расхождение, не удовлетворяет условию 3.

Обозначения

[ редактировать ]

Обозначения дивергенций значительно различаются в зависимости от поля, хотя существуют некоторые соглашения.

Дивергенции обычно обозначаются заглавной буквой «D», например: , чтобы отличать их от метрических расстояний, которые обозначаются строчной буквой «d». Когда используются множественные расхождения, они обычно выделяются индексами, как в для дивергенции Кульбака–Лейблера (дивергенции КЛ).

Часто между параметрами используется другой разделитель, в частности, чтобы подчеркнуть асимметрию. В теории информации обычно используется двойная черта: ; это похоже на обозначение условной вероятности , но отличается от него . и подчеркивает интерпретацию расхождения как относительного измерения, например, относительной энтропии ; это обозначение является общим для КЛ-дивергенции. Вместо этого можно использовать двоеточие, [б] как ; это подчеркивает относительную информацию, подтверждающую два распределения.

Обозначения параметров также различаются. Прописные буквы интерпретирует параметры как распределения вероятностей, а строчные буквы или интерпретирует их геометрически как точки в пространстве и или интерпретирует их как меры.

Геометрические свойства

[ редактировать ]

Многие свойства расходимостей можно получить, если мы ограничим S статистическим многообразием, то есть его можно параметризовать конечномерной системой координат θ , так что для распределения p S мы можем записать p = p ( θ ) .

Для пары точек p , q S с координатами θ p и θ q обозначим частные производные D ( p , q ) как

Теперь ограничим эти функции диагональю p = q и обозначим [4]

По определению, функция D ( p , q ) минимизируется при p = q , и, следовательно,

где матрица g ( Д ) положительно полуопределена и определяет единственную риманову метрику на многообразии S .

Дивергенция D (·, ·) также определяет единственную кручения без аффинную связность ( Д ) с коэффициентами

а двойственное к этой связности ∇* порождается двойственной дивергенцией D *.

Таким образом, дивергенция D (·, ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ( Д ) , ∇ ( Д ) , ∇ ( Д * ) ). Обратное также верно: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть уникальной). [5]

Например, когда D является f-дивергенцией [6] для некоторой функции ƒ(·), то она порождает метрику g ( Д ж ) = c·g и связность ( Д ж ) = ∇ ( а ) , где g — каноническая информационная метрика Фишера , ∇ ( а ) является α-связностью , c = ƒ′′(1) и α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака-Лейблера , расхождение КЛ), которое занимает центральное место в теории информации и статистике, и квадрат евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом линейных обратных задач решения с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . [7]

Двумя наиболее важными классами расходимостей являются f -дивергенции и дивергенции Брегмана ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение для вероятностей в конечном алфавите , которое является одновременно f -дивергенцией и дивергенцией Брегмана, - это дивергенция Кульбака – Лейблера. [8] Квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ), но не f -дивергенция.

f-расхождения

[ редактировать ]

Дана выпуклая функция такой, что , f -дивергенция, порожденная определяется как

.
Расхождение Кульбака – Лейблера :
квадрат расстояния Хеллингера :
Расхождение Дженсена-Шеннона :
α-дивергенция
расхождение хи-квадрат :
( α , β )-расхождение продуктов [ нужна ссылка ] :

Расхождения Брегмана

[ редактировать ]

Брегмановские расходимости соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклую , непрерывно дифференцируемую функцию F на выпуклом множестве , известную как генератор Брегмана , расходимость Брегмана измеряет выпуклость: ошибки линейного приближения F от q как приближения значения в точке p :

Двойственная дивергенция к дивергенции Брегмана — это дивергенция, порожденная выпуклым сопряжением F * генератора Брегмана исходной расходимости. Например, для квадрата евклидова расстояния генератор равен , а для относительной энтропии генератором является отрицательная энтропия .

Использование термина «дивергенция» - как к каким функциям он относится, так и к каким различным статистическим расстояниям относятся - значительно менялось с течением времени, но на c. В 2000 году был остановлен на текущем использовании в информационной геометрии, особенно в учебнике Амари и Нагаока (2000) . [1]

Термин «дивергенция» для статистического расстояния неофициально использовался в различных контекстах, начиная с c. 1910 г. до ок. 1940. Его официальное использование восходит, по крайней мере, к Bhattacharyya (1943) , озаглавленному «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», который определил расстояние Бхаттачарьи , и Bhattacharyya (1946) , озаглавленному «О мере Дивергенция между двумя полиномиальными популяциями», которая определила угол Бхаттачарьи . Этот термин стал популяризирован благодаря его использованию для обозначения расхождения Кульбака-Лейблера в работе Kullback & Leibler (1951) и его использованию в учебнике Kullback (1959) . Термин «дивергенция» обычно использовался Али и Силви (1966) для обозначения статистических расстояний. Многочисленные ссылки на более раннее использование статистических расстояний приведены в работах Адхикари и Джоши (1956) и Кульбака (1959 , стр. 6–7, §1.3 «Дивергенция»).

Кульбак и Лейблер (1951) фактически использовали термин «дивергенция» для обозначения симметричной дивергенции (эта функция уже была определена и использовалась Гарольдом Джеффрисом в 1948 году). [9] ), ссылаясь на асимметричную функцию как на «среднюю информацию для дискриминации ... на одно наблюдение», [10] в то время как Кульбак (1959) называл асимметричную функцию «направленной дивергенцией». [11] Али и Силви (1966) вообще называли такую ​​функцию «коэффициентом дивергенции» и показали, что многие существующие функции могут быть выражены как f -дивергенции, называя функцию Джеффриса «мерой дивергенции Джеффриса» (сегодня «мера дивергенции Джеффриса»). Дивергенция Джеффриса»), а асимметричная функция Кульбака-Лейблера (в каждом направлении) как «меры дискриминационной информации Кульбака и Лейблера» (сегодня «дивергенция Кульбака-Лейблера»). [12]

Определение дивергенции в информационной геометрии (предмет этой статьи) изначально упоминалось под альтернативными терминами, включая «квазирасстояние» Амари (1982 , стр. 369) и «функцию контраста» Эгучи (1985) , хотя «дивергенция» была использовался Амари (1985) для α -дивергенции и стал стандартом для общего класса. [1] [2]

Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. [13] Например, термин «расстояние Брегмана» все еще встречается, но теперь предпочтение отдается «дивергенции Брегмана».

Условно, Кульбак и Лейблер (1951) обозначили свою асимметричную функцию как , а Али и Сильви (1966) обозначают свои функции строчной буквой «d» как .

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Всюду нам нужен только класс дифференцируемости C 2 (непрерывный с непрерывными первой и второй производными), поскольку требуются только вторые производные. На практике обычно используемые статистические многообразия и дивергенции бесконечно дифференцируемы («гладкие»).
  2. ^ Двоеточие используется в работе Kullback & Leibler (1951 , стр. 80), где расхождение KL между мерой и написано как .
  1. ^ Jump up to: а б с Амари и Нагаока 2000 , глава 3.2.
  2. ^ Jump up to: а б Амари 2016 , с. 10, Определение 1.1.
  3. ^ Jump up to: а б с Амари 2016 , с. 10.
  4. ^ Эгучи (1992)
  5. ^ Матумото (1993)
  6. ^ Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 :10–13. arXiv : 1309.3029 . дои : 10.1109/ЛСП.2013.2288355 . S2CID   4152365 .
  7. ^ Чисар 1991 .
  8. ^ Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN   0018-9448 . S2CID   13108908 .
  9. ^ Джеффрис 1948 , с. 158.
  10. ^ Кульбак и Лейблер 1951 , с. 80.
  11. ^ Кульбак 1959 , с. 7.
  12. ^ Али и Сильви 1966 , с. 139.
  13. ^ Кульбак 1959 , с. 6.

Библиография

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4d3fa601706403b25880267f022571f3__1707987960
URL1:https://arc.ask3.ru/arc/aa/4d/f3/4d3fa601706403b25880267f022571f3.html
Заголовок, (Title) документа по адресу, URL1:
Divergence (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)