Дивергенция (статистика)
В информационной геометрии дивергенция бинарная — это своего рода статистическое расстояние : функция , которая устанавливает разделение от одного распределения вероятностей к другому на статистическом многообразии .
Простейшая дивергенция — это квадрат евклидова расстояния (SED), и дивергенции можно рассматривать как обобщение SED. Другое наиболее важное расхождение — это относительная энтропия (также называемая дивергенцией Кульбака-Лейблера ), которая занимает центральное место в теории информации . Существует множество других специфических расходимостей и классов расходимостей, в частности f -дивергенции и расходимости Брегмана (см. § Примеры ).
Определение
[ редактировать ]Учитывая дифференцируемое многообразие [а] размера , расхождение на это -функция удовлетворительно: [1] [2]
- для всех (неотрицательность),
- тогда и только тогда, когда (позитивность),
- В каждой точке , является положительно определенной квадратичной формой для бесконечно малых перемещений от .
В приложениях к статистике многообразие обычно представляет собой пространство параметров параметрического семейства вероятностных распределений .
Условие 3 означает, что определяет скалярное произведение в касательном пространстве для каждого . С является на , это определяет риманову метрику на .
Локально в , мы можем построить локальную координатную карту с координатами , то расхождение где представляет собой матрицу размера . Это риманова метрика в точке выраженный в координатах .
Размерный анализ условия 3 показывает, что дивергенция имеет размерность квадрата расстояния. [3]
Двойное расхождение определяется как
Когда мы хотим противопоставить против , мы ссылаемся на как первичное расхождение .
Учитывая любое расхождение , его симметризованная версия получается путем усреднения с двойной дивергенцией: [3]
Отличие от других подобных концепций
[ редактировать ]В отличие от метрик , расхождения не обязаны быть симметричными, а асимметрия важна в приложениях. [3] Соответственно, часто асимметрично говорят об отличии « q от p » или «от p до q », а не «между p и q ». Во-вторых, расхождения обобщают квадрат расстояния, а не линейное расстояние, и, таким образом, не удовлетворяют неравенству треугольника , но некоторые расхождения (например, расхождение Брегмана ) удовлетворяют обобщениям теоремы Пифагора .
В общей статистике и теории вероятности «дивергенция» обычно относится к любому виду функции. , где являются распределениями вероятностей или другими рассматриваемыми объектами, такими, что выполняются условия 1, 2. Условие 3 требуется для «расхождения», используемого в информационной геометрии.
Например, общее расстояние вариации , широко используемое статистическое расхождение, не удовлетворяет условию 3.
Обозначения
[ редактировать ]Обозначения дивергенций значительно различаются в зависимости от поля, хотя существуют некоторые соглашения.
Дивергенции обычно обозначаются заглавной буквой «D», например: , чтобы отличать их от метрических расстояний, которые обозначаются строчной буквой «d». Когда используются множественные расхождения, они обычно выделяются индексами, как в для дивергенции Кульбака–Лейблера (дивергенции КЛ).
Часто между параметрами используется другой разделитель, в частности, чтобы подчеркнуть асимметрию. В теории информации обычно используется двойная черта: ; это похоже на обозначение условной вероятности , но отличается от него . и подчеркивает интерпретацию расхождения как относительного измерения, например, относительной энтропии ; это обозначение является общим для КЛ-дивергенции. Вместо этого можно использовать двоеточие, [б] как ; это подчеркивает относительную информацию, подтверждающую два распределения.
Обозначения параметров также различаются. Прописные буквы интерпретирует параметры как распределения вероятностей, а строчные буквы или интерпретирует их геометрически как точки в пространстве и или интерпретирует их как меры.
Геометрические свойства
[ редактировать ]Многие свойства расходимостей можно получить, если мы ограничим S статистическим многообразием, то есть его можно параметризовать конечномерной системой координат θ , так что для распределения p ∈ S мы можем записать p = p ( θ ) .
Для пары точек p , q ∈ S с координатами θ p и θ q обозначим частные производные D ( p , q ) как
Теперь ограничим эти функции диагональю p = q и обозначим [4]
По определению, функция D ( p , q ) минимизируется при p = q , и, следовательно,
где матрица g ( Д ) положительно полуопределена и определяет единственную риманову метрику на многообразии S .
Дивергенция D (·, ·) также определяет единственную кручения без аффинную связность ∇ ( Д ) с коэффициентами
а двойственное к этой связности ∇* порождается двойственной дивергенцией D *.
Таким образом, дивергенция D (·, ·) порождает на статистическом многообразии единственную дуалистическую структуру ( g ( Д ) , ∇ ( Д ) , ∇ ( Д * ) ). Обратное также верно: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть уникальной). [5]
Например, когда D является f-дивергенцией [6] для некоторой функции ƒ(·), то она порождает метрику g ( Д ж ) = c·g и связность ∇ ( Д ж ) = ∇ ( а ) , где g — каноническая информационная метрика Фишера , ∇ ( а ) является α-связностью , c = ƒ′′(1) и α = 3 + 2ƒ′′′(1)/ƒ′′(1) .
Примеры
[ редактировать ]Двумя наиболее важными расхождениями являются относительная энтропия ( расхождение Кульбака-Лейблера , расхождение КЛ), которое занимает центральное место в теории информации и статистике, и квадрат евклидова расстояния (SED). Минимизация этих двух расхождений является основным способом линейных обратных задач решения с помощью принципа максимальной энтропии и наименьших квадратов , особенно в логистической регрессии и линейной регрессии . [7]
Двумя наиболее важными классами расходимостей являются f -дивергенции и дивергенции Брегмана ; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение для вероятностей в конечном алфавите , которое является одновременно f -дивергенцией и дивергенцией Брегмана, - это дивергенция Кульбака – Лейблера. [8] Квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ), но не f -дивергенция.
f-расхождения
[ редактировать ]Дана выпуклая функция такой, что , f -дивергенция, порожденная определяется как
- .
Расхождение Кульбака – Лейблера : | |
квадрат расстояния Хеллингера : | |
Расхождение Дженсена-Шеннона : | |
α-дивергенция | |
расхождение хи-квадрат : | |
( α , β )-расхождение продуктов [ нужна ссылка ] : |
Расхождения Брегмана
[ редактировать ]Брегмановские расходимости соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклую , непрерывно дифференцируемую функцию F на выпуклом множестве , известную как генератор Брегмана , расходимость Брегмана измеряет выпуклость: ошибки линейного приближения F от q как приближения значения в точке p :
Двойственная дивергенция к дивергенции Брегмана — это дивергенция, порожденная выпуклым сопряжением F * генератора Брегмана исходной расходимости. Например, для квадрата евклидова расстояния генератор равен , а для относительной энтропии генератором является отрицательная энтропия .
История
[ редактировать ]Использование термина «дивергенция» - как к каким функциям он относится, так и к каким различным статистическим расстояниям относятся - значительно менялось с течением времени, но на c. В 2000 году был остановлен на текущем использовании в информационной геометрии, особенно в учебнике Амари и Нагаока (2000) . [1]
Термин «дивергенция» для статистического расстояния неофициально использовался в различных контекстах, начиная с c. 1910 г. до ок. 1940. Его официальное использование восходит, по крайней мере, к Bhattacharyya (1943) , озаглавленному «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», который определил расстояние Бхаттачарьи , и Bhattacharyya (1946) , озаглавленному «О мере Дивергенция между двумя полиномиальными популяциями», которая определила угол Бхаттачарьи . Этот термин стал популяризирован благодаря его использованию для обозначения расхождения Кульбака-Лейблера в работе Kullback & Leibler (1951) и его использованию в учебнике Kullback (1959) . Термин «дивергенция» обычно использовался Али и Силви (1966) для обозначения статистических расстояний. Многочисленные ссылки на более раннее использование статистических расстояний приведены в работах Адхикари и Джоши (1956) и Кульбака (1959 , стр. 6–7, §1.3 «Дивергенция»).
Кульбак и Лейблер (1951) фактически использовали термин «дивергенция» для обозначения симметричной дивергенции (эта функция уже была определена и использовалась Гарольдом Джеффрисом в 1948 году). [9] ), ссылаясь на асимметричную функцию как на «среднюю информацию для дискриминации ... на одно наблюдение», [10] в то время как Кульбак (1959) называл асимметричную функцию «направленной дивергенцией». [11] Али и Силви (1966) вообще называли такую функцию «коэффициентом дивергенции» и показали, что многие существующие функции могут быть выражены как f -дивергенции, называя функцию Джеффриса «мерой дивергенции Джеффриса» (сегодня «мера дивергенции Джеффриса»). Дивергенция Джеффриса»), а асимметричная функция Кульбака-Лейблера (в каждом направлении) как «меры дискриминационной информации Кульбака и Лейблера» (сегодня «дивергенция Кульбака-Лейблера»). [12]
Определение дивергенции в информационной геометрии (предмет этой статьи) изначально упоминалось под альтернативными терминами, включая «квазирасстояние» Амари (1982 , стр. 369) и «функцию контраста» Эгучи (1985) , хотя «дивергенция» была использовался Амари (1985) для α -дивергенции и стал стандартом для общего класса. [1] [2]
Термин «дивергенция» противоположен расстоянию (метрике), поскольку симметризованная дивергенция не удовлетворяет неравенству треугольника. [13] Например, термин «расстояние Брегмана» все еще встречается, но теперь предпочтение отдается «дивергенции Брегмана».
Условно, Кульбак и Лейблер (1951) обозначили свою асимметричную функцию как , а Али и Сильви (1966) обозначают свои функции строчной буквой «d» как .
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Всюду нам нужен только класс дифференцируемости C 2 (непрерывный с непрерывными первой и второй производными), поскольку требуются только вторые производные. На практике обычно используемые статистические многообразия и дивергенции бесконечно дифференцируемы («гладкие»).
- ^ Двоеточие используется в работе Kullback & Leibler (1951 , стр. 80), где расхождение KL между мерой и написано как .
Ссылки
[ редактировать ]- ^ Jump up to: а б с Амари и Нагаока 2000 , глава 3.2.
- ^ Jump up to: а б Амари 2016 , с. 10, Определение 1.1.
- ^ Jump up to: а б с Амари 2016 , с. 10.
- ^ Эгучи (1992)
- ^ Матумото (1993)
- ^ Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 :10–13. arXiv : 1309.3029 . дои : 10.1109/ЛСП.2013.2288355 . S2CID 4152365 .
- ^ Чисар 1991 .
- ^ Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN 0018-9448 . S2CID 13108908 .
- ^ Джеффрис 1948 , с. 158.
- ^ Кульбак и Лейблер 1951 , с. 80.
- ^ Кульбак 1959 , с. 7.
- ^ Али и Сильви 1966 , с. 139.
- ^ Кульбак 1959 , с. 6.
Библиография
[ редактировать ]- Адхикари, БП; Джоши, Д.Д. (1956). «Расстояние, дискриминация и исчерпывающее резюме». Паб. Инст. Это стоит унив. Париж 5 : 57–74.
- Амари, Сюн-Ичи (1982). «Дифференциальная геометрия кривых экспоненциальных семейств-кривизны и потеря информации» . Анналы статистики . 10 (2): 357–385. дои : 10.1214/aos/1176345779 . ISSN 0090-5364 . JSTOR 2240672 .
- Амари, Сюн-Ичи (1985). Дифференциально-геометрические методы в статистике . Конспект лекций по статистике. Том. 28. Шпрингер-Верлаг.
- Амари, Сюнъити ; Нагаока, Хироши (2000). Методы информационной геометрии . Издательство Оксфордского университета. ISBN 0-8218-0531-2 .
- Амари, Сюн-ичи (2016). Информационная геометрия и ее приложения . Прикладные математические науки. Том. 194. Спрингер Япония. стр. XIII, 374. doi : 10.1007/978-4-431-55978-8 . ISBN 978-4-431-55977-1 .
- Бхаттачарья, А. (1946). «О мере расхождения между двумя многочленными популяциями». Санкхья: Индийский статистический журнал (1933–1960) . 7 (4): 401–406. ISSN 0036-4452 . JSTOR 25047882 .
- Бхаттачарья, А. (1943). «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей». Бык. Калькуттская математика. Соц . 35 : 99–109.
- Чисар, Имре (1 декабря 1991 г.). «Почему наименьшие квадраты и максимальная энтропия? Аксиоматический подход к выводу для линейных обратных задач» . Анналы статистики . 19 (4). дои : 10.1214/aos/1176348385 .
- Эгути, Синто (1985). «Дифференциальный геометрический подход к статистическому выводу на основе контрастных функционалов» . Хиросимский математический журнал . 15 (2): 341–391. дои : 10.32917/hmj/1206130775 .
- Эгучи, Синто (1992). «Геометрия минимального контраста» . Хиросимский математический журнал . 22 (3): 631–647. дои : 10.32917/hmj/1206128508 .
- Али, С.М.; Сильви, SD (1966). «Общий класс коэффициентов отклонения одного распределения от другого». Журнал Королевского статистического общества. Серия Б (Методическая) . 28 (1): 131–142. дои : 10.1111/j.2517-6161.1966.tb00626.x . ISSN 0035-9246 . JSTOR 2984279 .
- Джеффрис, Гарольд (1948). Теория вероятностей (второе изд.). Издательство Оксфордского университета.
- Кульбак, С. ; Лейблер, Р.А. (1951). «Об информации и достаточности» . Анналы математической статистики . 22 (1): 79–86. дои : 10.1214/aoms/1177729694 . JSTOR 2236703 . МР 0039968 .
- Кульбак, С. (1959), Теория информации и статистика , John Wiley & Sons . Переиздано Dover Publications в 1968 году; перепечатано в 1978 г.: ISBN 0-8446-5625-9
- Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста — от C³-функций, принимающих минимум на диагонали продуктового многообразия» . Хиросимский математический журнал . 23 (2): 327–332. дои : 10.32917/hmj/1206128255 .