f - дивергенция
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( сентябрь 2015 г. ) |
В теории вероятностей -дивергенция – это определенный тип функции который измеряет разницу между двумя распределениями вероятностей и . Многие распространенные дивергенции, такие как КЛ-дивергенция , расстояние Хеллингера и полное вариационное расстояние , являются частными случаями -расхождение.
История
[ редактировать ]Эти расхождения были введены Альфредом Реньи. [1] в той же статье, где он ввел известную энтропию Реньи . Он доказал, что эти расходимости уменьшаются в марковских процессах . f -дивергенции были дополнительно изучены независимо Чисаром (1963) , Моримото (1963) и Али и Сильви (1966) , и иногда их называют Чисаром. -расхождения, расходимости Чисара–Моримото или расстояния Али–Сильви.
Определение
[ редактировать ]Несингулярный случай
[ редактировать ]Позволять и быть двумя распределениями вероятностей в пространстве , такой, что , то есть, непрерывен абсолютно относительно . Тогда для выпуклой функции такой, что конечен для всех , , и (которое может быть бесконечным), -расхождение от определяется как
Мы звоним генератор .
В конкретных приложениях обычно существует эталонное распределение. на (например, когда , эталонное распределение является мерой Лебега ), такое что , то мы можем использовать теорему Радона–Никодима, чтобы взять их плотности вероятности и , давая
Когда такого эталонного распределения под рукой нет, мы можем просто определить , и действуйте, как указано выше. Это полезный метод в более абстрактных доказательствах.
Распространение на сингулярные меры
[ редактировать ]Приведенное выше определение можно распространить на случаи, когда больше не удовлетворяется (Определение 7.1 [2] ).
С является выпуклым, и , функция не должна уменьшаться, поэтому существует , принимая значение в .
Поскольку для любого , у нас есть , мы можем распространить f-дивергенцию на .
Характеристики
[ редактировать ]Основные соотношения между f-расхождениями
[ редактировать ]- Линейность: задана конечная последовательность неотрицательных действительных чисел и генераторы .
- если только для некоторых .
Если , затем по определению.
И наоборот, если , тогда пусть . Для любых двух вероятностных мер на съемочной площадке , с , мы получаем
Поскольку каждая вероятностная мера имеет одну степень свободы, мы можем решить на любой выбор .
Линейная алгебра дает , что является допустимой вероятностной мерой. Тогда мы получаем .
Таким образом для некоторых констант . Подключаем формулу в урожайность .
Основные свойства f-дивергенций
[ редактировать ]- Неотрицательность : ƒ -дивергенция всегда положительна; оно равно нулю, если меры P и Q совпадают. Это следует непосредственно из неравенства Йенсена :
- Неравенство обработки данных : если κ — произвольная вероятность перехода , которая преобразует меры P и Q в P κ и Q κ соответственно, то
- Равенство здесь выполняется тогда и только тогда, когда переход индуцируется достаточной статистикой относительно { P , Q }.
- Совместная выпуклость : для любого 0 ≤ λ ≤ 1 ,
- Обращение путем выпуклой инверсии : для любой функции. , его выпуклая инверсия определяется как . Когда удовлетворяет определяющим характеристикам генератора f-дивергенции ( конечен для всех , , и ), затем удовлетворяет тем же свойствам и, таким образом, определяет f-дивергенцию . Это «обратная сторона» , в том смысле, что для всех которые абсолютно непрерывны друг относительно друга.Таким образом, каждая f-дивергенция можно сделать симметричным, . Например, выполнение этой симметризации превращает КЛ-дивергенцию в дивергенцию Дженсена-Шеннона.
В частности, из монотонности следует, что если марковский процесс имеет положительное равновесное распределение вероятностей затем — монотонная (невозрастающая) функция времени, где распределение вероятностей является решением прямых уравнений Колмогорова (или Мастер-уравнения ), используемых для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все f -расхождения – функции Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием. и имеет форму следа( ) затем , для некоторой выпуклой функции f . [3] [4] Например, расходимости Брегмана вообще не обладают таким свойством и могут возрастать в марковских процессах. [5]
Аналитические свойства
[ редактировать ]F-расхождения можно выразить с помощью ряда Тейлора и переписать, используя взвешенную сумму расстояний типа хи ( Nielsen & Nock (2013) ).
Наивное вариационное представление
[ редактировать ]Позволять быть сопряжением выпуклым . Позволять быть эффективной областью , то есть, . Тогда мы имеем два вариационных представления , о котором мы опишем ниже.
Основное вариационное представление
[ редактировать ]При вышеуказанной настройке
Теорема — .
Это теорема 7.24. [2]
Примеры приложений
[ редактировать ]Используя эту теорему об общем вариационном расстоянии с генератором его выпуклое сопряжение , и мы получаем Для дивергенции хи-квадрат, определяемой формулой , мы получаем Поскольку вариационный член не является аффинно-инвариантным в , хотя домен, в котором варьируется аффинно -инвариантно, мы можем использовать аффинную инвариантность, чтобы получить более компактное выражение.
Замена к и берём максимум , мы получаем что находится всего в нескольких шагах от границы Хаммерсли–Чепмена–Роббинса и границы Крамера–Рао (теорема 29.1 и ее следствие в [2] ).
Для -расхождение с , у нас есть , с диапазоном . Его выпуклое сопряжение с диапазоном , где .
Применение этой теоремы дает после замены на , или, сняв ограничение на , Параметр дает вариационное представление -дивергенция, полученная выше.
Домен, над которым варьируется, вообще говоря, не является аффинно-инвариантным, в отличие от - случай расхождения. -дивергенция является особенной, так как в этом случае мы можем удалить от .
Для общего , домен, над которым варьируется, является просто масштабным инвариантом. Как и выше, мы можем заменить к , и возьмем минимум больше чтобы получить Параметр , и выполнив еще одну замену с помощью , дает два вариационных представления квадрата расстояния Хеллингера: Применяя эту теорему к KL-дивергенции, определяемой формулой , дает Это строго менее эффективно, чем представление Донскера – Варадана. Этот недостаток устраняется следующей теоремой.
Улучшенное вариационное представление
[ редактировать ]Предположим, что используется настройка, описанная в начале этого раздела («Вариационные представления»).
Теорема — Если на (переопределить если необходимо), то
,
где и , где — функция плотности вероятности относительно некоторой базовой меры.
В частном случае , у нас есть
.
Это теорема 7.25. [2]
Примеры приложений
[ редактировать ]Применение этой теоремы к KL-дивергенции дает представление Донскера–Варадана.
Попытка применить эту теорему к общему -расхождение с не дает решения в замкнутом виде.
Типичные примеры f -дивергенций
[ редактировать ]В следующей таблице перечислены многие распространенные расхождения между распределениями вероятностей и возможными производящими функциями, которым они соответствуют. Примечательно, что, за исключением общего вариационного расстояния, все остальные являются частными случаями -дивергенция, или линейные суммы -расхождения.
Для каждой f-дивергенции , его производящая функция определена не однозначно, а только с точностью до , где любая реальная константа. То есть для любого порождающее f-дивергенцию, мы имеем . Эта свобода не только удобна, но и действительно необходима.
Дивергенция | Соответствующая f(t) | Дискретная форма |
---|---|---|
-расхождение, | ||
Общее расстояние вариации ( ) | ||
α-дивергенция | ||
KL-дивергенция ( ) | ||
обратная КЛ-дивергенция ( ) | ||
Расхождение Дженсена-Шеннона | ||
Дивергенция Джеффри (КЛ + обратный КЛ) | ||
квадрат расстояния Хеллингера ( ) | ||
Пирсон -дивергенция (изменение масштаба ) | ||
Нейман -дивергенция (обратная Пирсона) (изменение масштаба ) |

Позволять быть генератором -расхождение, то и являются выпуклыми инверсиями друг друга, поэтому . В частности, это показывает, что квадрат расстояния Хеллингера и расходимость Дженсена-Шеннона симметричны.
В литературе, -расхождения иногда параметризуются как
что эквивалентно параметризации на этой странице путем замены .
Связь с другими статистическими расхождениями
[ редактировать ]Здесь мы сравниваем f -расхождения с другими статистическими расхождениями .
Расхождение Реньи
[ редактировать ]— Расходимости Реньи это семейство расходимостей, определяемое формулой
когда . Оно распространяется на случаи взяв предел.
Простая алгебра показывает, что , где это -дивергенция, определенная выше.
Дивергенция Брегмана
[ редактировать ]Единственная f-дивергенция, которая также является дивергенцией Брегмана, — это КЛ-дивергенция. [6]
Интегральные вероятностные метрики
[ редактировать ]Единственная f-дивергенция, которая также является интегральной вероятностной метрикой, — это полная вариация. [7]
Финансовая интерпретация
[ редактировать ]Пару распределений вероятностей можно рассматривать как азартную игру, в которой одно из распределений определяет официальные шансы, а другое содержит фактические вероятности. Знание реальных вероятностей позволяет игроку получить прибыль от игры. Для большого класса рациональных игроков ожидаемая норма прибыли имеет ту же общую форму, что и ƒ -дивергенция. [8]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Реньи, Альфред (1961). О мерах энтропии и информации (PDF) . 4-й симпозиум Беркли по математике, статистике и теории вероятностей, 1960. Беркли, Калифорния: University of California Press. стр. 547–561. уравнение (4.20)
- ^ Jump up to: а б с д Полянский, Юрий; Ихонг, Ву (2022). Теория информации: от кодирования к обучению (проект от 20 октября 2022 г.) (PDF) . Издательство Кембриджского университета. Архивировано из оригинала (PDF) 1 февраля 2023 г.
- ^ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Физика А. 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Бибкод : 2003PhyA..328..380G . дои : 10.1016/S0378-4371(03)00578-8 . S2CID 14975501 .
- ^ Амари, Шуничи (2009). Люнг, CS; Ли, М.; Чан, Дж. Х. (ред.). Дивергенция, оптимизация, геометрия . 16-я Международная конференция по нейронной обработке информации (ICONIP 20009), Бангкок, Таиланд, 1–5 декабря 2009 г. Конспекты лекций по информатике, том 5863. Берлин, Гейдельберг: Springer. стр. 185–193. дои : 10.1007/978-3-642-10677-4_21 .
- ^ Горбань, Александр Н. (29 апреля 2014 г.). «Общая H-теорема и энтропии, нарушающие второй закон» . Энтропия . 16 (5): 2408–2432. arXiv : 1212.6767 . Бибкод : 2014Entrp..16.2408G . дои : 10.3390/e16052408 .
- ^ Цзяо, Цзянтао; Куртад, Томас; Нет, Альберт; Венкат, Картик; Вайсман, Цахи (декабрь 2014 г.). «Информационные меры: любопытный случай двоичного алфавита». Транзакции IEEE по теории информации . 60 (12): 7616–7626. arXiv : 1404.6810 . дои : 10.1109/TIT.2014.2360184 . ISSN 0018-9448 . S2CID 13108908 .
- ^ Шриперумбудур, Бхарат К.; Фукумидзу, Кендзи; Греттон, Артур; Шёлкопф, Бернхард ; Ланкриет, Герт Р.Г. (2009). «Об интегральных вероятностных метриках, φ-дивергенциях и бинарной классификации». arXiv : 0901.2698 [ cs.IT ].
- ^ Соклаков, Андрей Н. (2020). «Экономика разногласий — финансовая интуиция для расхождения Реньи» . Энтропия . 22 (8): 860. arXiv : 1811.08308 . Бибкод : 2020Entrp..22..860S . дои : 10.3390/e22080860 . ПМЦ 7517462 . ПМИД 33286632 .
- Чисар, И. (1963). «Теоретико-информационное неравенство и его применение к доказательству эргодичности цепей Маркова». Мадьяр. Туд. Академический мат. Козл . 8 :85-108.
- Моримото, Т. (1963). «Марковские процессы и H-теорема». Дж. Физ. Соц. Япония . 18 (3): 328–331. Бибкод : 1963JPSJ...18..328M . дои : 10.1143/JPSJ.18.328 .
- Али, С.М.; Сильви, SD (1966). «Общий класс коэффициентов отклонения одного распределения от другого». Журнал Королевского статистического общества, серия B. 28 (1): 131–142. JSTOR 2984279 . МР 0196777 .
- Чисар, И. (1967). «Информационные меры различия вероятностных распределений и косвенного наблюдения». Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
- Чисар, И. ; Шилдс, П. (2004). «Теория информации и статистика: Учебное пособие» (PDF) . Основы и тенденции в теории связи и информации . 1 (4): 417–528. дои : 10.1561/0100000004 . Проверено 8 апреля 2009 г.
- Лизе, Ф.; Вайда, И. (2006). «О расхождениях и информации в статистике и теории информации». Транзакции IEEE по теории информации . 52 (10): 4394–4412. дои : 10.1109/TIT.2006.881731 . S2CID 2720215 .
- Нильсен, Ф.; Нок, Р. (2013). «О Хи-квадрате и расстояниях Хи высшего порядка для аппроксимации f-расходимостей». Письма об обработке сигналов IEEE . 21 (1): 10–13. arXiv : 1309.3029 . Бибкод : 2014ISPL...21...10N . дои : 10.1109/ЛСП.2013.2288355 . S2CID 4152365 .
- Кёржолли, Ж.Ф.; Друйе, Р. (2006). «Нормализованные информационные расхождения». arXiv : math/0604246 .