Интегральная метрика вероятности
В теории вероятностей интегральные метрики вероятности — это типы функций расстояния между распределениями вероятностей , определяемые тем, насколько хорошо класс функций может различать два распределения. Многие важные статистические расстояния являются интегральными показателями вероятности, включая расстояние Вассерштейна-1 и общее вариационное расстояние . Помимо теоретического значения, интегральные вероятностные метрики широко используются в областях статистики и машинного обучения .
Название «метрика интегральной вероятности» дал немецкий статистик Альфред Мюллер; [1] расстояния также ранее назывались «метриками с ζ -структурой». [2]
Определение
[ редактировать ]Интегральные вероятностные метрики (IPM) — это расстояния в пространстве распределений по множеству. , определенный классом действительных функций на как здесь обозначение P f относится к ожиданию f при распределении P . Абсолютное значение в определении не является необходимым и часто опускается в обычном случае, когда для каждого его отрицание также находится в .
Функции f, по которым оптимизируются, иногда называют «критическими» функциями; [3] если конкретный достигает супремума, ее часто называют «функцией свидетеля». [4] (оно «свидетельствует» о разнице в распределениях). Эти функции пытаются получить большие значения для выборок из P и маленькие (вероятно, отрицательные) значения для выборок из Q ; это можно рассматривать как более слабую версию классификаторов , и действительно, IPM можно интерпретировать как оптимальный риск конкретного классификатора. [5] : сек. 4
Выбор определяет конкретное расстояние; более одного может генерировать такое же расстояние. [1]
На любой выбор , удовлетворяет всем определениям метрики, за исключением того, что мы можем иметь для некоторого P ≠ Q ; это по-разному называют « псевдометрическим в зависимости от сообщества » или «полуметрическим». Например, используя класс который содержит только нулевую функцию, тождественно равен нулю. является метрикой тогда и только тогда, когда разделяет точки в пространстве вероятностных распределений, т.е. для любого P ≠ Q существует некоторая такой, что ; [1] большинство, но не все, общих частных случаев удовлетворяют этому свойству.
Примеры
[ редактировать ]Все эти примеры являются метриками, если не указано иное.
- Расстояние Вассерштейна -1 (также называемое расстоянием землекопа ) посредством своего двойного представления имеет множество 1- липшицевых функций.
- Соответствующая метрика Дадли порождается множеством ограниченных 1-липшицевых функций.
- Общее расстояние вариации можно определить по формуле , так что представляет собой набор индикаторных функций для любого события или более крупного класса .
- Тесно связанная метрика Радона порождается непрерывными функциями, ограниченными в [-1, 1] .
- Метрика Колмогорова, используемая в тесте Колмогорова-Смирнова, имеет функциональный класс индикаторных функций: .
- Максимальное среднее несоответствие ядра (MMD) имеет единичный шар в воспроизводящем ядерном гильбертовом пространстве . Это расстояние особенно легко оценить по выборкам, не требуя оптимизации; это правильная метрика именно тогда, когда основное ядро является характеристическим. [6]
- Энергетическое расстояние , как частный случай максимального среднего расхождения, [7] порождается единичным шаром в определенном воспроизводящем ядерном гильбертовом пространстве.
- Определение с помощью функций с ограниченной нормой Соболева дает полезное расстояние для генеративного моделирования , среди других приложений. [8]
- Функции с ограниченной нормой Бесова обобщают многие другие формы ИПМ и поддаются теоретическому анализу. [9] [10]
- Множество вариантов генеративно-состязательных сетей и классификаторов. на основе двухвыборочных тестов [11] [12] используйте «расстояние нейронной сети» [13] [14] где — класс нейронных сетей ; это не показатели для типичных сетей фиксированного размера, но они могут быть показателями для других классификаторов. для GAN Вассерштейна анализ с точки зрения этого расстояния, а не аппроксимируемого ими Вассерштейна, очень важен для поведения этих моделей. В частности, утверждалось, что [13] [15] [16]
Связь с f -расхождениями
[ редактировать ], F -дивергенции вероятно, являются самым известным способом измерения несходства распределений вероятностей. Было показано [5] : сек. 2 что единственные функции, которые являются одновременно IPM и f -дивергенциями, имеют вид , где и — общее расстояние вариации между распределениями.
Одно из основных различий между f -дивергенциями и большинством IPM состоит в том, что когда P и Q имеют непересекающуюся поддержку, все f -дивергенции принимают постоянное значение; [17] напротив, IPM, функционирующие в «гладкие» могут дать «частичную оценку». Например, рассмотрим последовательность при мер Дирака 1 / n ; эта последовательность сходится по распределению к , и многие IPM удовлетворяют , но никакая ненулевая f -дивергенция не может этому удовлетворить. То есть многие ИПМ непрерывны в более слабых топологиях, чем f -дивергенции. Это свойство иногда имеет существенное значение, [18] хотя существуют и другие варианты, такие как рассмотрение f -расхождений между распределениями, свернутыми с непрерывным шумом. [18] [19]
Оценка по образцам
[ редактировать ]Поскольку значения IPM между дискретными распределениями часто разумны, часто разумно оценить используя простой «плагин» оценщика: где и являются эмпирическими мерами наборов выборок. Эти эмпирические расстояния можно точно вычислить для некоторых классов. ; [5] Качество оценки варьируется в зависимости от расстояния, но может быть минимаксно-оптимальным . при определенных настройках [14] [20] [21]
Когда точная максимизация недоступна или слишком дорога, другая часто используемая схема — разделить выборки на «обучающие» наборы (с эмпирическими измерениями). и ) и «тестовые» наборы ( и ), находить приблизительно максимизируя , затем используйте в качестве оценки. [22] [12] [23] [24] Эта оценка, возможно, может быть состоятельной , но имеет отрицательное смещение. [22] : хм. 2 . Фактически, несмещенная оценка . для любого IPM не может существовать [22] : хм. 3 , хотя существует, например, несмещенная оценка квадрата максимального среднего отклонения. [4]
Ссылки
[ редактировать ]- ^ Jump up to: а б с Мюллер, Альфред (июнь 1997 г.). «Интегральные вероятностные метрики и их порождающие классы функций». Достижения в области прикладной теории вероятности . 29 (2): 429–443. дои : 10.2307/1428011 . JSTOR 1428011 . S2CID 124648603 .
- ^ Золотарев В.М. (январь 1984 г.). «Вероятностные метрики». Теория вероятностей и ее приложения . 28 (2): 278–302. дои : 10.1137/1128025 .
- ^ Арджовский, Мартин; Чинтала, Сумит; Ботту, Леон (17 июля 2017 г.). «Генераторно-состязательные сети Вассерштейна» . Международная конференция по машинному обучению . ПМЛР: 214–223.
- ^ Jump up to: а б Греттон, Артур; Боргвардт, Карстен М.; Раше, Мальте Дж.; Шёлкопф, Бернхард; Смола, Александр (2012). «Тест ядра с двумя выборками» (PDF) . Журнал исследований машинного обучения . 13 : 723–773.
- ^ Jump up to: а б с Шриперумбудур, Бхарат К.; Фукумидзу, Кендзи; Греттон, Артур; Шёлкопф, Бернхард ; Ланкриет, Герт Р.Г. (2009). «Об интегральных вероятностных метриках, φ-дивергенциях и бинарной классификации». arXiv : 0901.2698 [ cs.IT ].
- ^ Фукумидзу, Кендзи; Греттон, Артур; Сунь, Сяохуэй; Шёлкопф, Бернхард (2007). «Ядерные меры условной зависимости» . Достижения в области нейронных систем обработки информации .
- ^ Сейдинович, Дино; Шриперумбудур, Бхарат; Греттон, Артур; Фукумидзу, Кендзи (2013). «Эквивалентность статистики на основе расстояния и RKHS при проверке гипотез». Анналы статистики . 41 (5): 2263–2291. arXiv : 1207.6076 . дои : 10.1214/13-aos1140 . S2CID 8308769 .
- ^ Мруэ, Юсеф; Ли, Чунь-Лян; Серку, Том; Радж, Анант; Ченг, Ю (2018). «Соболев ГАН» . Международная конференция по обучению представлений . arXiv : 1711.04894 .
- ^ Уппал, Ананья; Сингх, Шашанк; Почос, Варнава (2019). «Непараметрическая оценка плотности и скорость сходимости для GAN при потерях ИПМ Бесова» . Достижения в области нейронных систем обработки информации . arXiv : 1902.03511 .
- ^ Уппал, Ананья; Сингх, Шашанк; Почос, Варнава (2020). «Работательная оценка плотности при потерях ИЗБ Бесова» . Достижения в области нейронных систем обработки информации . arXiv : 2004.08597 .
- ^ Ким, Ильмун; Рамдас, Аадитья; Сингх, Аарти; Вассерман, Ларри (февраль 2021 г.). «Точность классификации как показатель для тестирования с двумя выборками». Анналы статистики . 49 (1). arXiv : 1703.00573 . дои : 10.1214/20-AOS1962 . S2CID 17668083 .
- ^ Jump up to: а б Лопес-Пас, Дэвид; Окуаб, Максим (2017). «Возвращаясь к двухвыборочным тестам классификатора» . Международная конференция по обучению представлений . arXiv : 1610.06545 .
- ^ Jump up to: а б Арора, Санджив ; Ге, Ронг; Лян, Инъюй; Ма, Тенгю; Чжан, И (2017). «Обобщение и равновесие в генеративно-состязательных сетях (GAN)». Международная конференция по машинному обучению . arXiv : 1703.00573 .
- ^ Jump up to: а б Джи, Кайи; Лян, Инбинь (2018). «Минимаксная оценка расстояния нейронной сети». Достижения в области нейронных систем обработки информации . arXiv : 1811.01054 .
- ^ Станчук, Ян; Этманн, Кристиан; Лиза Мария Кройсер; Шенлиб, Карола-Бибиан (2021). «ГАН Вассерштейна работают, потому что они терпят неудачу (приблизительно расстояние Вассерштейна)». arXiv : 2103.01678 [ stat.ML ].
- ^ Малласто, Антон; Монтуфар, Гвидо; Геролин, Аугусто (2019). «Насколько хорошо WGAN оценивают метрику Вассерштейна?». arXiv : 1910.03875 [ cs.LG ].
- ^ Сазерленд, Даника Дж. «Вычисление расхождения Дженсена-Шеннона между дискретным и непрерывным распределением» . Сеть обмена стеками . Проверено 18 июля 2023 г.
- ^ Jump up to: а б Арджовский, Мартин; Бетту, Леон (2017). «К принципиальным методам обучения генеративно-состязательных сетей». Международная конференция по обучению представлений . arXiv : 1701.04862 .
- ^ Сёндерби, Каспер Кааэ; Кабальеро, Хосе; Тайс, Лукас; Ши, Вэньчжэ; Гусар, Ференц (2017). «Амортизированный вывод MAP для сверхвысокого разрешения изображения». Международная конференция по обучению представлений . Приложение C. arXiv : 1610.04490 .
- ^ Толстихин Илья О.; Шриперумбудур, Бхарат К.; Шёлкопф, Бернхард (2016). «Минимаксная оценка максимального среднего несоответствия с помощью радиальных ядер» . Достижения в области нейронных систем обработки информации .
- ^ Сингх, Шашанк; Почос, Варнава (2018). «Оценка минимаксного распределения на расстоянии Вассерштейна». arXiv : 1802.08855 [ math.ST ].
- ^ Jump up to: а б с Биньковский, Миколай; Сазерленд, Даника Дж.; Арбель, Майкл; Греттон, Артур (2018). «Демистификация MMD GAN» . Международная конференция по обучению представлений . arXiv : 1801.01401 .
- ^ Лю, Фэн; Сюй, Венкай; Лу, Цзе; Чжан, Гуанцюань; Греттон, Артур; Сазерленд, Даника Дж. (2020). «Изучение глубоких ядер для непараметрических двухвыборочных тестов» . Международная конференция по машинному обучению . arXiv : 2002.09116 .
- ^ Кюблер, Йонас М.; Джиткриттум, Виттават; Шёлкопф, Бернхард ; Муандент, Крикамол (2021). «Тест с двумя образцами свидетелей» . Международная конференция по искусственному интеллекту и статистике . arXiv : 2102.05573 .