Jump to content

Интегральная метрика вероятности

В теории вероятностей интегральные метрики вероятности — это типы функций расстояния между распределениями вероятностей , определяемые тем, насколько хорошо класс функций может различать два распределения. Многие важные статистические расстояния являются интегральными показателями вероятности, включая расстояние Вассерштейна-1 и общее вариационное расстояние . Помимо теоретического значения, интегральные вероятностные метрики широко используются в областях статистики и машинного обучения .

Название «метрика интегральной вероятности» дал немецкий статистик Альфред Мюллер; [1] расстояния также ранее назывались «метриками с ζ -структурой». [2]

Определение

[ редактировать ]

Интегральные вероятностные метрики (IPM) — это расстояния в пространстве распределений по множеству. , определенный классом действительных функций на как здесь обозначение P f относится к ожиданию f при распределении P . Абсолютное значение в определении не является необходимым и часто опускается в обычном случае, когда для каждого его отрицание также находится в .

Функции f, по которым оптимизируются, иногда называют «критическими» функциями; [3] если конкретный достигает супремума, ее часто называют «функцией свидетеля». [4] (оно «свидетельствует» о разнице в распределениях). Эти функции пытаются получить большие значения для выборок из P и маленькие (вероятно, отрицательные) значения для выборок из Q ; это можно рассматривать как более слабую версию классификаторов , и действительно, IPM можно интерпретировать как оптимальный риск конкретного классификатора. [5] : сек. 4

Выбор определяет конкретное расстояние; более одного может генерировать такое же расстояние. [1]

На любой выбор , удовлетворяет всем определениям метрики, за исключением того, что мы можем иметь для некоторого P Q ; это по-разному называют « псевдометрическим в зависимости от сообщества » или «полуметрическим». Например, используя класс который содержит только нулевую функцию, тождественно равен нулю. является метрикой тогда и только тогда, когда разделяет точки в пространстве вероятностных распределений, т.е. для любого P Q существует некоторая такой, что ; [1] большинство, но не все, общих частных случаев удовлетворяют этому свойству.

Все эти примеры являются метриками, если не указано иное.

Связь с f -расхождениями

[ редактировать ]

, F -дивергенции вероятно, являются самым известным способом измерения несходства распределений вероятностей. Было показано [5] : сек. 2 что единственные функции, которые являются одновременно IPM и f -дивергенциями, имеют вид , где и — общее расстояние вариации между распределениями.

Одно из основных различий между f -дивергенциями и большинством IPM состоит в том, что когда P и Q имеют непересекающуюся поддержку, все f -дивергенции принимают постоянное значение; [17] напротив, IPM, функционирующие в «гладкие» могут дать «частичную оценку». Например, рассмотрим последовательность при мер Дирака 1 / n ; эта последовательность сходится по распределению к , и многие IPM удовлетворяют , но никакая ненулевая f -дивергенция не может этому удовлетворить. То есть многие ИПМ непрерывны в более слабых топологиях, чем f -дивергенции. Это свойство иногда имеет существенное значение, [18] хотя существуют и другие варианты, такие как рассмотрение f -расхождений между распределениями, свернутыми с непрерывным шумом. [18] [19]

Оценка по образцам

[ редактировать ]

Поскольку значения IPM между дискретными распределениями часто разумны, часто разумно оценить используя простой «плагин» оценщика: где и являются эмпирическими мерами наборов выборок. Эти эмпирические расстояния можно точно вычислить для некоторых классов. ; [5] Качество оценки варьируется в зависимости от расстояния, но может быть минимаксно-оптимальным . при определенных настройках [14] [20] [21]

Когда точная максимизация недоступна или слишком дорога, другая часто используемая схема — разделить выборки на «обучающие» наборы (с эмпирическими измерениями). и ) и «тестовые» наборы ( и ), находить приблизительно максимизируя , затем используйте в качестве оценки. [22] [12] [23] [24] Эта оценка, возможно, может быть состоятельной , но имеет отрицательное смещение. [22] : хм. 2 . Фактически, несмещенная оценка . для любого IPM не может существовать [22] : хм. 3 , хотя существует, например, несмещенная оценка квадрата максимального среднего отклонения. [4]

  1. ^ Jump up to: а б с Мюллер, Альфред (июнь 1997 г.). «Интегральные вероятностные метрики и их порождающие классы функций». Достижения в области прикладной теории вероятности . 29 (2): 429–443. дои : 10.2307/1428011 . JSTOR   1428011 . S2CID   124648603 .
  2. ^ Золотарев В.М. (январь 1984 г.). «Вероятностные метрики». Теория вероятностей и ее приложения . 28 (2): 278–302. дои : 10.1137/1128025 .
  3. ^ Арджовский, Мартин; Чинтала, Сумит; Ботту, Леон (17 июля 2017 г.). «Генераторно-состязательные сети Вассерштейна» . Международная конференция по машинному обучению . ПМЛР: 214–223.
  4. ^ Jump up to: а б Греттон, Артур; Боргвардт, Карстен М.; Раше, Мальте Дж.; Шёлкопф, Бернхард; Смола, Александр (2012). «Тест ядра с двумя выборками» (PDF) . Журнал исследований машинного обучения . 13 : 723–773.
  5. ^ Jump up to: а б с Шриперумбудур, Бхарат К.; Фукумидзу, Кендзи; Греттон, Артур; Шёлкопф, Бернхард ; Ланкриет, Герт Р.Г. (2009). «Об интегральных вероятностных метриках, φ-дивергенциях и бинарной классификации». arXiv : 0901.2698 [ cs.IT ].
  6. ^ Фукумидзу, Кендзи; Греттон, Артур; Сунь, Сяохуэй; Шёлкопф, Бернхард (2007). «Ядерные меры условной зависимости» . Достижения в области нейронных систем обработки информации .
  7. ^ Сейдинович, Дино; Шриперумбудур, Бхарат; Греттон, Артур; Фукумидзу, Кендзи (2013). «Эквивалентность статистики на основе расстояния и RKHS при проверке гипотез». Анналы статистики . 41 (5): 2263–2291. arXiv : 1207.6076 . дои : 10.1214/13-aos1140 . S2CID   8308769 .
  8. ^ Мруэ, Юсеф; Ли, Чунь-Лян; Серку, Том; Радж, Анант; Ченг, Ю (2018). «Соболев ГАН» . Международная конференция по обучению представлений . arXiv : 1711.04894 .
  9. ^ Уппал, Ананья; Сингх, Шашанк; Почос, Варнава (2019). «Непараметрическая оценка плотности и скорость сходимости для GAN при потерях ИПМ Бесова» . Достижения в области нейронных систем обработки информации . arXiv : 1902.03511 .
  10. ^ Уппал, Ананья; Сингх, Шашанк; Почос, Варнава (2020). «Работательная оценка плотности при потерях ИЗБ Бесова» . Достижения в области нейронных систем обработки информации . arXiv : 2004.08597 .
  11. ^ Ким, Ильмун; Рамдас, Аадитья; Сингх, Аарти; Вассерман, Ларри (февраль 2021 г.). «Точность классификации как показатель для тестирования с двумя выборками». Анналы статистики . 49 (1). arXiv : 1703.00573 . дои : 10.1214/20-AOS1962 . S2CID   17668083 .
  12. ^ Jump up to: а б Лопес-Пас, Дэвид; Окуаб, Максим (2017). «Возвращаясь к двухвыборочным тестам классификатора» . Международная конференция по обучению представлений . arXiv : 1610.06545 .
  13. ^ Jump up to: а б Арора, Санджив ; Ге, Ронг; Лян, Инъюй; Ма, Тенгю; Чжан, И (2017). «Обобщение и равновесие в генеративно-состязательных сетях (GAN)». Международная конференция по машинному обучению . arXiv : 1703.00573 .
  14. ^ Jump up to: а б Джи, Кайи; Лян, Инбинь (2018). «Минимаксная оценка расстояния нейронной сети». Достижения в области нейронных систем обработки информации . arXiv : 1811.01054 .
  15. ^ Станчук, Ян; Этманн, Кристиан; Лиза Мария Кройсер; Шенлиб, Карола-Бибиан (2021). «ГАН Вассерштейна работают, потому что они терпят неудачу (приблизительно расстояние Вассерштейна)». arXiv : 2103.01678 [ stat.ML ].
  16. ^ Малласто, Антон; Монтуфар, Гвидо; Геролин, Аугусто (2019). «Насколько хорошо WGAN оценивают метрику Вассерштейна?». arXiv : 1910.03875 [ cs.LG ].
  17. ^ Сазерленд, Даника Дж. «Вычисление расхождения Дженсена-Шеннона между дискретным и непрерывным распределением» . Сеть обмена стеками . Проверено 18 июля 2023 г.
  18. ^ Jump up to: а б Арджовский, Мартин; Бетту, Леон (2017). «К принципиальным методам обучения генеративно-состязательных сетей». Международная конференция по обучению представлений . arXiv : 1701.04862 .
  19. ^ Сёндерби, Каспер Кааэ; Кабальеро, Хосе; Тайс, Лукас; Ши, Вэньчжэ; Гусар, Ференц (2017). «Амортизированный вывод MAP для сверхвысокого разрешения изображения». Международная конференция по обучению представлений . Приложение C. arXiv : 1610.04490 .
  20. ^ Толстихин Илья О.; Шриперумбудур, Бхарат К.; Шёлкопф, Бернхард (2016). «Минимаксная оценка максимального среднего несоответствия с помощью радиальных ядер» . Достижения в области нейронных систем обработки информации .
  21. ^ Сингх, Шашанк; Почос, Варнава (2018). «Оценка минимаксного распределения на расстоянии Вассерштейна». arXiv : 1802.08855 [ math.ST ].
  22. ^ Jump up to: а б с Биньковский, Миколай; Сазерленд, Даника Дж.; Арбель, Майкл; Греттон, Артур (2018). «Демистификация MMD GAN» . Международная конференция по обучению представлений . arXiv : 1801.01401 .
  23. ^ Лю, Фэн; Сюй, Венкай; Лу, Цзе; Чжан, Гуанцюань; Греттон, Артур; Сазерленд, Даника Дж. (2020). «Изучение глубоких ядер для непараметрических двухвыборочных тестов» . Международная конференция по машинному обучению . arXiv : 2002.09116 .
  24. ^ Кюблер, Йонас М.; Джиткриттум, Виттават; Шёлкопф, Бернхард ; Муандент, Крикамол (2021). «Тест с двумя образцами свидетелей» . Международная конференция по искусственному интеллекту и статистике . arXiv : 2102.05573 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 608002ea0a4287a62f6b34ca829fa545__1714736040
URL1:https://arc.ask3.ru/arc/aa/60/45/608002ea0a4287a62f6b34ca829fa545.html
Заголовок, (Title) документа по адресу, URL1:
Integral probability metric - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)