Jump to content

Метрика Вассерштейна

(Перенаправлено с расстояния Вассерштайна )

В математике Вассерштейна определенную расстояние или Канторовича Рубинштейна метрика представляет собой функцию расстояния, между распределениями вероятностей в данном метрическом пространстве. . Назван в честь Леонида Васерштейна .

Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), насыпанной Этот показатель представляет собой минимальную «стоимость» превращения одной сваи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, которое необходимо переместить. Эта проблема была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии эта метрика известна в информатике как расстояние землеройного машины .

Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году, после того как он узнал о нем в работе Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов. [1] (Русский, 1969). Однако впервые эта метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства». [2] (Русский оригинал 1939 г.) в контексте оптимального планирования перевозок ТМЦ. Таким образом, некоторые ученые поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». В большинстве англоязычных публикаций используется немецкое написание «Вассерштейн» (приписанное имени «Васерштейн» (русский язык: Васерштейн ), имеющему идишское происхождение).

Определение

[ редактировать ]

Позволять быть метрическим пространством , которое является польским пространством . Для , Вассерштайн -расстояние между двумя вероятностными мерами и на с конечным - моменты есть где собой совокупность всех связей представляет и ; определяется как и соответствует высшей норме . Муфта является совместной вероятностной мерой чьи маргиналы и по первому и второму фактору соответственно. То есть для всех измеримых муфта выполняет

Интуиция и подключение к оптимальному транспорту

[ редактировать ]
Два одномерных распределения и , нанесенный на оси x и y, и одно возможное совместное распределение, определяющее план транспортировки между ними. Совместный план распределения/транспортировки не уникален.

Один из способов понять приведенное выше определение — рассмотреть задачу оптимального транспорта . То есть для распределения массы на пространстве , мы хотим перевезти массу таким образом, чтобы она трансформировалась в распределение на том же месте; Преобразование «кучи земли» в кучу . Эта проблема имеет смысл только в том случае, если создаваемая свая имеет ту же массу, что и перемещаемая свая; поэтому без ограничения общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости

что дает стоимость перевозки единицы массы из точки в точку . Транспортный план для переезда в можно описать функцией что дает количество массы, с которой можно переместиться к . Вы можете представить задачу как необходимость переместить кучу земли формы к дыре в земле формы так что в конце и куча земли, и яма в земле полностью исчезают. Чтобы этот план имел смысл, он должен удовлетворять следующим свойствам:

  1. количество земли, сдвинутое с точки должен равняться той сумме, которая была там изначально; то есть, и
  2. количество земли, перемещенное в точку должен равняться глубине ямы, которая была там вначале; то есть,

То есть, общая масса вышла из бесконечно малой области вокруг должно быть равно и вся масса переместилась в область вокруг должно быть . Это эквивалентно требованию, чтобы быть совместным распределением вероятностей с маргинальными значениями и . Таким образом, бесконечно малая масса, перенесенная из к является , а стоимость переезда , следуя определению функции стоимости. Таким образом, общая стоимость транспортного плана является

План не является уникальным; Оптимальный транспортный план — это план с минимальными затратами из всех возможных транспортных планов. Как уже упоминалось, требование для того, чтобы план был действительным, заключается в том, что он представляет собой совместное распределение с маргинальными и ; сдача в аренду Обозначим совокупность всех таких мер, как в первом разделе, стоимость оптимального плана равна Если стоимость хода — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояние.

Точечные массы

[ редактировать ]

Детерминированные распределения

[ редактировать ]

Позволять и быть двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса. расположен по адресу . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого , -Расстояние Вассерштейна между и является По аналогичным рассуждениям, если и точечные массы, расположенные в точках и в , и мы используем обычную евклидову норму на как функция расстояния, то

Эмпирические распределения

[ редактировать ]
Одно измерение
[ редактировать ]

Если это эмпирическая мера с выборками и это эмпирическая мера с выборками расстояние является простой функцией статистики порядка :

Высшие измерения
[ редактировать ]

Если и являются эмпирическими распределениями, каждое из которых основано на наблюдения, затем

где нижняя грань находится по всем перестановкам из элементы. Это линейная задача о назначениях , и ее можно решить с помощью венгерского алгоритма за кубическое время .

Нормальные распределения

[ редактировать ]

Позволять и быть двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричные положительные полуопределенные ковариационные матрицы и . Затем, [3] относительно обычной евклидовой нормы на , 2-расстояние Вассерштейна между и является где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) представляет собой в точности (ненормированную) метрику Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, и в этом случае член следа исчезает, и остается только член, включающий евклидово расстояние между средними значениями.

Одномерные распределения

[ редактировать ]

Позволять быть вероятностными мерами и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок вероятностей элементов массы, поэтому масса в квантиле из переходит в квантиль из . Таким образом, -Расстояние Вассерштейна между и является где и функции квантиля (обратные CDF). В случае , замена переменных приводит к формуле

Приложения

[ редактировать ]

Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная получается из другой в результате небольших неоднородных возмущений (случайных или детерминированных).

В информатике, например, метрика W 1 широко используется для сравнения дискретных распределений, например цветовых гистограмм двух цифровых изображений ; более подробную информацию см . на расстоянии землеройной машины .

В своей статье « Вассерштейн ГАН » Арджовский и др. [4] использовать метрику Вассерштейна-1 как способ улучшить исходную структуру генеративно-состязательных сетей (GAN), чтобы облегчить исчезающий градиент и проблемы коллапса режимов. Особый случай нормального распределения используется в начальном расстоянии Фреше .

Метрика Вассерштейна имеет формальную связь с анализом Прокруста с применением к мерам киральности. [5] и формировать анализ. [6]

В вычислительной биологии метрику Вассерштейна можно использовать для сравнения диаграмм персистентности наборов данных цитометрии. [7]

Метрика Вассерштейна также использовалась в обратных задачах геофизики. [8]

Метрика Вассерштейна используется в интегрированной теории информации для вычисления разницы между понятиями и концептуальными структурами. [9]

Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных по физике высоких энергий и коллайдеров. [10] [11]

Характеристики

[ редактировать ]

Метрическая структура

[ редактировать ]

Можно показать, что W p удовлетворяет всем аксиомам метрики ) , в пространстве Вассерштейна P p ( M состоящей из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. При этом сходимость по W p эквивалентна обычной слабой сходимости мер плюс сходимости первых p -х моментов. [12]

Двойное представление W 1

[ редактировать ]

Следующее двойственное представление W 1 является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда µ и ν имеют ограниченный носитель ,

где Lip( f ) обозначает минимальную константу Липшица для f . Эта форма показывает, что W 1 является интегральной вероятностной метрикой .

Сравните это с определением метрики Радона :

Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то

и поэтому сходимость в метрике Радона (идентичная сходимости полной вариации, когда M польское пространство ) влечет за собой сходимость в метрике Вассерштейна, но не наоборот.

Доказательство

[ редактировать ]

Ниже приводится интуитивное доказательство, пропускающее технические моменты. Полностью строгое доказательство можно найти в . [13]

Дискретный случай : Когда дискретно, решение 1-расстояния Вассерштейна является проблемой линейного программирования: где представляет собой общую «функцию стоимости».

Тщательно записав приведенные выше уравнения в виде матричных уравнений, мы получаем двойственную задачу : [14] и по теореме двойственности линейного программирования , поскольку основная задача разрешима и ограничена, так же как и двойственная задача, а минимум в первой задаче равен максимуму во второй задаче. То есть проблемная пара демонстрирует сильную двойственность .

В общем случае двойственная задача находится путем преобразования сумм в интегралы: и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : [15]

Предположим, вы хотите отправить немного угля с шахт, распределенного как , на фабрики, распределенные как . Функция стоимости транспорта . Теперь приходит грузоотправитель и предлагает осуществить за вас транспортировку. Ты бы заплатил ему за уголь для погрузки угля на и заплати ему за уголь за выгрузку угля на .

Чтобы вы могли принять сделку, прейскурант должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить такой ценовой график, при котором вы будете платить почти столько же, сколько вы бы отправили самостоятельно.

Этот результат можно нажать дальше, чтобы получить:

Теорема   (двойственность Канторовича-Рубинштейна) Когда вероятностное пространство является метрическим пространством, то для любого фиксированного , где является нормой Липшица .

Доказательство

Достаточно доказать случай . Начните с Тогда при любом выборе , можно увеличить срок, установив , что делает его сверткой неформальной с конусом. Это подразумевает для любого , то есть, .

Таким образом, Далее для любого выбора , можно оптимизировать, установив . С , это подразумевает .

Неограниченная свертка конуса с кривой. Обратите внимание, как нижняя граница имеет наклон. и как нижняя огибающая равна кривой на тех участках, где сама кривая имеет наклон .

Два малых шага свертки визуально ясны, когда вероятностное пространство равно .

Для удобства обозначений пусть обозначают инфимальную операцию свертки.

На первом этапе, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус наклона 1, а нижнюю огибающую конусов примите за , как показано на схеме, то не может увеличиваться с наклоном больше 1. Таким образом, все секущие имеют наклон .

Для второго шага представьте себе незначительную свертку , то если все секущие имеют наклон не более 1, то нижняя огибающая являются лишь самими вершинами конусов, таким образом .

1D пример . Когда оба это дистрибутивы на , то интегрирование по частям дает таким образом

Интерпретация механики жидкости W 2

[ редактировать ]

Бенаму и Бренье обнаружили двойное представление с помощью механики жидкости , что позволяет эффективно решать проблемы путем выпуклой оптимизации . [16] [17]

Учитывая две плотности вероятности на , где колеблется по полям скорости, определяя уравнение неразрывности с граничными условиями в поле плотности жидкости: То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей к в течение временного интервала .

Эквивалентность W 2 и соболевской нормы отрицательного порядка

[ редактировать ]

При соответствующих предположениях расстояние Вассерштейна второго порядка липшицева эквивалентна однородной соболевской норме отрицательного порядка . Точнее, если взять быть связным римановым многообразием, наделенным положительной мерой , то мы можем определить для полунорма и для подписанной меры на двойная норма Тогда любые две вероятностные меры и на удовлетворять верхней границе [18] В другую сторону, если и каждый из них имеет плотность относительно стандартной меры объема на которые оба ограничены сверху некоторыми , и имеет неотрицательную кривизну Риччи , то [19] [20]

Отделимость и полнота

[ редактировать ]

Для любого p ≥ 1 метрическое пространство ( P p ( M ), W p ) является сепарабельным и полным , если ( M , d ) сепарабельно и полно. [21]

Расстояние Вассерштейна для p = ∞

[ редактировать ]

Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющей формулой будет: где обозначает существенную верхнюю грань относительно меры . Метрическое пространство ( P ( M ), W ) полно, если ( M , d ) сепарабельно и полно. Здесь P∞ . — пространство всех вероятностных мер с ограниченным носителем [22]

См. также

[ редактировать ]
  1. ^ Васерштейн Л.Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы с передачей информации . 5 (3): 64–72.
  2. ^ Канторович Л.В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. дои : 10.1287/mnsc.6.4.366 . JSTOR   2627082 .
  3. ^ Олкин И., Пукельсхайм Ф (октябрь 1982 г.). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии» . Линейная алгебра и ее приложения . 48 : 257–263. дои : 10.1016/0024-3795(82)90112-4 . ISSN   0024-3795 .
  4. ^ Арджовский М., Чинтала С., Ботту Л. (июль 2017 г.). «Генераторно-состязательные сети Вассерштейна» . Международная конференция по машинному обучению 214–223 : 214–223.
  5. ^ Петижан М (2002). «Хиральные смеси» (PDF) . Журнал математической физики . 43 (8): 4147–4157. Бибкод : 2002JMP....43.4147P . дои : 10.1063/1.1484559 . S2CID   85454709 .
  6. ^ Петижан М (2004). «От сходства форм к дополнительности форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. дои : 10.1023/B:JOMC.0000033252.59423.6b . S2CID   121320315 .
  7. ^ Мукерджи С., Уэтингтон Д., Дей Т.К., Дас Дж. (март 2022 г.). «Определение клинически значимых особенностей данных цитометрии с использованием стойкой гомологии» . PLOS Вычислительная биология . 18 (3): e1009931. arXiv : 2203.06263 . Бибкод : 2022PLSCB..18E9931M . дои : 10.1371/journal.pcbi.1009931 . ПМЦ   9009779 . ПМИД   35312683 .
  8. ^ Фредерик, Кристина; Ян, Юнань (06 мая 2022 г.). «Видеть сквозь скалы с помощью оптимального транспорта» . Снимки современной математики из Обервольфаха . doi : 10.14760/SNAP-2022-004-EN .
  9. ^ Оизуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (08 мая 2014 г.). «От феноменологии к механизмам сознания: Интегрированная теория информации 3.0» . PLOS Вычислительная биология . 10 (5): e1003588. Бибкод : 2014PLSCB..10E3588O . дои : 10.1371/journal.pcbi.1003588 . ПМК   4014402 . ПМИД   24811198 .
  10. ^ Ба, Демба; Догра, Акшунна С.; Гамбхир, Рикаб; Тасисса, Абий; Талер, Джесси (29 июня 2023 г.). «ШЕЙПЕР: ты слышишь форму струи?» . Журнал физики высоких энергий . 2023 (6): 195. arXiv : 2302.12266 . Бибкод : 2023JHEP...06..195B . дои : 10.1007/JHEP06(2023)195 . ISSN   1029-8479 . S2CID   257205971 .
  11. ^ «Награды, стипендии и форма физики: Новости колледжа | Имперские новости | Имперский колледж Лондона» . Имперские новости . 2023-03-29 . Проверено 31 октября 2023 г.
  12. ^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна» . Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
  13. ^ Виллани, Седрик (2003). «Глава 1: Двойственность Канторовича». Темы оптимального транспорта . Провиденс, Род-Айленд: Американское математическое общество. ISBN  0-8218-3312-Х . OCLC   51477002 .
  14. ^ Матушек, Иржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», « Понимание и использование линейного программирования » , Universitext, Berlin, Heidelberg: Springer Berlin Heidelberg, стр. 81–104, doi : 10.1007/978-3-540-30717-4_6 , ISBN  978-3-540-30697-9 , получено 15 июля 2022 г.
  15. ^ Виллани, Седрик (2003). «1.1.3. Проблема грузоотправителя.». Темы оптимального транспорта . Провиденс, Род-Айленд: Американское математическое общество. ISBN  0-8218-3312-Х . OCLC   51477002 .
  16. ^ Бенаму, Жан Давид; Бренье, Янн (1 января 2000 г.). «Вычислительное решение проблемы массопереноса Монжа-Канторовича в механике жидкости» . Численная математика . 84 (3): 375–393. дои : 10.1007/s002110050002 . ISSN   0945-3245 . S2CID   1100384 .
  17. ^ Финли, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (21 ноября 2020 г.). «Как тренировать свою нейронную ОДУ: мир якобиана и кинетической регуляризации» . Международная конференция по машинному обучению . ПМЛР: 3154–3164. arXiv : 2002.02798 .
  18. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W 2 и −1 норма и локализация расстояния Вассерштейна» . ESAIM: Control, Optimization and Calculus of Variation . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN   1292-8119 . (См. теорему 2.1.)
  19. ^ Лопер Дж. (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью» . Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : математика/0504140 . дои : 10.1016/j.matpur.2006.01.005 . ISSN   1292-8119 . (См. теорему 2.9.)
  20. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W 2 и −1 норма и локализация расстояния Вассерштейна» . ESAIM: Control, Optimization and Calculus of Variations . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . (См. теорему 2.5.)
  21. ^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод : 2012РуМаС..67..785Б . дои : 10.1070/RM2012v067n05ABEH004808 . S2CID   121411457 .
  22. ^ Гивенс, Кларк Р.; Шортт, Рэй Майкл (1984). «Класс метрик Вассерштейна для вероятностных распределений» . Мичиганский математический журнал . 31 (2): 231–240. дои : 10.1307/mmj/1029003026 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 663701c4b9dd4a84981743c4489d8ec1__1720542480
URL1:https://arc.ask3.ru/arc/aa/66/c1/663701c4b9dd4a84981743c4489d8ec1.html
Заголовок, (Title) документа по адресу, URL1:
Wasserstein metric - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)