Метрика Вассерштейна
В математике Вассерштейна определенную расстояние или Канторовича – Рубинштейна метрика представляет собой функцию расстояния, между распределениями вероятностей в данном метрическом пространстве. . Назван в честь Леонида Васерштейна .
Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), насыпанной Этот показатель представляет собой минимальную «стоимость» превращения одной сваи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, которое необходимо переместить. Эта проблема была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии эта метрика известна в информатике как расстояние землеройного машины .
Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году, после того как он узнал о нем в работе Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов. [1] (Русский, 1969). Однако впервые эта метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства». [2] (Русский оригинал 1939 г.) в контексте оптимального планирования перевозок ТМЦ. Таким образом, некоторые ученые поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». В большинстве англоязычных публикаций используется немецкое написание «Вассерштейн» (приписанное имени «Васерштейн» (русский язык: Васерштейн ), имеющему идишское происхождение).
Определение
[ редактировать ]Позволять быть метрическим пространством , которое является польским пространством . Для , Вассерштайн -расстояние между двумя вероятностными мерами и на с конечным - моменты есть где собой совокупность всех связей представляет и ; определяется как и соответствует высшей норме . Муфта является совместной вероятностной мерой чьи маргиналы и по первому и второму фактору соответственно. То есть для всех измеримых муфта выполняет
Интуиция и подключение к оптимальному транспорту
[ редактировать ]
Один из способов понять приведенное выше определение — рассмотреть задачу оптимального транспорта . То есть для распределения массы на пространстве , мы хотим перевезти массу таким образом, чтобы она трансформировалась в распределение на том же месте; Преобразование «кучи земли» в кучу . Эта проблема имеет смысл только в том случае, если создаваемая свая имеет ту же массу, что и перемещаемая свая; поэтому без ограничения общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости
что дает стоимость перевозки единицы массы из точки в точку . Транспортный план для переезда в можно описать функцией что дает количество массы, с которой можно переместиться к . Вы можете представить задачу как необходимость переместить кучу земли формы к дыре в земле формы так что в конце и куча земли, и яма в земле полностью исчезают. Чтобы этот план имел смысл, он должен удовлетворять следующим свойствам:
- количество земли, сдвинутое с точки должен равняться той сумме, которая была там изначально; то есть, и
- количество земли, перемещенное в точку должен равняться глубине ямы, которая была там вначале; то есть,
То есть, общая масса вышла из бесконечно малой области вокруг должно быть равно и вся масса переместилась в область вокруг должно быть . Это эквивалентно требованию, чтобы быть совместным распределением вероятностей с маргинальными значениями и . Таким образом, бесконечно малая масса, перенесенная из к является , а стоимость переезда , следуя определению функции стоимости. Таким образом, общая стоимость транспортного плана является
План не является уникальным; Оптимальный транспортный план — это план с минимальными затратами из всех возможных транспортных планов. Как уже упоминалось, требование для того, чтобы план был действительным, заключается в том, что он представляет собой совместное распределение с маргинальными и ; сдача в аренду Обозначим совокупность всех таких мер, как в первом разделе, стоимость оптимального плана равна Если стоимость хода — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояние.
Примеры
[ редактировать ]Точечные массы
[ редактировать ]Детерминированные распределения
[ редактировать ]Позволять и быть двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса. расположен по адресу . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого , -Расстояние Вассерштейна между и является По аналогичным рассуждениям, если и точечные массы, расположенные в точках и в , и мы используем обычную евклидову норму на как функция расстояния, то
Эмпирические распределения
[ редактировать ]Одно измерение
[ редактировать ]Если это эмпирическая мера с выборками и это эмпирическая мера с выборками расстояние является простой функцией статистики порядка :
Высшие измерения
[ редактировать ]Если и являются эмпирическими распределениями, каждое из которых основано на наблюдения, затем
где нижняя грань находится по всем перестановкам из элементы. Это линейная задача о назначениях , и ее можно решить с помощью венгерского алгоритма за кубическое время .
Нормальные распределения
[ редактировать ]Позволять и быть двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричные положительные полуопределенные ковариационные матрицы и . Затем, [3] относительно обычной евклидовой нормы на , 2-расстояние Вассерштейна между и является где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) представляет собой в точности (ненормированную) метрику Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, и в этом случае член следа исчезает, и остается только член, включающий евклидово расстояние между средними значениями.
Одномерные распределения
[ редактировать ]Позволять быть вероятностными мерами и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок вероятностей элементов массы, поэтому масса в квантиле из переходит в квантиль из . Таким образом, -Расстояние Вассерштейна между и является где и — функции квантиля (обратные CDF). В случае , замена переменных приводит к формуле
Приложения
[ редактировать ]Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная получается из другой в результате небольших неоднородных возмущений (случайных или детерминированных).
В информатике, например, метрика W 1 широко используется для сравнения дискретных распределений, например цветовых гистограмм двух цифровых изображений ; более подробную информацию см . на расстоянии землеройной машины .
В своей статье « Вассерштейн ГАН » Арджовский и др. [4] использовать метрику Вассерштейна-1 как способ улучшить исходную структуру генеративно-состязательных сетей (GAN), чтобы облегчить исчезающий градиент и проблемы коллапса режимов. Особый случай нормального распределения используется в начальном расстоянии Фреше .
Метрика Вассерштейна имеет формальную связь с анализом Прокруста с применением к мерам киральности. [5] и формировать анализ. [6]
В вычислительной биологии метрику Вассерштейна можно использовать для сравнения диаграмм персистентности наборов данных цитометрии. [7]
Метрика Вассерштейна также использовалась в обратных задачах геофизики. [8]
Метрика Вассерштейна используется в интегрированной теории информации для вычисления разницы между понятиями и концептуальными структурами. [9]
Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных по физике высоких энергий и коллайдеров. [10] [11]
Характеристики
[ редактировать ]Метрическая структура
[ редактировать ]Можно показать, что W p удовлетворяет всем аксиомам метрики ) , в пространстве Вассерштейна P p ( M состоящей из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. При этом сходимость по W p эквивалентна обычной слабой сходимости мер плюс сходимости первых p -х моментов. [12]
Двойное представление W 1
[ редактировать ]Следующее двойственное представление W 1 является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда µ и ν имеют ограниченный носитель ,
где Lip( f ) обозначает минимальную константу Липшица для f . Эта форма показывает, что W 1 является интегральной вероятностной метрикой .
Сравните это с определением метрики Радона :
Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то
и поэтому сходимость в метрике Радона (идентичная сходимости полной вариации, когда M — польское пространство ) влечет за собой сходимость в метрике Вассерштейна, но не наоборот.
Доказательство
[ редактировать ]Ниже приводится интуитивное доказательство, пропускающее технические моменты. Полностью строгое доказательство можно найти в . [13]
Дискретный случай : Когда дискретно, решение 1-расстояния Вассерштейна является проблемой линейного программирования: где представляет собой общую «функцию стоимости».
Тщательно записав приведенные выше уравнения в виде матричных уравнений, мы получаем двойственную задачу : [14] и по теореме двойственности линейного программирования , поскольку основная задача разрешима и ограничена, так же как и двойственная задача, а минимум в первой задаче равен максимуму во второй задаче. То есть проблемная пара демонстрирует сильную двойственность .
В общем случае двойственная задача находится путем преобразования сумм в интегралы: и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : [15]
Предположим, вы хотите отправить немного угля с шахт, распределенного как , на фабрики, распределенные как . Функция стоимости транспорта . Теперь приходит грузоотправитель и предлагает осуществить за вас транспортировку. Ты бы заплатил ему за уголь для погрузки угля на и заплати ему за уголь за выгрузку угля на .
Чтобы вы могли принять сделку, прейскурант должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить такой ценовой график, при котором вы будете платить почти столько же, сколько вы бы отправили самостоятельно.
Этот результат можно нажать дальше, чтобы получить:
Теорема (двойственность Канторовича-Рубинштейна) — Когда вероятностное пространство является метрическим пространством, то для любого фиксированного , где является нормой Липшица .
Достаточно доказать случай . Начните с Тогда при любом выборе , можно увеличить срок, установив , что делает его сверткой неформальной с конусом. Это подразумевает для любого , то есть, .
Таким образом, Далее для любого выбора , можно оптимизировать, установив . С , это подразумевает .

Два малых шага свертки визуально ясны, когда вероятностное пространство равно .
Для удобства обозначений пусть обозначают инфимальную операцию свертки.
На первом этапе, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус наклона 1, а нижнюю огибающую конусов примите за , как показано на схеме, то не может увеличиваться с наклоном больше 1. Таким образом, все секущие имеют наклон .
Для второго шага представьте себе незначительную свертку , то если все секущие имеют наклон не более 1, то нижняя огибающая являются лишь самими вершинами конусов, таким образом .
1D пример . Когда оба это дистрибутивы на , то интегрирование по частям дает таким образом
Интерпретация механики жидкости W 2
[ редактировать ]Бенаму и Бренье обнаружили двойное представление с помощью механики жидкости , что позволяет эффективно решать проблемы путем выпуклой оптимизации . [16] [17]
Учитывая две плотности вероятности на , где колеблется по полям скорости, определяя уравнение неразрывности с граничными условиями в поле плотности жидкости: То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей к в течение временного интервала .
Эквивалентность W 2 и соболевской нормы отрицательного порядка
[ редактировать ]При соответствующих предположениях расстояние Вассерштейна второго порядка липшицева эквивалентна однородной соболевской норме отрицательного порядка . Точнее, если взять быть связным римановым многообразием, наделенным положительной мерой , то мы можем определить для полунорма и для подписанной меры на двойная норма Тогда любые две вероятностные меры и на удовлетворять верхней границе [18] В другую сторону, если и каждый из них имеет плотность относительно стандартной меры объема на которые оба ограничены сверху некоторыми , и имеет неотрицательную кривизну Риччи , то [19] [20]
Отделимость и полнота
[ редактировать ]Для любого p ≥ 1 метрическое пространство ( P p ( M ), W p ) является сепарабельным и полным , если ( M , d ) сепарабельно и полно. [21]
Расстояние Вассерштейна для p = ∞
[ редактировать ]Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющей формулой будет: где обозначает существенную верхнюю грань относительно меры . Метрическое пространство ( P ∞ ( M ), W ∞ ) полно, если ( M , d ) сепарабельно и полно. Здесь P∞ . — пространство всех вероятностных мер с ограниченным носителем [22]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Васерштейн Л.Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы с передачей информации . 5 (3): 64–72.
- ^ Канторович Л.В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. дои : 10.1287/mnsc.6.4.366 . JSTOR 2627082 .
- ^ Олкин И., Пукельсхайм Ф (октябрь 1982 г.). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии» . Линейная алгебра и ее приложения . 48 : 257–263. дои : 10.1016/0024-3795(82)90112-4 . ISSN 0024-3795 .
- ^ Арджовский М., Чинтала С., Ботту Л. (июль 2017 г.). «Генераторно-состязательные сети Вассерштейна» . Международная конференция по машинному обучению 214–223 : 214–223.
- ^ Петижан М (2002). «Хиральные смеси» (PDF) . Журнал математической физики . 43 (8): 4147–4157. Бибкод : 2002JMP....43.4147P . дои : 10.1063/1.1484559 . S2CID 85454709 .
- ^ Петижан М (2004). «От сходства форм к дополнительности форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. дои : 10.1023/B:JOMC.0000033252.59423.6b . S2CID 121320315 .
- ^ Мукерджи С., Уэтингтон Д., Дей Т.К., Дас Дж. (март 2022 г.). «Определение клинически значимых особенностей данных цитометрии с использованием стойкой гомологии» . PLOS Вычислительная биология . 18 (3): e1009931. arXiv : 2203.06263 . Бибкод : 2022PLSCB..18E9931M . дои : 10.1371/journal.pcbi.1009931 . ПМЦ 9009779 . ПМИД 35312683 .
- ^ Фредерик, Кристина; Ян, Юнань (06 мая 2022 г.). «Видеть сквозь скалы с помощью оптимального транспорта» . Снимки современной математики из Обервольфаха . doi : 10.14760/SNAP-2022-004-EN .
- ^ Оизуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (08 мая 2014 г.). «От феноменологии к механизмам сознания: Интегрированная теория информации 3.0» . PLOS Вычислительная биология . 10 (5): e1003588. Бибкод : 2014PLSCB..10E3588O . дои : 10.1371/journal.pcbi.1003588 . ПМК 4014402 . ПМИД 24811198 .
- ^ Ба, Демба; Догра, Акшунна С.; Гамбхир, Рикаб; Тасисса, Абий; Талер, Джесси (29 июня 2023 г.). «ШЕЙПЕР: ты слышишь форму струи?» . Журнал физики высоких энергий . 2023 (6): 195. arXiv : 2302.12266 . Бибкод : 2023JHEP...06..195B . дои : 10.1007/JHEP06(2023)195 . ISSN 1029-8479 . S2CID 257205971 .
- ^ «Награды, стипендии и форма физики: Новости колледжа | Имперские новости | Имперский колледж Лондона» . Имперские новости . 2023-03-29 . Проверено 31 октября 2023 г.
- ^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна» . Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
- ^ Виллани, Седрик (2003). «Глава 1: Двойственность Канторовича». Темы оптимального транспорта . Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-Х . OCLC 51477002 .
- ^ Матушек, Иржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», « Понимание и использование линейного программирования » , Universitext, Berlin, Heidelberg: Springer Berlin Heidelberg, стр. 81–104, doi : 10.1007/978-3-540-30717-4_6 , ISBN 978-3-540-30697-9 , получено 15 июля 2022 г.
- ^ Виллани, Седрик (2003). «1.1.3. Проблема грузоотправителя.». Темы оптимального транспорта . Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-Х . OCLC 51477002 .
- ^ Бенаму, Жан Давид; Бренье, Янн (1 января 2000 г.). «Вычислительное решение проблемы массопереноса Монжа-Канторовича в механике жидкости» . Численная математика . 84 (3): 375–393. дои : 10.1007/s002110050002 . ISSN 0945-3245 . S2CID 1100384 .
- ^ Финли, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (21 ноября 2020 г.). «Как тренировать свою нейронную ОДУ: мир якобиана и кинетической регуляризации» . Международная конференция по машинному обучению . ПМЛР: 3154–3164. arXiv : 2002.02798 .
- ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W 2 и Ḣ −1 норма и локализация расстояния Вассерштейна» . ESAIM: Control, Optimization and Calculus of Variation . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN 1292-8119 . (См. теорему 2.1.)
- ^ Лопер Дж. (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью» . Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : математика/0504140 . дои : 10.1016/j.matpur.2006.01.005 . ISSN 1292-8119 . (См. теорему 2.9.)
- ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W 2 и Ḣ −1 норма и локализация расстояния Вассерштейна» . ESAIM: Control, Optimization and Calculus of Variations . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . (См. теорему 2.5.)
- ^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод : 2012РуМаС..67..785Б . дои : 10.1070/RM2012v067n05ABEH004808 . S2CID 121411457 .
- ^ Гивенс, Кларк Р.; Шортт, Рэй Майкл (1984). «Класс метрик Вассерштейна для вероятностных распределений» . Мичиганский математический журнал . 31 (2): 231–240. дои : 10.1307/mmj/1029003026 .
Дальнейшее чтение
[ редактировать ]- Амбросио Л., Джильи Н., Саваре Г. (2005). Градиентные потоки в метрических пространствах и пространстве вероятностных мер . Базель: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5 .
- Джордан Р., Киндерлерер Д., Отто Ф. (январь 1998 г.). «Вариационная формулировка уравнения Фоккера – Планка». SIAM Journal по математическому анализу . 29 (1): 1–17 (электронный). CiteSeerX 10.1.1.6.8815 . дои : 10.1137/S0036141096303359 . ISSN 0036-1410 . МР 1617171 . S2CID 13890235 .
- Рюшендорф Л. (2001) [1994], «Метрика Вассерштейна» , Энциклопедия математики , EMS Press
- Виллани С (2008). Оптимальный транспорт, старый и новый . Спрингер. ISBN 978-3-540-71050-9 .