Jump to content

Расхождение Штейна

Расхождение Стейна — это статистическое расхождение между двумя мерами вероятности , которое основано на методе Стейна . Впервые он был сформулирован как инструмент для оценки качества пробоотборников Монте-Карло с цепью Маркова . [ 1 ] но с тех пор используется в различных областях статистики, машинного обучения и информатики. [ 2 ]

Определение

[ редактировать ]

Позволять быть измеримым пространством и пусть — набор измеримых функций вида . Естественное понятие расстояния между двумя распределениями вероятностей. , , определенный на , обеспечивается интегральной вероятностной метрикой [ 3 ]

где для целей изложения мы предполагаем, что ожидания существуют и что набор достаточно богата, чтобы (1.1) действительно была метрикой множества вероятностных распределений на , то есть тогда и только тогда, когда . Выбор набора определяет топологические свойства (1.1). Однако для практических целей оценка (1.1) требует доступа как к и , что часто делает прямое вычисление (1.1) непрактичным.

Метод Штейна — это теоретический инструмент, который можно использовать для оценки (1.1). В частности, мы предполагаем, что можем идентифицировать оператор и набор вещественных функций в области , и то и другое может быть -зависимая, такая, что для каждого существует решение к уравнению Штейна

Оператор называется оператором Штейна , а множество называется множеством Штейна . Подставляя (1.2) в (1.1), получаем верхнюю оценку

.

Эта результирующая граница

называется невязкой Штейна . [ 1 ] В отличие от исходной интегральной вероятностной метрики , возможно, можно будет проанализировать или вычислить используя ожидания только в отношении распределения .

Было изучено несколько различных расхождений Штейна, некоторые из наиболее широко используемых представлены ниже.

Классическое несоответствие Штейна

[ редактировать ]

Для распределения вероятностей с положительной и дифференцируемой функцией плотности на выпуклом множестве , границу которого обозначим , комбинация оператора Ланжевена–Штейна и классическое множество Штейна

дает классическое несоответствие Штейна . [ 1 ] Здесь обозначает евклидову норму и евклидов внутренний продукт. Здесь – ассоциированная операторная норма для матриц , и обозначает внешнюю единицу, нормальную к на месте . Если тогда мы интерпретируем .

В одномерном случае Классическое несоответствие Штейна можно точно вычислить путем решения квадратичной программы с квадратичными ограничениями . [ 1 ]

Расхождение графика Стейна

[ редактировать ]

Первыми известными вычислимыми неточностями Стейна были графовые неточности Стейна (GSD). Учитывая дискретное распределение , можно определить график с набором вершин и набор кромок . Из этого графа можно определить граф, множество Штейна, как

Комбинация оператора Ланжевена – Штейна и множества графа Штейна называется невязкой графа Штейна (GSD). GSD на самом деле является решением конечномерной линейной программы размером настолько низко, насколько линейно в , что означает, что GSD может быть эффективно вычислен. [ 1 ]

Несоответствие ядра Штейна

[ редактировать ]

Супремум, возникающий при определении невязки Штейна, можно оценить в замкнутой форме, используя тот или иной выбор множества Штейна. Действительно, пусть быть единичным шаром в (возможно, векторном) воспроизводящем ядерном гильбертовом пространстве. с воспроизводящим ядром , элементы которого находятся в области определения оператора Штейна . Предположим, что

  • За каждое фиксированное , карта является непрерывным линейным функционалом на .
  • .

где оператор Штейна действует на первый аргумент и действует на второй аргумент. Тогда это можно будет показать [ 4 ] что

,

где случайные величины и в ожидании независимы. В частности, если представляет собой дискретное распределение на , то невязка Штейна принимает замкнутый вид

Невязка Штейна, построенная таким образом, называется ядерной невязкой Штейна. [ 5 ] [ 6 ] [ 7 ] [ 8 ] и конструкция тесно связана с теорией вложения в ядро ​​вероятностных распределений .

Позволять быть воспроизводящим ядром. Для распределения вероятностей с положительной и дифференцируемой функцией плотности на , комбинация оператора Ланжевена--Стейна и набор Штейна

связанный с матричным воспроизводящим ядром , дает несоответствие ядра Стейна с [ 5 ]

где (соответственно ) указал градиент по отношению к аргументу, индексированному (соответственно ).

Конкретно, если взять обратное многоквадричное ядро с параметрами и симметричная положительно определенная матрица, и если обозначить , тогда мы имеем

.

Диффузионное расхождение Штейна

[ редактировать ]

Диффузионные расхождения Штейна [ 9 ] обобщить оператор Ланжевена Штейна к классу диффузионных операторов Штейна , каждый из которых представляет диффузию Ито , которая имеет как его стационарное распределение. Здесь, – матрица-функция, определяемая бесконечно малым генератором диффузии.

Другие расхождения Штейна

[ редактировать ]

Дополнительные расхождения Стейна были разработаны для ограниченных областей, [ 10 ] неевклидовы области [ 11 ] [ 12 ] [ 10 ] , дискретные домены, [ 13 ] [ 14 ] улучшенная масштабируемость. [ 15 ] [ 16 ] и безградиентные невязки Штейна, где производные плотности обойдены. [ 17 ]

Характеристики

[ редактировать ]

Гибкость в выборе оператора Штейна и множества Штейна при построении невязки Штейна исключает общие утверждения теоретического характера. Однако о конкретных расхождениях Штейна известно многое.

Вычислимо без константы нормализации

[ редактировать ]

Расхождение Штейна иногда можно вычислить в сложных условиях, когда распределение вероятностей допускает функцию плотности вероятности (в отношении соответствующей эталонной меры по ) вида , где и ее производная может быть оценена численно, но константа нормализации которой нелегко вычислить или аппроксимировать. Учитывая (2.1), заметим, что зависимость на происходит только через срок

которая не зависит от константы нормировки .

Расхождение Штейна как статистическое расхождение

[ редактировать ]

Основное требование к расхождению Штейна состоит в том, что оно является статистическим расхождением, а это означает, что и тогда и только тогда, когда . Можно показать, что это свойство справедливо для классической невязки Штейна. [ 1 ] и несоответствие ядра Штейна [ 6 ] [ 7 ] [ 8 ] a при условии выполнения соответствующих условий регулярности.

Контроль сходимости

[ редактировать ]

Более сильным свойством, по сравнению со статистическим расхождением, является контроль сходимости , что означает, что подразумевает сходится к в смысле, который следует уточнить. Например, при соответствующих условиях регулярности как классическое несоответствие Стейна, так и графическое несоответствие Стейна подчиняются контролю сходимости Вассерштейна , что означает, что подразумевает, что метрика Вассерштейна между и сходится к нулю. [ 1 ] [ 18 ] [ 9 ] Для ядра невязки Штейна слабый контроль сходимости . установлен [ 8 ] [ 19 ] при условиях регулярности распределения и воспроизводящее ядро , которые применимы, в частности, к (2.1). Другие известные варианты , например, основанные на ядре Гаусса, очевидно, не имеют слабого контроля сходимости. [ 8 ]

Обнаружение сходимости

[ редактировать ]

Обратным свойством к управлению сходимостью является обнаружение сходимости , что означает, что в любое время сходится к в смысле, который следует уточнить. Например, при соответствующих условиях регулярности классическое несоответствие Стейна имеет особую форму обнаружения среднеквадратичной сходимости. [ 1 ] [ 9 ] , это означает, что в любое время сходится в среднем квадратическом к и сходится в среднем квадратическом к . Для несоответствия ядра Штейна обнаружение сходимости Васерштейна : было установлено [ 8 ] при соответствующих условиях регулярности распределения и воспроизводящее ядро .

Применение невязки Штейна

[ редактировать ]

Было предложено несколько применений невязки Стейна, некоторые из которых сейчас описаны.

Оптимальное квантование

[ редактировать ]
Duration: 40 seconds.
Оптимальное квантование с использованием невязки Штейна. Контуры в этом видео представляют собой наборы уровней непрерывного распределения вероятностей. и рассмотрим задачу суммирования этого распределения с дискретным набором состояний выбран из своего домена . В частности, мы предполагаем, что функция плотности известна только с точностью до пропорциональности, когда широко используются методы Монте-Карло с цепью Маркова (MCMC). В первой половине этого видео цепь Маркова производит выборки, которые приблизительно распределены по , путь к образцу показан черным цветом. Во второй половине видео используется алгоритм, называемый прореживанием Штейна . [ 20 ] применяется для выбора подмножества состояний из выборочного пути, при этом выбранные состояния отображаются красным цветом. Эти состояния выбираются на основе жадной минимизации невязки Штейна между дискретным распределением и . В совокупности выбранные состояния дают приблизительное представление о в данном случае это более точно, чем исходный вывод MCMC.

Учитывая распределение вероятностей определенный на измеримом пространстве , задача квантования состоит в выборе небольшого количества состояний такое, что соответствующее дискретное распределение является точным приближением в смысле, который следует уточнить.

Очки Штейна [ 19 ] являются результатом выполнения оптимального квантования посредством минимизации неточности Штейна:

При соответствующих условиях регулярности можно показать [ 19 ] что как . Таким образом, если невязка Штейна контролируется сходимостью, отсюда следует, что сходится к . Также были получены расширения этого результата, позволяющие обеспечить несовершенную численную оптимизацию. [ 19 ] [ 21 ] [ 20 ]

Сложные алгоритмы оптимизации были разработаны для выполнения эффективного квантования на основе невязки Стейна, включая алгоритмы градиентного потока, которые направлены на минимизацию неточности ядра Стейна в соответствующем пространстве вероятностных мер. [ 22 ]

Оптимальное взвешенное приближение

[ редактировать ]

Если разрешить рассматривать взвешенные комбинации точечных масс, то возможна более точная аппроксимация по сравнению с (3.1). Для простоты изложения предположим, что нам дан набор состояний . Тогда оптимальная взвешенная комбинация точечных масс , то есть

которые минимизируют невязку Стейна, можно получить в закрытой форме, если использовать ядро ​​невязки Стейна. [ 5 ] Некоторые авторы [ 23 ] [ 24 ] рассмотрите возможность наложения, кроме того, ограничения на неотрицательность весов, т.е. . Однако в обоих случаях вычисления, необходимые для вычисления оптимальных весов, может включать решение линейных систем уравнений, которые плохо обусловлены численно. Интересно, что было показано [ 20 ] это жадное приближение используя невзвешенную комбинацию государства могут уменьшить эту вычислительную потребность. В частности, жадный прореживания Штейна алгоритм

было показано, что удовлетворяет границе ошибки

Были продемонстрированы неблизорукие и мини-пакетные обобщения жадного алгоритма. [ 25 ] для дальнейшего улучшения качества аппроксимации относительно вычислительных затрат.

Вариационный вывод

[ редактировать ]

Невязка Штейна использовалась как вариационная цель в вариационных байесовских методах . [ 26 ] [ 27 ] Учитывая коллекцию вероятностных распределений на , параметризованный , в этой коллекции можно найти распределение, которое лучше всего аппроксимирует распределение интерес:

Возможное преимущество несоответствия Штейна в этом контексте: [ 27 ] по сравнению с традиционной вариационной целью Кульбака – Лейблера , заключается в том, что не обязательно быть абсолютно непрерывным по отношению к для того, чтобы быть четко определенным. Это свойство можно использовать, например, чтобы обойти использование генеративных моделей на основе потоков , которые накладывают ограничения диффеоморфизма, чтобы обеспечить абсолютную непрерывность и .

Статистическая оценка

[ редактировать ]

Невязка Стейна была предложена как инструмент для подгонки параметрических статистических моделей к данным. Учитывая набор данных , рассмотрим соответствующее дискретное распределение . Для данного параметрического набора вероятностных распределений на , можно оценить значение параметра который совместим с набором данных с использованием минимальной оценки несоответствия Штейна [ 28 ]

Этот подход тесно связан со структурой оценки минимального расстояния , где роль «расстояния» играет невязка Штейна. Альтернативно, обобщенный байесовский подход к оценке параметра можно считать [ 4 ] где, учитывая априорное распределение вероятностей с функцией плотности , , (относительно соответствующей эталонной меры по ), строится обобщенный апостериор с функцией плотности вероятности

для некоторых быть уточнены или определены.

Проверка гипотез

[ редактировать ]

Расхождение Штейна также использовалось в качестве тестовой статистики для проведения тестирования согласия. [ 6 ] [ 7 ] и сравнение моделей со скрытыми переменными. [ 29 ] Поскольку вычислительные затраты вышеупомянутых тестов квадратичны по размеру выборки, были разработаны альтернативы с (почти) линейным временем выполнения. [ 30 ] [ 15 ]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и ж г час Дж. Горэм и Л. Макки. Измерение качества пробы методом Штейна. Достижения в области нейронных систем обработки информации, 2015.
  2. ^ Анастасиу, А., Барп, А., Бриол, FX., Эбнер, Б., Гонт, Р.Э., Гадеринежад, Ф., Горэм, Дж., Греттон, А., Лей, К., Лю, К., Макки Л., Оутс С.Дж., Рейнерт Г. и Свон Ю. (2021). Метод Штейна соответствует статистике: обзор некоторых недавних событий. arXiv: 2105.03481.
  3. ^ Мюллер, Альфред (1997). «Интегральные вероятностные метрики и их порождающие классы функций» . Достижения в области прикладной теории вероятности . 29 (2): 429–443. дои : 10.2307/1428011 . ISSN   0001-8678 .
  4. ^ Jump up to: а б Мастубара Т., Кноблаух Дж., Бриол Ф.С., Оутс С.Дж. Надежный обобщенный байесовский вывод для трудноразрешимых вероятностей. arXiv: 2104.07359.
  5. ^ Jump up to: а б с Оутс, СиДжей, Джиролами, М., и Шопен, Н. (2017). Функционал управления для интеграции Монте-Карло. Журнал Королевского статистического общества B: Статистическая методология, 79 (3), 695–718.
  6. ^ Jump up to: а б с Лю, К., Ли, Дж. Д., и Джордан, Мичиган (2016). Ядеризованное несоответствие Штейна для тестов согласия и оценки модели. Международная конференция по машинному обучению, 276–284.
  7. ^ Jump up to: а б с Хвялковски К., Стратманн Х. и Греттон А. (2016). Тест ядра на соответствие. Международная конференция по машинному обучению, 2606–2615.
  8. ^ Jump up to: а б с д и Горэм Дж., Макки Л. Измерение качества образцов с помощью зерен. Международная конференция по машинному обучению, 17 июля 2017 г. (стр. 1292–1301). ПМЛР.
  9. ^ Jump up to: а б с Горэм Дж., Дункан А.Б., Воллмер С.Дж. и Макки Л. (2019). Измерение качества проб с помощью диффузии. Анналы прикладной вероятности, 29 (5), 2884–2928.
  10. ^ Jump up to: а б Ши Дж., Лю К. и Макки Л. (2021). Выборка с помощью зеркальных операторов Штейна. Препринт arXiv arXiv:2106.12506
  11. ^ Барп А., Оутс С.Дж., Порку Э., Джиролами М. Метод ядра Римана-Штейна. Препринт arXiv arXiv:1810.04946. 2018.
  12. ^ Сюй В., Мацуда Т. Интерпретируемые критерии согласия Стейна на римановых многообразиях. В ICML 2021.
  13. ^ Ян Дж., Лю Кью, Рао В., Невилл Дж. Проверка согласия для дискретных распределений с помощью неточности Стейна. В ICML 2018 (стр. 5561-5570). ПМЛР.
  14. ^ Ши Дж., Чжоу Ю., Хван Дж., Тисиас М., Макки Л. Оценка градиента с помощью дискретных операторов Штейна. Препринт arXiv arXiv:2202.09497. 2022.
  15. ^ Jump up to: а б Хаггинс Дж. Х., Макки Л. Случайные несоответствия Штейна. В НейриПС 2018.
  16. ^ Горэм Дж., Радж А., Макки Л. Стохастические расхождения Штейна. В НейриПС 2020.
  17. ^ Фишер М., Оутс CJ. Безградиентное несоответствие ядра Штейна. Препринт arXiv arXiv:2207.02636. 2022.
  18. ^ Макки Л. и Горэм Дж. (2016). Многомерные факторы Штейна для класса сильно логарифмически вогнутых распределений. Электронные коммуникации в теории вероятности, 21, 1-14.
  19. ^ Jump up to: а б с д Чен Вайоминг, Макки Л., Горэм Дж., Бриол Ф.С., Оутс СиДжей. Штейн указывает. На Международной конференции по машинному обучению 2018 (стр. 844-853). ПМЛР.
  20. ^ Jump up to: а б с Риабиз М., Чен В., Кокейн Дж., Свитах П., Нидерер С.А., Макки Л., Оутс С.Дж. Оптимальное прореживание выхода MCMC. Журнал Королевского статистического общества B: Статистическая методология. 2021. arXiv : 2005.03952 .
  21. ^ Чен Вайоминг, Барп А., Бриол FX, Горэм Дж., Джиролами М., Макки Л., Оутс CJ. Stein Point Марковская цепь Монте-Карло. Международная конференция по машинному обучению (ICML 2019). arXiv : 1905.03673
  22. ^ Корба А., Обин-Франковски ПК, Маевски С., Аблин П. «Спуск несоответствия ядра Штейна». Препринт arXiv arXiv : 2105.09994 . 2021.
  23. ^ Лю Кью, Ли Дж. Выборка важности черного ящика. В журнале «Искусственный интеллект и статистика», 2017 г. (стр. 952–961). ПМЛР.
  24. ^ Ходжкинсон Л., Саломоне Р., Руста Ф. Подход к воспроизведению ядра Штейна для выборки с апостериорной коррекцией. Препринт arXiv arXiv:2001.09266. 2020.
  25. ^ Теймур О, Горэм Дж, Риабиз М, Оутс СиДжей. Оптимальное квантование вероятностных мер с использованием максимального среднего несоответствия. На Международной конференции по искусственному интеллекту и статистике 2021 (стр. 1027–1035). ПМЛР.
  26. ^ Ранганат Р., Тран Д., Альтосаар Дж., Блей Д. Операторный вариационный вывод. Достижения в области нейронных систем обработки информации. 2016;29:496-504.
  27. ^ Jump up to: а б Фишер М., Нолан Т., Грэм М., Прангл Д., Оутс С.Дж. Измерьте транспортировку с несоответствием ядра Штейна. Международная конференция по искусственному интеллекту и статистике 2021 (стр. 1054-1062). ПМЛР.
  28. ^ Барп А., Бриол Ф.-Х., Дункан А.Б., Джиролами М. и Макки Л. (2019). Оценщики минимальной неточности Стейна. Нейронные системы обработки информации, 12964–12976.
  29. ^ Канагава, Х., Джиткриттум, В., Макки, Л., Фукумидзу, К., и Греттон, А. (2019). Ядро теста Штейна для сравнения моделей со скрытыми переменными. Препринт arXiv arXiv:1907.00586.
  30. ^ Джиткриттум В., Сюй В., Сабо З., Фукумидзу К., Греттон А. Тест согласия ядра в линейном времени.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f54069d92a8720ea6327f3fbdbf9a099__1706675220
URL1:https://arc.ask3.ru/arc/aa/f5/99/f54069d92a8720ea6327f3fbdbf9a099.html
Заголовок, (Title) документа по адресу, URL1:
Stein discrepancy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)