Расхождение Штейна
Расхождение Стейна — это статистическое расхождение между двумя мерами вероятности , которое основано на методе Стейна . Впервые он был сформулирован как инструмент для оценки качества пробоотборников Монте-Карло с цепью Маркова . [ 1 ] но с тех пор используется в различных областях статистики, машинного обучения и информатики. [ 2 ]
Определение
[ редактировать ]Позволять быть измеримым пространством и пусть — набор измеримых функций вида . Естественное понятие расстояния между двумя распределениями вероятностей. , , определенный на , обеспечивается интегральной вероятностной метрикой [ 3 ]
где для целей изложения мы предполагаем, что ожидания существуют и что набор достаточно богата, чтобы (1.1) действительно была метрикой множества вероятностных распределений на , то есть тогда и только тогда, когда . Выбор набора определяет топологические свойства (1.1). Однако для практических целей оценка (1.1) требует доступа как к и , что часто делает прямое вычисление (1.1) непрактичным.
Метод Штейна — это теоретический инструмент, который можно использовать для оценки (1.1). В частности, мы предполагаем, что можем идентифицировать оператор и набор вещественных функций в области , и то и другое может быть -зависимая, такая, что для каждого существует решение к уравнению Штейна
Оператор называется оператором Штейна , а множество называется множеством Штейна . Подставляя (1.2) в (1.1), получаем верхнюю оценку
- .
Эта результирующая граница
называется невязкой Штейна . [ 1 ] В отличие от исходной интегральной вероятностной метрики , возможно, можно будет проанализировать или вычислить используя ожидания только в отношении распределения .
Примеры
[ редактировать ]Было изучено несколько различных расхождений Штейна, некоторые из наиболее широко используемых представлены ниже.
Классическое несоответствие Штейна
[ редактировать ]Для распределения вероятностей с положительной и дифференцируемой функцией плотности на выпуклом множестве , границу которого обозначим , комбинация оператора Ланжевена–Штейна и классическое множество Штейна
дает классическое несоответствие Штейна . [ 1 ] Здесь обозначает евклидову норму и евклидов внутренний продукт. Здесь – ассоциированная операторная норма для матриц , и обозначает внешнюю единицу, нормальную к на месте . Если тогда мы интерпретируем .
В одномерном случае Классическое несоответствие Штейна можно точно вычислить путем решения квадратичной программы с квадратичными ограничениями . [ 1 ]
Расхождение графика Стейна
[ редактировать ]Первыми известными вычислимыми неточностями Стейна были графовые неточности Стейна (GSD). Учитывая дискретное распределение , можно определить график с набором вершин и набор кромок . Из этого графа можно определить граф, множество Штейна, как
Комбинация оператора Ланжевена – Штейна и множества графа Штейна называется невязкой графа Штейна (GSD). GSD на самом деле является решением конечномерной линейной программы размером настолько низко, насколько линейно в , что означает, что GSD может быть эффективно вычислен. [ 1 ]
Несоответствие ядра Штейна
[ редактировать ]Супремум, возникающий при определении невязки Штейна, можно оценить в замкнутой форме, используя тот или иной выбор множества Штейна. Действительно, пусть быть единичным шаром в (возможно, векторном) воспроизводящем ядерном гильбертовом пространстве. с воспроизводящим ядром , элементы которого находятся в области определения оператора Штейна . Предположим, что
- За каждое фиксированное , карта является непрерывным линейным функционалом на .
- .
где оператор Штейна действует на первый аргумент и действует на второй аргумент. Тогда это можно будет показать [ 4 ] что
- ,
где случайные величины и в ожидании независимы. В частности, если представляет собой дискретное распределение на , то невязка Штейна принимает замкнутый вид
Невязка Штейна, построенная таким образом, называется ядерной невязкой Штейна. [ 5 ] [ 6 ] [ 7 ] [ 8 ] и конструкция тесно связана с теорией вложения в ядро вероятностных распределений .
Позволять быть воспроизводящим ядром. Для распределения вероятностей с положительной и дифференцируемой функцией плотности на , комбинация оператора Ланжевена--Стейна и набор Штейна
связанный с матричным воспроизводящим ядром , дает несоответствие ядра Стейна с [ 5 ]
где (соответственно ) указал градиент по отношению к аргументу, индексированному (соответственно ).
Конкретно, если взять обратное многоквадричное ядро с параметрами и симметричная положительно определенная матрица, и если обозначить , тогда мы имеем
.
Диффузионное расхождение Штейна
[ редактировать ]Диффузионные расхождения Штейна [ 9 ] обобщить оператор Ланжевена Штейна к классу диффузионных операторов Штейна , каждый из которых представляет диффузию Ито , которая имеет как его стационарное распределение. Здесь, – матрица-функция, определяемая бесконечно малым генератором диффузии.
Другие расхождения Штейна
[ редактировать ]Дополнительные расхождения Стейна были разработаны для ограниченных областей, [ 10 ] неевклидовы области [ 11 ] [ 12 ] [ 10 ] , дискретные домены, [ 13 ] [ 14 ] улучшенная масштабируемость. [ 15 ] [ 16 ] и безградиентные невязки Штейна, где производные плотности обойдены. [ 17 ]
Характеристики
[ редактировать ]Гибкость в выборе оператора Штейна и множества Штейна при построении невязки Штейна исключает общие утверждения теоретического характера. Однако о конкретных расхождениях Штейна известно многое.
Вычислимо без константы нормализации
[ редактировать ]Расхождение Штейна иногда можно вычислить в сложных условиях, когда распределение вероятностей допускает функцию плотности вероятности (в отношении соответствующей эталонной меры по ) вида , где и ее производная может быть оценена численно, но константа нормализации которой нелегко вычислить или аппроксимировать. Учитывая (2.1), заметим, что зависимость на происходит только через срок
которая не зависит от константы нормировки .
Расхождение Штейна как статистическое расхождение
[ редактировать ]Основное требование к расхождению Штейна состоит в том, что оно является статистическим расхождением, а это означает, что и тогда и только тогда, когда . Можно показать, что это свойство справедливо для классической невязки Штейна. [ 1 ] и несоответствие ядра Штейна [ 6 ] [ 7 ] [ 8 ] a при условии выполнения соответствующих условий регулярности.
Контроль сходимости
[ редактировать ]Более сильным свойством, по сравнению со статистическим расхождением, является контроль сходимости , что означает, что подразумевает сходится к в смысле, который следует уточнить. Например, при соответствующих условиях регулярности как классическое несоответствие Стейна, так и графическое несоответствие Стейна подчиняются контролю сходимости Вассерштейна , что означает, что подразумевает, что метрика Вассерштейна между и сходится к нулю. [ 1 ] [ 18 ] [ 9 ] Для ядра невязки Штейна слабый контроль сходимости . установлен [ 8 ] [ 19 ] при условиях регулярности распределения и воспроизводящее ядро , которые применимы, в частности, к (2.1). Другие известные варианты , например, основанные на ядре Гаусса, очевидно, не имеют слабого контроля сходимости. [ 8 ]
Обнаружение сходимости
[ редактировать ]Обратным свойством к управлению сходимостью является обнаружение сходимости , что означает, что в любое время сходится к в смысле, который следует уточнить. Например, при соответствующих условиях регулярности классическое несоответствие Стейна имеет особую форму обнаружения среднеквадратичной сходимости. [ 1 ] [ 9 ] , это означает, что в любое время сходится в среднем квадратическом к и сходится в среднем квадратическом к . Для несоответствия ядра Штейна обнаружение сходимости Васерштейна : было установлено [ 8 ] при соответствующих условиях регулярности распределения и воспроизводящее ядро .
Применение невязки Штейна
[ редактировать ]Было предложено несколько применений невязки Стейна, некоторые из которых сейчас описаны.
Оптимальное квантование
[ редактировать ]Учитывая распределение вероятностей определенный на измеримом пространстве , задача квантования состоит в выборе небольшого количества состояний такое, что соответствующее дискретное распределение является точным приближением в смысле, который следует уточнить.
Очки Штейна [ 19 ] являются результатом выполнения оптимального квантования посредством минимизации неточности Штейна:
При соответствующих условиях регулярности можно показать [ 19 ] что как . Таким образом, если невязка Штейна контролируется сходимостью, отсюда следует, что сходится к . Также были получены расширения этого результата, позволяющие обеспечить несовершенную численную оптимизацию. [ 19 ] [ 21 ] [ 20 ]
Сложные алгоритмы оптимизации были разработаны для выполнения эффективного квантования на основе невязки Стейна, включая алгоритмы градиентного потока, которые направлены на минимизацию неточности ядра Стейна в соответствующем пространстве вероятностных мер. [ 22 ]
Оптимальное взвешенное приближение
[ редактировать ]Если разрешить рассматривать взвешенные комбинации точечных масс, то возможна более точная аппроксимация по сравнению с (3.1). Для простоты изложения предположим, что нам дан набор состояний . Тогда оптимальная взвешенная комбинация точечных масс , то есть
которые минимизируют невязку Стейна, можно получить в закрытой форме, если использовать ядро невязки Стейна. [ 5 ] Некоторые авторы [ 23 ] [ 24 ] рассмотрите возможность наложения, кроме того, ограничения на неотрицательность весов, т.е. . Однако в обоих случаях вычисления, необходимые для вычисления оптимальных весов, может включать решение линейных систем уравнений, которые плохо обусловлены численно. Интересно, что было показано [ 20 ] это жадное приближение используя невзвешенную комбинацию государства могут уменьшить эту вычислительную потребность. В частности, жадный прореживания Штейна алгоритм
было показано, что удовлетворяет границе ошибки
Были продемонстрированы неблизорукие и мини-пакетные обобщения жадного алгоритма. [ 25 ] для дальнейшего улучшения качества аппроксимации относительно вычислительных затрат.
Вариационный вывод
[ редактировать ]Невязка Штейна использовалась как вариационная цель в вариационных байесовских методах . [ 26 ] [ 27 ] Учитывая коллекцию вероятностных распределений на , параметризованный , в этой коллекции можно найти распределение, которое лучше всего аппроксимирует распределение интерес:
Возможное преимущество несоответствия Штейна в этом контексте: [ 27 ] по сравнению с традиционной вариационной целью Кульбака – Лейблера , заключается в том, что не обязательно быть абсолютно непрерывным по отношению к для того, чтобы быть четко определенным. Это свойство можно использовать, например, чтобы обойти использование генеративных моделей на основе потоков , которые накладывают ограничения диффеоморфизма, чтобы обеспечить абсолютную непрерывность и .
Статистическая оценка
[ редактировать ]Невязка Стейна была предложена как инструмент для подгонки параметрических статистических моделей к данным. Учитывая набор данных , рассмотрим соответствующее дискретное распределение . Для данного параметрического набора вероятностных распределений на , можно оценить значение параметра который совместим с набором данных с использованием минимальной оценки несоответствия Штейна [ 28 ]
Этот подход тесно связан со структурой оценки минимального расстояния , где роль «расстояния» играет невязка Штейна. Альтернативно, обобщенный байесовский подход к оценке параметра можно считать [ 4 ] где, учитывая априорное распределение вероятностей с функцией плотности , , (относительно соответствующей эталонной меры по ), строится обобщенный апостериор с функцией плотности вероятности
для некоторых быть уточнены или определены.
Проверка гипотез
[ редактировать ]Расхождение Штейна также использовалось в качестве тестовой статистики для проведения тестирования согласия. [ 6 ] [ 7 ] и сравнение моделей со скрытыми переменными. [ 29 ] Поскольку вычислительные затраты вышеупомянутых тестов квадратичны по размеру выборки, были разработаны альтернативы с (почти) линейным временем выполнения. [ 30 ] [ 15 ]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж г час Дж. Горэм и Л. Макки. Измерение качества пробы методом Штейна. Достижения в области нейронных систем обработки информации, 2015.
- ^ Анастасиу, А., Барп, А., Бриол, FX., Эбнер, Б., Гонт, Р.Э., Гадеринежад, Ф., Горэм, Дж., Греттон, А., Лей, К., Лю, К., Макки Л., Оутс С.Дж., Рейнерт Г. и Свон Ю. (2021). Метод Штейна соответствует статистике: обзор некоторых недавних событий. arXiv: 2105.03481.
- ^ Мюллер, Альфред (1997). «Интегральные вероятностные метрики и их порождающие классы функций» . Достижения в области прикладной теории вероятности . 29 (2): 429–443. дои : 10.2307/1428011 . ISSN 0001-8678 .
- ^ Jump up to: а б Мастубара Т., Кноблаух Дж., Бриол Ф.С., Оутс С.Дж. Надежный обобщенный байесовский вывод для трудноразрешимых вероятностей. arXiv: 2104.07359.
- ^ Jump up to: а б с Оутс, СиДжей, Джиролами, М., и Шопен, Н. (2017). Функционал управления для интеграции Монте-Карло. Журнал Королевского статистического общества B: Статистическая методология, 79 (3), 695–718.
- ^ Jump up to: а б с Лю, К., Ли, Дж. Д., и Джордан, Мичиган (2016). Ядеризованное несоответствие Штейна для тестов согласия и оценки модели. Международная конференция по машинному обучению, 276–284.
- ^ Jump up to: а б с Хвялковски К., Стратманн Х. и Греттон А. (2016). Тест ядра на соответствие. Международная конференция по машинному обучению, 2606–2615.
- ^ Jump up to: а б с д и Горэм Дж., Макки Л. Измерение качества образцов с помощью зерен. Международная конференция по машинному обучению, 17 июля 2017 г. (стр. 1292–1301). ПМЛР.
- ^ Jump up to: а б с Горэм Дж., Дункан А.Б., Воллмер С.Дж. и Макки Л. (2019). Измерение качества проб с помощью диффузии. Анналы прикладной вероятности, 29 (5), 2884–2928.
- ^ Jump up to: а б Ши Дж., Лю К. и Макки Л. (2021). Выборка с помощью зеркальных операторов Штейна. Препринт arXiv arXiv:2106.12506
- ^ Барп А., Оутс С.Дж., Порку Э., Джиролами М. Метод ядра Римана-Штейна. Препринт arXiv arXiv:1810.04946. 2018.
- ^ Сюй В., Мацуда Т. Интерпретируемые критерии согласия Стейна на римановых многообразиях. В ICML 2021.
- ^ Ян Дж., Лю Кью, Рао В., Невилл Дж. Проверка согласия для дискретных распределений с помощью неточности Стейна. В ICML 2018 (стр. 5561-5570). ПМЛР.
- ^ Ши Дж., Чжоу Ю., Хван Дж., Тисиас М., Макки Л. Оценка градиента с помощью дискретных операторов Штейна. Препринт arXiv arXiv:2202.09497. 2022.
- ^ Jump up to: а б Хаггинс Дж. Х., Макки Л. Случайные несоответствия Штейна. В НейриПС 2018.
- ^ Горэм Дж., Радж А., Макки Л. Стохастические расхождения Штейна. В НейриПС 2020.
- ^ Фишер М., Оутс CJ. Безградиентное несоответствие ядра Штейна. Препринт arXiv arXiv:2207.02636. 2022.
- ^ Макки Л. и Горэм Дж. (2016). Многомерные факторы Штейна для класса сильно логарифмически вогнутых распределений. Электронные коммуникации в теории вероятности, 21, 1-14.
- ^ Jump up to: а б с д Чен Вайоминг, Макки Л., Горэм Дж., Бриол Ф.С., Оутс СиДжей. Штейн указывает. На Международной конференции по машинному обучению 2018 (стр. 844-853). ПМЛР.
- ^ Jump up to: а б с Риабиз М., Чен В., Кокейн Дж., Свитах П., Нидерер С.А., Макки Л., Оутс С.Дж. Оптимальное прореживание выхода MCMC. Журнал Королевского статистического общества B: Статистическая методология. 2021. arXiv : 2005.03952 .
- ^ Чен Вайоминг, Барп А., Бриол FX, Горэм Дж., Джиролами М., Макки Л., Оутс CJ. Stein Point Марковская цепь Монте-Карло. Международная конференция по машинному обучению (ICML 2019). arXiv : 1905.03673
- ^ Корба А., Обин-Франковски ПК, Маевски С., Аблин П. «Спуск несоответствия ядра Штейна». Препринт arXiv arXiv : 2105.09994 . 2021.
- ^ Лю Кью, Ли Дж. Выборка важности черного ящика. В журнале «Искусственный интеллект и статистика», 2017 г. (стр. 952–961). ПМЛР.
- ^ Ходжкинсон Л., Саломоне Р., Руста Ф. Подход к воспроизведению ядра Штейна для выборки с апостериорной коррекцией. Препринт arXiv arXiv:2001.09266. 2020.
- ^ Теймур О, Горэм Дж, Риабиз М, Оутс СиДжей. Оптимальное квантование вероятностных мер с использованием максимального среднего несоответствия. На Международной конференции по искусственному интеллекту и статистике 2021 (стр. 1027–1035). ПМЛР.
- ^ Ранганат Р., Тран Д., Альтосаар Дж., Блей Д. Операторный вариационный вывод. Достижения в области нейронных систем обработки информации. 2016;29:496-504.
- ^ Jump up to: а б Фишер М., Нолан Т., Грэм М., Прангл Д., Оутс С.Дж. Измерьте транспортировку с несоответствием ядра Штейна. Международная конференция по искусственному интеллекту и статистике 2021 (стр. 1054-1062). ПМЛР.
- ^ Барп А., Бриол Ф.-Х., Дункан А.Б., Джиролами М. и Макки Л. (2019). Оценщики минимальной неточности Стейна. Нейронные системы обработки информации, 12964–12976.
- ^ Канагава, Х., Джиткриттум, В., Макки, Л., Фукумидзу, К., и Греттон, А. (2019). Ядро теста Штейна для сравнения моделей со скрытыми переменными. Препринт arXiv arXiv:1907.00586.
- ^ Джиткриттум В., Сюй В., Сабо З., Фукумидзу К., Греттон А. Тест согласия ядра в линейном времени.