Jump to content

метод Штейна

(Перенаправлено из метода Чена-Стейна )

Метод Стейна — это общий метод теории вероятностей, позволяющий получить границы расстояния между двумя распределениями вероятностей относительно метрики вероятности . Его представил Чарльз Стайн , который впервые опубликовал его в 1972 году. [ 1 ] получить границу между распределением суммы -зависимой последовательности случайных величин и стандартного нормального распределения в колмогоровской (равномерной) метрике и, следовательно, доказать не только центральную предельную теорему , но и оценки скорости сходимости для данной метрики.

В конце 1960-х годов, неудовлетворенный известными к тому времени доказательствами конкретной центральной предельной теоремы , Чарльз Стайн разработал новый способ доказательства теоремы для своей лекции по статистике . [ 2 ] Его основополагающая статья была представлена ​​в 1970 году на шестом симпозиуме в Беркли и опубликована в соответствующих сборниках. [ 1 ]

Позже его доктор философии. студент Луи Чен Сяо Юнь модифицировал метод так, чтобы получить результаты аппроксимации распределения Пуассона ; [ 3 ] поэтому метод Штейна, примененный к задаче аппроксимации Пуассона, часто называют методом Штейна – Чена .

Вероятно, наиболее важным вкладом является монография Штейна (1986), где он представляет свой взгляд на метод и концепцию вспомогательной рандомизации , в частности с использованием заменяемых пар , а также статьи Барбура (1988) и Гетце (1991), которые ввел так называемую генераторную интерпретацию , которая позволила легко адаптировать метод ко многим другим распределениям вероятностей. Важным вкладом стала также статья Больтхаузена (1984) о так называемой комбинаторной центральной предельной теореме . [ нужна ссылка ]

В 1990-х годах метод был адаптирован к различным распределениям, таким как гауссовы процессы Барбура (1990), биномиальное распределение Эма (1991), пуассоновские процессы Барбура и Брауна (1992), гамма-распределение Люка (1994). и многие другие.

Этот метод приобрел дальнейшую популярность в сообществе машинного обучения в середине 2010-х годов после разработки вычислимых невязок Стейна и разнообразных приложений и алгоритмов на их основе.

Основной подход

[ редактировать ]

Вероятностные метрики

[ редактировать ]

Метод Штейна — это способ определить расстояние между двумя распределениями вероятностей с использованием определенной метрики вероятности .

Пусть метрика задана в виде

Здесь, и являются вероятностными мерами на измеримом пространстве , и являются случайными величинами с распределением и соответственно, является обычным оператором ожидания и представляет собой набор функций из множеству действительных чисел. Набор должно быть достаточно большим, чтобы приведенное выше определение действительно давало метрику .

Важными примерами являются метрики общей вариации , где мы позволяем состоят из всех индикаторных функций измеримых множеств, метрики Колмогорова (равномерной) для вероятностных мер действительных чисел, где мы рассматриваем все индикаторные функции полупрямой, и метрики Липшица (первого порядка Вассерштейна; Канторовича) , где базовые пространство само по себе является метрическим пространством, и мы берем множество быть всеми липшицево-непрерывными функциями с константой Липшица 1. Однако заметим, что не всякая метрика может быть представлена ​​в виде (1.1).

Далее — это сложное распределение (например, распределение суммы зависимых случайных величин), которое мы хотим аппроксимировать гораздо более простым и понятным распределением. (например, стандартное нормальное распределение).

Оператор Штейна

[ редактировать ]

Предположим теперь, что распределение фиксированное распределение; в дальнейшем мы, в частности, будем рассматривать случай, когда — стандартное нормальное распределение, которое служит классическим примером.

Прежде всего нам нужен оператор , который действует на функции от множеству действительных чисел и «характеризует» распределение в том смысле, что имеет место следующая эквивалентность:

Такой оператор мы называем оператором Штейна .

Для стандартного нормального распределения лемма Стейна дает такой оператор:

Таким образом, мы можем взять

Таких операторов вообще бесконечно много и вопрос, какой из них выбрать, остается открытым. Однако кажется, что для многих распределений существует особенно хорошее , например (2.3) для нормального распределения.

Существуют разные способы поиска операторов Штейна. [ 4 ]

Уравнение Штейна

[ редактировать ]

близко к относительно если разность ожиданий в (1.1) близка к 0. Будем надеяться, что теперь оператор демонстрирует такое же поведение: если затем и, надеюсь, если у нас есть .

Обычно можно определить функцию такой, что

Назовем (3.1) уравнением Штейна . Замена к и принимая ожидание относительно , мы получаем

Теперь все усилия окупятся только в том случае, если левую часть (3.2) определить легче, чем правую. На удивление, это часто так.

Если — стандартное нормальное распределение, и мы используем (2.3), тогда соответствующее уравнение Штейна имеет вид

Если распределение вероятностей Q имеет абсолютно непрерывную (относительно меры Лебега) плотность q, то [ 4 ]

Решение уравнения Штейна

[ редактировать ]

Аналитические методы . Уравнение (3.3) легко решить в явном виде:

Генераторный метод . Если является генератором марковского процесса (см. Barbour (1988), Götze (1991)), то решение (3.2) будет

где обозначает ожидание относительно процесса начинается в . Однако еще предстоит доказать, что решение (4.2) существует для всех искомых функций .

Свойства решения уравнения Штейна

[ редактировать ]

Обычно пытаются ограничить и его производные (или различия) с точки зрения и его производные (или разности), т. е. неравенства вида

для каких-то конкретных (обычно или , соответственно, в зависимости от вида оператора Штейна), где часто это высшая норма. Здесь, обозначает дифференциальный оператор , но в дискретных условиях он обычно относится к разностному оператору . Константы может содержать параметры распределения . Если таковые имеются, их часто называют факторами Штейна .

В случае (4.1) для супремум-нормы можно доказать , что

где последняя граница, конечно, применима только в том случае, если дифференцируема (или, по крайней мере, липшицево-непрерывна, что, например, неверно, если рассматривать метрику полной вариации или метрику Колмогорова!). Поскольку стандартное нормальное распределение не имеет дополнительных параметров, в данном конкретном случае константы свободны от дополнительных параметров.

Если у нас есть оценки в общем виде (5.1), мы обычно можем рассматривать многие вероятностные метрики вместе. Часто можно начать со следующего шага ниже, если границы вида (5.1) уже доступны (что имеет место для многих распределений).

Абстрактная аппроксимационная теорема

[ редактировать ]

Теперь мы можем оценить левую часть (3.1). Поскольку этот шаг сильно зависит от вида оператора Штейна, мы непосредственно рассматриваем случай стандартного нормального распределения.

На этом этапе мы могли бы напрямую подключить случайную величину , который мы хотим аппроксимировать, и попытаемся найти верхние границы. Однако часто бывает полезно сформулировать более общую теорему. Рассмотрим здесь случай локальной зависимости.

Предположим, что представляет собой сумму случайных величин таких, что и дисперсия . Предположим, что для каждого , есть набор , такой, что не зависит от всех случайных величин с . Мы называем это множество «окрестностью» . Аналогично, пусть быть набором таким, что все с независимы от всех , . Мы можем подумать о как соседи по соседству , окрестность второго порядка, так сказать. Для набора определим теперь сумму .

Используя разложение Тейлора, можно доказать, что

Заметим, что если мы будем следовать этой аргументации, мы сможем оценить (1.1) только для функций, где ограничено в силу третьего неравенства (5.2) (и действительно, если имеет разрывы, поэтому будет ). Чтобы получить оценку, аналогичную (6.1), содержащую только выражения и , аргументация гораздо сложнее, и результат не так прост, как (6.1); однако это можно сделать.

Теорема А. Если как описано выше, мы имеем для липшицевой метрики что

Доказательство . Напомним, что липшицева метрика имеет вид (1.1) где функции непрерывны по Липшицу с константой Липшица 1, поэтому . Объединение этого результата с (6.1) и последней оценкой в ​​(5.2) доказывает теорему.

Таким образом, грубо говоря, мы доказали, что для вычисления липшицева расстояния между со структурой локальной зависимости и стандартным нормальным распределением, нам нужно знать только третьи моменты и размер кварталов и .

Применение теоремы

[ редактировать ]

Случай сумм независимых и одинаково распределенных случайных величин можно рассматривать с помощью теоремы А.

Предположим, что , и . Мы можем взять . Из теоремы А получаем, что

Для сумм случайных величин другой подход, связанный с методом Стейнса, известен как преобразование с нулевым смещением .

Связь с другими методами

[ редактировать ]
  • Устройство Линдеберга . Линдеберг (1922) представил устройство, в котором разница представляется как сумма ступенчатых разностей.
  • Метод Тихомирова . Очевидно, что подход с помощью (1.1) и (3.1) не предполагает использования характеристических функций . Однако Тихомиров (1980) представил доказательство центральной предельной теоремы, основанное на характеристических функциях и дифференциальном операторе, подобном (2.3). Основное наблюдение состоит в том, что характеристическая функция стандартного нормального распределения удовлетворяет дифференциальному уравнению для всех . Таким образом, если характеристическая функция из таков, что мы ожидаем, что и, следовательно, это близко к нормальному распределению. Тихомиров заявляет в своей статье, что его вдохновила основополагающая статья Штейна.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Перейти обратно: а б Штейн, К. (1972). «Оценка погрешности нормального приближения распределения суммы зависимых случайных величин» . Труды шестого симпозиума Беркли по математической статистике и теории вероятностей, Том 2 . Том. 6. Издательство Калифорнийского университета . стр. 583–602. МР   0402873 . Збл   0278.60026 .
  2. ^ Чарльз Стейн: Инвариант, прямое и «претенциозное». Архивировано 5 июля 2007 г. в Wayback Machine . Интервью, данное в 2003 году в Сингапуре.
  3. ^ Чен, LHY (1975). «Пуассоновское приближение для зависимых испытаний» . Анналы вероятности . 3 (3): 534–545. дои : 10.1214/aop/1176996359 . JSTOR   2959474 . МР   0428387 . Збл   0335.60016 .
  4. ^ Перейти обратно: а б Новак, С.Ю. (2011). Методы экстремальных значений с применением в финансах . Монографии по статистике и прикладной теории вероятности. Том. 122. ЦРК Пресс . Ч. 12. ISBN  978-1-43983-574-6 .

Литература

[ редактировать ]

Следующий текст является расширенным и дает полный обзор обычного случая.

  • Чен, Л.Х.И., Гольдштейн, Л., и Шао, К.М. (2011). Нормальное приближение методом Штейна . www.springer.com. ISBN  978-3-642-15006-7 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

Еще одна продвинутая книга, но имеющая некоторый вводный характер.

  • Барбур, AD; Чен, LHY, ред. (2005). Введение в метод Штейна . Серия конспектов лекций, Институт математических наук, Национальный университет Сингапура. Том. 4. Издательство Сингапурского университета. ISBN  981-256-280-Х .

Стандартным справочником является книга Штейна.

  • Штейн, К. (1986). Приблизительный расчет ожиданий . Конспект лекций Института математической статистики, серия монографий, 7. Хейворд, Калифорния: Институт математической статистики. ISBN  0-940600-08-0 .

который содержит много интересного материала, но может быть немного труден для понимания при первом прочтении.

Несмотря на возраст, имеется мало стандартных вводных книг по методу Штейна. В следующем недавно выпущенном учебнике есть глава (глава 2), посвященная представлению о методе Штейна:

  • Росс, Шелдон и Пекез, Эрол (2007). Второй курс теории вероятности . ISBN  978-0-9795704-0-7 .

Хотя книга

  • Барбур А.Д., Холст Л. и Янсон С. (1992). Пуассоновское приближение . Оксфордские исследования вероятности. Том. 2. Издательство Кларендон Пресс Оксфордского университета. ISBN  0-19-852235-5 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

по большей части посвящено аппроксимации Пуассона, тем не менее, оно содержит много информации о генераторном подходе, в частности в контексте аппроксимации пуассоновского процесса.

В следующем учебнике есть глава (глава 10), посвященная представлению о методе Пуассоновой аппроксимации Штейна:

  • Шелдон М. Росс (1995). Случайные процессы . Уайли. ISBN  978-0471120629 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6fc2d933d6cd531af1e2d4acdc544102__1717120860
URL1:https://arc.ask3.ru/arc/aa/6f/02/6fc2d933d6cd531af1e2d4acdc544102.html
Заголовок, (Title) документа по адресу, URL1:
Stein's method - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)