Выборка обратного преобразования

Выборка с обратным преобразованием (также известная как инверсионная выборка , обратное интегральное преобразование вероятности , метод обратного преобразования или Смирнова преобразование ) — это базовый метод выборки псевдослучайных чисел генерации чисел выборки , т. е. для случайной из любого распределения вероятностей заданного . его кумулятивная функция распределения .

Выборка обратного преобразования берет однородные выборки числа. $u$ между 0 и 1, интерпретируется как вероятность, а затем возвращает наименьшее число $x\in \mathbb {R}$ такой, что $F(x)\geq u$ для кумулятивной функции распределения $F$ случайной величины. Например, представьте, что $F$ — стандартное нормальное распределение с нулевым средним значением и единицей стандартного отклонения. В таблице ниже показаны выборки, взятые из равномерного распределения, и их представление в стандартном нормальном распределении.

Преобразование однородной выборки в нормальную
$u$	$F^{-1}(u)$
.5	0
.975	1.95996
.995	2.5758
.999999	4.75342
1-2 ⁻⁵²	8.12589

Мы случайным образом выбираем долю площади под кривой и возвращаем число в области определения так, чтобы именно эта доля площади находилась слева от этого числа. Интуитивно мы вряд ли выберем число в дальнем конце хвостов, потому что в них очень маленькая область, которая потребует выбора числа, очень близкого к нулю или единице.

В вычислительном отношении этот метод включает в себя вычисление функции квантиля распределения — другими словами, вычисление кумулятивной функции распределения (CDF) распределения (которая сопоставляет число в области значений с вероятностью от 0 до 1), а затем инвертирование этой функции. Это источник термина «инверсия» или «инверсия» в большинстве названий этого метода. Обратите внимание, что для дискретного распределения вычисление CDF, как правило, не слишком сложно: мы просто складываем отдельные вероятности для различных точек распределения. Однако для непрерывного распределения нам необходимо интегрировать функцию плотности вероятности (PDF) распределения, что невозможно сделать аналитически для большинства распределений (включая нормальное распределение ). В результате этот метод может оказаться неэффективным в вычислительном отношении для многих распределений, и другие методы являются предпочтительными; тем не менее, это полезный метод для создания более широко применимых пробоотборников, например, основанных на браковочной выборке. .

Для нормального распределения отсутствие аналитического выражения для соответствующей функции квантиля означает, что другие методы (например, преобразование Бокса-Мюллера ) могут быть предпочтительными в вычислительном отношении. Часто даже для простых распределений метод выборки обратного преобразования можно улучшить: ^[1] см., например, алгоритм зиккурата и отбраковочную выборку . С другой стороны, можно чрезвычайно точно аппроксимировать функцию квантиля нормального распределения, используя полиномы умеренной степени, и на самом деле метод сделать это достаточно быстрый, поэтому инверсионная выборка теперь является методом по умолчанию для выборки из нормального распределения. в статистическом R. пакете ^[2]

Официальное заявление

Для любой случайной величины $X\in \mathbb {R}$ , случайная величина $F_{X}^{-1}(U)$ имеет то же распределение, что и $X$ , где $F_{X}^{-1}$ является обобщенной обратной функцией кумулятивного распределения $F_{X}$ из $X$ и $U$ является однородным на $[0,1]$ . ^[3]

Для непрерывных случайных величин обратное преобразование интеграла вероятности действительно является обратным преобразованию интеграла вероятности , которое утверждает, что для непрерывной случайной величины $X$ с кумулятивной функцией распределения $F_{X}$ , случайная величина $U=F_{X}(X)$ является однородным на $[0,1]$ .

График техники инверсии из $x$ к $F(x)$ . Справа внизу мы видим обычную функцию, а слева вверху — ее инверсию.

Интуиция

От $U\sim \mathrm {Unif} [0,1]$ , мы хотим сгенерировать $X$ с CDF $F_{X}(x).$ Мы предполагаем $F_{X}(x)$ быть непрерывной, строго возрастающей функцией, что обеспечивает хорошую интуицию.

Мы хотим посмотреть, сможем ли мы найти какое-нибудь строго монотонное преобразование. $T:[0,1]\mapsto \mathbb {R}$ , такой, что $T(U){\overset {d}{=}}X$ . у нас будет

$F_{X}(x)=\Pr(X\leq x)=\Pr(T(U)\leq x)=\Pr(U\leq T^{-1}(x))=T^{-1}(x),{\text{ for }}x\in \mathbb {R} ,$

где последний шаг использовал это $\Pr(U\leq y)=y$ когда $U$ является однородным на $[0,1]$ .

Итак, мы получили $F_{X}$ быть обратной функцией $T$ или, что то же самое $T(u)=F_{X}^{-1}(u),u\in [0,1].$

Следовательно, мы можем генерировать $X$ от $F_{X}^{-1}(U).$

Метод

Анимация того, как выборка с обратным преобразованием генерирует нормально распределенные случайные значения из равномерно распределенных случайных значений.

Проблема, которую решает метод выборки обратного преобразования, заключается в следующем:

Позволять $X$ быть случайной величиной, распределение которой можно описать кумулятивной функцией распределения. $F_{X}$ .
Мы хотим генерировать значения $X$ которые распределяются согласно этому распределению.

Метод выборки обратного преобразования работает следующим образом:

Генерировать случайное число $u$ из стандартного равномерного распределения на интервале $[0,1]$ , то есть из $U\sim \mathrm {Unif} [0,1].$
Найдите обобщенную обратную величину искомого CDF, т.е. $F_{X}^{-1}(u)$ .
Вычислить $X'(u)=F_{X}^{-1}(u)$ . Вычисленная случайная величина $X'(U)$ имеет распространение $F_{X}$ и, следовательно, тот же закон, что и $X$ .

Выражается по-другому, учитывая кумулятивную функцию распределения $F_{X}$ и универсальная переменная $U\in [0,1]$ , случайная величина $X=F_{X}^{-1}(U)$ имеет распределение $F_{X}$ . ^[3]

В непрерывном случае можно рассматривать такие обратные функции как объекты, удовлетворяющие дифференциальным уравнениям. ^[4] Некоторые такие дифференциальные уравнения допускают явные решения в виде степенных рядов , несмотря на их нелинейность. ^[5]

Примеры

В качестве примера предположим, что у нас есть случайная величина $U\sim \mathrm {Unif} (0,1)$ и кумулятивная функция распределения

{\begin{aligned}F(x)=1-\exp(-{\sqrt {x}})\end{aligned}}

Чтобы выполнить инверсию, нам нужно найти

F(F^{-1}(u))=u

{\begin{aligned}F(F^{-1}(u))&=u\\1-\exp \left(-{\sqrt {F^{-1}(u)}}\right)&=u\\F^{-1}(u)&=(-\log(1-u))^{2}\\&=(\log(1-u))^{2}\end{aligned}}

Отсюда мы выполним шаги первый, второй и третий.

В качестве другого примера мы используем экспоненциальное распределение с $F_{X}(x)=1-e^{-\lambda x}$ для x ≥ 0 (и 0 в противном случае). Решая y=F(x), мы получаем обратную функцию

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(1-y).

Это означает, что если мы нарисуем некоторые

y_{0}

из

U\sim \mathrm {Unif} (0,1)

и вычислить

x_{0}=F_{X}^{-1}(y_{0})=-{\frac {1}{\lambda }}\ln(1-y_{0}),

Этот

x_{0}

имеет экспоненциальное распределение.

Идея иллюстрируется следующим графиком:

Обратите внимание, что распределение не изменится, если мы начнем с 1-y вместо y. Поэтому для вычислительных целей достаточно сгенерировать случайные числа y в [0, 1], а затем просто вычислить

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(y).

Доказательство правильности

Позволять $F$ — кумулятивная функция распределения , и пусть $F^{-1}$ быть его обобщенной обратной функцией (с использованием нижней границы , поскольку CDF слабо монотонны и непрерывны справа ): ^[6]

F^{-1}(u)=\inf \;\{x\mid F(x)\geq u\}\qquad (0<u<1).

Претензия: Если $U$ является однородной случайной величиной на $[0,1]$ затем $F^{-1}(U)$ имеет $F$ в качестве CDF.

Доказательство:

{\begin{aligned}&\Pr(F^{-1}(U)\leq x)\\&{}=\Pr(U\leq F(x))\quad &(F{\text{ is right-continuous, so }}\{u:F^{-1}(u)\leq x\}=\{u:u\leq F(x)\})\\&{}=F(x)\quad &({\text{because }}\Pr(U\leq u)=u,{\text{ when }}U{\text{ is uniform on }}[0,1])\\\end{aligned}}

Усеченное распространение

Выборку обратного преобразования можно просто распространить на случаи усеченных распределений на интервале $(a,b]$ без затрат на отбраковочную выборку: можно следовать тому же алгоритму, но вместо генерации случайного числа $u$ равномерно распределены между 0 и 1, генерируют $u$ равномерно распределены между $F(a)$ и $F(b)$ , а затем снова возьмем $F^{-1}(u)$ .

Уменьшение количества инверсий

Чтобы получить большое количество выборок, необходимо выполнить такое же количество инверсий распределения. Одним из возможных способов уменьшить количество инверсий при получении большого количества выборок является применение так называемого семплера стохастической коллокации Монте-Карло (семплера SCMC) в рамках структуры полиномиального расширения хаоса . Это позволяет нам генерировать любое количество выборок Монте-Карло лишь с несколькими инверсиями исходного распределения с независимыми выборками переменной, для которой инверсии доступны аналитически, например, стандартной нормальной переменной. ^[7]

Реализации программного обеспечения

Существуют программные реализации для применения метода обратной выборки с использованием числовых аппроксимаций обратного метода в том случае, если он недоступен в закрытой форме. Например, можно вычислить аппроксимацию обратного результата, если пользователь предоставит некоторую информацию о распределениях, например PDF-файл. ^[8] или CDF.

Библиотека C УНУ.РАН ^[9]
R библиотека Рунуран ^[10]
Выборка подпакета Python в scipy.stats ^[11]^[12]

См. также

Интегральное преобразование вероятности
Копула , определяемая посредством преобразования интеграла вероятности.
Функция квантиля для явного построения обратных CDF.
Обратная функция распределения для точного математического определения распределений с дискретными компонентами.
Отбраковочная выборка — еще один распространенный метод генерации случайных переменных, который не основан на инверсии CDF.

Ссылки

^ Люк Деврой (1986). Генерация неравномерных случайных переменных (PDF) . Нью-Йорк: Springer-Verlag. Архивировано из оригинала (PDF) 18 августа 2014 г. Проверено 12 апреля 2012 г.
^ «R: Генерация случайных чисел» .
^ Jump up to: ^а ^б Макнил, Александр Дж.; Фрей, Рюдигер; Эмбрехтс, Пол (2005). Количественный риск-менеджмент . Принстонская серия по финансам. Издательство Принстонского университета, Принстон, Нью-Джерси. п. 186. ИСБН 0-691-12255-5 .
^ Штайнбрехер, Дьёрдь; Шоу, Уильям Т. (19 марта 2008 г.). «Квантильная механика». Европейский журнал прикладной математики . 19 (2). дои : 10.1017/S0956792508007341 . S2CID 6899308 .
^ Арридж, Саймон; Маасс, Питер; Октем, Озан; Шенлиб, Карола-Бибиан (2019). «Решение обратных задач с использованием моделей, управляемых данными» . Акта Нумерика . 28 : 1–174. дои : 10.1017/S0962492919000059 . ISSN 0962-4929 . S2CID 197480023 .
^ Люк Деврой (1986). «Раздел 2.2. Инверсия путем численного решения F ( X ) = U » (PDF) . Генерация неоднородной случайной переменной . Нью-Йорк: Springer-Verlag.
^ LA Grzelak, JAS Witteveen, M. Suarez и CW Oosterlee. Стохастический сэмплер Монте-Карло: высокоэффективная выборка из «дорогих» распределений. https://ssrn.com/abstract=2529691
^ Дерфлингер, Герхард; Хёрманн, Вольфганг; Лейдольд, Йозеф (2010). «Генерация случайных величин путем числовой инверсии, когда известна только плотность» (PDF) . ACM-транзакции по моделированию и компьютерному моделированию . 20 (4). дои : 10.1145/945511.945517 .
^ «UNU.RAN — Универсальные генераторы неравномерных случайных чисел» .
^ «Runuran: R-интерфейс к генераторам случайных величин UNU.RAN» . 17 января 2023 г.
^ «Генератор случайных чисел (Scipy.stats.sampling) — Руководство по SciPy v1.12.0» .
^ Баумгартен, Кристоф; Патель, Тирт (2022). «Автоматическая генерация случайных величин в Python». Материалы 21-й конференции «Питон в науке» . стр. 46–51. дои : 10.25080/majora-212e5952-007 .

[1] Люк Деврой (1986). Генерация неравномерных случайных переменных (PDF) . Нью-Йорк: Springer-Verlag. Архивировано из оригинала (PDF) 18 августа 2014 г. Проверено 12 апреля 2012 г.

[2] «R: Генерация случайных чисел» .

[mcneil2005-3] Jump up to: ^а ^б Макнил, Александр Дж.; Фрей, Рюдигер; Эмбрехтс, Пол (2005). Количественный риск-менеджмент . Принстонская серия по финансам. Издательство Принстонского университета, Принстон, Нью-Джерси. п. 186. ИСБН 0-691-12255-5 .

[4] Штайнбрехер, Дьёрдь; Шоу, Уильям Т. (19 марта 2008 г.). «Квантильная механика». Европейский журнал прикладной математики . 19 (2). дои : 10.1017/S0956792508007341 . S2CID 6899308 .

[5] Арридж, Саймон; Маасс, Питер; Октем, Озан; Шенлиб, Карола-Бибиан (2019). «Решение обратных задач с использованием моделей, управляемых данными» . Акта Нумерика . 28 : 1–174. дои : 10.1017/S0962492919000059 . ISSN 0962-4929 . S2CID 197480023 .

[6] Люк Деврой (1986). «Раздел 2.2. Инверсия путем численного решения F ( X ) = U » (PDF) . Генерация неоднородной случайной переменной . Нью-Йорк: Springer-Verlag.

[7] LA Grzelak, JAS Witteveen, M. Suarez и CW Oosterlee. Стохастический сэмплер Монте-Карло: высокоэффективная выборка из «дорогих» распределений. https://ssrn.com/abstract=2529691

[8] Дерфлингер, Герхард; Хёрманн, Вольфганг; Лейдольд, Йозеф (2010). «Генерация случайных величин путем числовой инверсии, когда известна только плотность» (PDF) . ACM-транзакции по моделированию и компьютерному моделированию . 20 (4). дои : 10.1145/945511.945517 .

[9] «UNU.RAN — Универсальные генераторы неравномерных случайных чисел» .

[10] «Runuran: R-интерфейс к генераторам случайных величин UNU.RAN» . 17 января 2023 г.

[11] «Генератор случайных чисел (Scipy.stats.sampling) — Руководство по SciPy v1.12.0» .

[12] Баумгартен, Кристоф; Патель, Тирт (2022). «Автоматическая генерация случайных величин в Python». Материалы 21-й конференции «Питон в науке» . стр. 46–51. дои : 10.25080/majora-212e5952-007 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]