Выборка Бернулли

В теории выборки конечной совокупности выборка Бернулли представляет собой процесс выборки, при котором каждый элемент совокупности подвергается независимому испытанию Бернулли , которое определяет, станет ли этот элемент частью выборки. Важным свойством выборки Бернулли является то, что все элементы совокупности имеют равную вероятность попасть в выборку. ^[1]

Таким образом, выборка Бернулли представляет собой особый случай выборки Пуассона . При выборке Пуассона каждый элемент генеральной совокупности может иметь разную вероятность быть включенным в выборку. В выборке Бернулли вероятность одинакова для всех элементов.

Поскольку каждый элемент генеральной совокупности рассматривается в выборке отдельно, размер выборки не является фиксированным, а скорее подчиняется биномиальному распределению .

Пример

Самый простой метод Бернулли генерирует n случайных переменных для извлечения выборки из совокупности из n элементов. Предположим, вы хотите извлечь определенный процент населения . Алгоритм можно описать следующим образом: ^[2]

for each item in the set
    generate a random non-negative integer R
    if (R mod 100) < pct then
        select item

Скажем, процент в 20% обычно выражается как вероятность p =0,2. В этом случае случайные величины генерируются в единичном интервале. После запуска алгоритма выборка размера k будет выбрана . Можно было бы ожидать иметь $k\approx n\cdot p$ , что становится все более вероятным по мере роста n . Фактически, можно вычислить вероятность получения размера выборки k с помощью биномиального распределения :

$f(k,n,p)={\binom {n}{k}}p^{k}(1-p)^{n-k}$

Слева эта функция показана для четырех значений $n$ и $p=0.2$ . Чтобы сравнить значения для разных значений $n$ , $k$ по оси абсцисс масштабируются от $\left[0,n\right]$ к единичному интервалу, в то время как значение функции по ординате умножается на обратное, так что площадь под графиком сохраняет то же значение — эта площадь связана с соответствующей кумулятивной функцией распределения. Значения показаны в логарифмическом масштабе.

Справа минимальные значения $n$ которые удовлетворяют заданным границам погрешности с вероятностью 95%. В случае ошибки набор $k$ внутри границ можно описать следующим образом:

$K_{n,p}=\left\{k\in \mathbb {N} :\left\vert {\frac {k}{n}}-p\right\vert <\mathrm {error} \right\}$

Вероятность оказаться внутри $K$ снова определяется биномиальным распределением как:

$\sum _{k\in K}f(k,n,p).$

На рисунке показаны самые низкие значения $n$ так, чтобы сумма была не менее 0,95. Для $p=0.0$ и $p=1.00$ алгоритм дает точные результаты для всех $n$ х. $p$ Промежуточные получаются путем деления пополам . Обратите внимание, что если $100\cdot p$ представляет собой целый процент, $\mathrm {error} =0.005$ , гарантирует, что $100\cdot k/n=100\cdot p$ . Ценности столь же высокие, как $n=38400$ может потребоваться для такого точного совпадения.

См. также

Ссылки

^ Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3 .
^ Воратас Качитвичянукул; Брюс В. Шмайсе (1 февраля 1988 г.). «Генерация биномиальной случайной величины» . Коммуникации АКМ . 31 (2): 216–222. дои : 10.1145/42372.42381 . S2CID 18698828 .

Внешние ссылки

Более быстрая случайная выборка с помощью выборки по пробелам

[sarndal1992-1] Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3 .

[2] Воратас Качитвичянукул; Брюс В. Шмайсе (1 февраля 1988 г.). «Генерация биномиальной случайной величины» . Коммуникации АКМ . 31 (2): 216–222. дои : 10.1145/42372.42381 . S2CID 18698828 .

[1]

[2]