Выборка Бернулли
В теории выборки конечной совокупности выборка Бернулли представляет собой процесс выборки, при котором каждый элемент совокупности подвергается независимому испытанию Бернулли , которое определяет, станет ли этот элемент частью выборки. Важным свойством выборки Бернулли является то, что все элементы совокупности имеют равную вероятность попасть в выборку. [1]
Таким образом, выборка Бернулли представляет собой особый случай выборки Пуассона . При выборке Пуассона каждый элемент генеральной совокупности может иметь разную вероятность быть включенным в выборку. В выборке Бернулли вероятность одинакова для всех элементов.
Поскольку каждый элемент генеральной совокупности рассматривается в выборке отдельно, размер выборки не является фиксированным, а скорее подчиняется биномиальному распределению .
Пример
[ редактировать ]Самый простой метод Бернулли генерирует n случайных переменных для извлечения выборки из совокупности из n элементов. Предположим, вы хотите извлечь определенный процент населения . Алгоритм можно описать следующим образом: [2]
for each item in the set generate a random non-negative integer R if (R mod 100) < pct then select item

Скажем, процент в 20% обычно выражается как вероятность p =0,2. В этом случае случайные величины генерируются в единичном интервале. После запуска алгоритма выборка размера k будет выбрана . Можно было бы ожидать иметь , что становится все более вероятным по мере роста n . Фактически, можно вычислить вероятность получения размера выборки k с помощью биномиального распределения :
Слева эта функция показана для четырех значений и . Чтобы сравнить значения для разных значений , по оси абсцисс масштабируются от к единичному интервалу, в то время как значение функции по ординате умножается на обратное, так что площадь под графиком сохраняет то же значение — эта площадь связана с соответствующей кумулятивной функцией распределения. Значения показаны в логарифмическом масштабе.

Справа минимальные значения которые удовлетворяют заданным границам погрешности с вероятностью 95%. В случае ошибки набор внутри границ можно описать следующим образом:
Вероятность оказаться внутри снова определяется биномиальным распределением как:
На рисунке показаны самые низкие значения так, чтобы сумма была не менее 0,95. Для и алгоритм дает точные результаты для всех х. Промежуточные получаются путем деления пополам . Обратите внимание, что если представляет собой целый процент, , гарантирует, что . Ценности столь же высокие, как может потребоваться для такого точного совпадения.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Карл-Эрик Сарндал; Бенгт Свенсон; Ян Ретман (1992). Выборка опроса с помощью модели . ISBN 978-0-387-97528-3 .
- ^ Воратас Качитвичянукул; Брюс В. Шмайсе (1 февраля 1988 г.). «Генерация биномиальной случайной величины» . Коммуникации АКМ . 31 (2): 216–222. дои : 10.1145/42372.42381 . S2CID 18698828 .