Простая случайная выборка

В статистике простая случайная выборка (или SRS ) — это подмножество людей ) , ( выборка выбранное из более крупного набора ( популяции ), в котором подмножество людей выбираются случайным образом , все с одинаковой вероятностью. Это процесс отбора выборки случайным образом. В SRS каждая подгруппа из k индивидуумов имеет такую же вероятность быть выбранной для выборки, как и любая другая подгруппа из k индивидуумов. ^[1] Простая случайная выборка является основным типом выборки и может быть компонентом других, более сложных методов выборки. ^[2]

Введение

Принцип простой случайной выборки заключается в том, что каждый набор с одинаковым количеством предметов имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но для них имеется только X < N билетов, поэтому они решают найти честный способ узнать, кто пойдет. Затем каждому дается число в диапазоне от 0 до N -1, и случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N -1 игнорируются, как и любые ранее выбранные числа. Первые цифры X будут определять счастливых обладателей билетов.

В небольших популяциях, а часто и в крупных, такая выборка обычно осуществляется « без замещения », т. е. сознательно избегают выбора какого-либо члена популяции более одного раза. Хотя вместо этого можно провести простую случайную выборку с заменой, это встречается реже и обычно более полно описывается как простая случайная выборка с заменой .Выборка, выполненная без замены, больше не является независимой, но по-прежнему удовлетворяет возможности обмена , поэтому большинство результатов математической статистики по-прежнему сохраняются. Далее, для небольшой выборки из большой популяции выборка без замещения примерно аналогична выборке с замещением, поскольку вероятность выбора одной и той же особи дважды мала. В учебниках по методологии обследований обычно рассматривается простая случайная выборка без замещения в качестве эталона для расчета относительной эффективности других подходов к выборке. ^[3]

Беспристрастный случайный отбор людей важен для того, чтобы в случае взятия большого количества выборок средняя выборка точно представляла совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет сделать на основе выборки внешне обоснованные выводы обо всей совокупности. Эту концепцию можно расширить, если население представляет собой географическую область. ^[4] В этом случае актуальными являются рамки территориальной выборки .

Концептуально простая случайная выборка является самым простым из методов вероятностной выборки. Для этого требуется полная основа выборки , которая может быть недоступна или невозможна для создания для больших групп населения. Даже если доступна полная совокупность, более эффективные подходы могут быть возможны, если имеется другая полезная информация о единицах генеральной совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о совокупности, кроме совокупности. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда имеется не так много информации о совокупности и сбор данных может быть эффективно проведен по случайно распределенным элементам, или когда стоимость выборки достаточно мала, чтобы сделать эффективность менее важной, чем простота. Если эти условия не выполняются, стратифицированная выборка или кластерная выборка лучшим выбором может быть .

Связь между простой случайной выборкой и другими методами

Выборка с равной вероятностью (epsem)

Метод выборки, при котором каждая отдельная единица имеет одинаковую вероятность быть выбранной, называется выборкой равной вероятности (сокращенно epsem).

Использование простой случайной выборки всегда приведет к получению эпсема, но не все образцы эпсема являются SRS. Например, если у учителя класс разбит на 5 рядов по 6 столбцов, и она хочет взять случайную выборку из 5 учеников, она может случайным образом выбрать один из 6 столбцов. Это будет образец эпсема, но не все подгруппы из 5 учеников здесь одинаково вероятны, поскольку только те подгруппы, которые расположены в один столбец, имеют право на выбор. Существуют также способы построения многоступенчатой выборки , которые не являются srs, при этом итоговая выборка будет epsem. ^[5] Например, систематическая случайная выборка создает выборку, в которой каждая отдельная единица имеет одинаковую вероятность включения, но разные наборы единиц имеют разные вероятности быть выбранными.

Выборки, которые являются epsem, являются самовзвешенными , что означает, что обратная вероятность выбора для каждой выборки одинакова.

Различие между систематической случайной выборкой и простой случайной выборкой

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно было бы положить в корзину, а затем вытащить из нее 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность ( P ) того, что данный человек будет выбран, поскольку мы знаем размер выборки ( n ) и популяцию ( N ):

1. В случае, если какое-либо лицо может быть выбрано только один раз (т.е. после отбора лицо исключается из пула отбора):

{\begin{aligned}P&=1-{\frac {N-1}{N}}\cdot {\frac {N-2}{N-1}}\cdot \cdots \cdot {\frac {N-n}{N-(n-1)}}\\[8pt]&{\stackrel {\text{Canceling:}}{=}}1-{\frac {N-n}{N}}\\[8pt]&={\frac {n}{N}}\\[8pt]&={\frac {100}{1000}}\\[8pt]&=10\%\end{aligned}}

2. В случае, если любой выбранный человек возвращается в пул отбора (т.е. может быть выбран более одного раза):

P=1-\left(1-{\frac {1}{N}}\right)^{n}=1-\left({\frac {999}{1000}}\right)^{100}=0.0952\dots \approx 9.5\%

Это означает, что каждый ученик школы в любом случае имеет примерно 1 шанс из 10 быть выбранным с помощью этого метода. Кроме того, любая комбинация из 100 студентов имеет одинаковую вероятность отбора.

Если в случайную выборку вводится систематическая закономерность, ее называют «систематической (случайной) выборкой». Примером может служить случай, когда к именам учащихся в школе были прикреплены номера в диапазоне от 0001 до 1000, и мы выбрали случайную начальную точку, например 0533, а затем выбрали каждое 10-е имя после этого, чтобы получить нашу выборку из 100 (начиная с с 0003 после достижения 0993). В этом смысле этот метод аналогичен кластерной выборке, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, поскольку некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие – например, {3, 13, 23, ..., 993} имеет вероятность выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны в этом методе.

Выборка дихотомической совокупности

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке заданного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным . Для простой случайной выборки без замены получается гипергеометрическое распределение . ^[6]

Алгоритмы

Было разработано несколько эффективных алгоритмов простой случайной выборки. ^[7]^[8] Наивный алгоритм — это алгоритм «рисование за розыгрышем», в котором на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем этот элемент в выборку. Продолжаем, пока не получим образец нужного размера. $k$ . Недостаток этого метода в том, что он требует произвольного доступа к множеству.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 году ^[9] требует однократной передачи данных; однако это последовательный алгоритм и требует знания общего количества элементов. $n$ , который недоступен в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году. ^[10] Алгоритм просто присваивает случайное число, полученное из равномерного распределения. $(0,1)$ в качестве ключа к каждому элементу, затем сортирует все элементы по ключу и выбирает наименьший $k$ предметы.

Дж. Виттер в 1985 году. ^[11] предложены алгоритмы отбора проб пласта , которые широко используются. Этот алгоритм не требует знания размера популяции. $n$ заранее и использует постоянное пространство.

Случайную выборку также можно ускорить за счет выборки по распределению промежутков между выборками. ^[12] и пропуская пробелы.

См. также

Ссылки

^ Йейтс, Дэниел С.; Дэвид С. Мур; Дарен С. Старнс (2008). Практика статистики, 3-е изд . Фримен . ISBN 978-0-7167-7309-2 .
^ Томпсон, Стивен К. (2012). Выборка . Ряд Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-1-118-16293-4 .
^ Кокран, Уильям Геммелл (1977). Методы выборки . Ряды Уайли по вероятности и математической статистике (3-е изд.). Нью-Йорк: Уайли. ISBN 978-0-471-16240-7 .
^ Кресси, Ноэль AC (2015). Статистика пространственных данных (пересмотренная ред.). John Wiley & Sons, Inc. Хобокен, Нью-Джерси: ISBN 978-1-119-11517-5 .
^ Питерс, Тим Дж. и Дженни И. Иакус. «Достижение равной вероятности отбора при различных стратегиях случайной выборки». Детская и перинатальная эпидемиология 9.2 (1995): 219-224.
^ Эш, Роберт Б. (2008). Основная теория вероятностей . Минеола, Нью-Йорк: Dover Publications. ISBN 978-0-486-46628-6 . OCLC 190785258 .
^ Тилль, Ив; Тилле, Ив (1 января 2006 г.). Алгоритмы выборки — Springer . Серия Спрингера по статистике. дои : 10.1007/0-387-34240-0 . ISBN 978-0-387-30814-2 .
^ Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Материалы 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.
^ Фан, Коннектикут; Мюллер, Мервин Э.; Резуча, Иван (1962-06-01). «Разработка планов выборочного контроля с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. дои : 10.1080/01621459.1962.10480667 . ISSN 0162-1459 .
^ Сантер, AB (1 января 1977 г.). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. дои : 10.2307/2346966 . JSTOR 2346966 .
^ Виттер, Джеффри С. (1 марта 1985 г.). «Случайный отбор проб из резервуара». АКМ Транс. Математика. Программное обеспечение . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . дои : 10.1145/3147.3165 . ISSN 0098-3500 .
^ Виттер, Джеффри С. (1 июля 1984 г.). «Быстрые методы случайной выборки». Коммуникации АКМ . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . дои : 10.1145/358105.893 . ISSN 0001-0782 .

тот

Внешние ссылки

СМИ, связанные со случайной выборкой, на Викискладе?

[1] Йейтс, Дэниел С.; Дэвид С. Мур; Дарен С. Старнс (2008). Практика статистики, 3-е изд . Фримен . ISBN 978-0-7167-7309-2 .

[2] Томпсон, Стивен К. (2012). Выборка . Ряд Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-1-118-16293-4 .

[3] Кокран, Уильям Геммелл (1977). Методы выборки . Ряды Уайли по вероятности и математической статистике (3-е изд.). Нью-Йорк: Уайли. ISBN 978-0-471-16240-7 .

[4] Кресси, Ноэль AC (2015). Статистика пространственных данных (пересмотренная ред.). John Wiley & Sons, Inc. Хобокен, Нью-Джерси: ISBN 978-1-119-11517-5 .

[5] Питерс, Тим Дж. и Дженни И. Иакус. «Достижение равной вероятности отбора при различных стратегиях случайной выборки». Детская и перинатальная эпидемиология 9.2 (1995): 219-224.

[6] Эш, Роберт Б. (2008). Основная теория вероятностей . Минеола, Нью-Йорк: Dover Publications. ISBN 978-0-486-46628-6 . OCLC 190785258 .

[7] Тилль, Ив; Тилле, Ив (1 января 2006 г.). Алгоритмы выборки — Springer . Серия Спрингера по статистике. дои : 10.1007/0-387-34240-0 . ISBN 978-0-387-30814-2 .

[8] Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Материалы 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.

[9] Фан, Коннектикут; Мюллер, Мервин Э.; Резуча, Иван (1962-06-01). «Разработка планов выборочного контроля с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. дои : 10.1080/01621459.1962.10480667 . ISSN 0162-1459 .

[10] Сантер, AB (1 января 1977 г.). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. дои : 10.2307/2346966 . JSTOR 2346966 .

[11] Виттер, Джеффри С. (1 марта 1985 г.). «Случайный отбор проб из резервуара». АКМ Транс. Математика. Программное обеспечение . 11 (1): 37–57. CiteSeerX 10.1.1.138.784 . дои : 10.1145/3147.3165 . ISSN 0098-3500 .

[12] Виттер, Джеффри С. (1 июля 1984 г.). «Быстрые методы случайной выборки». Коммуникации АКМ . 27 (7): 703–718. CiteSeerX 10.1.1.329.6400 . дои : 10.1145/358105.893 . ISSN 0001-0782 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

v т и Социальные опросы
Сбор данных	Методы сбора Вопросник Интервью Структурированный Полуструктурированный Неструктурированный Пара
Методология	Перепись Основа выборки Статистическая выборка Выборка для опросов Случайная выборка Простая случайная выборка Квотная выборка Стратифицированная выборка Невероятностная выборка Определение размера выборки Дизайн исследования Панельное исследование Когортное исследование Поперечное исследование Перекрестное исследование
Ошибки опроса	Ошибка выборки Стандартная ошибка Смещение выборки Систематические ошибки Ошибка, не связанная с выборкой Ошибка спецификации Ошибка кадра Ошибка измерения Ошибки ответа Систематическая ошибка в связи с отсутствием ответов Ошибка покрытия Псевдомнение Ошибки обработки
Анализ данных	Категориальные данные Таблица непредвиденных обстоятельств Уровень измерения Описательная статистика Исследовательский анализ данных Многомерная статистика Психометрия Статистический вывод Статистические модели Графический Лог-линейный Структурный
Приложения	Измерение аудитории Демография Исследование рынка Опрос общественного мнения Общественное мнение
Основные исследования	Список сравнительных социальных исследований Афробарометр Американские национальные исследования выборов Обзор азиатского барометра Сравнительное исследование избирательных систем Опрос колледжа Эмерсон евробарометр Европейское социальное исследование Опрос Гэллапа Общий социальный опрос Исследование динамики домохозяйств, доходов и труда в Австралии Международное социальное исследование Латинобарометр Список обследований домохозяйств в США Национальное обследование здоровья и питания Исследование взглядов и ценностей Новой Зеландии Центр политических исследований Саффолкского университета Опрос Академии Филлипса Избирательный институт Квиннипиакского университета Мировое исследование ценностей
Ассоциации	Американская ассоциация исследований общественного мнения Европейское общество общественного мнения и маркетинговых исследований Международный статистический институт Исследовательский центр Пью Всемирная ассоциация исследований общественного мнения
Категория Проекты Бизнес Политика Психология Социология Статистика