Jump to content

Простая случайная выборка

(Перенаправлено из «Простая случайная выборка »)

В статистике простая случайная выборка (или SRS ) — это подмножество людей ) , ( выборка выбранное из более крупного набора ( популяции ), в котором подмножество людей выбираются случайным образом , все с одинаковой вероятностью. Это процесс отбора выборки случайным образом. В SRS каждая подгруппа из k индивидуумов имеет такую ​​же вероятность быть выбранной для выборки, как и любая другая подгруппа из k индивидуумов. [1] Простая случайная выборка является основным типом выборки и может быть компонентом других, более сложных методов выборки. [2]

Введение

[ редактировать ]

Принцип простой случайной выборки заключается в том, что каждый набор с одинаковым количеством предметов имеет одинаковую вероятность быть выбранным. Например, предположим, что N студентов колледжа хотят получить билет на баскетбольный матч, но для них имеется только X < N билетов, поэтому они решают найти честный способ узнать, кто пойдет. Затем каждому дается число в диапазоне от 0 до N -1, и случайные числа генерируются либо в электронном виде, либо из таблицы случайных чисел. Числа вне диапазона от 0 до N -1 игнорируются, как и любые ранее выбранные числа. Первые цифры X будут определять счастливых обладателей билетов.

В небольших популяциях, а часто и в крупных, такая выборка обычно осуществляется « без замещения », т. е. сознательно избегают выбора какого-либо члена популяции более одного раза. Хотя вместо этого можно провести простую случайную выборку с заменой, это встречается реже и обычно более полно описывается как простая случайная выборка с заменой .Выборка, выполненная без замены, больше не является независимой, но по-прежнему удовлетворяет возможности обмена , поэтому большинство результатов математической статистики по-прежнему сохраняются. Далее, для небольшой выборки из большой популяции выборка без замещения примерно аналогична выборке с замещением, поскольку вероятность выбора одной и той же особи дважды мала. В учебниках по методологии обследований обычно рассматривается простая случайная выборка без замещения в качестве эталона для расчета относительной эффективности других подходов к выборке. [3]

Беспристрастный случайный отбор людей важен для того, чтобы в случае взятия большого количества выборок средняя выборка точно представляла совокупность. Однако это не гарантирует, что конкретная выборка является идеальным представлением генеральной совокупности. Простая случайная выборка просто позволяет сделать на основе выборки внешне обоснованные выводы обо всей совокупности. Эту концепцию можно расширить, если население представляет собой географическую область. [4] В этом случае актуальными являются рамки территориальной выборки .

Концептуально простая случайная выборка является самым простым из методов вероятностной выборки. Для этого требуется полная основа выборки , которая может быть недоступна или невозможна для создания для больших групп населения. Даже если доступна полная совокупность, более эффективные подходы могут быть возможны, если имеется другая полезная информация о единицах генеральной совокупности.

Преимущества заключаются в том, что он не содержит ошибок классификации и требует минимальных предварительных знаний о совокупности, кроме совокупности. Его простота также позволяет относительно легко интерпретировать данные, собранные таким образом. По этим причинам простая случайная выборка лучше всего подходит для ситуаций, когда имеется не так много информации о совокупности и сбор данных может быть эффективно проведен по случайно распределенным элементам, или когда стоимость выборки достаточно мала, чтобы сделать эффективность менее важной, чем простота. Если эти условия не выполняются, стратифицированная выборка или кластерная выборка лучшим выбором может быть .

Связь между простой случайной выборкой и другими методами

[ редактировать ]

Выборка с равной вероятностью (epsem)

[ редактировать ]

Метод выборки, при котором каждая отдельная единица имеет одинаковую вероятность быть выбранной, называется выборкой равной вероятности (сокращенно epsem).

Использование простой случайной выборки всегда приведет к получению эпсема, но не все образцы эпсема являются SRS. Например, если у учителя класс разбит на 5 рядов по 6 столбцов, и она хочет взять случайную выборку из 5 учеников, она может случайным образом выбрать один из 6 столбцов. Это будет образец эпсема, но не все подгруппы из 5 учеников здесь одинаково вероятны, поскольку только те подгруппы, которые расположены в один столбец, имеют право на выбор. Существуют также способы построения многоступенчатой ​​выборки , которые не являются srs, при этом итоговая выборка будет epsem. [5] Например, систематическая случайная выборка создает выборку, в которой каждая отдельная единица имеет одинаковую вероятность включения, но разные наборы единиц имеют разные вероятности быть выбранными.

Выборки, которые являются epsem, являются самовзвешенными , что означает, что обратная вероятность выбора для каждой выборки одинакова.

Различие между систематической случайной выборкой и простой случайной выборкой

[ редактировать ]

Рассмотрим школу с 1000 учениками и предположим, что исследователь хочет выбрать 100 из них для дальнейшего изучения. Все их имена можно было бы положить в корзину, а затем вытащить из нее 100 имен. Мало того, что каждый человек имеет равные шансы быть выбранным, мы также можем легко вычислить вероятность ( P ) того, что данный человек будет выбран, поскольку мы знаем размер выборки ( n ) и популяцию ( N ):

1. В случае, если какое-либо лицо может быть выбрано только один раз (т.е. после отбора лицо исключается из пула отбора):

2. В случае, если любой выбранный человек возвращается в пул отбора (т.е. может быть выбран более одного раза):

Это означает, что каждый ученик школы в любом случае имеет примерно 1 шанс из 10 быть выбранным с помощью этого метода. Кроме того, любая комбинация из 100 студентов имеет одинаковую вероятность отбора.

Если в случайную выборку вводится систематическая закономерность, ее называют «систематической (случайной) выборкой». Примером может служить случай, когда к именам учащихся в школе были прикреплены номера в диапазоне от 0001 до 1000, и мы выбрали случайную начальную точку, например 0533, а затем выбрали каждое 10-е имя после этого, чтобы получить нашу выборку из 100 (начиная с с 0003 после достижения 0993). В этом смысле этот метод аналогичен кластерной выборке, поскольку выбор первой единицы будет определять остаток. Это уже не простая случайная выборка, поскольку некоторые комбинации из 100 учащихся имеют большую вероятность выбора, чем другие – например, {3, 13, 23, ..., 993} имеет вероятность выбора 1/10, а {1 , 2, 3, ..., 100} не могут быть выбраны в этом методе.

Выборка дихотомической совокупности

[ редактировать ]

Если члены популяции бывают трех видов, скажем, «синие», «красные» и «черные», количество красных элементов в выборке заданного размера будет варьироваться в зависимости от выборки и, следовательно, является случайной величиной, распределение которой можно изучить. Это распределение зависит от количества красных и черных элементов в полной популяции. Для простой случайной выборки с заменой распределение является биномиальным . Для простой случайной выборки без замены получается гипергеометрическое распределение . [6]

Алгоритмы

[ редактировать ]

Было разработано несколько эффективных алгоритмов простой случайной выборки. [7] [8] Наивный алгоритм — это алгоритм «рисование за розыгрышем», в котором на каждом шаге мы удаляем элемент на этом шаге из набора с равной вероятностью и помещаем этот элемент в выборку. Продолжаем, пока не получим образец нужного размера. . Недостаток этого метода в том, что он требует произвольного доступа к множеству.

Алгоритм выбора-отклонения, разработанный Fan et al. в 1962 году [9] требует однократной передачи данных; однако это последовательный алгоритм и требует знания общего количества элементов. , который недоступен в сценариях потоковой передачи.

Очень простой алгоритм случайной сортировки был доказан Сантером в 1977 году. [10] Алгоритм просто присваивает случайное число, полученное из равномерного распределения. в качестве ключа к каждому элементу, затем сортирует все элементы по ключу и выбирает наименьший предметы.

Дж. Виттер в 1985 году. [11] предложены алгоритмы отбора проб пласта , которые широко используются. Этот алгоритм не требует знания размера популяции. заранее и использует постоянное пространство.

Случайную выборку также можно ускорить за счет выборки по распределению промежутков между выборками. [12] и пропуская пробелы.

См. также

[ редактировать ]
  1. ^ Йейтс, Дэниел С.; Дэвид С. Мур; Дарен С. Старнс (2008). Практика статистики, 3-е изд . Фримен . ISBN  978-0-7167-7309-2 .
  2. ^ Томпсон, Стивен К. (2012). Выборка . Ряд Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN  978-1-118-16293-4 .
  3. ^ Кокран, Уильям Геммелл (1977). Методы выборки . Ряды Уайли по вероятности и математической статистике (3-е изд.). Нью-Йорк: Уайли. ISBN  978-0-471-16240-7 .
  4. ^ Кресси, Ноэль AC (2015). Статистика пространственных данных (пересмотренная ред.). John Wiley & Sons, Inc. Хобокен, Нью-Джерси: ISBN  978-1-119-11517-5 .
  5. ^ Питерс, Тим Дж. и Дженни И. Иакус. «Достижение равной вероятности отбора при различных стратегиях случайной выборки». Детская и перинатальная эпидемиология 9.2 (1995): 219-224.
  6. ^ Эш, Роберт Б. (2008). Основная теория вероятностей . Минеола, Нью-Йорк: Dover Publications. ISBN  978-0-486-46628-6 . OCLC   190785258 .
  7. ^ Тилль, Ив; Тилле, Ив (1 января 2006 г.). Алгоритмы выборки — Springer . Серия Спрингера по статистике. дои : 10.1007/0-387-34240-0 . ISBN  978-0-387-30814-2 .
  8. ^ Мэн, Сянжуй (2013). «Масштабируемая простая случайная выборка и стратифицированная выборка» (PDF) . Материалы 30-й Международной конференции по машинному обучению (ICML-13) : 531–539.
  9. ^ Фан, Коннектикут; Мюллер, Мервин Э.; Резуча, Иван (1962-06-01). «Разработка планов выборочного контроля с использованием методов последовательного (постатейного) отбора и цифровых компьютеров». Журнал Американской статистической ассоциации . 57 (298): 387–402. дои : 10.1080/01621459.1962.10480667 . ISSN   0162-1459 .
  10. ^ Сантер, AB (1 января 1977 г.). «Список последовательных выборок с равными или неравными вероятностями без замены». Прикладная статистика . 26 (3): 261–268. дои : 10.2307/2346966 . JSTOR   2346966 .
  11. ^ Виттер, Джеффри С. (1 марта 1985 г.). «Случайный отбор проб из резервуара». АКМ Транс. Математика. Программное обеспечение . 11 (1): 37–57. CiteSeerX   10.1.1.138.784 . дои : 10.1145/3147.3165 . ISSN   0098-3500 .
  12. ^ Виттер, Джеффри С. (1 июля 1984 г.). «Быстрые методы случайной выборки». Коммуникации АКМ . 27 (7): 703–718. CiteSeerX   10.1.1.329.6400 . дои : 10.1145/358105.893 . ISSN   0001-0782 .

тот

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: afa20e9a6f36abf88e5409a12db1122c__1712327280
URL1:https://arc.ask3.ru/arc/aa/af/2c/afa20e9a6f36abf88e5409a12db1122c.html
Заголовок, (Title) документа по адресу, URL1:
Simple random sample - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)