Выборка (статистика)
В статистике , обеспечении качества и методологии обследования выборка - это выбор подмножества или статистической выборки (называемая выборкой для краткости) людей из статистической популяции для оценки характеристик всего населения. Подмножество предназначено для того, чтобы отражать все население, и статистики пытаются собрать образцы, которые являются репрезентативными для населения. Выборка имеет более низкие затраты и более быстрый сбор данных по сравнению с данными записи всей популяции, и, таким образом, он может дать представление в тех случаях, когда невозможно измерить целое население.
Каждое наблюдение измеряет одно или несколько свойств (таких как вес, место, цвет или масса) независимых объектов или отдельных лиц. При выборке опроса веса могут быть применены к данным для корректировки для разработки образца, особенно в стратифицированной выборке . [ 1 ] Результаты теории вероятности и статистической теории используются для руководства практикой. В бизнес -и медицинских исследованиях выборка широко используется для сбора информации о населении. [ 2 ] Приемная выборка используется для определения того, соответствует ли производственную большую часть материала .
История
[ редактировать ]Случайная выборка с помощью лотов - это старая идея, упомянутая несколько раз в Библии. В 1786 году Пьер Саймон Лаплас оценил популяцию Франции, используя выборку, а также оценку соотношения . Он также вычислил вероятностные оценки ошибки. Они не были выражены как современные доверительные интервалы , но как размер выборки, который потребуется для достижения определенной верхней границы при ошибке выборки с вероятностью 1000/1001. Его оценки использовали теорему Байеса с равномерной предварительной вероятностью и предположили, что его выборка была случайной. Александр Иванович Чупров представил выборки в Имперскую Россию в 1870 -х годах. [ 3 ]
В США предсказание литературного дайджеста 1936 года о победе республиканцев на президентских выборах прошло плохо из -за серьезных предвзятости [1] . Более двух миллионов человек отреагировали на исследование с их именами, полученными в списках подписки на журналы и телефонных справочников. Не было оценено, что эти списки были сильно предвзяты к республиканцам, и полученный образец, хотя и очень большой, был глубоко ошибочным. [ 4 ] [ 5 ]
Выборы в Сингапуре приняли эту практику с момента выборов 2015 года , также известных как подсчеты выборки, тогда как в соответствии с избирательным департаментом (ELD), избирательной комиссии их страны, количество выборки помогает уменьшить спекуляции и дезинформацию, помогая чиновникам выборов в проведении выборов. Результаты выборов для этого избирательного подразделения. Сообщаемый счетчик выборки дает довольно точный показательный результат с 95% доверительным интервалом с погрешностью в пределах 4-5%; ELD напомнил общественности, что подсчеты выборки отделены от официальных результатов, и только возвращающийся сотрудник объявит официальные результаты после завершения подсчета голосов. [ 6 ] [ 7 ]
Определение населения
[ редактировать ]Успешная статистическая практика основана на определении сфокусированной проблемы. В выборке это включает в себя определение « популяции », из которой взята наша выборка. Население может быть определено как включение всех людей или предметов с характеристиками, которые можно понять. Поскольку очень редко бывает достаточно времени или денег, чтобы собрать информацию от всех или всего в населении, цель - найти репрезентативную выборку (или подмножество) этого населения.
Иногда то, что определяет население, очевидно. Например, производитель должен решить, имеет ли часть материала из производства достаточно высоким качеством, чтобы быть выпущенным для клиента, или ее следует отменить или переработать из -за низкого качества. В этом случае партия является населением.
Хотя интересующая популяция часто состоит из физических объектов, иногда необходимо выборки с течением времени, пространства или некоторой комбинации этих измерений. Например, расследование персонала супермаркетов могло бы изучить длину линии кассы в разное время, или исследование, находящиеся под угрозой исчезновения пингвинов, могут быть направлены на то, чтобы с течением времени понять их использование различных охотничьих мест. Для измерения времени основное внимание может быть сосредоточено на периодах или отдельных случаях.
В других случаях исследованное «население» может быть еще менее ощутимым. Например, Джозеф Джаггер изучал поведение рулетки в казино в Монте -Карло и использовал это для идентификации предвзятого колеса. В этом случае «популяция» Джаггер хотел исследовать, было общим поведением колеса (то есть распределение вероятности его результатов по бесконечному много испытаний), в то время как его «выборка» была сформирована из наблюдаемых результатов этого колеса. Аналогичные соображения возникают при повторных измерениях свойств материалов, таких как проводимость меди электрическая .
Эта ситуация часто возникает при поиске знаний о системе причин , о которой наблюдаемая популяция является результатом. В таких случаях теория отбора проб может рассматривать наблюдаемую популяцию как выборку из более крупной «суперпопуляции». Например, исследователь может изучить уровень успеха новой программы «Отказаться от курения» на тестовой группе из 100 пациентов, чтобы предсказать влияние программы, если она была доступна по всей стране. Здесь суперпопуляция - это «все в стране, учитывая доступ к этому обращению» - группа, которая еще не существует, поскольку программа еще не доступна для всех.
Население, из которой выводится выборка, может не совпадать с населением, из которой желательна информация. Часто между этими двумя группами существует большое, но не полное совпадение из -за проблем с кадром и т. Д. (См. Ниже). Иногда они могут быть полностью отделены - например, можно изучать крыс, чтобы лучше понять здоровье человека, или можно было изучить записи от людей, родившихся в 2008 году, чтобы сделать прогнозы о людях, родившихся в 2009 году.
Время, потраченное на то, что время, проведенное в выборе населения и популяции, часто хорошо потрачено, потому что оно поднимает много проблем, неоднозначности и вопросов, которые в противном случае были бы упущены из виду на этом этапе.
Рамка отбора проб
[ редактировать ]В самом простом случае, такого как выборка партии материала из производства (приемлемый выборки по лотам), было бы наиболее желательно идентифицировать и измерить каждый элемент в популяции и включать любой из них в нашу выборку. Однако в более общем случае это обычно невозможно или практично. Невозможно идентифицировать всех крыс в наборе всех крыс. Там, где голосование не является обязательным, нет никакого способа определить, какие люди проголосуют на предстоящих выборах (в преддверии выборов). Эти неточные популяции не поддаются отбору отбира каким -либо из способов ниже и к которому мы могли бы применять статистическую теорию.
В качестве средства правовой защиты мы ищем рамку отбора проб , которая обладает свойством, которое мы можем идентифицировать каждый элемент и включать в себя любой в нашу выборку. [ 8 ] [ 9 ] [ 10 ] [ 11 ] Наиболее простым типом кадра является список элементов населения (предпочтительно всего населения) с соответствующей контактной информацией. Например, в опросе мнения возможные рамки отбора проб включают избирательный реестр и телефонный каталог .
Возможность выборки - это выборка, в которой у каждой единицы численности населения есть шанс (больше нуля) выбора в выборке, и эта вероятность может быть точно определено. Комбинация этих признаков позволяет получить непредвзятые оценки итоги популяции путем взвешивания выборки в соответствии с их вероятностью отбора.
Пример: мы хотим оценить общий доход взрослых, живущих на данной улице. Мы посещаем каждое домашнее хозяйство на этой улице, определяем всех, живущих там взрослых и случайным образом выбираем одного взрослого из каждого домохозяйства. (Например, мы можем выделить каждому человеку случайное число, сгенерированное из равномерного распределения между 0 и 1, и выбрать человека с наибольшим числом в каждом домохозяйстве). Затем мы интервью с выбранным человеком и находим его доход.
Люди, живущие самостоятельно, наверняка будут выбраны, поэтому мы просто добавляем их доход к нашей оценке общего числа. Но у человека, живущего в доме двух взрослых, есть только один из двух шансов на выбор. Чтобы отразить это, когда мы приходим к такому домохозяйству, мы бы дважды подсчитали доход выбранного человека к общему количеству. (Человек, который выбран из этого домохозяйства, может быть свободно рассматривать как также представляющий человека, который не выбран.)
В приведенном выше примере не у всех есть такая же вероятность отбора; Что делает его выборкой вероятности, так это то, что вероятность каждого человека известна. Когда каждый элемент в популяции имеет одинаковую вероятность отбора, это известно как «равная вероятность отбора» (EPS). Такие конструкции также называются «саморазвитиями», потому что всем отобранным подразделениям дается одинаковый вес.
Отбор проб вероятности включает в себя: простую случайную выборку , систематическую выборку , стратифицированную выборку , вероятность пропорциональности к размеру, а также кластер или многоэтажный выборки . У этих различных способов отбора вероятности есть две общие вещи:
- Каждый элемент имеет известную ненулевую вероятность отображения и
- включает в себя случайный выбор в какой -то момент.
Неподвижаемая выборка
[ редактировать ]Отбор проб не допущенности - это любой метод отбора проб, в котором некоторые элементы популяции не имеют шансов на выбор (их иногда называют «вне покрытия»/«под прикрытием»), или где вероятность выбора не может быть точно определена. Он включает в себя выбор элементов, основанных на предположениях, касающихся интересующего населения, что составляет критерии для отбора. Следовательно, поскольку выбор элементов является неровным, не доходно -выборка не позволяет оценить ошибки отбора проб. Эти условия приводят к смещению исключения , устанавливая ограничения на то, сколько информации может предоставить выборку о популяции. Информация о взаимосвязи между выборкой и популяцией ограничена, что затрудняет экстраполяцию из выборки в популяцию.
Пример: мы посещаем каждую семью на данной улице и взяли интервью у первого человека, чтобы ответить на дверь. В любом домохозяйстве с более чем одним жильцом, это выборка непробиваемости, потому что некоторые люди с большей вероятностью отвечают на дверь (например, безработный человек, который проводит большую часть своего времени дома, с большей вероятностью будет отвечать, чем занятый сосед по дому, который может быть на работе, когда интервьюер звонит), и не практично рассчитать эти вероятности.
Методы отбора проб не в том числе включают в себя удобную выборку , выборку квот и целенаправленную выборку . Кроме того, эффекты отсутствия ответов могут превратить любую вероятность конструкции в непрерывную конструкцию, если характеристики отсутствия ответа не совсем понятны, поскольку отсутствие ответа эффективно изменяет вероятность отображения каждого элемента.
Методы отбора проб
[ редактировать ]В рамках любого из типов кадров, выявленных выше, различные методы отбора проб могут использоваться индивидуально или в комбинации. Факторы, обычно влияющие на выбор между этими проектами, включают:
- Природа и качество кадра
- Доступность вспомогательной информации о единицах на кадре
- Требования к точности и необходимость измерения точности
- Ожидается ли подробный анализ выборки
- Стоимость/операционные проблемы
Простая случайная выборка
[ редактировать ]В простой случайной выборке (SRS) данного размера все подмножества рамы отбора проб имеют равную вероятность выбора. Таким образом, каждый элемент кадра имеет равную вероятность выбора: кадр не подразделяется или разделен. Кроме того, любая пара элементов имеет такую же вероятность выбора, что и любая другая такая пара (и аналогично для тройков и т. Д.). Это сводит к минимуму предвзятость и упрощает анализ результатов. В частности, дисперсия между отдельными результатами в выборке является хорошим показателем дисперсии в общей популяции, что позволяет относительно легко оценить точность результатов.
Простая случайная выборка может быть уязвима для ошибок выборки, поскольку случайность выбора может привести к выборке, которая не отражает составу популяции. Например, простая случайная выборка из десяти человек из данной страны в среднем будет производить пять мужчин и пять женщин, но любое данное исследование, вероятно, превысит один пол и недооценивает другого. Систематические и стратифицированные методы пытаются преодолеть эту проблему, «используя информацию о популяции», чтобы выбрать более «репрезентативную» выборку.
Кроме того, простая случайная выборка может быть громоздкой и утомительной при отборе выборки из большой целевой популяции. В некоторых случаях исследователи заинтересованы в вопросах исследования, специфичные для подгрупп населения. Например, исследователи могут быть заинтересованы в изучении того, являются ли когнитивные способности как предиктора эффективности работы в равной степени для расовых групп. Простая случайная выборка не может удовлетворить потребности исследователей в этой ситуации, потому что она не предоставляет подвыборки населения, и вместо этого могут использоваться другие стратегии отбора проб, такие как стратифицированная выборка.
Систематическая выборка
[ редактировать ]Систематическая выборка (также известная как интервальная выборка) основана на организации исследуемой популяции в соответствии с некоторой схемой упорядочения, а затем выбором элементов через регулярные промежутки времени через этот упорядоченный список. Систематическая выборка включает в себя случайный запуск, а затем продолжается с выбора каждого k -элемента с тех пор. В этом случае k = (размер популяции/размер выборки). Важно, чтобы отправная точка не была автоматически первой в списке, а вместо этого была случайным образом выбирается изнутри изнутри к элементу k -й в списке. Простым примером будет выбрать каждое 10 -е имя из телефонного каталога (и образец «каждые 10 -й», также называемый «выборкой с пропуском 10»).
Пока начальная точка рандомизирована , систематическая выборка является типом вероятностной выборки . Его легко реализовать, и индуцированная стратификация может сделать его эффективным, если переменная, с помощью которой упорядочен список, коррелирует с интересующей переменной. «Каждый 10 -й» особенно полезен для эффективной выборки из баз данных .
Например, предположим, что мы хотим попробовать людей с длинной улицы, которая начинается в бедном районе (дом № 1) и заканчивается в дорогостоящем районе (дом № 1000). Простой случайный выбор адресов с этой улицы может легко получить слишком много от высокого уровня и слишком мало из низкого уровня (или наоборот), что приведет к непредвиденной выборке. Выбор (например) каждый номер 10 -й улицы вдоль улицы гарантирует, что образец распределяется равномерно по длине улицы, представляя все эти районы. (Если мы всегда начинаем в доме № 1 и заканчиваемся на #991, образец слегка смещен в сторону низкого уровня; случайным образом выбирая начало между #1 и #10, это смещение устраняется.)
Тем не менее, систематическая выборка особенно уязвима к периодичности в списке. Если периодичность присутствует и период является множественным или фактором используемого интервала, выборка особенно вероятно, что будет репрезентативна для общей популяции, что делает схему менее точной, чем простая случайная выборка.
Например, рассмотрим улицу, где все дома с нечетными номерами находятся на северной (дорогой) стороне дороги, а домики с четными номерами находятся на южной (дешевой) стороне. В соответствии с схемой выборки, приведенной выше, невозможно получить репрезентативную выборку; Либо избранные дома все будут с нечетной, дорогой стороны, либо все они будут из равномерной, дешевой стороны, если исследователь ранее не знал об этом предвзятости и избегает его с использованием пропусков, который обеспечивает прыжки Между двумя сторонами (любой нечетный пропуск).
Другим недостатком систематической выборки является то, что даже в сценариях, где он является более точным, чем SRS, его теоретические свойства затрудняют количественную оценку этой точности. (В двух примерах систематической выборки, которые приведены выше, большая часть потенциальной ошибки выборки обусловлена изменением между соседними домами, но поскольку этот метод никогда не выбирает два соседних дома, выборка не даст нам никакой информации об этом вариации.)
Как описано выше, систематическая выборка является методом EPS, потому что все элементы имеют одинаковую вероятность выбора (в приведенном примере один из десяти). Это не «простая случайная выборка», потому что разные подмножества одинакового размера имеют разные вероятности выбора-например, набор {4,14,24, ..., 994} имеет вероятность выбора в один из десяти, но набор {4,13,24,34, ...} имеет нулевую вероятность выбора.
Систематическая выборка также может быть адаптирована к подходу без EPS; Для примера см. Обсуждение образцов PPS ниже.
Стратифицированная выборка
[ редактировать ]Когда население охватывает ряд отдельных категорий, рамка может быть организована этими категориями в отдельные «слои». Каждый слой затем отображается в качестве независимой субпопуляции, из которых могут быть выбраны отдельные элементы случайным образом. [ 8 ] Соотношение размера этого случайного отбора (или образца) к размеру популяции называется фракцией отбора проб . [ 12 ] Есть несколько потенциальных преимуществ стратифицированной выборки. [ 12 ]
Во -первых, разделение населения на отдельные независимые слои может позволить исследователям делать выводы о конкретных подгруппах, которые могут быть потеряны в более обобщенной случайной выборке.
Во -вторых, использование метода стратифицированной выборки может привести к более эффективным статистическим оценкам (при условии, что слои выбираются на основе релевантности к рассматриваемому критерию, вместо доступности выборок). Даже если стратифицированный подход отбора проб не приводит к повышению статистической эффективности, такая тактика не приведет к меньшей эффективности, чем простая случайная выборка, при условии, что каждый слой пропорционален размеру группы в популяции.
В-третьих, иногда данные с большим количеством доступны для индивидуальных, ранее существовавших слоев среди населения, чем для общего населения; В таких случаях использование стратифицированного подхода к отбору отбора проб может быть более удобным, чем агрегирование данных в разных группах (хотя это может потенциально противоречить ранее отмеченной важности использования критерия, связанных с критериями,).
Наконец, поскольку каждый слой рассматривается как независимая популяция, различные подходы отбора проб могут быть применены к разным слоям, что может позволить исследователям использовать подход, наиболее подходящий (или наиболее экономически эффективный) для каждой идентифицированной подгруппы в популяции.
Однако есть некоторые потенциальные недостатки использования стратифицированной выборки. Во -первых, выявление слоев и реализация такого подхода может увеличить стоимость и сложность выбора выборки, а также привести к увеличению сложности оценок населения. Во -вторых, при изучении нескольких критериев стратификационные переменные могут быть связаны с некоторыми, но не с другими, еще больше усложняют дизайн и потенциально снижая полезность слоев. Наконец, в некоторых случаях (например, конструкции с большим количеством слоев или с указанным минимальным размером выборки на группу), стратифицированная выборка может потенциально требовать большую выборку, чем другие методы (хотя в большинстве случаев требуется размер выборки было бы не больше, чем потребуется для простой случайной выборки).
- Стратифицированный подход отбора проб наиболее эффективен, когда выполняются три условия
- Изменчивость в слоях сведена к минимуму
- Изменчивость между слоями максимизируется
- Переменные, на которых стратифицируется население, сильно коррелируют с желаемой зависимой переменной.
- Преимущества по сравнению с другими методами отбора проб
- Сосредоточится на важных субпопуляциях и игнорирует нерелевантные.
- Позволяет использовать различные методы отбора проб для различных субпопуляций.
- Повышает точность/эффективность оценки.
- Позволяет большему балансировке статистической силы тестов различий между слоями путем выборки равных чисел из слоев, широко различающихся по размеру.
- Недостатки
- Требуется выбор соответствующих переменных стратификации, которые могут быть трудными.
- Не полезен, когда нет однородных подгрупп.
- Может быть дорогим для реализации.
- Постстратификация
Стратификация иногда вводится после фазы выборки в процессе, называемом «постстратификацией». [ 8 ] Этот подход обычно реализуется из -за отсутствия предварительного знания соответствующей стратифицирующей переменной или когда экспериментатор не хватает необходимой информации для создания стратифицирующей переменной на этапе отбора проб. Хотя этот метод восприимчив к подводным камням последующих подходов, он может предоставить несколько преимуществ в правильной ситуации. Реализация обычно следует за простой случайной выборкой. В дополнение к разрешению стратификации на вспомогательной переменной, для реализации взвешивания может использоваться постератификация, что может повысить точность оценок выборки. [ 8 ]
- Перегрев
Выбор выборка является одной из стратифицированных стратегий отбора проб. В выборке на основе выбора, [ 13 ] Данные стратифицированы на цели, и из каждого слоя взята образец, так что редкий класс цели будет более представлен в выборке. Затем модель построена на этом смещенном образе . Влияние входных переменных на цель часто оценивается с большей точностью с выбором на основе выбора, даже когда принимается меньший общий размер выборки по сравнению со случайной выборкой. Результаты обычно должны быть скорректированы, чтобы исправить для перенаправления.
Возможность пропорционального отбора проб
[ редактировать ]В некоторых случаях дизайнер выборки имеет доступ к «вспомогательной переменной» или «измерению размера», который, как считается, коррелирует с интересующей переменной для каждого элемента в популяции. Эти данные могут быть использованы для повышения точности в дизайне образцов. Одним из вариантов является использование вспомогательной переменной в качестве основы для стратификации, как обсуждалось выше.
Другой вариант - это вероятность, пропорциональная выборке размера ('PPS'), в которой вероятность выбора для каждого элемента установлена пропорциональна ее измерению размера, максимум до 1. В простой конструкции PPS эти вероятности выбора могут затем быть использованным в качестве основы для отбора проб Пуассона . Тем не менее, это имеет недостаток переменного размера выборки, и различные части популяции все еще могут быть переоценены или недостаточно представлены из-за случайных изменений в выборе.
Систематическая теория выборки может быть использована для создания вероятности, пропорциональной размерной выборке. Это делается путем обработки каждого количества в пределах переменной размера как единого устройства выборки. Затем образцы идентифицируются путем выбора с ровными интервалами между этими количествами в пределах переменной размера. Этот метод иногда называют Sexpliensial или Minetary Unit Sampling в случае аудитов или криминалистической выборки.
Пример: предположим, что у нас есть шесть школ с населением 150, 180, 200, 220, 260 и 490 учащихся соответственно (всего 1500 учащихся), и мы хотим использовать студенческое население в качестве основы для выборки PPS третьего размера. Для этого мы могли бы выделить первые школьные номера с 1 по 150, вторую школу с 151 по 330 (= 150 + 180), третью школу с 331 до 530 и так далее в последнюю школу (с 1011 по 1500). Затем мы генерируем случайный старт от 1 до 500 (равный 1500/3) и считаем через школьную популяцию по нескольким числам 500. Если наш случайный старт был 137, мы бы выбрали школы, которые были выделены числа 137, 637 и и 1137, т.е. первая, четвертая и шестая школа.
Подход PPS может повысить точность для данного размера выборки, концентрируя выборку на больших элементах, которые оказывают наибольшее влияние на оценки популяции. Отбор проб PPS обычно используется для опросов предприятий, где размер элемента сильно варьируется, и часто доступна вспомогательная информация-например, опрос, пытающийся измерить количество ночей, потраченных в отели, может использовать количество номеров каждого отеля в качестве вспомогательной переменной Полем В некоторых случаях более старое измерение интересующей переменной может использоваться в качестве вспомогательной переменной при попытке получить больше текущих оценок. [ 14 ]
Кластерная выборка
[ редактировать ]Иногда более рентабельно выбирать респондентов в группах («кластеры»). Выборка часто кластеризуется географией или периодами времени. (Почти все образцы в некотором смысле «сгруппированы» со временем - хотя это редко учитывается в анализе.) Например, если обследование домохозяйств в городе, мы можем выбрать 100 городских блоков, а затем взять интервью у каждого домохозяйства внутри. Выбранные блоки.
Кластеризация может снизить поездки и административные расходы. В приведенном выше примере интервьюер может совершить одну поездку, чтобы посетить несколько домохозяйств в одном квартале, а не ехать в другой квартал для каждой семьи.
Это также означает, что не нужна рамка отбора проб , в которой перечислены все элементы в целевой популяции. Вместо этого кластеры могут быть выбраны из кадра на уровне кластера, с кадром на уровне элемента, созданной только для выбранных кластеров. В приведенном выше примере выборка требует только карту города на уровне блоков для первоначальных выборов, а затем карта на уровне домохозяйства из 100 выбранных блоков, а не карта на уровне домохозяйства всего города.
Кластерная выборка (также известная как кластерная выборка), как правило, увеличивает изменчивость оценок выборки выше, чем у простой случайной выборки, в зависимости от того, как кластеры различаются друг от друга по сравнению с вариацией внутри кластера. По этой причине выборка кластера требует большей выборки, чем SRS для достижения того же уровня точности, но экономия затрат от кластеризации все равно может сделать этот вариант более дешевым.
Кластерная выборка обычно реализуется как многоэтажная выборка . Это сложная форма кластерной выборки, в которой встроены два или более уровней единиц одного. Первый этап состоит из конструирования кластеров, которые будут использоваться для выборки. На втором этапе выборка первичных единиц выбирается случайным образом из каждого кластера (а не использует все единицы, содержащиеся во всех выбранных кластерах). На следующих этапах на каждом из выбранных кластеров выбираются дополнительные образцы единиц и так далее. Все окончательные подразделения (например, лица), выбранные на последнем этапе этой процедуры, затем обследованы. Таким образом, этот метод, по сути, является процессом принятия случайных подвыборок предыдущих случайных образцов.
Многоступенчатая выборка может существенно снизить затраты на выборку, когда необходимо будет построить полный список населения (до того, как могут быть применены другие методы отбора проб). Устранение работы, связанной с описанием кластеров, которые не выбираются, многоэтажная выборка может снизить большие затраты, связанные с традиционной кластерной выборкой. [ 14 ] Однако каждая выборка не может быть полным представителем всей популяции.
Отбор для квоты
[ редактировать ]В выборке квот популяция сначала сегментируется на взаимоисключающие подгруппы, как и в стратифицированной выборке . Затем решение используется для выбора субъектов или единиц из каждого сегмента на основе указанной пропорции. Например, интервьюеру может привести к тому, что мы пробуют 200 женщин и 300 мужчин в возрасте от 45 до 60 лет.
Именно этот второй шаг делает технику одним из невыполненных отборов. В выборке квот выбор выборки не случайный . Например, интервьюеры могут испытывать соблазн взять интервью у тех, кто выглядит наиболее полезным. Проблема в том, что эти образцы могут быть предвзятыми, потому что не у всех есть шанс на выбор. Этот случайный элемент является его величайшей слабостью, а квота в сравнении с вероятностью была вопросом противоречий в течение нескольких лет.
Минимальная выборка
[ редактировать ]В несбалансированных наборах данных, где коэффициент отбора проб не следует статистике популяции, можно повторно принять набор данных консервативным образом, называемый минимальным отбором выборки . Минимаксная выборка имеет свое происхождение в соотношении минимакса Андерсона, значение которого оказалось 0,5: в бинарной классификации размеры выборки следует выбрать одинаково. Это соотношение может быть оказалось минимальным соотношением только при предположении классификатора LDA с гауссовыми распределениями. Понятие отбора отбора минимакса недавно разработано для общего класса правил классификации, называемых классовыми интеллектуальными классификаторами. В этом случае выбирается коэффициент отбора проб классов, чтобы наиболее наилучшая ошибка классификатора классификаторов в наихудшем случае по всем возможным статистике населения для предыдущих вероятностей класса была. [ 12 ]
Случайная выборка
[ редактировать ]Случайная выборка (иногда известная как захват , удобство или выборка возможностей ) - это тип неполноемости выборки, который включает в себя выборку из той части популяции, которая находится близко к руке. То есть население выбрано, потому что оно легко доступно и удобно. Это может быть через встречу с человеком или включая человека в выборку, когда кто -то встречает их или выбран, найдя его с помощью технологических средств, таких как Интернет или по телефону. Исследователь, использующий такую выборку, не может с научной точки зрения сделать обобщения об общей популяции из этой выборки, потому что она не будет достаточно репрезентативной. Например, если бы интервьюер проводил такой опрос в торговом центре рано утром в определенный день, люди, которых они могли бы интервью Другие члены общества в такой области, если опрос должен был проводиться в разное время дня и несколько раз в неделю. Этот тип выборки наиболее полезен для пилотных тестирования. Несколько важных соображений для исследователей, использующих удобные образцы, включают в себя:
- Существуют ли контроль в рамках исследования или эксперимента, которые могут служить для уменьшения воздействия удобной выборки, не являющейся трансландом, что обеспечивает тем самым результаты более репрезентативными для населения?
- Есть ли веские основания полагать, что конкретная удобная выборка будет отвечать или вести себя иначе, чем случайная выборка из одной и той же популяции?
- Задается ли вопрос исследования, на который можно адекватно ответить с помощью удобного образца?
В исследованиях в области социальных наук выборка снежного кома является аналогичной техникой, где существующие предметы исследования используются для привлечения большего количества предметов в выборку. Некоторые варианты отбора проб снежного кома, такие как отбор проб, управляемых респондентами, позволяют расчет вероятности выбора и являются методами вероятности отбора проб при определенных условиях.
Добровольная выборка
[ редактировать ]Добровольный метод отбора проб является типом невыполненной выборки. Добровольцы предпочитают завершить опрос.
Добровольцы могут быть приглашены через рекламу в социальных сетях. [ 15 ] Целевая популяция для рекламы может быть выбрана такими характеристиками, как местоположение, возраст, пол, доход, профессия, образование или интересы с использованием инструментов, предоставляемых социальной средой. Реклама может включать сообщение об исследовании и ссылку на опрос. После выполнения ссылки и завершения опроса волонтер представляет данные, которые будут включены в популяцию выборки. Этот метод может достичь населения мира, но ограничен бюджетом кампании. Добровольцы вне приглашенного населения также могут быть включены в выборку.
Трудно сделать обобщения из этой выборки, потому что она может не представлять общую численность населения. Часто добровольцы проявляют большой интерес к основной теме опроса.
Отбор проб линейки
[ редактировать ]Отбор выборки в линейке является методом элементов отбора проб в области, посредством которого элемент отображается, если выбранный линейный сегмент, называемый «трансект», пересекает элемент.
Панельная выборка
[ редактировать ]Отбор выборки панели - это метод сначала выбора группы участников с помощью метода случайной выборки, а затем просить эту группу (потенциально одинаковую) информацию несколько раз в течение определенного периода времени. Следовательно, каждый участник проводит интервью в два или более момента времени; Каждый период сбора данных называется «волной». Метод был разработан социологом Полом Лазарсфельдом в 1938 году как средство изучения политических кампаний . [ 16 ] Этот продольный метод отбора проб допускает оценки изменений в популяции, например, в отношении хронических заболеваний к стрессу работы в еженедельных затратах на питание. Отбор выборки панели также может использоваться для информирования исследователей об изменениях в здоровье внутри человека из-за возраста или для объяснения изменений в непрерывных зависимых переменных, таких как супружеское взаимодействие. [ 17 ] Было несколько предлагаемых методов анализа панельных данных , включая MANOVA , кривые роста и моделирование структурных уравнений с отставающими эффектами.
Отбор проб снежного кома
[ редактировать ]Отбор проб снежного кома включает в себя поиск небольшой группы первоначальных респондентов и использование их для набора больше респондентов. Это особенно полезно в тех случаях, когда население скрыто или трудно перечислять.
Теоретическая выборка
[ редактировать ]![]() | Этот раздел нуждается в расширении . Вы можете помочь, добавив к этому . ( Июль 2015 г. ) |
Теоретическая выборка [ 18 ] происходит, когда выборы выбираются на основе результатов данных, собранных до сих пор с целью разработки более глубокого понимания области или разработки теорий. Экстремальные или очень специфические случаи могут быть выбраны, чтобы максимизировать вероятность того, что явление на самом деле будет наблюдалось.
Активная выборка
[ редактировать ]При активной выборке , образцы, которые используются для обучения алгоритму машинного обучения, активно выбираются, также сравнивают активное обучение (машинное обучение) .
Судебный выбор
[ редактировать ]Случайная выборка
[ редактировать ]![]() | Этот раздел нуждается в расширении . Вы можете помочь, добавив к этому . ( Июль 2024 г. ) |
Замена выбранных единиц
[ редактировать ]Схемы отбора проб могут быть без замены («wor» - ни один элемент не может быть выбран более одного раза в одном и том же образце) или с заменой («WR» - элемент может появляться несколько раз в одном образце). Например, если мы поймаем рыбу, измерем их и немедленно вернем их к воде, прежде чем продолжить с образцом, это дизайн WR, потому что мы могли бы в конечном итоге догнать и измерять одну и ту же рыбу более одного раза. Однако, если мы не вернем рыбу в воду или не выпустим каждую рыбу после ее поймы, это становится дизайном WOR.
Определение размера выборки
[ редактировать ]Формулы, таблицы и функциональные диаграммы питания являются хорошо известными подходами для определения размера выборки.
Шаги для использования таблиц размера образца:
- Постулят величина эффекта интереса, α и β.
- Проверьте таблицу размеров образца [ 19 ]
- Выберите таблицу, соответствующую выбранному α
- Найдите строку, соответствующую желаемой мощности
- Найдите столбец, соответствующий расчетному величину эффекта.
- Пересечение столбца и строки является минимальным размером выборки.
Выборка и сбор данных
[ редактировать ]Хороший сбор данных включает в себя:
- После определенного процесса отбора проб
- Сохранение данных в временном порядке
- Отмечая комментарии и другие контекстные события
- Запись не отвечающих
Применение отбора проб
[ редактировать ]Выборка позволяет выбирать правильные точки данных из более крупного набора данных для оценки характеристик всей популяции. Например, каждый день производится около 600 миллионов твитов. Нет необходимости смотреть на все из них, чтобы определить темы, которые обсуждаются в течение дня, и не необходимо просмотреть все твиты, чтобы определить чувства по каждой из тем. Была разработана теоретическая формулировка для отбора данных в Твиттере. [ 20 ]
При производстве различных типов сенсорных данных, таких как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны с короткими промежутками. Чтобы предсказать время простоя, может не потребоваться просмотреть все данные, но выборка может быть достаточным.
Ошибки в образцах опросов
[ редактировать ]Результаты опроса, как правило, подвергаются некоторой ошибке. Общие ошибки могут быть классифицированы на ошибки выборки и ошибки, не связанные с сопоставлением. Термин «ошибка» здесь включает в себя систематические смещения, а также случайные ошибки.
Ошибки выборки и смещения
[ редактировать ]Ошибки отбора проб и смещения вызваны дизайном образца. Они включают в себя:
- Смещение отбора : когда вероятности истинного выбора отличаются от тех, которые предполагаются при расчете результатов.
- Случайная ошибка выборки : случайное изменение результатов из -за элементов в выборке выбирается случайным образом.
Ошибка неспособности
[ редактировать ]Ошибки, не связанные с набором, представляют собой другие ошибки, которые могут повлиять на окончательные оценки обследования, вызванные проблемами сбора данных, обработки или дизайна образцов. Такие ошибки могут включать в себя:
- Перевержение: включение данных извне населения
- Недостаточное покрытие: рамка отбора проб не включает элементы в популяции.
- Ошибка измерения: например, когда респонденты неправильно понимают вопрос или трудно ответить
- Ошибка обработки: ошибки в кодировании данных
- Отсутствие ответа или участия : неспособность получить полные данные от всех выбранных лиц
После отбора проб проводится обзор точного процесса, за которым последовал выборка, а не предназначенная для изучения любых эффектов, которые могут оказывать любые расхождения на последующий анализ.
Особая проблема включает в себя отсутствие ответа . Существуют два основных типа отсутствия ответа: [ 21 ] [ 22 ]
- НЕПРАВИЛЬНЫЙ НЕПРАВИЛЬНЫЙ НЕПРАВИЛЬНЫЙ (Отсутствие завершения какой -либо части опроса)
- Предмет без ответа (подача или участие в опросе, но не выполняет один или несколько компонентов/вопросов опроса)
В выборке опроса многие из людей, определенных как часть выборки, могут не желать участвовать, не иметь времени для участия ( альтернативная стоимость ), [ 23 ] или администраторы опроса, возможно, не смогли связаться с ними. В этом случае существует риск различий между респондентами и нереспондентами, что приводит к смещенным оценкам параметров популяции. Это часто решается путем улучшения дизайна опроса, предложения стимулов и проведения последующих исследований, которые предпринимают неоднократную попытку связаться с нереприятиями и охарактеризовать их сходства и различия с остальной частью кадра. [ 24 ] Эффекты также могут быть смягчены путем взвешивания данных (когда доступны контрольные показатели населения) или путем введения данных на основе ответов на другие вопросы. Несоответствие является особенно проблемой в выборке в Интернете. Причины этой проблемы могут включать неправильно разработанные опросы, [ 22 ] чрезмерное обращение (или усталость обследования), [ 17 ] [ 25 ] [ необходима цитата для проверки ] и тот факт, что потенциальные участники могут иметь несколько адресов электронной почты, которые они больше не используют или не проверяют регулярно.
Обследование веса
[ редактировать ]Во многих ситуациях фракция выборки может варьироваться в зависимости от слоя, и данные должны быть взвешены, чтобы правильно представлять популяцию. Так, например, простая случайная выборка людей в Великобритании может не включать некоторых на отдаленных шотландских островах, которые были бы чрезмерно дорогими для выборки. Более дешевым методом будет использование стратифицированной выборки с городскими и сельскими стратами. Сельская выборка может быть недостаточно представлена в выборке, но подготовит соответствующим образом в анализе, чтобы компенсировать.
В целом, данные обычно должны быть взвешены, если дизайн выборки не дает каждому человеку равные шансы быть выбранным. Например, когда домохозяйства имеют равный отбор, но один человек опрошен из каждого домохозяйства, это дает людям из крупных домохозяйств меньший шанс получить интервью. Это можно учитывать использование весов обследования. Аналогичным образом, домохозяйства с более чем одной телефонной линией имеют большую вероятность того, что их выбирают в образец случайного цифр, а веса могут скорректировать это.
Веса также могут служить другим целям, таким как помощь в исправлении отсутствия ответа.
Методы производства случайных образцов
[ редактировать ]- Случайная таблица числа
- Математические алгоритмы для генераторов псевдолудочных номеров
- Устройства физической рандомизации, такие как монеты, игровые карты или сложные устройства, такие как Эрни
Смотрите также
[ редактировать ]
- Сбор данных
- Эффект дизайна
- Теория оценки
- Теория отбора проб GY
- Немецкая проблема танка
- Хорвиц -Томпсон оценщик
- Официальная статистика
- Оценка соотношения
- Репликация (статистика)
- Механизм случайного состава
- Переосмысление (статистика)
- Псевдолупольный номер отбора номера
- Определение размера выборки
- Выборка (тематические исследования)
- Смещение отбора проб
- Распределение отбора проб
- Ошибка выборки
- Сортировка
- Отбор проб
Примечания
[ редактировать ]Учебник Groves et alia представляет собой обзор методологии обследования, включая недавнюю литературу по развитию вопросника (информировано по когнитивной психологии ):
- Роберт Гроувс и Алия. Методология опроса (2010 2 -е изд. [2004]) ISBN 0-471-48348-6 .
Другие книги сосредоточены на статистической теории выборки опроса и требуют некоторых знаний об основной статистике, как обсуждалось в следующих учебниках:
- Дэвид С. Мур и Джордж П. МакКейб (февраль 2005 г.). « Введение в практику статистики » (5 -е издание). WH Freeman & Company. ISBN 0-7167-6282-X .
- Фридма, Дэвид ; Пизани, Роберт; Purves, Roger (2007). Статистика (4 -е изд.). : Нортон Нью -Йорк ISBN 978-0-393-92972-0 .
Элементарная книга Шеффера и Алиа использует квадратичные уравнения из алгебры в старшей школе:
- Шеффер, Ричард Л., Уильям Менденхал и Р. Лиман Отт. Элементарная выборка , Пятое издание. Белмонт: Duxbury Press, 1996.
Для Lohr, для Särndal et alia, требуется больше математической статистики, и для кокрана: [ 26 ]
- Кокран, Уильям Г. (1977). Методы отбора проб (третье изд.). Уайли. ISBN 978-0-471-16240-7 .
- Лор, Шарон Л. (1999). Отбор проб: дизайн и анализ . Даксбери. ISBN 978-0-534-35361-2 .
- Särndal, Carl-erik ; Свенссон, Бенгт; Wretman, Jan (1992). Модельная вспомогательная выборка . Springer-Verlag. ISBN 978-0-387-40620-6 .
Исторически важные книги Деминга и Киша остаются ценными для понимания социологов (особенно о переписи США и Институте социальных исследований в Мичиганском университете ):
- Деминг, В. Эдвардс (1966). Некоторая теория отбора проб . Dover Publications . ISBN 978-0-486-64684-8 Полем OCLC 166526 .
- Kish, Leslie (1995) Survey Shapeling , Wiley, ISBN 0-471-10949-5
Ссылки
[ редактировать ]- ^ Ланс, П.; Хаттори А. (2016). Выборка и оценка . Интернет: оценка измерения. С. 6–8, 62–64.
- ^ Салант, Присцилла, И. Диллман и А. Дон. Как провести свой собственный опрос . № 300.723 S3. 1994.
- ^ Сенета, Э. (1985). «Эскиз истории отбора проб в России» . Журнал Королевского статистического общества. Серия A (общий) . 148 (2): 118–125. doi : 10.2307/2981944 . JSTOR 2981944 .
- ^ Дэвид С. Мур и Джордж П. МакКейб. « Введение в практику статистики ».
- ^ Фридман, Дэвид ; Пизани, Роберт; Purves, Roger. Статистика .
- ^ «Подсчет примеров - избирательный отдел Сингапур» (PDF) . Получено 3 сентября 2023 года .
- ^ Хо, Тимоти (1 сентября 2023 г.). «Президентские выборы 2023: насколько точным будет количество выборки сегодня вечером?» Полем DollarsandSense.sg . Получено 3 сентября 2023 года .
- ^ Jump up to: а беременный в дюймовый Роберт М. Гроувс; и др. (2009). Методология опроса . ISBN 978-0470465462 .
- ^ Лор, Шарон Л. Выборка: дизайн и анализ .
- ^ Särndal, Carl-erik; Свенссон, Бенгт; WRETMAN, январь. Модельная вспомогательная выборка .
- ^ Scheaffer, Richard L.; Уильям Менденхал; Р. Лиман Отт. (2006). Элементарный отбор проб .
- ^ Jump up to: а беременный в Шахрох Эсфахани, Мохаммед; Догерти, Эдвард (2014). «Влияние отдельной выборки на точность классификации» . Биоинформатика . 30 (2): 242–250. doi : 10.1093/bioinformatics/btt662 . PMID 24257187 .
- ^ Скотт, AJ; Wild, CJ (1986). «Установка логистических моделей в рамках CASE-CONTROL или выборки на основе выбора». Журнал Королевского статистического общества, серия б . 48 (2): 170–182. doi : 10.1111/j.2517-6161.1986.tb01400.x . JSTOR 2345712 .
- ^ Jump up to: а беременный
- Лор, Шарон Л. Выборка: дизайн и анализ .
- Särndal, Carl-erik; Свенссон, Бенгт; WRETMAN, январь. Модельная вспомогательная выборка .
- ^ Арияратне, Буддхика (30 июля 2017 г.). «Добровольный метод выборки в сочетании с рекламой в социальных сетях» . Heal-Info.blogspot.com . Медицинская информатика . Получено 18 декабря 2018 года . [ ненадежный источник? ]
- ^ Lazarsfeld, P. & Fiske, M. (1938). «Панель» как новый инструмент для измерения мнения. Общественное мнение ежеквартально, 2 (4), 596–612.
- ^ Jump up to: а беременный Groves и Alia. Методология опроса
- ^ «Примеры методов отбора проб» (PDF) .
- ^ Коэн, 1988
- ^ Дипан Палгуна; Викас Джоши; Венкатесан Чакараварти; Рави Котари; LV Subramaniam (2015). Анализ алгоритмов выборки для Twitter . Международная совместная конференция по искусственному интеллекту .
- ^ Berinsky, AJ (2008). «Обследование без ответа». В кн.: W. Donsbach & MW Traugott (Eds.), «Справочник по исследованиям общественного мнения» (стр. 309–321). Тысяча Дубов, Калифорния: Sage Publications.
- ^ Jump up to: а беременный Dillman, DA, Eltinge, JL, Groves, RM, & Little, RJA (2002). «Опрос не ответов в проектирование, сбор данных и анализ». В: RM Groves, Da Dillman, JL Eltinge, & Rja Little (Eds.), Opervice non -response (стр. 3–26). Нью -Йорк: Джон Уайли и сыновья.
- ^ Dillman, DA, Smyth, JD, & Christian, LM (2009). Интернет, почта и смешанные обследования: метод адаптации. Сан-Франциско: Джосси-Басс.
- ^ Chefovar, V., Batagelj, Z., Manfreda, KL, & Zaletel, M. (2002). «Несоответствие в веб -опросах». В: RM Groves, Da Dillman, JL Eltinge, & Rja Little (Eds.), ОБСЛУЕ НЕПРАВИЛЬНО (стр. 229–242). Нью -Йорк: Джон Уайли и сыновья.
- ^ Портье; Уиткомб; Вейцер (2004). «Многочисленные опросы студентов и усталость обследования». В Портере, Стивен Р. (ред.). Преодоление проблем исследований . Новые направления для институциональных исследований. Сан-Франциско: Джосси-Басс. С. 63–74. ISBN 9780787974770 Полем Получено 15 июля 2019 года .
- ^ Кокран, Уильям Г. (1977-01-01). Методы отбора проб, 3 -е издание (3 -е изд.). Нью -Йорк, Нью -Йорк: Джон Уайли и сыновья. ISBN 978-0-471-16240-7 .
Дальнейшее чтение
[ редактировать ]- Singh, GN, Jaiswal, AK и Pandey AK (2021), улучшенные методы вменения для пропущенных данных в двухэтажной последовательной выборке, коммуникации в статистике: теория и методы. Doi: 10.1080/03610926.2021.1944211
- Chambers, RL и Skinner, CJ (Editors) (2003), Анализ данных обследования , Wiley, ISBN 0-471-89987-9
- Деминг, В. Эдвардс (1975) по вероятности в качестве основы для действий, американский статистик , 29 (4), с. 146–152.
- GY, P (2012) Отбор проб гетерогенных и динамических материалов: теории гетерогенности, отбора проб и гомогенизации , Elsevier Science, ISBN 978-04445556066
- Корн, Эл и Граубард, Би (1999) Анализ исследований здоровья , Wiley, ISBN 0-471-13773-1
- Лукас, Сэмюэль Р. (2012). doi : 10.1007%2FS11135-012-9775-3 "Помимо доказательства существования: онтологические условия, эпистемологические последствия и углубленное исследование интервью."], Качество и количество , Два : 10.1007/S11135-012-9775-3 .
- Стюарт, Алан (1962) Основные идеи научной выборки , Hafner Publishing Company, Нью -Йорк [ ISBN отсутствует ]
- Смит, TMF (1984). «Настоящая позиция и потенциальные события: некоторые личные взгляды: примеры опросов». Журнал Королевского статистического общества, серия A. 147 (150 -летие Королевского статистического общества, номер 2): 208–221. doi : 10.2307/2981677 . JSTOR 2981677 .
- Смит, TMF (1993). «Популяции и отбор: ограничения статистики (адрес президента)». Журнал Королевского статистического общества, серия A. 156 (2): 144–166. doi : 10.2307/2982726 . JSTOR 2982726 . (Портрет TMF Smith на странице 144)
- Смит, TMF (2001). «Столетие: образцы опросов». Биометрика . 88 (1): 167–243. doi : 10.1093/biomet/88.1.167 .
- Смит, TMF (2001). «Биометрика столетие: опросы образцов». В DM Titterington и Dr Cox (ред.). Биометрика : сто лет . Издательство Оксфордского университета. С. 165–194. ISBN 978-0-19-850993-6 .
- Уиттл, П. (май 1954). «Оптимальная профилактическая выборка». Журнал Общества исследований операций Америки . 2 (2): 197–203. doi : 10.1287/opre.2.2.197 . JSTOR 166605 .
Стандарты
[ редактировать ]Iso
[ редактировать ]- Серия ISO 2859
- Серия ISO 3951
Астм
[ редактировать ]- Стандартная практика ASTM E105 для выборки материалов
- Стандартная практика ASTM E122 для расчета размера выборки для оценки с указанной допустимой ошибкой, среднее для характеристики много или процесса
- Стандартная практика ASTM E141 для принятия доказательств на основе результатов вероятности выборки
- Стандартная терминология ASTM E1402, связанная с отбором выборки
- Стандартная практика ASTM E1994 для использования планов выборки AOQL и LTPD, ориентированных на процесс, и LTPD
- ASTM E2234 Стандартная практика для отбора проб продукта с помощью атрибутов, индексированных AQL
ANSI, ASQ
[ редактировать ]- ANSI/ASQ Z1.4
Федеральные и военные стандарты США
[ редактировать ]- MIL-STD-105
- MIL-STD-1916
Внешние ссылки
[ редактировать ]
СМИ, связанные с выборкой (статистика) в Wikimedia Commons