Кластерная выборка

В статистике , используемый , кластерная выборка представляет собой план выборки очевидны взаимно однородные, но внутренне неоднородные группы когда в статистической совокупности . Его часто используют в маркетинговых исследованиях .

В этом плане выборки вся совокупность делится на эти группы (известные как кластеры) и простая случайная выборка отбирается из групп. Затем элементы в каждом кластере отбираются. Если все элементы в каждом кластере выборки отбираются, то это называется «одноэтапным» планом кластерной выборки. Если в каждой из этих групп отбирается простая случайная подвыборка элементов, это называется «двухэтапным» кластерным планом выборки. Распространенной мотивацией кластерной выборки является сокращение общего количества интервью и затрат при обеспечении желаемой точности. При фиксированном размере выборки ожидаемая случайная ошибка меньше, если большая часть вариаций генеральной совокупности присутствует внутри групп, а не между группами.

Кластерный элементаль [ править ]

Популяция внутри кластера в идеале должна быть как можно более неоднородной, но между кластерами должна быть однородность. Каждый кластер должен представлять собой небольшое представительство всего населения. Кластеры должны быть взаимоисключающими и коллективно исчерпывающими. Затем метод случайной выборки используется для всех соответствующих кластеров, чтобы выбрать, какие кластеры включить в исследование. При одноэтапной кластерной выборке отбираются все элементы из каждого из выбранных кластеров. При двухэтапной кластерной выборке к элементам каждого из выбранных кластеров применяется метод случайной выборки.

Основное различие между кластерной выборкой и стратифицированной выборкой заключается в том, что при кластерной выборке кластер рассматривается как единица выборки, поэтому выборка осуществляется по совокупности кластеров (по крайней мере, на первом этапе). При стратифицированной выборке выборка осуществляется по элементам внутри каждой страты. При стратифицированной выборке случайная выборка формируется из каждой страты, тогда как при кластерной выборке отбираются только выбранные кластеры. Распространенной мотивацией кластерной выборки является снижение затрат за счет повышения эффективности выборки. Это контрастирует со стратифицированной выборкой, где мотивацией является повышение точности.

Существует также многоэтапная кластерная выборка , где проводится не менее двух этапов отбора элементов из кластеров.

Когда кластеры разного размера [ править ]

Без изменения оцениваемого параметра кластерная выборка является несмещенной, если кластеры имеют примерно одинаковый размер. В этом случае параметр вычисляется путем объединения всех выбранных кластеров. Когда кластеры разного размера, есть несколько вариантов:

Один из методов заключается в выборке кластеров и последующем обследовании всех элементов в этом кластере. Другой метод представляет собой двухэтапный метод отбора фиксированной доли единиц (будь то 5%, 50% или другое число, в зависимости от соображений стоимости) внутри каждого из выбранных кластеров. Опираясь на выборку, составленную из этих вариантов, можно получить несмещенную оценку. Однако размер выборки больше не фиксируется заранее. Это приводит к более сложной формуле стандартной ошибки оценщика, а также к проблемам с оптикой плана исследования (поскольку анализ мощности и оценки затрат часто относятся к конкретному размеру выборки).

Третье возможное решение – использовать вероятность, пропорциональную размеру выборки . В этом плане выборки вероятность выбора кластера пропорциональна его размеру, поэтому большой кластер имеет большую вероятность выбора, чем небольшой кластер. Преимущество здесь состоит в том, что когда кластеры отбираются с вероятностью, пропорциональной размеру, в каждом выбранном кластере должно быть проведено одинаковое количество интервью, чтобы каждая единица выборки имела одинаковую вероятность отбора.

Применение кластерной выборки

Примером кластерной выборки является выборка по территории или выборка по географическому кластеру . Каждый кластер представляет собой географическую территорию в рамках территориальной выборки . Поскольку обследование географически рассредоточенного населения может быть дорогостоящим, большей экономии, чем простая случайная выборка, можно добиться, группируя нескольких респондентов в пределах локальной территории в кластер. Обычно необходимо увеличить общий размер выборки для достижения эквивалентной точности оценок , но экономия средств может сделать такое увеличение размера выборки осуществимым.

При организации переписи населения первым шагом обычно является разделение общей географической территории на счетные участки или переписные участки для организации полевых работ. Счетные районы могут быть также полезны в качестве единиц первого этапа кластерной выборки во многих типах обследований. Если данные переписи населения устарели, список лиц не следует напрямую использовать в качестве основы выборки для социально-экономического обследования. Обновление всей переписи экономически нецелесообразно. Хорошей альтернативой может быть сохранение старых счетных участков с некоторым обновлением в высокодинамичных районах, таких как пригороды городов, отбор выборки счетных участков и обновление списка лиц или домохозяйств только на выбранных счетных участках. ^[1]

Кластерная выборка используется для оценки низкой смертности в таких случаях, как войны , голод и стихийные бедствия . ^[2]

Рыболовство [ править ]

Практически невозможно взять простую случайную выборку рыбы из популяции, для чего потребуется отлавливать особей индивидуально и случайным образом. ^[3] Это связано с тем, что рыболовные снасти ловят рыбу группами (или скоплениями).

При коммерческом рыболовстве затраты на работу в море часто слишком велики, чтобы отбирать уловы индивидуально и случайным образом. Таким образом, наблюдения далее группируются по судам или промысловым рейсам.

Преимущества [ править ]

Может быть дешевле, чем другие планы выборки – например, меньше командировочных расходов и административных расходов.
Осуществимость: Этот план выборки учитывает большие группы населения. Поскольку эти группы настолько малы, применение любого другого плана выборки будет очень дорогостоящим.
Экономия. При этом методе две основные проблемы, связанные с расходами, а именно: проезд и листинг, значительно сокращаются. Например: сбор исследовательской информации о каждом домохозяйстве в городе будет очень дорогостоящим, тогда как сбор информации о различных кварталах города будет более экономичным. Здесь затраты на передвижение и составление листингов будут значительно сокращены.
Снижение вариативности: в редком случае отрицательной внутриклассовой корреляции между субъектами внутри кластера оценки, полученные с помощью кластерной выборки, дадут более точные оценки, чем данные, полученные из простой случайной выборки (т. е. эффект схемы будет больше 1). Это не банальный сценарий.

Основное использование: когда основа выборки всех элементов недоступна, мы можем прибегнуть только к кластерной выборке.

Недостатки [ править ]

Более высокая ошибка выборки , которая может быть выражена эффектом дизайна : отношением между дисперсией оценщика, полученной на основе выборок кластерного исследования, и дисперсией оценщика, полученной на основе выборки субъектов в столь же надежном со случайной выборкой некластеризованном исследовании . . ^[4] Чем больше внутриклассовая корреляция между субъектами внутри кластера, тем хуже становится эффект дизайна (т. е. тем больше он становится от 1. Это указывает на большее ожидаемое увеличение дисперсии оценщика). Другими словами, чем больше неоднородности между кластерами и большей однородности между субъектами внутри кластера, тем менее точными становятся наши оценки. Это связано с тем, что в таких случаях нам лучше выбрать как можно больше кластеров и обойтись небольшой выборкой субъектов из каждого кластера (т. е. двухэтапная кластерная выборка).
Сложность. Кластерная выборка является более сложной и требует большего внимания к тому, как ее планировать и как анализировать (т. е. учитывать веса субъектов во время оценки параметров, доверительных интервалов и т. д.).

Подробнее о кластерной выборке [ править ]

Двухэтапная кластерная выборка [ править ]

Двухэтапная кластерная выборка, простой случай многоэтапной выборки , получается путем выбора кластерных выборок на первом этапе, а затем отбора выборки элементов из каждого выбранного кластера. Рассмотрим совокупность N кластеров. На первом этапе n кластеров отбираются обычным методом кластерной выборки. На втором этапе простая случайная выборка . обычно используется ^[5] Он используется отдельно в каждом кластере, и количество элементов, выбранных из разных кластеров, не обязательно одинаково. Общее количество кластеров N , количество выбранных кластеров n и количество элементов из выбранных кластеров должны быть заранее определены разработчиком опроса. Двухэтапная кластерная выборка направлена на минимизацию затрат на обследование и в то же время на контроль неопределенности, связанной с представляющими интерес оценками. ^[6] Этот метод может быть использован в здравоохранении и социальных науках. Например, исследователи использовали двухэтапную кластерную выборку для создания репрезентативной выборки населения Ирака для проведения исследований смертности. ^[7] Отбор проб с помощью этого метода может быть более быстрым и надежным, чем другие методы, поэтому этот метод сейчас используется часто.

Вывод, когда количество кластеров мало [ править ]

Методы кластерной выборки могут привести к значительной систематической ошибке при работе с небольшим количеством кластеров. Например, может возникнуть необходимость в кластеризации на уровне штата или города единиц, которые могут быть небольшими и фиксированными по количеству. В методах микроэконометрики для панельных данных часто используются короткие панели, что аналогично наличию небольшого количества наблюдений на кластер и множества кластеров. Проблему малого кластера можно рассматривать как проблему случайных параметров. ^[8] Хотя точечные оценки могут быть достаточно точно оценены, если количество наблюдений на кластер достаточно велико, нам нужно количество кластеров $G\rightarrow \infty$ для того, чтобы асимптотика вступила в силу. Если количество кластеров невелико, предполагаемая ковариационная матрица может быть смещена вниз. ^[9]

Небольшое количество кластеров представляет собой риск при наличии серийной корреляции или внутриклассовой корреляции, как в контексте Моултона. Имея мало кластеров, мы склонны недооценивать серийную корреляцию между наблюдениями при возникновении случайного шока или внутриклассовую корреляцию в условиях Моултона. ^[10] Несколько исследований выявили последствия серийной корреляции и выдвинули на первый план проблему малых кластеров. ^[11]^[12]

В рамках фактора Моултона интуитивное объяснение проблемы малого кластера можно получить из формулы для фактора Моултона. Предположим для простоты, что количество наблюдений на кластер фиксировано и равно n . Ниже, $V_{c}(\beta )$ обозначает ковариационную матрицу, скорректированную для кластеризации, $V(\beta )$ обозначает ковариационную матрицу, не скорректированную для кластеризации, а ρ обозначает внутриклассовую корреляцию:

{\frac {V_{c}({\hat {\beta }})}{V({\hat {\beta }})}}=1+(n-1)\rho

Соотношение в левой части показывает, насколько нескорректированный сценарий переоценивает точность. Следовательно, большое число означает сильное смещение вниз оцененной ковариационной матрицы. Проблему небольшого кластера можно интерпретировать как большую проблему n: когда данные фиксированы и количество кластеров невелико, количество данных внутри кластера может быть большим. Отсюда следует, что вывод при небольшом количестве кластеров не будет иметь правильного покрытия. ^[10]

Было предложено несколько решений проблемы малого кластера. Можно использовать кластерную устойчивую дисперсионную матрицу с коррекцией смещения, внести корректировки Т-распределения или использовать методы начальной загрузки с асимптотическими уточнениями, такие как процентиль-t или дикий бутстрап, которые могут привести к улучшенному выводу на основе конечной выборки. ^[9] Кэмерон, Гельбах и Миллер (2008) представили микромоделирование для различных методов и обнаружили, что дикий бутстрап хорошо работает при небольшом количестве кластеров. ^[13]

См. также [ править ]

Ссылки [ править ]

^ «РУКОВОДСТВО ПО эталонным основам выборки для сельскохозяйственной статистики — скачать PDF бесплатно» . docplayer.net . Проверено 10 января 2024 г.
↑ Дэвид Браун, Исследование утверждает, что «избыточное» число погибших в Ираке достигло 655 000 , Washington Post , среда, 11 октября 2006 г. Получено 14 сентября 2010 г.
^ Нельсон, Гэри А. (июль 2014 г.). «Кластерная выборка: широко распространенный, но малопризнанный метод исследования в области рыболовства». Труды Американского общества рыболовства . 143 (4): 926–938. Бибкод : 2014ТрАФС.143..926Н . дои : 10.1080/00028487.2014.901252 .
^ Керри и Блэнд (1998). Статистика отмечает: Коэффициент внутрикластерной корреляции при кластерной рандомизации . Британский медицинский журнал , 316, 1455–1460.
^ Ахмед, Сайфуддин (2009). Методы выборочных обследований (PDF) . Университет Джонса Хопкинса и Сайфуддин Ахмед. Архивировано (PDF) из оригинала 28 сентября 2013 г.
^ Дэниел Пфефферманн; К. Радхакришна Рао (2009). Справочник по статистике, том 29А. Выборочные обследования: теория, методы и выводы . Эльзевир Б.В. ISBN 978-0-444-53124-7 .
^ LP Голуэй; Натаниэль Белл; Аль С САЭ; Эми Хагопян; Гилберт Бернэм; Авраам Флаксман; Уильям М. Вайс; Джули Раджаратнам; Тим К. Такаро (27 апреля 2012 г.). «Двухэтапный метод кластерной выборки с использованием координатных данных о населении, ГИС и изображений Google EarthTM в обследовании смертности населения в Ираке» . Международный журнал географии здравоохранения . 11:12 . дои : 10.1186/1476-072X-11-12 . ПМК 3490933 . ПМИД 22540266 .
^ Кэмерон AC и П.К. Триведи (2005): Микроэконометрика: методы и приложения. Издательство Кембриджского университета, Нью-Йорк.
^ Jump up to: Перейти обратно: ^а ^б Кэмерон, К. и Д.Л. Миллер (2015): Руководство для практикующих специалистов по кластерному выводу. Журнал человеческих ресурсов 50 (2), стр. 317–372.
^ Jump up to: Перейти обратно: ^а ^б Ангрист, Ж.Д. и Ж.-С. Пишке (2009): В основном безвредная эконометрика. Спутник эмпирика. Издательство Принстонского университета, Нью-Джерси.
^ Бертран М., Э. Дюфло и С. Муллайнатан (2004): Насколько мы должны доверять оценкам различий в различиях? Ежеквартальный экономический журнал 119 (1), стр. 249–275.
^ Кезди, Г. (2004): Робастная оценка стандартной ошибки в панельных моделях с фиксированным эффектом. Венгерский статистический обзор 9, стр. 95–116.
^ Кэмерон, К., Дж. Гельбах и Д.Л. Миллер (2008): Улучшения на основе начальной загрузки для вывода с кластерными ошибками. Обзор экономики и статистики 90, стр. 414–427.

[1] «РУКОВОДСТВО ПО эталонным основам выборки для сельскохозяйственной статистики — скачать PDF бесплатно» . docplayer.net . Проверено 10 января 2024 г.

[2] Дэвид Браун, Исследование утверждает, что «избыточное» число погибших в Ираке достигло 655 000 , Washington Post , среда, 11 октября 2006 г. Получено 14 сентября 2010 г.

[3] Нельсон, Гэри А. (июль 2014 г.). «Кластерная выборка: широко распространенный, но малопризнанный метод исследования в области рыболовства». Труды Американского общества рыболовства . 143 (4): 926–938. Бибкод : 2014ТрАФС.143..926Н . дои : 10.1080/00028487.2014.901252 .

[4] Керри и Блэнд (1998). Статистика отмечает: Коэффициент внутрикластерной корреляции при кластерной рандомизации . Британский медицинский журнал , 316, 1455–1460.

[5] Ахмед, Сайфуддин (2009). Методы выборочных обследований (PDF) . Университет Джонса Хопкинса и Сайфуддин Ахмед. Архивировано (PDF) из оригинала 28 сентября 2013 г.

[6] Дэниел Пфефферманн; К. Радхакришна Рао (2009). Справочник по статистике, том 29А. Выборочные обследования: теория, методы и выводы . Эльзевир Б.В. ISBN 978-0-444-53124-7 .

[7] LP Голуэй; Натаниэль Белл; Аль С САЭ; Эми Хагопян; Гилберт Бернэм; Авраам Флаксман; Уильям М. Вайс; Джули Раджаратнам; Тим К. Такаро (27 апреля 2012 г.). «Двухэтапный метод кластерной выборки с использованием координатных данных о населении, ГИС и изображений Google EarthTM в обследовании смертности населения в Ираке» . Международный журнал географии здравоохранения . 11:12 . дои : 10.1186/1476-072X-11-12 . ПМК 3490933 . ПМИД 22540266 .

[8] Кэмерон AC и П.К. Триведи (2005): Микроэконометрика: методы и приложения. Издательство Кембриджского университета, Нью-Йорк.

[CameronMiller-9] Jump up to: Перейти обратно: ^а ^б Кэмерон, К. и Д.Л. Миллер (2015): Руководство для практикующих специалистов по кластерному выводу. Журнал человеческих ресурсов 50 (2), стр. 317–372.

[AngristPischke-10] Jump up to: Перейти обратно: ^а ^б Ангрист, Ж.Д. и Ж.-С. Пишке (2009): В основном безвредная эконометрика. Спутник эмпирика. Издательство Принстонского университета, Нью-Джерси.

[11] Бертран М., Э. Дюфло и С. Муллайнатан (2004): Насколько мы должны доверять оценкам различий в различиях? Ежеквартальный экономический журнал 119 (1), стр. 249–275.

[12] Кезди, Г. (2004): Робастная оценка стандартной ошибки в панельных моделях с фиксированным эффектом. Венгерский статистический обзор 9, стр. 95–116.

[13] Кэмерон, К., Дж. Гельбах и Д.Л. Миллер (2008): Улучшения на основе начальной загрузки для вывода с кластерными ошибками. Обзор экономики и статистики 90, стр. 414–427.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]