~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ BDBD22718C2328290126887F18DFF4C7__1714091760 ✰
Заголовок документа оригинал.:
✰ Stratified sampling - Wikipedia ✰
Заголовок документа перевод.:
✰ Стратифицированная выборка — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Stratified_sampling ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/bd/c7/bdbd22718c2328290126887f18dff4c7.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/bd/c7/bdbd22718c2328290126887f18dff4c7__translat.html ✰
Дата и время сохранения документа:
✰ 11.06.2024 00:23:21 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 26 April 2024, at 03:36 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Arc.Ask3.ru: далее начало оригинального документа

Стратифицированная выборка — Википедия Jump to content

Стратифицированная выборка

Из Википедии, бесплатной энциклопедии

В статистике , стратифицированная выборка представляет собой метод выборки из совокупности которую можно разделить на подгруппы .

Пример стратифицированной выборки

В статистических обследованиях , когда субпопуляции внутри общей совокупности различаются, может быть выгодно выбирать каждую субпопуляцию ( страту ) независимо.

Стратификация – это процесс разделения членов совокупности на однородные подгруппы перед выборкой. Страты должны определять часть населения. То есть оно должно быть коллективно исчерпывающим и взаимоисключающим : каждый элемент совокупности должен быть отнесен к одному и только одному слою. Затем простая случайная выборка внутри каждой страты применяется . Цель состоит в том, чтобы повысить точность выборки за счет уменьшения ошибки выборки . Он может дать средневзвешенное значение , которое имеет меньшую изменчивость, чем среднее арифметическое простой случайной выборки населения.

В вычислительной статистике стратифицированная выборка — это метод уменьшения дисперсии , когда методы Монте-Карло используются для оценки статистики населения на основе известной совокупности. [1]

Пример [ править ]

Предположим, что нам нужно оценить среднее количество голосов за каждого кандидата на выборах. Предположим, что в стране есть 3 города: в городе А работает 1 миллион фабричных рабочих, в городе Б — 2 миллиона офисных работников, а в городе С — 3 миллиона пенсионеров. Мы можем выбрать случайную выборку размером 60 человек по всему населению, но есть некоторая вероятность того, что полученная случайная выборка будет плохо сбалансирована по этим городам и, следовательно, будет необъективной, что приведет к значительной ошибке в оценке (когда интересующий результат имеет различное распределение по интересующему параметру между городами). Вместо этого, если мы решим взять случайную выборку из 10, 20 и 30 человек из городов A, B и C соответственно, тогда мы сможем получить меньшую ошибку в оценке для того же общего размера выборки. Этот метод обычно используется, когда популяция не является однородной группой.

выборки Стратегии стратифицированной

  1. При пропорциональном распределении в каждой страте используется доля выборки , пропорциональная общей численности населения. Например, если популяция состоит из n особей, m из которых мужчины и f женщин (и где m + f = n ), то относительный размер двух выборок ( x 1 = m / n мужчин, x 2 = б / н самки) должны отражать эту пропорцию.
  2. Оптимальное распределение (или непропорциональное распределение ). Доля выборки каждой страты пропорциональна как пропорции (как указано выше), так и стандартному отклонению распределения переменной. Более крупные выборки отбираются в стратах с наибольшей изменчивостью, чтобы обеспечить минимально возможную общую дисперсию выборки.

Реальным примером использования стратифицированной выборки может служить политический опрос . Если респондентам необходимо отразить разнообразие населения, исследователь специально постарается включить представителей различных групп меньшинств, таких как раса или религия, на основе их пропорциональности к общей численности населения, как упоминалось выше. Таким образом, стратифицированное обследование может считаться более репрезентативным для населения, чем обследование простой случайной выборки или систематической выборки . Как среднее значение, так и дисперсию можно скорректировать с учетом непропорциональных затрат на выборку, используя стратифицированные размеры выборки .

Преимущества [ править ]

Причины использования стратифицированной выборки вместо простой случайной выборки включают: [2]

  1. Если измерения внутри слоев имеют более низкое стандартное отклонение (по сравнению с общим стандартным отклонением в совокупности), стратификация дает меньшую ошибку в оценке.
  2. Для многих приложений измерения становятся более управляемыми и/или более дешевыми, когда совокупность группируется в слои.
  3. Когда желательно иметь оценки параметров совокупности для групп внутри совокупности, стратифицированная выборка подтверждает, что у нас достаточно выборок из интересующих слоев.

Если плотность населения сильно различается в пределах региона, стратифицированная выборка обеспечит возможность получения оценок с одинаковой точностью в разных частях региона и сравнение субрегионов с одинаковой статистической достоверностью . Например, в Онтарио при обследовании, проводимом по всей провинции, может использоваться более крупная доля выборки на менее населенном севере, поскольку неравенство в населении между севером и югом настолько велико, что доля выборки, основанная на выборке по провинции в целом, может привести к сбор лишь небольшого количества данных с севера.

Недостатки [ править ]

Стратифицированная выборка бесполезна, когда совокупность нельзя полностью разделить на непересекающиеся подгруппы. Было бы неправильным применением этого метода делать размеры выборки подгрупп пропорциональными объему данных, доступных от подгрупп, вместо того, чтобы масштабировать размеры выборки до размеров подгрупп (или их дисперсий, если известно, что они значительно различаются, например, с помощью F-критерия ). ). Данные, представляющие каждую подгруппу, считаются одинаково важными, если предполагаемые различия между ними требуют стратифицированной выборки. Если дисперсии подгрупп значительно различаются и данные необходимо стратифицировать по дисперсии, невозможно одновременно сделать размер выборки каждой подгруппы пропорциональным размеру подгруппы в общей совокупности. Об эффективном способе распределения ресурсов выборки между группами, которые различаются по своим средствам, дисперсии и затратам, см. «Оптимальное распределение» . Проблема стратифицированной выборки в случае неизвестных априорных значений класса (соотношение субпопуляций во всей совокупности) может оказать пагубное влияние на эффективность любого анализа набора данных, например, классификации. [3] В этом отношении можно использовать минимаксный коэффициент выборки, чтобы сделать набор данных устойчивым к неопределенности в базовом процессе генерации данных. [3]

Объединение подслоев для обеспечения адекватного количества может привести к парадоксу Симпсона , когда тенденции, существующие в разных группах данных, исчезают или даже меняют направление при объединении групп.

и ошибка Средняя стандартная

Среднее значение и дисперсия стратифицированной случайной выборки определяются по формуле: [2]

где

количество слоев
сумма всех размеров страты
размер слоя
выборочное среднее страты
количество наблюдений в страте
выборочное стандартное отклонение страты

Обратите внимание, что термин , что равно , представляет собой конечную популяционную поправку и должны быть выражены в «единицах выборки». Вышеизложенная поправка на конечную численность дает:

где это вес населения слоя .

Распределение размера выборки [ править ]

При использовании стратегии пропорционального распределения размер выборки в каждой страте определяется пропорционально размеру страты. Предположим, что в компании есть следующий персонал: [4]

  • мужской, полная занятость: 90
  • мужчины, неполная занятость: 18
  • женщины, полная занятость: 9
  • женщины, неполная занятость: 63
  • всего: 180

и нас просят взять выборку из 40 сотрудников, стратифицированных по вышеуказанным категориям.

Первым шагом является вычисление процентной доли каждой группы от общей суммы.

  • % мужчин, полный рабочий день = 90 ÷ 180 = 50 %
  • % мужчин, неполный рабочий день = 18 ÷ 180 = 10%
  • % женщин, полная занятость = 9 ÷ 180 = 5%
  • % женщин, неполный рабочий день = 63 ÷ 180 = 35%

Это говорит нам о том, что из нашей выборки из 40 человек

  • 50% (20 человек) должны быть мужчинами, работающими полный рабочий день.
  • 10% (4 человека) должны быть мужчины, работающие неполный рабочий день.
  • 5% (2 человека) должны быть женщинами, работающими полный рабочий день.
  • 35% (14 человек) должны быть женщины, работающие неполный рабочий день.

Еще один простой способ без необходимости рассчитывать процент — это умножить размер каждой группы на размер выборки и разделить на общую численность населения (численность всего персонала):

  • мужской, очная = 90 × (40 ÷ 180) = 20
  • мужской, неполный рабочий день = 18 × (40 ÷ 180) = 4
  • женщины, очная = 9 × (40 ÷ 180) = 2
  • женщины, неполный рабочий день = 63 × (40 ÷ 180) = 14

См. также [ править ]

Ссылки [ править ]

  1. ^ Ботев З.; Риддер, А. (2017). «Уменьшение дисперсии». Wiley StatsRef: Интернет-справочник по статистике : 1–6. дои : 10.1002/9781118445112.stat07975 . ISBN  9781118445112 .
  2. ^ Перейти обратно: а б «6.1 Как использовать стратифицированную выборку | STAT 506» . onlinecourses.science.psu.edu . Проверено 23 июля 2015 г.
  3. ^ Перейти обратно: а б Шахрох Исфахани, Мохаммед; Догерти, Эдвард Р. (2014). «Влияние раздельной выборки на точность классификации» . Биоинформатика . 30 (2): 242–250. doi : 10.1093/биоинформатика/btt662 . ПМИД   24257187 .
  4. ^ Хант, Невилл; Тиррелл, Сидни (2001). «Стратифицированная выборка» . Веб-страница Университета Ковентри . Архивировано из оригинала 13 октября 2013 года . Проверено 12 июля 2012 г.

Дальнейшее чтение [ править ]

  • Сярндал, Карл-Эрик; и другие. (2003). «Стратифицированная выборка». Выборка опроса с помощью модели . Нью-Йорк: Спрингер. стр. 100–109. ISBN  0-387-40620-4 .
Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: BDBD22718C2328290126887F18DFF4C7__1714091760
URL1:https://en.wikipedia.org/wiki/Stratified_sampling
Заголовок, (Title) документа по адресу, URL1:
Stratified sampling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)