Доля населения
В статистике доля населения , обычно обозначаемая или греческая буква , [1] — это параметр , который описывает процентное значение, связанное с совокупностью . Например, перепись населения США 2010 года показала, что 83,7% населения Америки не относятся к латиноамериканцам или латиноамериканцам; значение 0,837 представляет собой долю населения. В целом доля населения и другие параметры популяции неизвестны. Перепись . может проводиться для определения фактической стоимости какого-либо параметра населения, но часто перепись нецелесообразна из-за ее затрат и затрат времени
Доля населения обычно оценивается с помощью объективной выборочной статистики, полученной в результате обсервационного исследования или эксперимента . Например, Национальная конференция по технологической грамотности провела национальный опрос 2000 взрослых, чтобы определить процент взрослых, которые являются экономически неграмотными. Исследование показало, что 72% из 2000 опрошенных взрослых не понимали, что такое валовой внутренний продукт . [2] Значение 72% является выборочной долей. Доля выборки обычно обозначается и в некоторых учебниках . [3] [4]
Математическое определение [ править ]
Пропорция математически определяется как соотношение количества элементов ( счетного количества ) в подмножестве. по размеру набора :
где это подсчет успехов в популяции, и это численность населения.
Это математическое определение можно обобщить, чтобы дать определение доли выборки:
где - количество успехов в выборке, и — размер выборки, полученной из генеральной совокупности. [5] [3]
Оценка [ править ]
Одним из основных направлений исследований в области логической статистики является определение «истинного» значения параметра. Как правило, фактическое значение параметра никогда не будет найдено, если не будет проведена перепись исследуемой популяции. Однако существуют статистические методы, которые можно использовать для получения разумной оценки параметра. Эти методы включают доверительные интервалы и проверку гипотез .
Оценка доли населения может иметь большое значение в областях сельского хозяйства , бизнеса , экономики , образования , инженерии , экологических исследований , медицины , права , политологии , психологии и социологии .
Доля населения может быть оценена с помощью доверительного интервала, известного как доля одной выборки в Z-интервале, формула которого приведена ниже:
где это доля выборки, - размер выборки, и это верхний критическое значение стандартного нормального распределения для уровня достоверности . [6]
Доказательство [ править ]
Чтобы вывести формулу для доли одной выборки в Z-интервале , выборки . необходимо принять во внимание выборочное распределение долей Среднее значение выборочного распределения долей выборки обычно обозначается как а его стандартное отклонение обозначается как: [3]
Поскольку значение неизвестно, объективная статистика будет использоваться для . Среднее и стандартное отклонение переписываются соответственно как:
- и
Ссылаясь на центральную предельную теорему , можно сделать вывод, что выборочное распределение долей выборки примерно нормальное — при условии, что выборка достаточно велика и не асимметрична.
Предположим, что рассчитана следующая вероятность:
- ,
где и являются стандартными критическими значениями.
Неравенство
можно алгебраически переписать следующим образом:
Из алгебраической работы, проделанной выше, с определенной степенью уверенности видно, что что может находиться между значениями:
- .
Условия вывода [ править ]
Как правило, формула, используемая для оценки доли населения, требует замены известных числовых значений. Однако эти числовые значения не могут быть «слепо» подставлены в формулу, поскольку статистический вывод требует, чтобы оценка неизвестного параметра была обоснованной. Чтобы оценка параметра была обоснованной, необходимо проверить три условия:
- Данные индивидуального наблюдения должны быть получены из простой случайной выборки интересующей популяции.
- Отдельные наблюдения данных должны демонстрировать нормальность . Это можно предположить математически, используя следующее определение:
- Позволять — размер выборки данной случайной выборки и пусть быть его выборочной долей. Если и , то отдельные наблюдения данных показывают нормальность.
- Отдельные наблюдения данных должны быть независимы друг от друга. Это можно предположить математически, используя следующее определение:
- Позволять быть размером интересующей популяции и пусть быть размером выборки простой случайной выборки генеральной совокупности. Если , то отдельные наблюдения данных независимы друг от друга.
Условия SRS, нормальности и независимости в большинстве статистических учебников иногда называют условиями набора инструментов для вывода . Для более подробного изучения регионов, где это упрощение НЕ используется, см. ( https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Jeffreys_interval ).
Пример [ править ]
Предположим, президентские выборы проходят в демократической стране. Случайная выборка из 400 избирателей, имеющих право голоса, из числа избирателей демократической страны показывает, что 272 избирателя поддерживают кандидата Б. Политолог хочет определить, какой процент избирателей поддерживает кандидата Б.
Чтобы ответить на вопрос политолога, можно построить пропорцию одной выборки в Z-интервале с уровнем достоверности 95%, чтобы определить долю населения, имеющую право избирателей в этой демократии, которые поддерживают кандидата Б.
Решение [ править ]
Из случайной выборки известно, что с размером выборки . Прежде чем построить доверительный интервал, будут проверены условия вывода.
- Поскольку из голосующего населения была получена случайная выборка в 400 избирателей, условие простой случайной выборки выполнено.
- Позволять и , будет проверено, и
- и
- Условие нормальности выполнено.
- Позволять быть размером избирателей в этой демократии, и пусть . Если , тогда есть независимость.
- Численность населения можно предположить, что избирателей этой демократии будет не менее 4000. Таким образом, условие независимости было выполнено.
После проверки условий вывода можно построить доверительный интервал.
Позволять и
Решить для , выражение используется.
Изучая стандартную нормальную колоколообразную кривую, значение для можно определить, определив, какая стандартная оценка дает стандартной нормальной кривой площадь верхнего хвоста 0,0250 или площадь 1–0,0250 = 0,9750. Значение для также можно найти с помощью таблицы стандартных нормальных вероятностей.
Из таблицы стандартных нормальных вероятностей значение это дает площадь 0,9750, равную 1,96. Следовательно, значение для составляет 1,96.
Значения для , , теперь можно подставить в формулу для доли одной выборки в Z-интервале:
Основываясь на условиях вывода и формуле доли одной выборки в Z-интервале, можно с уровнем достоверности 95% заключить, что процент избирателей в этой демократии, поддерживающих кандидата B, находится между 63,429% и 72,571. %.
Значение параметра в диапазоне доверительного интервала [ править ]
Часто задаваемый вопрос в статистике вывода заключается в том, включен ли параметр в доверительный интервал. Единственный способ ответить на этот вопрос – провести перепись населения. Ссылаясь на приведенный выше пример, вероятность того, что доля населения находится в диапазоне доверительного интервала, равна либо 1, либо 0. То есть параметр включен в диапазон интервала или нет. Основная цель доверительного интервала — лучше проиллюстрировать, каким может быть идеальное значение параметра.
Распространенные ошибки и неверные интерпретации оценок [ править ]
Очень распространенной ошибкой, возникающей при построении доверительного интервала, является убеждение, что уровень уверенности, такой как , означает вероятность 95%. Это неверно. Уровень уверенности основан на мере уверенности, а не вероятности. Следовательно, значения находиться исключительно между 0 и 1.
Оценка P с использованием ранжированной выборки [ править ]
Более точную оценку P можно получить, выбрав ранжированную выборку вместо простой случайной выборки. [7] [8]
См. также [ править ]
- Биномиальная пропорция, доверительный интервал
- Доверительный интервал
- Распространенность
- Статистическая проверка гипотез
- Статистический вывод
- Статистический параметр
- Интервал допуска
Ссылки [ править ]
- ^ Введение в статистические исследования . Уайли. 18 августа 2014 г. ISBN. 978-1-118-95667-0 .
- ^ Отт, Р. Лайман (1993). Введение в статистические методы и анализ данных . ISBN 0-534-93150-2 .
- ^ Jump up to: Перейти обратно: а б с Вайсштейн, Эрик В. «Пропорция выборки» . mathworld.wolfram.com . Проверено 22 августа 2020 г.
- ^ «6.3: Выборочная пропорция» . Статистика LibreTexts . 16 апреля 2014 г. Проверено 22 августа 2020 г.
- ^ Вайсштейн, Эрик (1998). CRC Краткая математическая энциклопедия . Чепмен и Холл/CRC. Бибкод : 1998ccem.book.....W .
- ^ Хиндерс, Дуэйн (2008). Аннотированное издание для учителей Практика статистики . ISBN 978-0-7167-7703-8 .
- ^ Аббаси, Азхар Мехмуд; Юсуф Шад, Мухаммед (15 мая 2021 г.). «Оценка доли населения с использованием одновременной ранжированной выборки» . Коммуникации в статистике - теория и методы . 51 (9): 2689–2709. дои : 10.1080/03610926.2021.1916529 . ISSN 0361-0926 . S2CID 236554602 .
- ^ Аббаси, Азхар Мехмуд; Шад, Мухаммад Юсуф (15 мая 2021 г.). «Оценка доли населения с использованием одновременной ранжированной выборки» . Коммуникации в статистике - теория и методы . 51 (9): 2689–2709. дои : 10.1080/03610926.2021.1916529 . ISSN 0361-0926 . S2CID 236554602 .