Стандартная ошибка
Стандартная ошибка ( SE ) [1] статистики . (обычно оценка параметра ) — это стандартное отклонение ее выборочного распределения [2] или оценку этого стандартного отклонения. Если статистика является выборочным средним, она называется стандартной ошибкой среднего ( SEM ). [1] Стандартная ошибка является ключевым компонентом при построении доверительных интервалов . [3]
Выборочное распределение среднего получается путем повторной выборки из одной и той же совокупности и записи полученных выборочных средних. Это формирует распределение различных средних значений, и это распределение имеет свое среднее значение и дисперсию . Математически дисперсия полученного распределения выборочного среднего равна дисперсии генеральной совокупности, деленной на размер выборки. Это связано с тем, что по мере увеличения размера выборки средние значения выборки более тесно группируются вокруг среднего значения генеральной совокупности.
Следовательно, связь между стандартной ошибкой среднего и стандартным отклонением такова, что для данного размера выборки стандартная ошибка среднего равна стандартному отклонению, деленному на квадратный корень из размера выборки. [1] Другими словами, стандартная ошибка среднего является мерой дисперсии выборочных средних вокруг среднего значения генеральной совокупности.
В регрессионном анализе термин «стандартная ошибка» относится либо к квадратному корню из приведенной статистики хи-квадрат , либо к стандартной ошибке для конкретного коэффициента регрессии (как, например, используется в доверительных интервалах ).
Стандартная ошибка выборочного среднего
[ редактировать ]Точное значение
[ редактировать ]Предположим, что имеется статистически независимая выборка наблюдения берется из статистической совокупности со стандартным отклонением . Среднее значение, рассчитанное по выборке, , будет иметь соответствующую стандартную ошибку среднего значения , , заданный: [1]
Практически это говорит нам о том, что при попытке оценить значение генеральной совокупности из-за фактора , уменьшение ошибки оценки в два раза требует сбора в четыре раза большего количества наблюдений в выборке; уменьшение его в десять раз требует в сто раз больше наблюдений.
Оценивать
[ редактировать ]Стандартное отклонение часть населения, отбираемого в выборку, редко известна. Поэтому стандартная ошибка среднего обычно оценивается путем замены с выборочным стандартным отклонением вместо:
Поскольку это всего лишь оценка истинной «стандартной ошибки», здесь часто можно увидеть другие обозначения, такие как:
Распространенным источником путаницы является невозможность провести четкое различие между:
- стандартное отклонение генеральной совокупности ( ),
- стандартное отклонение выборки ( ),
- стандартное отклонение самого среднего значения ( , что является стандартной ошибкой), и
- оценка ( стандартного отклонения среднего значения , которая является наиболее часто рассчитываемой величиной, а также часто в просторечии называется стандартной ошибкой ).
Точность оценщика
[ редактировать ]Когда размер выборки невелик, использование стандартного отклонения выборки вместо истинного стандартного отклонения генеральной совокупности будет иметь тенденцию систематически недооценивать стандартное отклонение генеральной совокупности, а, следовательно, и стандартную ошибку. При n = 2 занижение составляет около 25%, а при n = 6 занижение составляет всего 5%. Гурланд и Трипати (1971) представили поправку и уравнение для этого эффекта. [4] Сокал и Рольф (1981) приводят уравнение поправочного коэффициента для небольших выборок с n <20. [5] См. несмещенную оценку стандартного отклонения для дальнейшего обсуждения.
Вывод
[ редактировать ]Стандартная ошибка среднего может быть получена из дисперсии суммы независимых случайных величин: [6] дано определение дисперсии и некоторые ее свойства . Если является образцом независимые наблюдения среди населения со средним и стандартное отклонение , то мы можем определить сумму который согласно формуле Бьенеме будет иметь дисперсию где мы аппроксимировали стандартные отклонения, то есть неопределенности самих измерений, лучшим значением стандартного отклонения генеральной совокупности. Среднее значение этих измерений дается
Тогда дисперсия среднего
Стандартная ошибка – это, по определению, стандартное отклонение что является квадратным корнем дисперсии:
Для коррелированных случайных величин выборочную дисперсию необходимо вычислять в соответствии с центральной предельной теоремой цепи Маркова .
Независимые и одинаково распределенные случайные величины со случайным размером выборки
[ редактировать ]Бывают случаи, когда выборку берут, не зная заранее, сколько наблюдений будет приемлемым по какому-либо критерию. В таких случаях размер выборки – это случайная величина, изменение которой добавляется к изменению такой, что, [7] что следует из закона полной дисперсии .
Если имеет распределение Пуассона , то с оценщиком . Следовательно, оценка становится , приводя следующую формулу для стандартной ошибки: (поскольку стандартное отклонение представляет собой квадратный корень дисперсии).
Приближение Стьюдента, когда значение σ неизвестно
[ редактировать ]Во многих практических приложениях истинное значение σ неизвестно. В результате нам нужно использовать распределение, которое учитывает этот разброс возможных σ .Когда известно, что истинное основное распределение является гауссовским, хотя и с неизвестным σ, тогда результирующее расчетное распределение соответствует t-распределению Стьюдента. Стандартная ошибка — это стандартное отклонение t-распределения Стьюдента. Т-распределения немного отличаются от гауссового и варьируются в зависимости от размера выборки. Небольшие выборки с несколько большей вероятностью недооценивают стандартное отклонение генеральной совокупности и имеют среднее значение, отличающееся от истинного среднего генерального значения, а t-распределение Стьюдента учитывает вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовым. Чтобы оценить стандартную ошибку t-распределения Стьюдента, достаточно использовать выборочное стандартное отклонение «s» вместо σ , и мы могли бы использовать это значение для расчета доверительных интервалов.
Примечание. хорошо Распределение вероятностей Стьюдента аппроксимируется распределением Гаусса, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще.Кроме того, даже несмотря на то, что «истинное» распределение генеральной совокупности неизвестно, предположение о нормальности выборочного распределения имеет смысл для разумного размера выборки и при определенных условиях выборки, см. CLT . Если эти условия не выполняются, то использование распределения Bootstrap для оценки стандартной ошибки часто является хорошим обходным решением, но оно может потребовать больших вычислительных ресурсов.
Предположения и использование
[ редактировать ]Пример того, как используется для того, чтобы сделать доверительные интервалы неизвестной совокупности средними. Если выборочное распределение нормально распределено , выборочное среднее, стандартная ошибка и квантили нормального распределения могут использоваться для расчета доверительных интервалов для истинного генерального среднего. Следующие выражения можно использовать для расчета верхнего и нижнего 95% доверительного интервала, где равно выборочному среднему, равно стандартной ошибке выборочного среднего значения, а 1,96 — приблизительное значение 97,5 процентиля нормального распределения :
- Верхний предел 95 % = , и
- Нижний предел 95 % = .
В частности, стандартная ошибка выборочной статистики (например, выборочного среднего ) — это фактическое или расчетное стандартное отклонение выборочного среднего в процессе, посредством которого оно было создано. Другими словами, это фактическое или предполагаемое стандартное отклонение выборочного распределения выборочной статистики. Обозначением стандартной ошибки может быть любое из SE, SEM (стандартная ошибка измерения или среднего значения ) или SE .
Стандартные ошибки обеспечивают простые меры неопределенности значения и часто используются, потому что:
- во многих случаях, если известна стандартная ошибка нескольких отдельных величин, стандартную ошибку некоторой функции этих величин; можно легко вычислить
- когда распределение вероятностей значения известно, его можно использовать для расчета точного доверительного интервала ;
- когда распределение вероятностей неизвестно, Чебышева или неравенства Высочанского – Петунина можно использовать для расчета консервативного доверительного интервала; и
- поскольку размер выборки стремится к бесконечности, центральная предельная теорема гарантирует, что выборочное распределение среднего асимптотически нормально .
Стандартная ошибка среднего по сравнению со стандартным отклонением
[ редактировать ]В научно-технической литературе экспериментальные данные часто обобщаются либо с использованием среднего и стандартного отклонения выборочных данных, либо среднего со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение являются описательной статистикой , тогда как стандартная ошибка среднего описывает процесс случайной выборки. Стандартное отклонение данных выборки представляет собой описание вариации измерений, в то время как стандартная ошибка среднего значения представляет собой вероятностное утверждение о том, как размер выборки обеспечит лучшую оценку оценок среднего значения генеральной совокупности в свете центрального предела. теорема. [8]
Проще говоря, стандартная ошибка выборочного среднего значения — это оценка того, насколько далеко выборочное среднее значение может находиться от среднего значения генеральной совокупности, тогда как стандартное отклонение выборки — это степень, в которой отдельные лица в выборке отличаются от выборочного среднего значения. [9] Если стандартное отклонение генеральной совокупности конечно, стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, поскольку оценка среднего значения генеральной совокупности улучшится, в то время как стандартное отклонение выборки будет стремиться приблизиться к стандарту генеральной совокупности. отклонение по мере увеличения размера выборки.
Расширения
[ редактировать ]Конечная популяционная коррекция (FPC)
[ редактировать ]Приведенная выше формула стандартной ошибки предполагает, что популяция бесконечна. Тем не менее, его часто используют для конечных популяций, когда люди заинтересованы в измерении процесса, который создал существующую конечную популяцию (это называется аналитическим исследованием ). Хотя приведенная выше формула не совсем верна, когда популяция конечна, разница между версиями с конечной и бесконечной популяцией будет небольшой, когда доля выборки мала (например, изучается небольшая часть конечной популяции). В этом случае люди часто не делают поправку на конечную популяцию, по сути рассматривая ее как «приблизительно бесконечную» популяцию.
Если кто-то заинтересован в измерении существующей конечной популяции, которая не изменится с течением времени, тогда необходимо внести поправку на размер популяции (так называемое переписное исследование ). Когда доля выборки (часто называемая f ) велика (примерно 5% или более) в перечислительном исследовании , оценка стандартной ошибки должна быть скорректирована путем умножения на «конечную популяционную поправку» (также известную как FPC ): [10] [11] что для больших N : для учета дополнительной точности, полученной за счет выборки, близкой к большему проценту населения. Эффект FPC заключается в том, что ошибка становится нулевой, когда размер выборки равен размеру совокупности N. n
Это происходит в методологии обследования при выборке без замещения . Если выборка с заменой, то FPC в дело не играет.
Поправка на корреляцию в выборке
[ редактировать ]Если значения измеряемой величины A не являются статистически независимыми, но были получены из известных мест в пространстве параметров x , несмещенная оценка истинной стандартной ошибки среднего значения (фактически поправка на часть стандартного отклонения) может быть получена путем умножения рассчитанная стандартная ошибка выборки по коэффициенту f : где коэффициент смещения выборки ρ представляет собой широко используемую Прайса – Уинстена оценку коэффициента автокорреляции (величина между -1 и +1) для всех пар точек выборки. Эта приблизительная формула предназначена для выборок среднего и большого размера; в справочнике приведены точные формулы для любого размера выборки, и их можно применять к сильно автокоррелированным временным рядам, таким как котировки акций Уолл-стрит. Более того, эта формула работает как для положительного, так и для отрицательного ρ. [12] См. также несмещенную оценку стандартного отклонения для получения дополнительной информации.
См. также
[ редактировать ]- Иллюстрация центральной предельной теоремы
- Погрешность
- Возможная ошибка
- Стандартная ошибка средневзвешенного значения
- Выборочное среднее и выборочная ковариация
- Стандартная ошибка медианы
- Дисперсия
- Разница средних и прогнозируемых ответов
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Альтман, Дуглас Дж; Блэнд, Дж. Мартин (15 октября 2005 г.). «Стандартные отклонения и стандартные ошибки» . BMJ: Британский медицинский журнал . 331 (7521): 903. doi : 10.1136/bmj.331.7521.903 . ISSN 0959-8138 . ПМЦ 1255808 . ПМИД 16223828 .
- ^ Эверитт, бакалавр наук (2003). Кембриджский статистический словарь . Издательство Кембриджского университета. ISBN 978-0-521-81099-9 .
- ^ Вулдридж, Джеффри М. (2023). «Что такое стандартная ошибка? (И как ее вычислять?)» . Журнал эконометрики . 237 (2, часть А). doi : 10.1016/j.jeconom.2023.105517 . ISSN 0304-4076 .
- ^ Гурланд, Дж; Трипати RC (1971). «Простое приближение для несмещенной оценки стандартного отклонения». Американский статистик . 25 (4): 30–32. дои : 10.2307/2682923 . JSTOR 2682923 .
- ^ Сокаль; Рольф (1981). Биометрия: принципы и практика статистики в биологических исследованиях (2-е изд.). п. 53 . ISBN 978-0-7167-1254-1 .
- ^ Хатчинсон, Т.П. (1993). Основы статистических методов, на 41 странице . Аделаида: Рамсби. ISBN 978-0-646-12621-0 .
- ^ Корнелл, младший; Бенджамин, Калифорния (1970). Вероятность, статистика и решения для инженеров-строителей . Нью-Йорк: МакГроу-Хилл. стр. 178–179. ISBN 0486796094 .
- ^ Барде, М. (2012). «Что использовать для выражения изменчивости данных: стандартное отклонение или стандартную ошибку среднего?» . Перспектива. Клин. Рез. 3 (3): 113–116. дои : 10.4103/2229-3485.100662 . ПМЦ 3487226 . ПМИД 23125963 .
- ^ Вассертайль-Смоллер, Сильвия (1995). Биостатистика и эпидемиология: Учебник для работников здравоохранения (второе изд.). Нью-Йорк: Спрингер. стр. 40–43. ISBN 0-387-94388-9 .
- ^ Иссерлис, Л. (1918). «О значении среднего значения, рассчитанного по выборке» . Журнал Королевского статистического общества . 81 (1): 75–81. дои : 10.2307/2340569 . JSTOR 2340569 . (Уравнение 1)
- ^ Бонди, Уоррен; Злот, Уильям (1976). «Стандартная ошибка среднего значения и разница между средними значениями для конечных популяций». Американский статистик . 30 (2): 96–97. дои : 10.1080/00031305.1976.10479149 . JSTOR 2683803 . (Уравнение 2)
- ^ Бенс, Джеймс Р. (1995). «Анализ коротких временных рядов: поправка на автокорреляцию» . Экология . 76 (2): 628–639. дои : 10.2307/1941218 . JSTOR 1941218 .