Непредвзятая оценка стандартного отклонения
В статистике и, в частности, статистической теории , несмещенная оценка стандартного отклонения — это расчет на основе статистической выборки оценочного значения стандартного отклонения (меры статистической дисперсии ) совокупности значений таким образом, что ожидаемое значение расчета соответствует истинному значению. За исключением некоторых важных ситуаций, описанных ниже, эта задача не имеет большого отношения к приложениям статистики, поскольку ее необходимость устраняется с помощью стандартных процедур, таких как использование тестов значимости и доверительных интервалов или использование байесовского анализа .
Однако для статистической теории это представляет собой образцовую задачу в контексте теории оценивания , которую легко сформулировать и для которой результаты не могут быть получены в закрытой форме. Это также является примером того, как навязывание требования объективной оценки может рассматриваться как просто добавление неудобств, не приносящее реальной пользы.
Мотивация [ править ]
В статистике стандартное отклонение совокупности чисел часто оценивается на основе случайной выборки, взятой из совокупности. Это выборочное стандартное отклонение, которое определяется формулой
где — выборка (формально, реализации случайной величины X ) и – это выборочное среднее .
Один из способов увидеть, что это смещенная оценка стандартного отклонения генеральной совокупности, — это начать с результата, который 2 является оценкой дисперсии σ несмещенной 2 базовой совокупности, если такая дисперсия существует, и значения выборки получаются независимо с заменой. Квадратный корень — нелинейная функция, и только линейные функции коммутируют с учетом математического ожидания. следует Поскольку квадратный корень является строго вогнутой функцией, из неравенства Йенсена , что квадратный корень выборочной дисперсии является заниженной оценкой.
Использование n - 1 вместо n в формуле выборочной дисперсии известно как поправка Бесселя , которая исправляет смещение при оценке генеральной дисперсии, а также некоторую, но не всю, смещение при оценке генерального стандарта . отклонение.
Невозможно найти оценку стандартного отклонения, которая была бы несмещенной для всех распределений населения, поскольку смещение зависит от конкретного распределения. Большая часть нижеследующего относится к оценкам, предполагающим нормальное распределение .
Коррекция смещения [ править ]
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( декабрь 2014 г. ) |
нормального Результаты распределения для

Когда случайная величина имеет нормальное распределение , существует незначительная поправка для устранения систематической ошибки. Чтобы вывести поправку, обратите внимание, что для нормально распределенного X из теоремы Кокрена следует, что имеет распределение хи-квадрат с степени свободы и, следовательно, его квадратный корень, имеет распределение ци с степени свободы. Следовательно, вычислив математическое ожидание этого последнего выражения и переставив константы,
где поправочный коэффициент это среднее значение распределения ци с степени свободы, . Это зависит от размера выборки n и определяется следующим образом: [1]
где Γ(·) – гамма-функция . Несмещенную оценку σ можно получить путем деления к . Как увеличивается и приближается к 1, и даже для меньших значений поправка незначительна. На рисунке изображен график относительно размера выборки. В таблице ниже приведены числовые значения и алгебраические выражения для некоторых значений ; более полные таблицы можно найти в большинстве учебников. [ нужна ссылка ] по статистическому контролю качества .
Размер выборки | Выражение | Числовое значение |
---|---|---|
2 | 0.7978845608 | |
3 | 0.8862269255 | |
4 | 0.9213177319 | |
5 | 0.9399856030 | |
6 | 0.9515328619 | |
7 | 0.9593687891 | |
8 | 0.9650304561 | |
9 | 0.9693106998 | |
10 | 0.9726592741 | |
100 | 0.9974779761 | |
1000 | 0.9997497811 | |
10000 | 0.9999749978 | |
2 тыс. | ||
2к+1 |
Важно иметь в виду, что эта поправка дает только несмещенную оценку для нормально и независимо X. распределенного Когда это условие выполнено, другой результат о s, включающий заключается в том, что ошибка s стандартная равна [2] [3] , а стандартная ошибка несмещенной оценки равна
Эмпирическое правило нормального для распределения
Если вычисление функции c 4 ( n ) кажется слишком сложным, есть простое эмпирическое правило: [4] взять оценщика
Формула отличается от привычного выражения для s 2 только если будет n − 1,5 вместо n − 1 в знаменателе . Это выражение является лишь приблизительным; фактически,
Смещение относительно невелико: скажем, для она равна 2,3%, а для смещение уже составляет 0,1%.
Другие дистрибутивы [ править ]
В тех случаях, когда статистически независимые данные моделируются параметрическим семейством распределений, отличных от нормального распределения , стандартное отклонение генеральной совокупности, если оно существует, будет функцией параметров модели. Одним из общих подходов к оценке является метод максимального правдоподобия . В качестве альтернативы можно использовать теорему Рао-Блэквелла как способ найти хорошую оценку стандартного отклонения. Ни в том, ни в другом случае полученные оценки обычно не будут несмещенными. Теоретически можно было бы получить теоретические поправки, которые привели бы к несмещенным оценкам, но, в отличие от оценок для нормального распределения, они обычно будут зависеть от оцениваемых параметров.
Если требуется просто уменьшить погрешность оценки стандартного отклонения, а не полностью устранить ее, то доступны два практических подхода, оба в контексте повторной выборки . Это складной нож и бутстрэппинг . Оба могут применяться либо к параметрическим оценкам стандартного отклонения, либо к выборочному стандартному отклонению.
Для ненормальных распределений приближенное (с точностью до O ( n −1 ) члены) формула для несмещенной оценки стандартного отклонения:
где γ 2 популяции обозначает избыточный эксцесс . Избыточный эксцесс может быть либо известен заранее для определенных распределений, либо оценен на основе данных.
Эффект автокорреляции (серийной корреляции) [ править ]
Приведенный выше материал, чтобы еще раз подчеркнуть эту мысль, применим только к независимым данным. Однако реальные данные часто не отвечают этому требованию; это автокорреляция (также известная как серийная корреляция). Например, последовательные показания измерительного прибора, который включает в себя некоторую форму процесса «сглаживания» (вернее, фильтрации нижних частот), будут автокоррелированы, поскольку любое конкретное значение рассчитывается на основе некоторой комбинации более ранних и поздних показаний.
Оценки дисперсии и стандартного отклонения автокоррелированных данных будут смещены. Ожидаемое значение выборочной дисперсии равно [5]
где n — размер выборки (количество измерений) и — автокорреляционная функция (ACF) данных. (Обратите внимание, что выражение в скобках представляет собой просто единицу минус среднее ожидаемое значение автокорреляции для показаний.) Если АКФ состоит из положительных значений, то оценка дисперсии (и ее квадратного корня, стандартного отклонения) будет иметь низкое смещение. То есть фактическая изменчивость данных будет больше, чем та, на которую указывает расчет неисправленной дисперсии или стандартного отклонения. Важно понимать, что если это выражение будет использоваться для поправки на погрешность, то путем деления оценки величиной в скобках выше, то АКФ должен быть известен аналитически , а не путем оценки на основе данных. Это связано с тем, что расчетная АКФ сама по себе будет смещенной. [6]
смещения стандартного Пример отклонения
Чтобы проиллюстрировать величину систематической ошибки стандартного отклонения, рассмотрим набор данных, состоящий из последовательных показаний прибора, использующего определенный цифровой фильтр, АКФ которого, как известно, определяется выражением
где α — параметр фильтра, принимающий значения от нуля до единицы. Таким образом, АКФ положителен и геометрически убывает.

На рисунке показано отношение оцененного стандартного отклонения к его известному значению (которое может быть рассчитано аналитически для этого цифрового фильтра) для нескольких настроек α в зависимости от размера выборки n . Изменение α изменяет коэффициент уменьшения дисперсии фильтра, который, как известно,
так что меньшие значения α приводят к большему уменьшению дисперсии или «сглаживанию». Смещение обозначается значениями на вертикальной оси, отличными от единицы; то есть, если бы не было систематической ошибки, отношение оцененного к известному стандартному отклонению было бы единицей. Очевидно, что при небольших размерах выборки может иметь место значительная погрешность (в два и более раз).
Отклонение среднего [ править ]
Часто представляет интерес оценить дисперсию или стандартное отклонение предполагаемого среднего значения, а не дисперсию генеральной совокупности. Когда данные автокоррелированы, это оказывает прямое влияние на теоретическую дисперсию выборочного среднего значения, которая составляет [7]
Затем дисперсию выборочного среднего можно оценить, подставив оценку σ 2 . Одну такую оценку можно получить из уравнения для E[s 2 ] приведено выше. Сначала определите следующие константы, предполагая, опять же, известную АКФ:
так что
Это говорит о том, что ожидаемое значение величины, полученное путем деления наблюдаемой выборочной дисперсии на поправочный коэффициент дает несмещенную оценку дисперсии. Аналогично, переписав приведенное выше выражение для дисперсии среднего значения:
и подставив оценку на дает [8]
который представляет собой несмещенную оценку дисперсии среднего значения с точки зрения наблюдаемой выборочной дисперсии и известных величин. Если автокорреляции тождественно равны нулю, это выражение сводится к хорошо известному результату для дисперсии среднего значения для независимых данных. Эффект оператора ожидания в этих выражениях заключается в том, что равенство сохраняется в среднем (т. е. в среднем).
совокупности генеральной Оценка стандартного отклонения
Имея приведенные выше выражения, включающие дисперсию совокупности и оценку среднего значения этой совокупности, казалось бы логичным просто извлечь квадратный корень из этих выражений, чтобы получить несмещенные оценки соответствующих стандартных отклонений. Однако дело в том, что, поскольку ожидания являются интегралами,
Вместо этого предположим, что существует функция θ такая, что несмещенную оценку стандартного отклонения можно записать
и θ зависит от размера выборки n и АКФ. В случае данных NID (нормально и независимо распределенных) подкоренное выражение равно единице, а θ — это просто функция c 4, указанная в первом разделе выше. Как и в случае с c 4 , θ приближается к единице по мере увеличения размера выборки (как и γ 1 ).
С помощью имитационного моделирования можно продемонстрировать, что игнорирование θ (то есть принимая его за единицу) и использование
удаляет все смещения, вызванные автокорреляцией, кроме нескольких процентов, что делает эту оценку уменьшенной -смещенной, а не несмещенной оценкой. В практических ситуациях измерения такое снижение погрешности может быть значительным и полезным, даже если остается некоторая относительно небольшая погрешность. Рисунок выше, показывающий пример смещения стандартного отклонения в зависимости от размера выборки, основан на этом приближении; фактическое смещение будет несколько больше, чем указано на этих графиках, поскольку смещение преобразования θ туда не включено.
Оценка стандартного отклонения выборочного среднего [ править ]
Несмещенная дисперсия среднего значения с точки зрения генеральной дисперсии и АКФ определяется выражением
и поскольку здесь нет ожидаемых значений, в этом случае можно извлечь квадратный корень, так что
Используя приведенное выше выражение несмещенной оценки для σ , оценка стандартного отклонения среднего значения будет тогда
Если данные являются NID, так что ACF исчезает, это сводится к
При наличии ненулевой АКФ игнорирование функции θ, как и раньше, приводит к уменьшенной оценке -смещения
что опять-таки можно продемонстрировать, что оно устраняет большую часть предвзятости.
См. также [ править ]
Ссылки [ править ]
- ^ Бен В. Болч, «Подробнее о несмещенной оценке стандартного отклонения», The American Statistician, 22 (3), стр. 27 (1968)
- ^ Дункан, AJ, Контроль качества и промышленная статистика , 4-е изд., Ирвин (1974). ISBN 0-256-01558-9 , стр.139.
- ^ * Н.Л. Джонсон, С. Коц и Н. Балакришнан, Непрерывные одномерные распределения, Том 1 , 2-е издание, Wiley and sons, 1994. ISBN 0-471-58495-9 . Глава 13, раздел 8.2
- ^ Ричард М. Брюггер, «Заметки о несмещенной оценке стандартного отклонения», Американский статистик (23) 4 стр. 32 (1969)
- ^ Лоу и Келтон, Имитационное моделирование и анализ , 2-е изд. МакГроу-Хилл (1991), стр.284, ISBN 0-07-036698-5 . Это выражение можно получить из его первоначального источника в книге Андерсона «Статистический анализ временных рядов» , Wiley (1971), ISBN 0-471-04745-7 , стр. 448, уравнение 51.
- ^ Ло и Келтон, стр.286. Это смещение количественно выражено у Андерсона, стр. 448, уравнения 52–54.
- ^ Ло и Келтон, стр.285. Это уравнение можно вывести из теоремы 8.2.3 Андерсона. Он также появляется в книге Бокса, Дженкинса, Рейнселя, «Анализ временных рядов: прогнозирование и контроль» , 4-е изд. Уайли (2008), ISBN 978-0-470-27284-8 , стр.31.
- ↑ Ло и Келтон, стр.285.
- Дуглас К. Монтгомери и Джордж К. Рангер, Прикладная статистика и теория вероятностей для инженеров , 3-е издание, Wiley and sons, 2003. (см. разделы)
Внешние ссылки [ править ]
- Интерактивная графика Java , показывающая PDF-файл Helmert, из которого получены коэффициенты коррекции смещения.
- Демонстрация моделирования Монте-Карло для объективной оценки стандартного отклонения.
- http://www.itl.nist.gov/div898/handbook/pmc/section3/pmc32.htm Что такое диаграммы управления переменными?
Эта статья включает общедоступные материалы Национального института стандартов и технологий.