Обрезанная оценка
В статистике усеченная оценка — это оценка, полученная из другой оценки путем исключения некоторых крайних значений (процесс, называемый усечением) . Обычно это делается для получения более надежной статистики , а экстремальные значения считаются выбросами . [1] Усеченные оценки также часто имеют более высокую эффективность для смешанных распределений и распределений с тяжелым хвостом , чем соответствующие необрезанные оценки, за счет более низкой эффективности для других распределений, таких как нормальное распределение .
Учитывая оценщик, обрезанная версия x% получается путем отбрасывания самых низких или самых высоких наблюдений x% или с обоих концов: это статистика в середине данных. Например, усеченное среднее значение 5 % получается путем взятия среднего значения в диапазоне от 5 % до 95 %. В некоторых случаях усеченный оценщик отбрасывает фиксированное количество точек (например, максимум и минимум) вместо процента.
Примеры
[ редактировать ]Медиана — это наиболее усеченная статистика (номинально 50%), поскольку она отбрасывает все данные, кроме самых центральных, и равна полностью усеченному среднему значению — или даже полностью усеченному среднему диапазону, или (для наборов данных нечетного размера) полностью усеченному значению. максимум или минимум. Аналогично, никакая степень обрезки не оказывает никакого влияния на медиану (обрезанная медиана является медианой), поскольку обрезка всегда исключает равное количество самых низких и самых высоких значений.
Квантили можно рассматривать как усеченные максимумы или минимумы: например, 5-й процентиль — это усеченный минимум на 5%.
Обрезанные оценки, используемые для оценки параметра местоположения, включают:
- Обрезанное среднее
- Модифицированное среднее значение , отбрасывающее минимальное и максимальное значения
- Межквартильное среднее 25 % . , усеченное среднее значение
- Midhinge , средний диапазон с обрезкой 25%.
Обрезанные оценки, используемые для оценки параметра масштаба, включают:
- Межквартильный размах , обрезанный диапазон на 25 %.
- Междецильный диапазон , обрезанный диапазон 10 %.
Обрезанные оценки, включающие только линейные комбинации точек, являются примерами L-оценок .
Приложения
[ редактировать ]Оценка
[ редактировать ]Чаще всего усеченные оценки используются для оценки того же параметра, что и необрезанная оценка. В некоторых случаях оценщик можно использовать напрямую, а в других случаях его необходимо настроить для получения несмещенной согласованной оценки .
Например, при оценке параметра местоположения для симметричного распределения усеченная оценка будет несмещенной (при условии, что исходная оценка была несмещенной), поскольку она удаляет одинаковую величину сверху и снизу. Однако если распределение имеет перекос , усеченные оценки, как правило, будут смещены и требуют корректировки. Например, в асимметричном распределении непараметрическая асимметрия (и коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценки среднего значения.
При оценке параметра масштаба с использованием усеченной оценки в качестве надежной меры масштаба , например, для оценки дисперсии генеральной совокупности или стандартного отклонения генеральной совокупности , обычно необходимо умножить ее на масштабный коэффициент , чтобы сделать ее несмещенной последовательной оценкой; см. параметр масштаба: оценка .
Например, разделив IQR на (с использованием функции ошибок ) делает его несмещенной, последовательной оценкой стандартного отклонения генеральной совокупности, если данные соответствуют нормальному распределению .
Другое использование
[ редактировать ]Усеченные оценки также можно использовать как самостоятельные статистические данные: например, медиана является мерой местоположения, а IQR — мерой дисперсии. В этих случаях выборочная статистика может выступать в качестве оценки собственного ожидаемого значения . Например, MAD выборки из стандартного распределения Коши является оценкой MAD генеральной совокупности, которая в данном случае равна 1, тогда как генеральная дисперсия не существует.
См. также
[ редактировать ]- Винсоризинг , родственная техника
- Базовая инфляция — экономическая статистика, в которой отсутствуют волатильные компоненты.
Ссылки
[ редактировать ]- ^ Кальтенбах, Ганс Михаэль (2012). Краткое руководство по статистике . Гейдельберг: Спрингер. ISBN 978-3-642-23502-3 . OCLC 763157853 .
Эта статья нуждается в дополнительных цитатах для проверки . ( апрель 2013 г. ) |