Оценщик

В статистике L -оценка — это оценка , которая представляет собой линейную комбинацию порядковых статистик измерений (также называемую L-статистикой ). Это может быть всего лишь одна точка, как в случае медианы (нечетного числа значений), или все точки, как в случае среднего значения.
Основные преимущества L-оценок заключаются в том, что они часто являются чрезвычайно простыми и зачастую надежными статистическими данными : при условии, что данные отсортированы, их очень легко вычислять и интерпретировать, и они часто устойчивы к выбросам. Таким образом, они полезны в надежной статистике, в качестве описательной статистики , в статистическом образовании , а также в тех случаях, когда вычисления затруднены. Однако они неэффективны , и в наше время предпочтение отдается надежным статистическим М-оценкам , хотя они гораздо сложнее в вычислительном отношении. Во многих случаях L-оценщики достаточно эффективны и, следовательно, подходят для первоначальной оценки.
Примеры
[ редактировать ]Основным примером является медиана . Учитывая n значений , если нечетно, медиана равна , - статистика порядка; если четно, это среднее значение двух статистик порядка: . Обе они представляют собой линейные комбинации порядковой статистики, поэтому медиана является простым примером L-оценщика.
Более подробный список примеров включает: с одной точкой, максимумом, минимумом или любой статистикой или квантилем одного порядка ; с одной или двумя точками – медиана; с двумя точками: средний диапазон , диапазон , средний итог ( обрезанный средний диапазон, включая средний шарнир ) и усеченный диапазон (включая межквартильный диапазон и междецильный диапазон ); с тремя точками — тримен ; при фиксированной доле баллов — усеченное среднее (включая межквартильное среднее ) и винсоризованное среднее ; со всеми точками среднее.
Обратите внимание, что некоторые из них (например, медиана или средний диапазон) являются мерами центральной тенденции и используются в качестве оценок параметра местоположения , например среднего значения нормального распределения, тогда как другие (например, диапазон или усеченный диапазон) являются мерами статистической дисперсии и используются в качестве оценки параметра масштаба , такого как стандартное отклонение нормального распределения.
L-оценщики также могут измерять форму распределения, помимо местоположения и масштаба. Например, средний шарнир минус медиана представляет собой трехчленную L-оценку, которая измеряет асимметрию , а другие различия промежуточных итогов дают меры асимметрии в разных точках хвоста. [1]
Выборочные L-моменты являются L-оценками L-момента совокупности и имеют довольно сложные выражения. L-моменты обычно рассматриваются отдельно; подробности см. в этой статье.
Надежность
[ редактировать ]L-оценщики часто статистически устойчивы и имеют высокую точку пробоя . Это определяется как доля измерений, которую можно произвольно изменить, не вызывая стремления итоговой оценки к бесконечности (т. е. «нарушения»). Точка разбивки L-оценщика определяется статистикой ближайшего порядка к минимуму или максимуму: например, медиана имеет точку разбивки 50% (наивысший возможный уровень), а n усеченное или винсоризованное среднее % имеет разбивку. точка n %.
Не все L-оценки устойчивы; если он включает минимум или максимум, то его точка пробоя равна 0. Эти неробастные L-оценки включают минимум, максимум, среднее значение и средний диапазон. Однако урезанные эквиваленты являются надежными.
Надежные L-оценщики, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные меры масштаба .
Приложения
[ редактировать ]При практическом использовании в надежной статистике L-оценщики были заменены M-оценками , которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность , но за счет большей вычислительной сложности и непрозрачности.
Однако простота L-оценок означает, что их легко интерпретировать и визуализировать, что делает их пригодными для описательной статистики и статистического образования ; многие из них можно даже вычислить в уме на основе сводки из пяти или семи цифр или визуализировать с помощью коробчатой диаграммы . L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике .
Несмотря на то, что L-оценщики не являются параметрическими, они часто используются для оценки параметров , как указано в названии, хотя их часто необходимо корректировать, чтобы получить несмещенную согласованную оценку . Выбор L-оценщика и корректировка зависят от распределения, параметр которого оценивается.
Например, при оценке параметра местоположения для симметричного распределения симметричный L-оценщик (такой как медиана или средний шарнир) будет несмещенным. Однако если распределение имеет перекос , симметричные L-оценки, как правило, будут смещены и требуют корректировки. Например, в асимметричном распределении непараметрическая асимметрия (и коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценки среднего значения.
При оценке параметра масштаба , например, при использовании L-оценщика в качестве надежной меры масштаба , например, для оценки дисперсии генеральной совокупности или стандартного отклонения генеральной совокупности , обычно необходимо умножить ее на масштабный коэффициент , чтобы сделать ее несмещенной последовательной оценкой; см. параметр масштаба: оценка .
Например, разделив IQR на (с использованием функции ошибок ) делает его несмещенной, последовательной оценкой стандартного отклонения генеральной совокупности, если данные соответствуют нормальному распределению .
L-оценщики также могут использоваться как самостоятельные статистические данные — например, медиана — это мера местоположения, а IQR — мера дисперсии. В этих случаях выборочная статистика может выступать в качестве оценки собственного ожидаемого значения ; например, выборочная медиана является оценкой медианы генеральной совокупности.
Преимущества
[ редактировать ]Помимо простоты, L-оценщики также часто легко вычисляются и надежны.
Предполагая, что данные отсортированы, L-оценки, включающие всего несколько точек, можно рассчитать с гораздо меньшим количеством математических операций, чем эффективные оценки. [2] [3] До появления электронных калькуляторов и компьютеров они предоставляли полезный способ извлечь большую часть информации из образца с минимальными трудозатратами. Они продолжали использоваться на практике до начала и середины 20-го века, когда была возможна автоматическая сортировка данных перфокарт , но вычисления оставались трудными. [2] и до сих пор используется для оценок, содержащих список числовых значений в немашиночитаемой форме , где ввод данных обходится дороже, чем сортировка вручную. Они также позволяют осуществлять быструю оценку.
L-оценки часто гораздо более надежны, чем максимально эффективные традиционные методы: медиана максимально статистически устойчива 50% , имеет точку пробоя , а усеченный средний диапазон X% имеет точку пробоя X%, в то время как выборочное среднее (которое максимально эффективный) минимально устойчив и разрушается из-за одного выброса.
Эффективность
[ редактировать ]Хотя L-оценки не так эффективны, как другие статистические данные, они часто имеют достаточно высокую относительную эффективность и показывают, что большую часть информации, используемой при оценке, можно получить, используя всего несколько точек – всего одну, две или три. . С другой стороны, они показывают, что статистика заказов содержит значительный объем информации.
Например, с точки зрения эффективности, учитывая выборку числового параметра нормально распределенного , среднее арифметическое (среднее) для совокупности можно оценить с максимальной эффективностью, вычислив выборочное среднее — сложив все члены выборки и разделив на количество членов.
Однако для большого набора данных (более 100 точек) из симметричной совокупности среднее значение можно оценить достаточно эффективно по сравнению с наилучшей оценкой с помощью L-оценщиков. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или выше (для всех n ). Используя две точки, простой оценкой является средний шарнир 25% , обрезанный на ( средний диапазон ), но более эффективной оценкой является средний диапазон, обрезанный на 29%, то есть усреднение двух значений на 29% от наименьшего значения. и самые большие значения: 29-й и 71-й процентили; это имеет эффективность около 81%. [3] Для трех точек можно использовать тримеан (среднее медианы и среднего шарнира), хотя среднее значение 20-го, 50-го и 80-го процентиля дает эффективность 88%. Использование дополнительных точек дает более высокую эффективность, хотя примечательно, что для очень высокой эффективности необходимы только 3 точки.
Для оценки стандартного отклонения нормального распределения масштабированный междецильный диапазон дает достаточно эффективную оценку, хотя вместо этого берется усеченный диапазон 7% (разница между 7-м и 93-м процентилями) и деление на 3 (что соответствует 86% данных). нормального распределения, находящегося в пределах 1,5 стандартных отклонений от среднего значения), дает оценку эффективности около 65%. [3]
Для небольших выборок L-оценки также относительно эффективны: средняя сумма 3-й точки с каждого конца имеет эффективность около 84% для выборок размером около 10, а диапазон, разделенный на имеет достаточно хорошую эффективность для размеров до 20, хотя она падает с увеличением n , и масштабный коэффициент может быть улучшен (эффективность 85% для 10 баллов). Другие эвристические оценки для небольших выборок включают диапазон более n (для стандартной ошибки) и квадрат диапазона по медиане (для хи-квадрат распределения Пуассона). [3]
См. также
[ редактировать ]Ссылки
[ редактировать ]![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Апрель 2013 г. ) |
- ^ Веллеман и Хоглин 1981 .
- ^ Jump up to: а б Мостеллер 2006 .
- ^ Jump up to: а б с д Эванс 1955 , Приложение G: Неэффективная статистика, стр. 902–904 .
- Эванс, Робли Данглисон (1955). Атомное ядро . Международная серия по чистой и прикладной физике. МакГроу-Хилл. стр. 972 . ISBN 0-89874414-8 .
- Фрайман, Р.; Мелош, Дж.; Гарсиа-Эскудеро, Луизиана; Гордализа, А.; Он, Х .; Маронна, Р.; Йохай, VCJ; Шизер, С.Дж.; Маккин, JW; Маленький, компьютерная графика; Вуд, А.; Фрайман, Р.; Мелош, Дж. (1999). «Многомерная L-оценка». Тест . 8 (2): 255–317. дои : 10.1007/BF02595872 .
- Хубер, Питер Дж. (2004). Надежная статистика . Нью-Йорк: Wiley-Interscience. ISBN 0-471-65072-2 .
- Мостеллер, Фредерик (2006) [1946]. «О некоторых полезных «неэффективных» статистических данных». В Финберге, Стивен; Хоглин, Дэвид (ред.). Избранные статьи Фредерика Мостеллера . Серия Спрингера по статистике. Нью-Йорк: Спрингер. стр. 69 –100. дои : 10.1007/978-0-387-44956-2_4 . ISBN 978-0-387-20271-6 .
- Шао, Цзюнь (2003). Математическая статистика . Берлин: Springer-Verlag. ISBN 0-387-95382-5 . – сек. 5.2.2
- Веллеман, П.Ф.; Хоглин, округ Колумбия (1981). Приложения, основы и вычисления исследовательского анализа данных . ISBN 0-87150-409-Х .