Jump to content

Оценщик

Простые L-оценки можно визуально оценить по ящичковой диаграмме и включают в себя межквартильный размах , средний шарнир , размах , средний диапазон и тримин .

В статистике L -оценка — это оценка , которая представляет собой линейную комбинацию порядковых статистик измерений (также называемую L-статистикой ). Это может быть всего лишь одна точка, как в случае медианы (нечетного числа значений), или все точки, как в случае среднего значения.

Основные преимущества L-оценок заключаются в том, что они часто являются чрезвычайно простыми и зачастую надежными статистическими данными : при условии, что данные отсортированы, их очень легко вычислять и интерпретировать, и они часто устойчивы к выбросам. Таким образом, они полезны в надежной статистике, в качестве описательной статистики , в статистическом образовании , а также в тех случаях, когда вычисления затруднены. Однако они неэффективны , и в наше время предпочтение отдается надежным статистическим М-оценкам , хотя они гораздо сложнее в вычислительном отношении. Во многих случаях L-оценщики достаточно эффективны и, следовательно, подходят для первоначальной оценки.

Основным примером является медиана . Учитывая n значений , если нечетно, медиана равна , - статистика порядка; если четно, это среднее значение двух статистик порядка: . Обе они представляют собой линейные комбинации порядковой статистики, поэтому медиана является простым примером L-оценщика.

Более подробный список примеров включает: с одной точкой, максимумом, минимумом или любой статистикой или квантилем одного порядка ; с одной или двумя точками – медиана; с двумя точками: средний диапазон , диапазон , средний итог ( обрезанный средний диапазон, включая средний шарнир ) и усеченный диапазон (включая межквартильный диапазон и междецильный диапазон ); с тремя точками — тримен ; при фиксированной доле баллов — усеченное среднее (включая межквартильное среднее ) и винсоризованное среднее ; со всеми точками среднее.

Обратите внимание, что некоторые из них (например, медиана или средний диапазон) являются мерами центральной тенденции и используются в качестве оценок параметра местоположения , например среднего значения нормального распределения, тогда как другие (например, диапазон или усеченный диапазон) являются мерами статистической дисперсии и используются в качестве оценки параметра масштаба , такого как стандартное отклонение нормального распределения.

L-оценщики также могут измерять форму распределения, помимо местоположения и масштаба. Например, средний шарнир минус медиана представляет собой трехчленную L-оценку, которая измеряет асимметрию , а другие различия промежуточных итогов дают меры асимметрии в разных точках хвоста. [1]

Выборочные L-моменты являются L-оценками L-момента совокупности и имеют довольно сложные выражения. L-моменты обычно рассматриваются отдельно; подробности см. в этой статье.

Надежность

[ редактировать ]

L-оценщики часто статистически устойчивы и имеют высокую точку пробоя . Это определяется как доля измерений, которую можно произвольно изменить, не вызывая стремления итоговой оценки к бесконечности (т. е. «нарушения»). Точка разбивки L-оценщика определяется статистикой ближайшего порядка к минимуму или максимуму: например, медиана имеет точку разбивки 50% (наивысший возможный уровень), а n усеченное или винсоризованное среднее % имеет разбивку. точка n %.

Не все L-оценки устойчивы; если он включает минимум или максимум, то его точка пробоя равна 0. Эти неробастные L-оценки включают минимум, максимум, среднее значение и средний диапазон. Однако урезанные эквиваленты являются надежными.

Надежные L-оценщики, используемые для измерения дисперсии, такие как IQR, обеспечивают надежные меры масштаба .

Приложения

[ редактировать ]

При практическом использовании в надежной статистике L-оценщики были заменены M-оценками , которые обеспечивают надежную статистику, которая также имеет высокую относительную эффективность , но за счет большей вычислительной сложности и непрозрачности.

Однако простота L-оценок означает, что их легко интерпретировать и визуализировать, что делает их пригодными для описательной статистики и статистического образования ; многие из них можно даже вычислить в уме на основе сводки из пяти или семи цифр или визуализировать с помощью коробчатой ​​диаграммы . L-оценки играют фундаментальную роль во многих подходах к непараметрической статистике .

Несмотря на то, что L-оценщики не являются параметрическими, они часто используются для оценки параметров , как указано в названии, хотя их часто необходимо корректировать, чтобы получить несмещенную согласованную оценку . Выбор L-оценщика и корректировка зависят от распределения, параметр которого оценивается.

Например, при оценке параметра местоположения для симметричного распределения симметричный L-оценщик (такой как медиана или средний шарнир) будет несмещенным. Однако если распределение имеет перекос , симметричные L-оценки, как правило, будут смещены и требуют корректировки. Например, в асимметричном распределении непараметрическая асимметрия коэффициенты асимметрии Пирсона ) измеряют смещение медианы как оценки среднего значения.

При оценке параметра масштаба , например, при использовании L-оценщика в качестве надежной меры масштаба , например, для оценки дисперсии генеральной совокупности или стандартного отклонения генеральной совокупности , обычно необходимо умножить ее на масштабный коэффициент , чтобы сделать ее несмещенной последовательной оценкой; см. параметр масштаба: оценка .

Например, разделив IQR на (с использованием функции ошибок ) делает его несмещенной, последовательной оценкой стандартного отклонения генеральной совокупности, если данные соответствуют нормальному распределению .

L-оценщики также могут использоваться как самостоятельные статистические данные — например, медиана — это мера местоположения, а IQR — мера дисперсии. В этих случаях выборочная статистика может выступать в качестве оценки собственного ожидаемого значения ; например, выборочная медиана является оценкой медианы генеральной совокупности.

Преимущества

[ редактировать ]

Помимо простоты, L-оценщики также часто легко вычисляются и надежны.

Предполагая, что данные отсортированы, L-оценки, включающие всего несколько точек, можно рассчитать с гораздо меньшим количеством математических операций, чем эффективные оценки. [2] [3] До появления электронных калькуляторов и компьютеров они предоставляли полезный способ извлечь большую часть информации из образца с минимальными трудозатратами. Они продолжали использоваться на практике до начала и середины 20-го века, когда была возможна автоматическая сортировка данных перфокарт , но вычисления оставались трудными. [2] и до сих пор используется для оценок, содержащих список числовых значений в немашиночитаемой форме , где ввод данных обходится дороже, чем сортировка вручную. Они также позволяют осуществлять быструю оценку.

L-оценки часто гораздо более надежны, чем максимально эффективные традиционные методы: медиана максимально статистически устойчива 50% , имеет точку пробоя , а усеченный средний диапазон X% имеет точку пробоя X%, в то время как выборочное среднее (которое максимально эффективный) минимально устойчив и разрушается из-за одного выброса.

Эффективность

[ редактировать ]

Хотя L-оценки не так эффективны, как другие статистические данные, они часто имеют достаточно высокую относительную эффективность и показывают, что большую часть информации, используемой при оценке, можно получить, используя всего несколько точек – всего одну, две или три. . С другой стороны, они показывают, что статистика заказов содержит значительный объем информации.

Например, с точки зрения эффективности, учитывая выборку числового параметра нормально распределенного , среднее арифметическое (среднее) для совокупности можно оценить с максимальной эффективностью, вычислив выборочное среднее — сложив все члены выборки и разделив на количество членов.

Однако для большого набора данных (более 100 точек) из симметричной совокупности среднее значение можно оценить достаточно эффективно по сравнению с наилучшей оценкой с помощью L-оценщиков. Используя одну точку, это делается путем взятия медианы выборки без каких-либо вычислений (кроме сортировки); это дает эффективность 64% или выше (для всех n ). Используя две точки, простой оценкой является средний шарнир 25% , обрезанный на ( средний диапазон ), но более эффективной оценкой является средний диапазон, обрезанный на 29%, то есть усреднение двух значений на 29% от наименьшего значения. и самые большие значения: 29-й и 71-й процентили; это имеет эффективность около 81%. [3] Для трех точек можно использовать тримеан (среднее медианы и среднего шарнира), хотя среднее значение 20-го, 50-го и 80-го процентиля дает эффективность 88%. Использование дополнительных точек дает более высокую эффективность, хотя примечательно, что для очень высокой эффективности необходимы только 3 точки.

Для оценки стандартного отклонения нормального распределения масштабированный междецильный диапазон дает достаточно эффективную оценку, хотя вместо этого берется усеченный диапазон 7% (разница между 7-м и 93-м процентилями) и деление на 3 (что соответствует 86% данных). нормального распределения, находящегося в пределах 1,5 стандартных отклонений от среднего значения), дает оценку эффективности около 65%. [3]

Для небольших выборок L-оценки также относительно эффективны: средняя сумма 3-й точки с каждого конца имеет эффективность около 84% для выборок размером около 10, а диапазон, разделенный на имеет достаточно хорошую эффективность для размеров до 20, хотя она падает с увеличением n , и масштабный коэффициент может быть улучшен (эффективность 85% для 10 баллов). Другие эвристические оценки для небольших выборок включают диапазон более n (для стандартной ошибки) и квадрат диапазона по медиане (для хи-квадрат распределения Пуассона). [3]

См. также

[ редактировать ]
  1. ^ Веллеман и Хоглин 1981 .
  2. ^ Jump up to: а б Мостеллер 2006 .
  3. ^ Jump up to: а б с д Эванс 1955 , Приложение G: Неэффективная статистика, стр. 902–904 .
  • Эванс, Робли Данглисон (1955). Атомное ядро . Международная серия по чистой и прикладной физике. МакГроу-Хилл. стр. 972 . ISBN  0-89874414-8 .
  • Фрайман, Р.; Мелош, Дж.; Гарсиа-Эскудеро, Луизиана; Гордализа, А.; Он, Х .; Маронна, Р.; Йохай, VCJ; Шизер, С.Дж.; Маккин, JW; Маленький, компьютерная графика; Вуд, А.; Фрайман, Р.; Мелош, Дж. (1999). «Многомерная L-оценка». Тест . 8 (2): 255–317. дои : 10.1007/BF02595872 .
  • Хубер, Питер Дж. (2004). Надежная статистика . Нью-Йорк: Wiley-Interscience. ISBN  0-471-65072-2 .
  • Мостеллер, Фредерик (2006) [1946]. «О некоторых полезных «неэффективных» статистических данных». В Финберге, Стивен; Хоглин, Дэвид (ред.). Избранные статьи Фредерика Мостеллера . Серия Спрингера по статистике. Нью-Йорк: Спрингер. стр. 69 –100. дои : 10.1007/978-0-387-44956-2_4 . ISBN  978-0-387-20271-6 .
  • Шао, Цзюнь (2003). Математическая статистика . Берлин: Springer-Verlag. ISBN  0-387-95382-5 . – сек. 5.2.2
  • Веллеман, П.Ф.; Хоглин, округ Колумбия (1981). Приложения, основы и вычисления исследовательского анализа данных . ISBN  0-87150-409-Х .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4540a5dd82029ac75aa7f529ddf732dd__1717695600
URL1:https://arc.ask3.ru/arc/aa/45/dd/4540a5dd82029ac75aa7f529ddf732dd.html
Заголовок, (Title) документа по адресу, URL1:
L-estimator - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)