Эффективность (статистика)

В статистике эффективность — это мера качества оценщика , плана эксперимента, ^[1] или процедуры проверки гипотезы . ^[2] более эффективному оценщику требуется меньше входных данных или наблюдений, чем менее эффективному По сути, для достижения границы Крамера-Рао . характеризуется Эффективная оценка наименьшей возможной дисперсией , что указывает на небольшое отклонение между оцененным значением и «истинным» значением в смысле нормы L2 . ^[1]

Относительная эффективность двух процедур представляет собой соотношение их эффективности, хотя часто это понятие используется там, где проводится сравнение данной процедуры и условно «наилучшей возможной» процедуры. Эффективность и относительная эффективность двух процедур теоретически зависят от размера выборки, доступной для данной процедуры, но часто можно использовать асимптотическую относительную эффективность (определяемую как предел относительной эффективности при увеличении размера выборки) в качестве основного параметра. мера сравнения.

Оценщики [ править ]

Эффективность несмещенной оценки T параметра θ как определяется ^[3]

e(T)={\frac {1/{\mathcal {I}}(\theta )}{\operatorname {var} (T)}}

где ${\mathcal {I}}(\theta )$ – информация Фишера выборки. Таким образом, e ( T ) — это минимально возможная дисперсия для несмещенной оценки, деленная на ее фактическую дисперсию. Границу Крамера –Рао можно использовать, чтобы доказать, что e ( T ) ≤ 1.

Эффективные оценки [ править ]

Эффективный оценщик — это оценщик , который оценивает интересующую величину каким-то «наилучшим возможным» способом. Понятие «наилучшее возможное» основано на выборе конкретной функции потерь — функции, которая количественно определяет относительную степень нежелательности ошибок оценки различной величины. Наиболее распространенным выбором функции потерь является квадратичная функция , что приводит к среднеквадратической ошибки . критерию оптимальности ^[4]

В общем, разброс оценщика вокруг параметра θ является мерой эффективности и производительности оценщика. Эту производительность можно рассчитать, найдя среднеквадратическую ошибку. Более формально, пусть T будет оценкой параметра θ . Среднеквадратическая ошибка T - это значение $\operatorname {MSE} (T)=E[(T-\theta )^{2}]$ , который можно разложить как сумму его дисперсии и смещения:

{\begin{aligned}\operatorname {MSE} (T)&=\operatorname {E} [(T-\theta )^{2}]=\operatorname {E} [(T-\operatorname {E} [T]+\operatorname {E} [T]-\theta )^{2}]\\[5pt]&=\operatorname {E} [(T-\operatorname {E} [T])^{2}]+2E[T-E[T]](\operatorname {E} [T]-\theta )+(\operatorname {E} [T]-\theta )^{2}\\[5pt]&=\operatorname {var} (T)+(\operatorname {E} [T]-\theta )^{2}\end{aligned}}

Оценка T ₁ работает лучше, чем оценка T _2, если $\operatorname {MSE} (T_{1})<\operatorname {MSE} (T_{2})$ . ^[5] В более конкретном случае, если T ₁ и T ₂ являются двумя несмещенными оценками одного и того же параметра θ, то дисперсию можно сравнить для определения производительности. В этом случае T ₂ более эффективен, T 1 _, если дисперсия T ₂ меньше чем дисперсии T ₁ , т.е. $\operatorname {var} (T_{1})>\operatorname {var} (T_{2})$ для всех значений θ . Эту взаимосвязь можно определить путем упрощения приведенного выше более общего случая среднеквадратичной ошибки; поскольку ожидаемое значение несмещенной оценки равно значению параметра, $\operatorname {E} [T]=\theta$ . Следовательно, для несмещенной оценки $\operatorname {MSE} (T)=\operatorname {var} (T)$ , как $(\operatorname {E} [T]-\theta )^{2}$ член выпадает из-за того, что он равен 0. ^[5]

Если несмещенная оценка параметра θ достигает $e(T)=1$ для всех значений параметра оценка называется эффективной. ^[3]

Эквивалентно, средство оценки достигает равенства в неравенстве Крамера – Рао для всех θ . Нижняя граница Крамера -Рао представляет собой нижнюю границу дисперсии несмещенной оценки, представляющую собой «лучшее», которым может быть несмещенная оценка.

Эффективная оценка также является несмещенной оценкой минимальной дисперсии (MVUE). Это связано с тем, что эффективная оценка поддерживает равенство неравенства Крамера – Рао для всех значений параметров, что означает, что она достигает минимальной дисперсии для всех параметров (определение MVUE). Оценка MVUE, даже если она существует, не обязательно эффективна, поскольку «минимум» не означает, что равенство выполняется в неравенстве Крамера – Рао.

Таким образом, эффективный оценщик не обязательно должен существовать, но если он и существует, то это MVUE.

конечной выборки Эффективность

Предположим , { P _θ | θ ∈ Θ } — параметрическая модель , а X = ( X ₁ , …, X _n ) — данные, выбранные из этой модели. Пусть T = T ( X ) — оценка параметра θ . Если эта оценка несмещена (т. е. E[ T ] = θ ), то неравенство Крамера – Рао утверждает, что дисперсия этой оценки ограничена снизу:

\operatorname {var} [\,T\,]\ \geq \ {\mathcal {I}}_{\theta }^{-1},

где $\scriptstyle {\mathcal {I}}_{\theta }$ — информационная матрица Фишера модели в точке θ . Обычно дисперсия измеряет степень отклонения случайной величины вокруг ее среднего значения. Таким образом, оценки с небольшими отклонениями более концентрированы, они точнее оценивают параметры. Мы говорим, что оценка является эффективной оценкой конечной выборки (в классе несмещенных оценок), если она достигает нижней границы в неравенстве Крамера–Рао, приведенном выше, для всех θ ∈ Θ . Эффективные оценки всегда являются несмещенными оценками с минимальной дисперсией . Однако обратное неверно: существуют задачи точечного оценивания, для которых несмещенная к среднему оценка с минимальной дисперсией неэффективна. ^[6]

Исторически эффективность конечной выборки была ранним критерием оптимальности. Однако этот критерий имеет некоторые ограничения:

Эффективные оценки конечной выборки встречаются крайне редко. Фактически было доказано, что эффективное оценивание возможно только в экспоненциальном семействе и только для натуральных параметров этого семейства. ^[7]
Это понятие эффективности иногда ограничивается классом несмещенных оценок. (Часто это не так. ^[8]) Поскольку нет веских теоретических оснований требовать, чтобы оценки были несмещенными, это ограничение неудобно. Фактически, если мы используем среднеквадратическую ошибку в качестве критерия отбора, многие смещенные оценки будут немного превосходить «лучшие» несмещенные оценки. Например, в многомерной статистике для измерения три или более несмещенная к среднему оценка, выборочное среднее , недопустима : независимо от результата, ее производительность хуже, чем, например, оценка Джеймса – Стейна . ^{[ нужна ссылка ]}
Эффективность конечной выборки основана на дисперсии как критерии, по которому оцениваются оценщики. Более общий подход заключается в использовании функций потерь, отличных от квадратичных, и в этом случае эффективность конечной выборки больше не может быть сформулирована. ^{[ нужна ссылка ]}^{[ сомнительно – обсудить ]}

Например, среди моделей, встречающихся на практике, существуют эффективные оценки для: среднего µ нормального распределения (но не дисперсии σ ²), параметр λ распределения Пуассона , вероятность p в биномиальном или полиномиальном распределении .

Рассмотрим модель нормального распределения с неизвестным средним значением, но известной дисперсией: { P _θ = N ( θ , σ ²) | θ ∈ R }. Данные состоят из n независимых и одинаково распределенных наблюдений из этой модели: X = ( x ₁ , …, x _n ) . Мы оцениваем параметр θ, используя выборочное среднее всех наблюдений:

T(X)={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\ .

Эта оценка имеет среднее значение θ и дисперсию σ ² / n , который равен обратной величине информации Фишера из выборки. Таким образом, выборочное среднее является эффективной оценкой среднего значения нормального распределения для конечной выборки.

эффективность Асимптотическая

Асимптотическая эффективность требует согласованности (статистики) , асимптотического нормального распределения оценки и асимптотической дисперсионно-ковариационной матрицы не хуже, чем любая другая оценка. ^[9]

Пример: Медиана [ править ]

Рассмотрим выборку размером $N$ получено из нормального распределения среднего значения $\mu$ и единичная дисперсия , т. е. $X_{n}\sim {\mathcal {N}}(\mu ,1).$

Выборочное среднее , ${\overline {X}}$ , образца $X_{1},X_{2},\ldots ,X_{N}$ , определяемый как

{\overline {X}}={\frac {1}{N}}\sum _{n=1}^{N}X_{n}\sim {\mathcal {N}}\left(\mu ,{\frac {1}{N}}\right).

Дисперсия среднего значения 1/ N (квадрат стандартной ошибки ) равна обратной величине информации Фишера из выборки, и, таким образом, согласно неравенству Крамера – Рао , выборочное среднее эффективно в том смысле, что его эффективность единица (100%).

Теперь рассмотрим выборочную медиану , ${\widetilde {X}}$ . Это несмещенная и последовательная оценка $\mu$ . Для больших $N$ медиана выборки примерно нормально распределяется со средним значением $\mu$ и дисперсия ${\pi }/{2N},$ ^[10]

{\widetilde {X}}\sim {\mathcal {N}}\left(\mu ,{\frac {\pi }{2N}}\right).

Эффективность медианы для больших $N$ таким образом

e\left({\widetilde {X}}\right)=\left({\frac {1}{N}}\right)\left({\frac {\pi }{2N}}\right)^{-1}=2/\pi \approx 0.64.

Другими словами, относительная дисперсия медианы будет равна $\pi /2\approx 1.57$ , или на 57% больше, чем дисперсия среднего значения – стандартная ошибка медианы будет на 25% больше, чем дисперсия среднего значения. ^[11]

Обратите внимание, что это асимптотическая эффективность, то есть эффективность в пределе размера выборки. $N$ стремится к бесконечности. Для конечных значений $N,$ эффективность выше этого (например, размер выборки 3 дает эффективность около 74%). ^{[ нужна ссылка ]}

Таким образом, в этом примере выборочное среднее более эффективно, чем выборочная медиана. Однако могут существовать показатели, по которым медиана работает лучше. Например, медиана гораздо более устойчива к выбросам , поэтому, если модель Гаусса сомнительна или приблизительна, использование медианы может иметь преимущества (см. Надежная статистика ).

Доминирующие оценки [ править ]

Если $T_{1}$ и $T_{2}$ являются оценками параметра $\theta$ , затем $T_{1}$ говорят, что доминирует $T_{2}$ если:

его среднеквадратическая ошибка (MSE) меньше, по крайней мере, для некоторого значения $\theta$
MSE не превышает $T_{2}$ для любого значения θ.

Формально, $T_{1}$ доминирует $T_{2}$ если

\operatorname {E} [(T_{1}-\theta )^{2}]\leq \operatorname {E} [(T_{2}-\theta )^{2}]

держится для всех $\theta$ , где-то сохраняется строгое неравенство.

эффективность Относительная

Относительная эффективность двух несмещенных оценок определяется как ^[12]

e(T_{1},T_{2})={\frac {\operatorname {E} [(T_{2}-\theta )^{2}]}{\operatorname {E} [(T_{1}-\theta )^{2}]}}={\frac {\operatorname {var} (T_{2})}{\operatorname {var} (T_{1})}}

Хотя $e$ вообще является функцией $\theta$ , во многих случаях зависимость пропадает; если это так, $e$ если оно больше единицы, это будет означать, что $T_{1}$ предпочтительнее, независимо от истинной стоимости $\theta$ .

Альтернативой относительной эффективности сравнения оценок является критерий близости Питмана . Это заменяет сравнение среднеквадратических ошибок сравнением того, как часто один оценщик дает оценки, более близкие к истинному значению, чем другой оценщик.

Если $T_{1}$ и $T_{2}$ являются оценками параметра $\theta$ , затем $T_{1}$ говорят, что доминирует $T_{2}$ если:

его среднеквадратическая ошибка (MSE) меньше, по крайней мере, для некоторого значения $\theta$
MSE не превышает $T_{2}$ для любого значения θ.

Формально, $T_{1}$ доминирует $T_{2}$ если

\mathrm {E} \left[(T_{1}-\theta )^{2}\right]\leq \mathrm {E} \left[(T_{2}-\theta )^{2}\right]

держится для всех $\theta$ , где-то сохраняется строгое неравенство.

Оценщики среднего uid значения переменных

При оценке среднего значения некоррелированных, одинаково распределенных переменных мы можем воспользоваться тем фактом, что дисперсия суммы является суммой дисперсий . В этом случае эффективность можно определить как квадрат коэффициента вариации , т.е. ^[13]

e\equiv \left({\frac {\sigma }{\mu }}\right)^{2}

Таким образом, относительную эффективность двух таких оценок можно интерпретировать как относительный размер выборки одного, необходимый для достижения достоверности другого. Доказательство:

{\frac {e_{1}}{e_{2}}}={\frac {s_{1}^{2}}{s_{2}^{2}}}.

Теперь, потому что $s_{1}^{2}=n_{1}\sigma ^{2},\,s_{2}^{2}=n_{2}\sigma ^{2}$ у нас есть ${\frac {e_{1}}{e_{2}}}={\frac {n_{1}}{n_{2}}}$ , поэтому относительная эффективность выражает относительный размер выборки первой оценки, необходимый для соответствия дисперсии второй.

Прочность [ править ]

Эффективность оценщика может существенно измениться, если распределение изменится, часто падая. Это одна из причин создания робастной статистики : например, такая оценка, как выборочное среднее, является эффективной оценкой генерального среднего нормального распределения, но может быть неэффективной оценкой смешанного распределения двух нормальных распределений с одинаковыми средние и различные отклонения. Например, если распределение представляет собой комбинацию 98% N ( μ, σ ) и 2% N ( μ, 10 σ ), наличие крайних значений из последнего распределения (часто «загрязняющих выбросов») значительно снижает эффективность выборочное среднее как средство оценки μ. Напротив, усеченное среднее менее эффективно для нормального распределения, но более устойчиво (т. е. менее подвержено влиянию) изменений в распределении и, таким образом, может быть более эффективным для смешанного распределения. Аналогичным образом, форма распределения , такая как асимметрия или тяжелые хвосты , может значительно снизить эффективность оценок, предполагающих симметричное распределение или тонкие хвосты.

Использование неэффективных оценок [ править ]

Хотя эффективность является желательным качеством оценщика, ее необходимо сопоставлять с другими соображениями, и оценщик, эффективный для определенных распределений, вполне может быть неэффективным для других распределений. Самое главное, что оценщики, которые эффективны для чистых данных из простого распределения, такого как нормальное распределение (которое является симметричным, унимодальным и имеет тонкие хвосты), могут быть неустойчивыми к загрязнению выбросами и могут быть неэффективными для более сложных распределений. В надежной статистике больше внимания уделяется надежности и применимости к широкому спектру распределений, а не эффективности одного распределения. M-оценщики — это общий класс оценщиков, мотивированных этими проблемами. Они могут быть спроектированы так, чтобы обеспечить как надежность, так и высокую относительную эффективность, хотя в некоторых случаях, возможно, более низкую эффективность, чем традиционные методы оценки. Однако они могут быть очень сложными в вычислительном отношении.

Более традиционной альтернативой являются L-оценщики , которые представляют собой очень простые статистические данные, которые легко вычислять и интерпретировать, во многих случаях они надежны и часто достаточно эффективны для первоначальных оценок. См. применение L-оценок для дальнейшего обсуждения.

Эффективность в статистике [ править ]

Эффективность статистики важна, поскольку она позволяет сравнивать эффективность различных оценщиков. Хотя несмещенная оценка обычно предпочтительнее смещенной, более эффективная смещенная оценка иногда может быть более ценной, чем менее эффективная несмещенная оценка. Например, это может произойти, когда значения смещенной оценки собираются вокруг числа, более близкого к истинному значению. Таким образом, производительность оценщика можно легко предсказать, сравнивая их среднеквадратические ошибки или дисперсии.

Проверка гипотез [ править ]

Для сравнения тестов значимости можно определить значимую меру эффективности на основе размера выборки, необходимого для того, чтобы тест достиг заданной мощности задачи . ^[14]

Эффективность Питмана ^[15] и эффективность Бахадура (или эффективность Ходжеса – Лемана ) ^[16]^[17]^[18] относятся к сравнению эффективности процедур проверки статистических гипотез .

Экспериментальный дизайн [ править ]

Для экспериментальных проектов эффективность связана со способностью проекта достичь цели исследования с минимальными затратами ресурсов, таких как время и деньги. В простых случаях относительную эффективность планов можно выразить как соотношение размеров выборок, необходимых для достижения заданной цели. ^[19]

См. также [ править ]

Примечания [ править ]

^ Jump up to: Перейти обратно: ^а ^б Эверитт 2002 , с. 128.
^ Никулин, М.С. (2001) [1994], «Эффективность статистической процедуры» , Энциклопедия Математики , EMS Press
^ Jump up to: Перейти обратно: ^а ^б Фишер, Р. (1921). «О математических основах теоретической статистики». Философские труды Лондонского королевского общества А. 222 : 309–368. JSTOR 91208 .
^ Эверитт 2002 , с. 128 .
^ Jump up to: Перейти обратно: ^а ^б Деккинг, FM (2007). Современное введение в вероятность и статистику: понимание того, почему и как . Спрингер. стр. 303–305 . ISBN 978-1852338961 .
^ Романо, Джозеф П.; Сигел, Эндрю Ф. (1986). Контрпримеры в теории вероятности и статистике . Чепмен и Холл. п. 194.
^ Ван Трис, Гарри Л. (2013). Оценка обнаружения и теория модуляции . Кристин Л. Белл, Чжи Тянь (второе изд.). Хобокен, Нью-Джерси ISBN 978-1-299-66515-6 . OCLC 851161356 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
^ ДеГрут; Шервиш (2002). Вероятность и статистика (3-е изд.). стр. 440–441.
^ Грин, Уильям Х. (2012). Эконометрический анализ (7-е изд., международное изд.). Бостон: Пирсон. ISBN 978-0-273-75356-8 . OCLC 726074601 .
^ Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета. п. 165 . ISBN 052100618X .
^ Мейндональд, Джон; Браун, В. Джон (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ИСБН 978-1-139-48667-5 .
^ Вакерли, Деннис Д.; Менденхолл, Уильям; Шеффер, Ричард Л. (2008). Математическая статистика с приложениями (Седьмое изд.). Бельмонт, Калифорния: Томсон Брукс/Коул. п. 445 . ISBN 9780495110811 . OCLC 183886598 .
^ Граббс, Фрэнк (1965). Статистические меры точности для стрелков и инженеров-ракетчиков . стр. 26–27.
^ Эверитт 2002 , с. 321.
^ Никитин, Я.Ю. (2001) [1994], «Эффективность, асимптотическая» , Энциклопедия математики , EMS Press
^ «Эффективность Бахадура — Математическая энциклопедия» .
^ Arcones MA "Эффективность Бахадура теста отношения правдоподобия" Препринт
^ Канай И.А. и Оцу, Т. «Оптимальность Ходжеса – Лемана для тестирования моделей моментных условий»
^ Додж, Ю. (2006). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN 0-19-920613-9 .

Ссылки [ править ]

Эверитт, Брайан С. (2002). Кембриджский статистический словарь . Издательство Кембриджского университета. ISBN 0-521-81099-Х .
Леманн, Эрих Л. (1998). Элементы теории большой выборки . Нью-Йорк: Springer Verlag. ISBN 978-0-387-98595-4 .

Дальнейшее чтение [ править ]

Леманн, Эль ; Казелла, Г. (1998). Теория точечной оценки (2-е изд.). Спрингер. ISBN 0-387-98502-6 .
Пфанцагль, Иоганн ; при содействии Р. Хамбокера (1994). Параметрическая статистическая теория . Берлин: Вальтер де Грюйтер. ISBN 3-11-013863-8 . МР 1291393 .

[FOOTNOTEEveritt2002128-1] Jump up to: Перейти обратно: ^а ^б Эверитт 2002 , с. 128.

[2] Никулин, М.С. (2001) [1994], «Эффективность статистической процедуры» , Энциклопедия Математики , EMS Press

[:1-3] Jump up to: Перейти обратно: ^а ^б Фишер, Р. (1921). «О математических основах теоретической статистики». Философские труды Лондонского королевского общества А. 222 : 309–368. JSTOR 91208 .

[FOOTNOTEEveritt2002[httpsarchiveorgdetailscambridgediction00everpagen135_128]-4] Эверитт 2002 , с. 128 .

[:0-5] Jump up to: Перейти обратно: ^а ^б Деккинг, FM (2007). Современное введение в вероятность и статистику: понимание того, почему и как . Спрингер. стр. 303–305 . ISBN 978-1852338961 .

[6] Романо, Джозеф П.; Сигел, Эндрю Ф. (1986). Контрпримеры в теории вероятности и статистике . Чепмен и Холл. п. 194.

[7] Ван Трис, Гарри Л. (2013). Оценка обнаружения и теория модуляции . Кристин Л. Белл, Чжи Тянь (второе изд.). Хобокен, Нью-Джерси ISBN 978-1-299-66515-6 . OCLC 851161356 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )

[8] ДеГрут; Шервиш (2002). Вероятность и статистика (3-е изд.). стр. 440–441.

[9] Грин, Уильям Х. (2012). Эконометрический анализ (7-е изд., международное изд.). Бостон: Пирсон. ISBN 978-0-273-75356-8 . OCLC 726074601 .

[10] Уильямс, Д. (2001). Взвешивание шансов . Издательство Кембриджского университета. п. 165 . ISBN 052100618X .

[11] Мейндональд, Джон; Браун, В. Джон (6 мая 2010 г.). Анализ данных и графика с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ИСБН 978-1-139-48667-5 .

[12] Вакерли, Деннис Д.; Менденхолл, Уильям; Шеффер, Ричард Л. (2008). Математическая статистика с приложениями (Седьмое изд.). Бельмонт, Калифорния: Томсон Брукс/Коул. п. 445 . ISBN 9780495110811 . OCLC 183886598 .

[13] Граббс, Фрэнк (1965). Статистические меры точности для стрелков и инженеров-ракетчиков . стр. 26–27.

[FOOTNOTEEveritt2002321-14] Эверитт 2002 , с. 321.

[15] Никитин, Я.Ю. (2001) [1994], «Эффективность, асимптотическая» , Энциклопедия математики , EMS Press

[16] «Эффективность Бахадура — Математическая энциклопедия» .

[17] Arcones MA "Эффективность Бахадура теста отношения правдоподобия" Препринт

[18] Канай И.А. и Оцу, Т. «Оптимальность Ходжеса – Лемана для тестирования моделей моментных условий»

[19] Додж, Ю. (2006). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN 0-19-920613-9 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]