Повторная выборка складного ножа

В статистике складной нож (перекрестная проверка складным ножом) — это метод перекрестной проверки и, следовательно, форма повторной выборки .Это особенно полезно для оценки смещения и дисперсии . Складной нож появился раньше других распространенных методов повторной выборки, таких как бутстрап . Учитывая выборку размером $n$ , оценщик складного ножа может быть построен путем агрегирования оценок параметров из каждой подвыборки размера $(n-1)$ получено путем исключения одного наблюдения. ^[1]

Техника складного ножа была разработана Морисом Кенуем (1924–1973) в 1949 году и усовершенствована в 1956 году. Джон Тьюки расширил эту технику в 1958 году и предложил название «складной нож», потому что, как и обычный складной нож (компактный складной нож), это готовый инструмент, который может импровизировать решение множества проблем, хотя конкретные проблемы можно более эффективно решить с помощью специально разработанного инструмента. ^[2]

Складной нож — это линейная аппроксимация бутстрапа . ^[2]

Простой пример: средняя оценка

параметра «складной нож» Оценщик находится путем систематического исключения каждого наблюдения из набора данных и расчета оценки параметра по оставшимся наблюдениям, а затем агрегирования этих вычислений.

Например, если оцениваемый параметр представляет собой среднее совокупное значение случайной величины $x$ , то для данного набора iid наблюдений $x_{1},...,x_{n}$ естественная оценка - это выборочное среднее:

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}\sum _{i\in [n]}x_{i},

где последняя сумма использовала другой способ указать, что индекс $i$ пробегает по съемочной площадке $[n]=\{1,\ldots ,n\}$ .

Далее поступаем следующим образом: для каждого $i\in [n]$ мы вычисляем среднее значение ${\bar {x}}_{(i)}$ подвыборки складного ножа, состоящей из всех, кроме $i$ -я точка данных, и это называется $i$ -й повтор складного ножа:

{\bar {x}}_{(i)}={\frac {1}{n-1}}\sum _{j\in [n],j\neq i}x_{j},\quad \quad i=1,\dots ,n.

Было бы полезно подумать, что эти $n$ складной нож реплики ${\bar {x}}_{(1)},\ldots ,{\bar {x}}_{(n)}$ дайте нам приблизительное распределение выборочного среднего значения ${\bar {x}}$ и чем больше $n$ тем лучше будет это приближение. Затем, наконец, чтобы получить оценку складного ножа, мы берем среднее из этих $n$ складной нож повторяет:

{\bar {x}}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}.

Можно задаться вопросом о смещении и дисперсии ${\bar {x}}_{\mathrm {jack} }$ . Из определения ${\bar {x}}_{\mathrm {jack} }$ поскольку среднее значение складного ножа повторяется, можно попытаться вычислить явно, а смещение - это тривиальный расчет, но дисперсия ${\bar {x}}_{\mathrm {jack} }$ более сложен, поскольку реплики складного ножа не являются независимыми.

Для частного случая среднего можно явно показать, что оценка складного ножа равна обычной оценке:

{\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}={\bar {x}}.

Это устанавливает тождество ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ . Затем, учитывая ожидания, мы получаем $E[{\bar {x}}_{\mathrm {jack} }]=E[{\bar {x}}]=E[x]$ , так ${\bar {x}}_{\mathrm {jack} }$ является несмещенным, принимая во внимание дисперсию, мы получаем $V[{\bar {x}}_{\mathrm {jack} }]=V[{\bar {x}}]=V[x]/n$ . Однако эти свойства обычно не справедливы для других параметров, кроме среднего.

Этот простой пример для случая оценки среднего предназначен только для иллюстрации конструкции оценщика складного ножа, в то время как реальные тонкости (и полезность) проявляются в случае оценки других параметров, таких как моменты, более высокие, чем среднее значение, или другие функционалы от распределение.

${\bar {x}}_{\mathrm {jack} }$ может быть использован для построения эмпирической оценки систематической ошибки ${\bar {x}}$ , а именно ${\widehat {\operatorname {bias} }}({\bar {x}})_{\mathrm {jack} }=c({\bar {x}}_{\mathrm {jack} }-{\bar {x}})$ с некоторым подходящим коэффициентом $c>0$ , хотя в этом случае мы знаем, что ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ поэтому эта конструкция не добавляет никаких значимых знаний, но дает правильную оценку систематической ошибки (которая равна нулю).

Складная оценка дисперсии ${\bar {x}}$ можно рассчитать по дисперсии повторов складного ножа ${\bar {x}}_{(i)}$ : ^[3]^[4]

{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }={\frac {n-1}{n}}\sum _{i=1}^{n}({\bar {x}}_{(i)}-{\bar {x}}_{\mathrm {jack} })^{2}={\frac {1}{n(n-1)}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}.

Левое равенство определяет оценку ${\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }$ а правое равенство — это тождество, которое можно проверить непосредственно. Затем, учитывая ожидания, мы получаем $E[{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }]=V[x]/n=V[{\bar {x}}]$ , так что это несмещенная оценка дисперсии ${\bar {x}}$ .

Оценка смещения оценщика

Метод «складного ножа» можно использовать для оценки (и корректировки) смещения оценщика, рассчитанного по всей выборке.

Предполагать $\theta$ представляет собой целевой параметр, который, как предполагается, является некоторым функционалом распределения $x$ . На основе конечного набора наблюдений $x_{1},...,x_{n}$ , который, как предполагается, состоит из iid- копий $x$ , оценщик ${\hat {\theta }}$ построен:

{\hat {\theta }}=f_{n}(x_{1},\ldots ,x_{n}).

Стоимость ${\hat {\theta }}$ зависит от выборки, поэтому это значение будет меняться от одной случайной выборки к другой.

По определению, предвзятость ${\hat {\theta }}$ заключается в следующем:

{\text{bias}}({\hat {\theta }})=E[{\hat {\theta }}]-\theta .

Возможно, вам захочется вычислить несколько значений ${\hat {\theta }}$ из нескольких образцов и усреднить их, чтобы рассчитать эмпирическую аппроксимацию $E[{\hat {\theta }}]$ , но это невозможно, когда нет «других выборок», когда вся совокупность имеющихся наблюдений $x_{1},...,x_{n}$ был использован для расчета ${\hat {\theta }}$ . В такой ситуации может помочь метод повторной выборки «складной нож».

Конструируем повторы складного ножа:

{\hat {\theta }}_{(1)}=f_{n-1}(x_{2},x_{3}\ldots ,x_{n})

{\hat {\theta }}_{(2)}=f_{n-1}(x_{1},x_{3},\ldots ,x_{n})

\vdots

{\hat {\theta }}_{(n)}=f_{n-1}(x_{1},x_{2},\ldots ,x_{n-1})

где каждый экземпляр представляет собой оценку с «исключением одного» на основе подвыборки складного ножа, состоящей из всех точек данных, кроме одной:

{\hat {\theta }}_{(i)}=f_{n-1}(x_{1},\ldots ,x_{i-1},x_{i+1},\ldots ,x_{n})\quad \quad i=1,\dots ,n.

Затем мы определяем их среднее значение:

{\hat {\theta }}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\hat {\theta }}_{(i)}

Складная оценка смещения ${\hat {\theta }}$ дается:

{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=(n-1)({\hat {\theta }}_{\mathrm {jack} }-{\hat {\theta }})

и результирующая оценка складного ножа с поправкой на предвзятость $\theta$ дается:

{\hat {\theta }}_{\text{jack}}^{*}={\hat {\theta }}-{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=n{\hat {\theta }}-(n-1){\hat {\theta }}_{\mathrm {jack} }.

Это устраняет смещение в особом случае, когда смещение $O(n^{-1})$ и сводит его к $O(n^{-2})$ в других случаях. ^[2]

Оценка дисперсии оценщика

Метод «складного ножа» также можно использовать для оценки дисперсии оценщика, рассчитанного по всей выборке.

См. также

Литература

Бергер, Ю.Г. (2007). «Оценщик дисперсии складного ножа для одноступенчатых стратифицированных выборок с неравными вероятностями». Биометрика . 94 (4): 953–964. дои : 10.1093/biomet/asm072 .
Бергер, Ю.Г.; Рао, JNK (2006). «Скорректированный складной нож для вменения при неравновероятной выборке без замены» . Журнал Королевского статистического общества, серия B. 68 (3): 531–547. дои : 10.1111/j.1467-9868.2006.00555.x .
Бергер, Ю.Г.; Скиннер, CJ (2005). «Оценщик дисперсии складного ножа для выборки с неравной вероятностью». Журнал Королевского статистического общества, серия B. 67 (1): 79–89. дои : 10.1111/j.1467-9868.2005.00489.x .
Цзян, Дж.; Лахири, П.; Ван, С.М. (2002). «Единая теория складного ножа для наилучшего эмпирического прогнозирования с помощью M-оценки» . Анналы статистики . 30 (6): 1782–810. дои : 10.1214/aos/1043351257 .
Джонс, Х.Л. (1974). «Складная оценка функций слоевых средств». Биометрика . 61 (2): 343–348. дои : 10.2307/2334363 . JSTOR 2334363 .
Киш, Л.; Франкель, MR (1974). «Вывод из сложных выборок». Журнал Королевского статистического общества, серия B. 36 (1): 1–37.
Кревски, Д.; Рао, JNK (1981). «Вывод из стратифицированных выборок: свойства линеаризации, складной нож и сбалансированные методы повторной репликации» . Анналы статистики . 9 (5): 1010–1019. дои : 10.1214/aos/1176345580 .
Прялка, М.Х. (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353 .
Рао, JNK; Шао, Дж. (1992). «Оценка дисперсии складного ножа с использованием данных обследования при вменении горячей колоды». Биометрика . 79 (4): 811–822. дои : 10.1093/biomet/79.4.811 .
Рао, JNK; Ву, CFJ; Юэ, К. (1992). «Некоторые недавние работы по методам повторной выборки для сложных опросов». Методика опроса . 18 (2): 209–217.
Шао Дж. и Ту Д. (1995). Складной нож и бутстрап. Спрингер-Верлаг, Инк.
Тьюки, JW (1958). «Смещение и уверенность в не совсем больших выборках (аннотация)». Анналы математической статистики . 29 (2): 614.
Ву, CFJ (1986). «Складной нож, Bootstrap и другие методы повторной выборки в регрессионном анализе» . Анналы статистики . 14 (4): 1261–1295. дои : 10.1214/aos/1176350142 .

Примечания

^ Эфрон 1982 , с. 2.
^ Jump up to: ^а ^б ^с Кэмерон и Триведи 2005 , с. 375.
^ Эфрон 1982 , с. 14.
^ Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г. : с. 3.

Ссылки

Кэмерон, Адриан; Триведи, Правин К. (2005). Микроэконометрика: методы и приложения . Кембридж, Нью-Йорк: Издательство Кембриджского университета. ISBN 9780521848053 .
Эфрон, Брэдли ; Штейн, Чарльз (май 1981 г.). «Оценка дисперсии Складным ножом» . Анналы статистики . 9 (3): 586–596. дои : 10.1214/aos/1176345462 . JSTOR 2240822 .
Эфрон, Брэдли (1982). Складной нож, бутстрап и другие планы повторной выборки . Филадельфия, Пенсильвания: Общество промышленной и прикладной математики. ISBN 9781611970319 .
Кенуй, Морис Х. (сентябрь 1949 г.). «Проблемы плоской выборки» . Анналы математической статистики . 20 (3): 355–375. дои : 10.1214/aoms/1177729989 . JSTOR 2236533 .
Прялка, Морис Х. (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353 . JSTOR 2332914 .
Тьюки, Джон В. (1958). «Смещение и уверенность на не совсем больших выборках (аннотация)» . Анналы математической статистики . 29 (2): 614. doi : 10.1214/aoms/1177706647 .

[FOOTNOTEEfron19822-1] Эфрон 1982 , с. 2.

[FOOTNOTECameronTrivedi2005375-2] Jump up to: ^а ^б ^с Кэмерон и Триведи 2005 , с. 375.

[FOOTNOTEEfron198214-3] Эфрон 1982 , с. 14.

[4] Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г. : с. 3.

[1]

[2]

[3]

[4]