Повторная выборка складного ножа

В статистике складной нож (перекрестная проверка складным ножом) — это метод перекрестной проверки и, следовательно, форма повторной выборки .Это особенно полезно для оценки смещения и дисперсии . Складной нож появился раньше других распространенных методов повторной выборки, таких как бутстрап . Учитывая выборку размером $n$ , оценщик складного ножа может быть построен путем агрегирования оценок параметров из каждой подвыборки размера $(n-1)$ получено путем исключения одного наблюдения. ^[1]

Техника складного ножа была разработана Морисом Кенуем (1924–1973) в 1949 году и усовершенствована в 1956 году. Джон Тьюки расширил эту технику в 1958 году и предложил название «складной нож», потому что, как и обычный складной нож (компактный складной нож), это готовый инструмент, который может найти решение для множества проблем, хотя конкретные проблемы можно более эффективно решить с помощью специально разработанного инструмента. ^[2]

Складной нож — это линейная аппроксимация бутстрапа . ^[2]

Простой пример: оценка среднего [ править ]

параметра «складной нож» Оценщик находится путем систематического исключения каждого наблюдения из набора данных и расчета оценки параметра по оставшимся наблюдениям, а затем агрегирования этих вычислений.

Например, если оцениваемый параметр представляет собой генеральное среднее случайной величины $x$ , то для данного набора iid наблюдений $x_{1},...,x_{n}$ естественная оценка - это выборочное среднее:

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}\sum _{i\in [n]}x_{i},

где последняя сумма использовала другой способ указать, что индекс $i$ пробегает по съемочной площадке $[n]=\{1,\ldots ,n\}$ .

Далее поступаем следующим образом: для каждого $i\in [n]$ мы вычисляем среднее значение ${\bar {x}}_{(i)}$ подвыборки складного ножа, состоящей из всех, кроме $i$ -я точка данных, и это называется $i$ -й повтор складного ножа:

{\bar {x}}_{(i)}={\frac {1}{n-1}}\sum _{j\in [n],j\neq i}x_{j},\quad \quad i=1,\dots ,n.

Было бы полезно подумать, что эти $n$ складной нож реплики ${\bar {x}}_{(1)},\ldots ,{\bar {x}}_{(n)}$ дайте нам приблизительное распределение выборочного среднего значения ${\bar {x}}$ и чем больше $n$ тем лучше будет это приближение. Затем, наконец, чтобы получить оценку складного ножа, мы берем среднее из этих $n$ складной нож повторяет:

{\bar {x}}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}.

Можно задаться вопросом о смещении и дисперсии ${\bar {x}}_{\mathrm {jack} }$ . Из определения ${\bar {x}}_{\mathrm {jack} }$ поскольку среднее значение складного ножа повторяется, можно попытаться вычислить явно, а смещение - это тривиальный расчет, но дисперсия ${\bar {x}}_{\mathrm {jack} }$ более сложен, поскольку реплики складного ножа не являются независимыми.

Для частного случая среднего можно явно показать, что оценка складного ножа равна обычной оценке:

{\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}={\bar {x}}.

Это устанавливает тождество ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ . Затем, учитывая ожидания, мы получаем $E[{\bar {x}}_{\mathrm {jack} }]=E[{\bar {x}}]=E[x]$ , так ${\bar {x}}_{\mathrm {jack} }$ является несмещенным, принимая во внимание дисперсию, мы получаем $V[{\bar {x}}_{\mathrm {jack} }]=V[{\bar {x}}]=V[x]/n$ . Однако эти свойства обычно не справедливы для других параметров, кроме среднего.

Этот простой пример для случая оценки среднего предназначен только для иллюстрации конструкции оценщика складного ножа, в то время как реальные тонкости (и полезность) проявляются в случае оценки других параметров, таких как моменты, более высокие, чем среднее значение, или другие функционалы от распределение.

${\bar {x}}_{\mathrm {jack} }$ может быть использован для построения эмпирической оценки систематической ошибки ${\bar {x}}$ , а именно ${\widehat {\operatorname {bias} }}({\bar {x}})_{\mathrm {jack} }=c({\bar {x}}_{\mathrm {jack} }-{\bar {x}})$ с некоторым подходящим коэффициентом $c>0$ , хотя в этом случае мы знаем, что ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ поэтому эта конструкция не добавляет никаких значимых знаний, но дает правильную оценку систематической ошибки (которая равна нулю).

Складная оценка дисперсии ${\bar {x}}$ можно рассчитать по дисперсии повторов складного ножа ${\bar {x}}_{(i)}$ : ^[3]^[4]

{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }={\frac {n-1}{n}}\sum _{i=1}^{n}({\bar {x}}_{(i)}-{\bar {x}}_{\mathrm {jack} })^{2}={\frac {1}{n(n-1)}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}.

Левое равенство определяет оценку ${\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }$ а правое равенство — это тождество, которое можно проверить непосредственно. Затем, учитывая ожидания, мы получаем $E[{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }]=V[x]/n=V[{\bar {x}}]$ , так что это несмещенная оценка дисперсии ${\bar {x}}$ .

Оценка смещения оценщика [ править ]

Метод «складного ножа» можно использовать для оценки (и корректировки) смещения оценщика, рассчитанного по всей выборке.

Предполагать $\theta$ представляет собой целевой параметр, который, как предполагается, является некоторым функционалом распределения $x$ . На основе конечного набора наблюдений $x_{1},...,x_{n}$ , который, как предполагается, состоит из iid- копий $x$ , оценщик ${\hat {\theta }}$ построен:

{\hat {\theta }}=f_{n}(x_{1},\ldots ,x_{n}).

Стоимость ${\hat {\theta }}$ зависит от выборки, поэтому это значение будет меняться от одной случайной выборки к другой.

По определению, предвзятость ${\hat {\theta }}$ заключается в следующем:

{\text{bias}}({\hat {\theta }})=E[{\hat {\theta }}]-\theta .

Возможно, вам захочется вычислить несколько значений ${\hat {\theta }}$ из нескольких образцов и усреднить их, чтобы рассчитать эмпирическую аппроксимацию $E[{\hat {\theta }}]$ , но это невозможно, когда нет «других выборок», когда вся совокупность имеющихся наблюдений $x_{1},...,x_{n}$ был использован для расчета ${\hat {\theta }}$ . В такой ситуации может помочь метод повторной выборки «складной нож».

Конструируем повторы складного ножа:

{\hat {\theta }}_{(1)}=f_{n-1}(x_{2},x_{3}\ldots ,x_{n})

{\hat {\theta }}_{(2)}=f_{n-1}(x_{1},x_{3},\ldots ,x_{n})

\vdots

{\hat {\theta }}_{(n)}=f_{n-1}(x_{1},x_{2},\ldots ,x_{n-1})

где каждый экземпляр представляет собой оценку с «исключением одного» на основе подвыборки складного ножа, состоящей из всех точек данных, кроме одной:

{\hat {\theta }}_{(i)}=f_{n-1}(x_{1},\ldots ,x_{i-1},x_{i+1},\ldots ,x_{n})\quad \quad i=1,\dots ,n.

Затем мы определяем их среднее значение:

{\hat {\theta }}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\hat {\theta }}_{(i)}

Складная оценка смещения ${\hat {\theta }}$ дается:

{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=(n-1)({\hat {\theta }}_{\mathrm {jack} }-{\hat {\theta }})

и результирующая оценка складного ножа с поправкой на предвзятость $\theta$ дается:

{\hat {\theta }}_{\text{jack}}^{*}={\hat {\theta }}-{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=n{\hat {\theta }}-(n-1){\hat {\theta }}_{\mathrm {jack} }.

Это устраняет смещение в особом случае, когда смещение $O(n^{-1})$ и сводит его к $O(n^{-2})$ в других случаях. ^[2]

Оценка дисперсии оценщика [ править ]

Метод «складного ножа» также можно использовать для оценки дисперсии оценщика, рассчитанного по всей выборке.

См. также [ править ]

Ошибка пропуска одного

Литература [ править ]

Бергер, Ю.Г. (2007). «Оценщик дисперсии складного ножа для одноступенчатых стратифицированных выборок с неравными вероятностями». Биометрика . 94 (4): 953–964. дои : 10.1093/biomet/asm072 .
Бергер, Ю.Г.; Рао, JNK (2006). «Скорректированный складной нож для вменения при неравновероятной выборке без замены» . Журнал Королевского статистического общества, серия B. 68 (3): 531–547. дои : 10.1111/j.1467-9868.2006.00555.x .
Бергер, Ю.Г.; Скиннер, CJ (2005). «Оценщик дисперсии складного ножа для выборки с неравной вероятностью». Журнал Королевского статистического общества, серия B. 67 (1): 79–89. дои : 10.1111/j.1467-9868.2005.00489.x .
Цзян, Дж.; Лахири, П.; Ван, С.М. (2002). «Единая теория складного ножа для наилучшего эмпирического прогнозирования с помощью M-оценки» . Анналы статистики . 30 (6): 1782–810. дои : 10.1214/aos/1043351257 .
Джонс, Х.Л. (1974). «Складная оценка функций слоевых средств». Биометрика . 61 (2): 343–348. дои : 10.2307/2334363 . JSTOR 2334363 .
Киш, Л.; Франкель, MR (1974). «Вывод из сложных выборок». Журнал Королевского статистического общества, серия B. 36 (1): 1–37.
Кревски, Д.; Рао, JNK (1981). «Вывод из стратифицированных выборок: свойства линеаризации, складной нож и сбалансированные методы повторной репликации» . Анналы статистики . 9 (5): 1010–1019. дои : 10.1214/aos/1176345580 .
Прялка, М.Х. (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353 .
Рао, JNK; Шао, Дж. (1992). «Оценка дисперсии складного ножа с использованием данных обследования при вменении горячей колоды». Биометрика . 79 (4): 811–822. дои : 10.1093/biomet/79.4.811 .
Рао, JNK; Ву, CFJ; Юэ, К. (1992). «Некоторые недавние работы по методам повторной выборки для сложных опросов». Методика опроса . 18 (2): 209–217.
Шао Дж. и Ту Д. (1995). Складной нож и бутстрап. Спрингер-Верлаг, Инк.
Тьюки, JW (1958). «Смещение и уверенность в не совсем больших выборках (аннотация)». Анналы математической статистики . 29 (2): 614.
Ву, CFJ (1986). «Складной нож, Bootstrap и другие методы повторной выборки в регрессионном анализе» . Анналы статистики . 14 (4): 1261–1295. дои : 10.1214/aos/1176350142 .

Примечания [ править ]

^ Эфрон 1982 , с. 2.
^ Перейти обратно: ^а ^б ^с Кэмерон и Триведи 2005 , с. 375.
^ Эфрон 1982 , с. 14.
^ Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г. : с. 3.

Ссылки [ править ]

Кэмерон, Адриан; Триведи, Правин К. (2005). Микроэконометрика: методы и приложения . Кембридж, Нью-Йорк: Издательство Кембриджского университета. ISBN 9780521848053 .
Эфрон, Брэдли ; Штейн, Чарльз (май 1981 г.). «Оценка дисперсии Складным ножом» . Анналы статистики . 9 (3): 586–596. дои : 10.1214/aos/1176345462 . JSTOR 2240822 .
Эфрон, Брэдли (1982). Складной нож, бутстрап и другие планы повторной выборки . Филадельфия, Пенсильвания: Общество промышленной и прикладной математики. ISBN 9781611970319 .
Кенуй, Морис Х. (сентябрь 1949 г.). «Проблемы плоской выборки» . Анналы математической статистики . 20 (3): 355–375. дои : 10.1214/aoms/1177729989 . JSTOR 2236533 .
Прялка, Морис Х. (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353 . JSTOR 2332914 .
Тьюки, Джон В. (1958). «Смещение и уверенность на не совсем больших выборках (аннотация)» . Анналы математической статистики . 29 (2): 614. doi : 10.1214/aoms/1177706647 .

[FOOTNOTEEfron19822-1] Эфрон 1982 , с. 2.

[FOOTNOTECameronTrivedi2005375-2] Перейти обратно: ^а ^б ^с Кэмерон и Триведи 2005 , с. 375.

[FOOTNOTEEfron198214-3] Эфрон 1982 , с. 14.

[4] Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г. : с. 3.

[1]

[2]

[3]

[4]