Повторная выборка складного ножа

Схема повторной выборки складного ножа

В статистике складной нож (перекрестная проверка складным ножом) — это метод перекрестной проверки и, следовательно, форма повторной выборки .Это особенно полезно для оценки смещения и дисперсии . Складной нож появился раньше других распространенных методов повторной выборки, таких как бутстрап . Учитывая выборку размером , оценщик складного ножа может быть построен путем агрегирования оценок параметров из каждой подвыборки размера получено путем исключения одного наблюдения. [1]

Техника складного ножа была разработана Морисом Кенуем (1924–1973) в 1949 году и усовершенствована в 1956 году. Джон Тьюки расширил эту технику в 1958 году и предложил название «складной нож», потому что, как и обычный складной нож (компактный складной нож), это готовый инструмент, который может найти решение для множества проблем, хотя конкретные проблемы можно более эффективно решить с помощью специально разработанного инструмента. [2]

Складной нож — это линейная аппроксимация бутстрапа . [2]

Простой пример: оценка среднего [ править ]

параметра «складной нож» Оценщик находится путем систематического исключения каждого наблюдения из набора данных и расчета оценки параметра по оставшимся наблюдениям, а затем агрегирования этих вычислений.

Например, если оцениваемый параметр представляет собой генеральное среднее случайной величины , то для данного набора iid наблюдений естественная оценка - это выборочное среднее:

где последняя сумма использовала другой способ указать, что индекс пробегает по съемочной площадке .

Далее поступаем следующим образом: для каждого мы вычисляем среднее значение подвыборки складного ножа, состоящей из всех, кроме -я точка данных, и это называется -й повтор складного ножа:

Было бы полезно подумать, что эти складной нож реплики дайте нам приблизительное распределение выборочного среднего значения и чем больше тем лучше будет это приближение. Затем, наконец, чтобы получить оценку складного ножа, мы берем среднее из этих складной нож повторяет:

Можно задаться вопросом о смещении и дисперсии . Из определения поскольку среднее значение складного ножа повторяется, можно попытаться вычислить явно, а смещение - это тривиальный расчет, но дисперсия более сложен, поскольку реплики складного ножа не являются независимыми.

Для частного случая среднего можно явно показать, что оценка складного ножа равна обычной оценке:

Это устанавливает тождество . Затем, учитывая ожидания, мы получаем , так является несмещенным, принимая во внимание дисперсию, мы получаем . Однако эти свойства обычно не справедливы для других параметров, кроме среднего.

Этот простой пример для случая оценки среднего предназначен только для иллюстрации конструкции оценщика складного ножа, в то время как реальные тонкости (и полезность) проявляются в случае оценки других параметров, таких как моменты, более высокие, чем среднее значение, или другие функционалы от распределение.

может быть использован для построения эмпирической оценки систематической ошибки , а именно с некоторым подходящим коэффициентом , хотя в этом случае мы знаем, что поэтому эта конструкция не добавляет никаких значимых знаний, но дает правильную оценку систематической ошибки (которая равна нулю).

Складная оценка дисперсии можно рассчитать по дисперсии повторов складного ножа : [3] [4]

Левое равенство определяет оценку а правое равенство — это тождество, которое можно проверить непосредственно. Затем, учитывая ожидания, мы получаем , так что это несмещенная оценка дисперсии .

Оценка смещения оценщика [ править ]

Метод «складного ножа» можно использовать для оценки (и корректировки) смещения оценщика, рассчитанного по всей выборке.

Предполагать представляет собой целевой параметр, который, как предполагается, является некоторым функционалом распределения . На основе конечного набора наблюдений , который, как предполагается, состоит из iid- копий , оценщик построен:

Стоимость зависит от выборки, поэтому это значение будет меняться от одной случайной выборки к другой.

По определению, предвзятость заключается в следующем:

Возможно, вам захочется вычислить несколько значений из нескольких образцов и усреднить их, чтобы рассчитать эмпирическую аппроксимацию , но это невозможно, когда нет «других выборок», когда вся совокупность имеющихся наблюдений был использован для расчета . В такой ситуации может помочь метод повторной выборки «складной нож».

Конструируем повторы складного ножа:

где каждый экземпляр представляет собой оценку с «исключением одного» на основе подвыборки складного ножа, состоящей из всех точек данных, кроме одной:

Затем мы определяем их среднее значение:

Складная оценка смещения дается:

и результирующая оценка складного ножа с поправкой на предвзятость дается:

Это устраняет смещение в особом случае, когда смещение и сводит его к в других случаях. [2]

Оценка дисперсии оценщика [ править ]

Метод «складного ножа» также можно использовать для оценки дисперсии оценщика, рассчитанного по всей выборке.

См. также [ править ]

Литература [ править ]

Примечания [ править ]

  1. ^ Эфрон 1982 , с. 2.
  2. ^ Перейти обратно: а б с Кэмерон и Триведи 2005 , с. 375.
  3. ^ Эфрон 1982 , с. 14.
  4. ^ Макинтош, Эйвери И. «Метод оценки складного ножа» (PDF) . Бостонский университет . Эйвери И. Макинтош. Архивировано из оригинала (PDF) 14 мая 2016 г. Проверено 30 апреля 2016 г. : с. 3.

Ссылки [ править ]