Начальная загрузка (статистика)

Начальная загрузка — это любой тест или метрика, в которых используется случайная выборка с заменой (например, имитация процесса выборки) и подпадает под более широкий класс методов повторной выборки . Бутстрэппинг назначает меры точности ( смещение , дисперсия, доверительные интервалы , ошибка прогноза и т. д.) выборочным оценкам. ^[1]^[2] Этот метод позволяет оценить выборочное распределение практически любой статистики с использованием методов случайной выборки. ^[3]^[4]

Бутстрэппинг оценивает свойства оценки ( например, ее дисперсию ) путем измерения этих свойств при выборке из аппроксимирующего распределения. Одним из стандартных вариантов аппроксимирующего распределения является эмпирическая функция распределения наблюдаемых данных. В случае, когда можно предположить, что набор наблюдений принадлежит независимой и одинаково распределенной совокупности, это можно реализовать путем построения ряда повторных выборок с заменой наблюдаемого набора данных (и равного размера наблюдаемому набору данных). .

Его также можно использовать для построения тестов гипотез . ^[5] Его часто используют как альтернативу статистическому выводу, основанному на предположении о параметрической модели, когда это предположение вызывает сомнение или когда параметрический вывод невозможен или требует сложных формул для расчета стандартных ошибок .

История

Бутстрап был опубликован Брэдли Эфроном в книге «Методы бутстрапа: еще один взгляд на складной нож» (1979). ^[6]^[7]^[8] вдохновлен более ранними работами над складным ножом . ^[9]^[10]^[11] Усовершенствованные оценки дисперсии были разработаны позже. ^[12]^[13] Байесовское расширение было разработано в 1981 году. ^[14] Скорректированное и ускоренное смещение ( $BC_{a}$ ) бутстрап был разработан Эфроном в 1987 году, ^[15] и приблизительный доверительный интервал начальной загрузки (ABC или приблизительный $BC_{a}$ ) процедура в 1992 году. ^[16] Другими названиями, которые коллеги Эфрона предложили для метода «бутстрепа», были: «Швейцарский армейский нож» , «Мясной топор» , «Лебедь-нырок» , «Джек-кролик» и «Дробовик» . ^[8]

Подход

Основная идея начальной загрузки заключается в том, что выводы о совокупности на основе данных выборки (выборка → популяция) можно смоделировать путем повторной выборки данных выборки и выполнения вывода о выборке на основе повторной выборки данных (повторная выборка → выборка). ^[17] Поскольку популяция неизвестна, истинная ошибка выборочной статистики относительно ее значения популяции неизвестна. В бутстрап-ресэмплах «популяция» на самом деле является выборкой, и это известно; следовательно, качество вывода «истинной» выборки из данных повторной выборки (повторная выборка → выборка) поддается измерению.

Более формально, бутстреп работает, рассматривая вывод истинного распределения вероятностей J с учетом исходных данных как аналог вывода эмпирического распределения Ĵ с учетом повторной выборки данных. Точность выводов относительно « использования повторной выборки данных» можно оценить, поскольку мы знаем « . Если Ĵ является разумным приближением к J о качестве вывода о J. , то, в свою очередь, можно сделать вывод

В качестве примера предположим, что нас интересует средний (или средний ) рост людей во всем мире. Мы не можем измерить всех людей в мировом населении, поэтому вместо этого мы отбираем лишь крошечную его часть и измеряем ее. Предположим, что размер выборки N ; то есть мы измеряем рост N особей. Из этой единственной выборки можно получить только одну оценку среднего значения. Чтобы рассуждать о численности населения, нам нужно некоторое представление об изменчивости вычисленного нами среднего значения. Самый простой метод начальной загрузки предполагает получение исходного набора данных о высотах и с помощью компьютера выборку из него для формирования новой выборки (называемой «повторной выборкой» или начальной выборкой), которая также имеет размер N . Начальная выборка берется из оригинала с использованием выборки с заменой (например, мы можем «повторить выборку» 5 раз из [1,2,3,4,5] и получить [2,5,4,4,1]), поэтому , предполагая, что N достаточно велико, для всех практических целей существует практически нулевая вероятность того, что он будет идентичен исходному «реальному» образцу. Этот процесс повторяется большое количество раз (обычно 1000 или 10 000 раз), и для каждой из этих бутстрап-выборок мы вычисляем ее среднее значение (каждый из них называется «начальной оценкой»). Теперь мы можем создать гистограмму средств начальной загрузки. Эта гистограмма дает оценку формы распределения выборочного среднего значения, исходя из которой мы можем ответить на вопросы о том, насколько среднее значение варьируется в разных выборках. (Метод, описанный здесь для среднего значения, можно применить практически к любому другому статистика или оценка .)

Обсуждение

Преимущества

Большим преимуществом начальной загрузки является ее простота. Это простой способ получить оценки стандартных ошибок и доверительных интервалов для сложных оценок распределения, таких как процентные точки, пропорции, отношение шансов и коэффициенты корреляции. Однако, несмотря на свою простоту, бутстреппинг может применяться к сложным схемам выборки (например, для совокупности, разделенной на s слоев с n _s наблюдениями в каждой страте, бутстрэппинг может применяться для каждой страты). ^[18] Bootstrap также является подходящим способом контроля и проверки стабильности результатов. Хотя для большинства задач невозможно узнать истинный доверительный интервал, бутстреп асимптотически более точен, чем стандартные интервалы, полученные с использованием выборочной дисперсии и предположений о нормальности. ^[19] Начальная загрузка также является удобным методом, который позволяет избежать затрат на повторение эксперимента для получения других групп выборочных данных.

Недостатки

Начальная загрузка во многом зависит от используемого средства оценки, и, хотя она и проста, но наивна, использование начальной загрузки не всегда дает асимптотически достоверные результаты и может привести к несогласованности. ^[20] Хотя бутстрэппинг (при некоторых условиях) асимптотически непротиворечив , он не обеспечивает общих гарантий конечной выборки. Результат может зависеть от репрезентативной выборки. За кажущейся простотой может скрываться тот факт, что при проведении бутстреп-анализа делаются важные допущения (например, независимость выборок или достаточно большой размер выборки), тогда как в других подходах они были бы сформулированы более формально. Кроме того, начальная загрузка может занять много времени, а доступного программного обеспечения для начальной загрузки не так много, поскольку ее сложно автоматизировать с использованием традиционных статистических компьютерных пакетов. ^[18]

Типы схем начальной загрузки

В одномерных задачах обычно приемлемо выполнить повторную выборку отдельных наблюдений с заменой («повторная выборка случая» ниже) в отличие от подвыборки , в которой повторная выборка осуществляется без замены и действительна при гораздо более слабых условиях по сравнению с бутстрапом. В небольших выборках может быть предпочтительнее параметрический подход. Для других проблем, плавная загрузка скорее всего, предпочтительнее будет .

Для задач регрессии доступны различные другие альтернативы. ^[1]

Повторная выборка случая

Бутстрап обычно полезен для оценки распределения статистики (например, среднего значения, дисперсии) без использования предположений о нормальности (как это требуется, например, для z-статистики или t-статистики). В частности, бутстрап полезен, когда нет аналитической формы или асимптотической теории (например, применимой центральной предельной теоремы ), чтобы помочь оценить распределение интересующей статистики. Это связано с тем, что методы начальной загрузки могут применяться к большинству случайных величин, например, к отношению дисперсии и среднего значения. Существует как минимум два способа выполнения повторной выборки регистра.

Алгоритм Монте-Карло для повторной выборки случаев довольно прост. Сначала мы выполняем повторную выборку данных с заменой, причем размер повторной выборки должен быть равен размеру исходного набора данных. Затем интересующая статистика вычисляется на основе повторной выборки с первого шага. Мы повторяем эту процедуру много раз, чтобы получить более точную оценку распределения статистики Bootstrap. ^[1]
«Точная» версия повторной выборки случаев аналогична, но мы исчерпывающе перечисляем все возможные повторные выборки набора данных. Это может быть затратно в вычислительном отношении, поскольку всего существует ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ различные повторные выборки, где n — размер набора данных. Таким образом, для n = 5, 10, 20, 30 имеется 126, 92378, 6,89 × 10. ¹⁰ и 5,91 × 10 ¹⁶ разные ресэмплы соответственно. ^[25]

Оценка распределения выборочного среднего значения

Рассмотрим эксперимент с подбрасыванием монеты. Мы подбрасываем монету и фиксируем, выпадет ли она орлом или решкой. Пусть X = x ₁ , x ₂ , …, x ₁₀ — 10 наблюдений из эксперимента. x _i = 1 , если при i-м броске выпадает решка, и 0 в противном случае. Принимая во внимание предположение, что среднее значение подбрасываний монеты нормально распределено, мы можем использовать t-статистику для оценки распределения выборочного среднего значения:

{\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}).

Такое предположение о нормальности может быть оправдано либо как приближение распределения каждого отдельного подбрасывания монеты, либо как приближение распределения среднего значения большого количества подбрасываний монеты. Первое — плохое приближение, поскольку истинное распределение подбрасываний монеты — бернуллиевское , а не нормальное. Последнее является допустимым приближением в бесконечно больших выборках благодаря центральной предельной теореме .

Однако, если мы не готовы дать такое обоснование, то вместо этого мы можем использовать бутстрап. Используя повторную выборку случаев, мы можем получить распределение ${\bar {x}}$ . Сначала мы повторно дискретизируем данные, чтобы получить загрузочную повторную выборку . Пример первой повторной выборки может выглядеть так: X ₁ * = x ₂ , x ₁ , x ₁₀ , x ₁₀ , x ₃ , x ₄ , x ₆ , x ₇ , x ₁ , x ₉ . Есть несколько дубликатов, поскольку повторная выборка начальной загрузки происходит из выборки с заменой данных. Кроме того, количество точек данных в начальной повторной выборке равно количеству точек данных в наших исходных наблюдениях. Затем мы вычисляем среднее значение этой повторной выборки и получаем первое среднее значение начальной загрузки : µ ₁ *. Мы повторяем этот процесс, чтобы получить вторую передискретизацию X ₂ * и вычислить второе среднее бутстрапа µ ₂ *. Если повторить это 100 раз, то имеем µ ₁ *, µ ₂ *, ..., µ ₁₀₀ *. Это представляет собой эмпирическое бутстреп-распределение выборочного среднего значения. Из этого эмпирического распределения можно вывести доверительный интервал начальной загрузки для проверки гипотез.

Регрессия

В задачах регрессии повторная выборка случаев относится к простой схеме повторной выборки отдельных случаев – часто строк набора данных . Для задач регрессии, если набор данных достаточно велик, эта простая схема часто приемлема. ^[26]^[27]^[28] Однако метод открыт для критики. ^{[ нужна ссылка ]}. ^[18]

В задачах регрессии объясняющие переменные часто фиксируются или, по крайней мере, наблюдаются с большим контролем, чем переменная ответа. Кроме того, диапазон объясняющих переменных определяет информацию, доступную от них. Таким образом, повторная выборка случаев означает, что каждая начальная выборка потеряет некоторую информацию. Таким образом, следует рассмотреть альтернативные процедуры начальной загрузки.

Байесовский бутстрап

Начальную загрузку можно интерпретировать в рамках байесовской схемы, используя схему, которая создает новые наборы данных путем изменения веса исходных данных. Учитывая набор $N$ точки данных, вес, присвоенный точке данных $i$ в новом наборе данных ${\mathcal {D}}^{J}$ является $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ , где $\mathbf {x} ^{J}$ представляет собой упорядоченный список от низкого к высокому $N-1$ равномерно распределенные случайные числа на $[0,1]$ , которому предшествует 0 и за которым следует 1. Распределения параметра, полученные в результате рассмотрения многих таких наборов данных ${\mathcal {D}}^{J}$ затем интерпретируются как апостериорные распределения по этому параметру. ^[29]

Гладкая загрузка

В соответствии с этой схемой к каждому повторному наблюдению добавляется небольшое количество (обычно нормально распределенного) случайного шума с нулевым центром. Это эквивалентно выборке из оценки плотности ядра данных. Предположим, что K — симметричная функция плотности ядра с единичной дисперсией. Стандартный оценщик ядра ${\hat {f\,}}_{h}(x)$ из $f(x)$ является

{\hat {f\,}}_{h}(x)={1 \over nh}\sum _{i=1}^{n}K\left({x-X_{i} \over h}\right),

^[30]

где $h$ — параметр сглаживания. И соответствующая функция распределения ${\hat {F\,}}_{h}(x)$ является

{\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt.

^[30]

Параметрический бутстрап

Основываясь на предположении, что исходный набор данных представляет собой реализацию случайной выборки из распределения определенного параметрического типа, в этом случае параметрическая модель аппроксимируется параметром θ, часто по максимальному правдоподобию , а выборки случайных чисел извлекаются из эта пригнанная модель. Обычно полученная выборка имеет тот же размер, что и исходные данные. Тогда оценку исходной функции F можно записать в виде ${\hat {F}}=F_{\hat {\theta }}$ . Этот процесс выборки повторяется много раз, как и для других методов начальной загрузки. Учитывая центрированное выборочное среднее в этом случае, исходная функция распределения случайной выборки $F_{\theta }$ заменяется бутстрап-случайной выборкой с функцией $F_{\hat {\theta }}$ и вероятностей распределение ${\bar {X_{n}}}-\mu _{\theta }$ аппроксимируется ${\bar {X}}_{n}^{*}-\mu ^{*}$ , где $\mu ^{*}=\mu _{\hat {\theta }}$ , что является ожиданием, соответствующим $F_{\hat {\theta }}$ . ^[31] Использование параметрической модели на этапе выборки методологии начальной загрузки приводит к процедурам, которые отличаются от процедур, полученных путем применения базовой статистической теории к выводу для той же модели.

Повторная выборка остатков

Другой подход к начальной загрузке в задачах регрессии заключается в повторной выборке остатков . Способ осуществляется следующим образом.

Подберите модель и сохраните подобранные значения ${\widehat {y\,}}_{i}$ и остатки ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ .
Для каждой пары ( x _i , y _i ), в которой x _i является объясняющей переменной (возможно, многомерной), добавьте случайно перевыбранный остаток, ${\widehat {\varepsilon \,}}_{j}$ , до установленного значения ${\widehat {y\,}}_{i}$ . Другими словами, создайте синтетические переменные отклика. $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$ где j выбирается случайным образом из списка (1,..., n ) для каждого i .
Переоборудуйте модель, используя вымышленные переменные отклика. $y_{i}^{*}$ и сохраняем интересующие величины (часто параметры, ${\widehat {\mu }}_{i}^{*}$ , оцененный по синтетическому $y_{i}^{*}$ ).
Повторите шаги 2 и 3 большое количество раз.

Преимущество этой схемы состоит в том, что она сохраняет информацию в независимых переменных. Однако возникает вопрос, какие остатки следует передискретизировать. Необработанные остатки являются одним из вариантов; другой — стьюдентизированные остатки (в линейной регрессии). Хотя есть аргументы в пользу использования стьюдентизированных остатков; на практике это часто не имеет большого значения, и результаты обеих схем легко сравнить.

Бутстрап регрессии гауссовского процесса

Когда данные коррелированы во времени, простая начальная загрузка разрушает присущие корреляции. Этот метод использует регрессию гауссовского процесса (GPR) для соответствия вероятностной модели, из которой затем можно извлечь реплики. Георадар — это метод байесовской нелинейной регрессии. Гауссов процесс (ГП) — это совокупность случайных величин, любое конечное число которых имеет совместное гауссово (нормальное) распределение. GP определяется средней функцией и функцией ковариации, которые определяют средние векторы и ковариационные матрицы для каждого конечного набора случайных величин. ^[32]

Регрессионная модель:

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

\varepsilon

это шумовой термин.

Гауссов процесс до:

Для любого конечного набора переменных x ₁ , ..., x _n функция выводит $f(x_{1}),\ldots ,f(x_{n})$ совместно распределяются в соответствии с многомерной гауссианой со средним значением $m=[m(x_{1}),\ldots ,m(x_{n})]^{\intercal }$ и ковариационная матрица $(K)_{ij}=k(x_{i},x_{j}).$

Предполагать $f(x)\sim {\mathcal {GP}}(m,k).$ Затем $y(x)\sim {\mathcal {GP}}(m,l)$ ,

где $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ , и $\delta (x_{i},x_{j})$ — стандартная дельта-функция Кронекера. ^[32]

Гауссов процесс сзади:

По словам терапевта, мы можем получить

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

,

где $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ и $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$

Пусть х ₁^*,...,х _с^* быть еще одним конечным набором переменных, очевидно, что

[y(x_{1}),\ldots ,y(x_{r}),f(x_{1}^{*}),\ldots ,f(x_{s}^{*})]^{\intercal }\sim {\mathcal {N}}({\binom {m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&K_{*}\\K_{*}^{\intercal }&K_{**}\end{pmatrix}})

,

где $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ , $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ , $(K_{*})_{ij}=k(x_{i},x_{j}^{*}).$

Согласно приведенным выше уравнениям, выходные данные y также совместно распределяются в соответствии с многомерной гауссианой. Таким образом,

[f(x_{1}^{*}),\ldots ,f(x_{s}^{*})]^{\intercal }\mid ([y(x)]^{\intercal }=y)\sim {\mathcal {N}}(m_{\text{post}},K_{\text{post}}),

где $y=[y_{1},...,y_{r}]^{\intercal }$ , $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ , $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ , и $I_{r}$ является $r\times r$ идентификационная матрица. ^[32]

Дикий бутстрап

«Дикий бутстрап», первоначально предложенный Ву (1986), ^[33] подходит, когда модель демонстрирует гетероскедастичность . Идея состоит в том, чтобы, как и при остаточном бутстрепе, оставить регрессоры с их выборочным значением, но выполнить повторную выборку переменной ответа на основе значений остатков. То есть для каждого повтора вычисляется новый $y$ на основе

y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{i}v_{i}

поэтому остатки случайным образом умножаются на случайную величину $v_{i}$ со средним значением 0 и дисперсией 1. Для большинства распределений $v_{i}$ (но не метода Маммена), этот метод предполагает, что «истинное» распределение остатков симметрично и может иметь преимущества перед простой остаточной выборкой для выборок меньшего размера. Для случайной величины используются разные формы $v_{i}$ , такой как

Стандартное нормальное распределение

Распределение, предложенное Мамменом (1993). ^[34]

v_{i}={\begin{cases}-({\sqrt {5}}-1)/2&{\text{with probability }}({\sqrt {5}}+1)/(2{\sqrt {5}}),\\({\sqrt {5}}+1)/2&{\text{with probability }}({\sqrt {5}}-1)/(2{\sqrt {5}})\end{cases}}

Примерно распределение Маммена таково:

v_{i}={\begin{cases}-0.6180\quad {\text{(with a 0 in the units' place)}}&{\text{with probability }}0.7236,\\+1.6180\quad {\text{(with a 1 in the units' place)}}&{\text{with probability }}0.2764.\end{cases}}

Или более простое распределение, связанное с распределением Радемахера :

v_{i}={\begin{cases}-1&{\text{with probability }}1/2,\\+1&{\text{with probability }}1/2.\end{cases}}

Блокировать начальную загрузку

Блочная загрузка используется, когда данные или ошибки в модели коррелируют. В этом случае простой случай или остаточная повторная выборка потерпят неудачу, поскольку не смогут воспроизвести корреляцию в данных. Блоковая загрузка пытается воспроизвести корреляцию путем повторной выборки внутри блоков данных (см. Блокировка (статистика) ). Блочная загрузка использовалась в основном с данными, коррелированными во времени (т.е. временными рядами), но также может использоваться с данными, коррелированными в пространстве или между группами (так называемые кластерные данные).

Временной ряд: простой блочный бутстрап

В (простом) блочном бутстрапе интересующая переменная разбивается на непересекающиеся блоки.

Временной ряд: бутстрап движущегося блока

В бутстрапе движущегося блока, предложенном Кюншем (1989), ^[35] данные разбиваются на n − b + 1 перекрывающиеся блоки длины b : наблюдения от 1 до b будут блоком 1, наблюдения от 2 до b + 1 будут блоком 2 и т. д. Затем из этих n − b + 1 блоков получится n / b. блоки будут рисоваться случайным образом с заменой. Затем выравнивание этих n/b блоков в том порядке, в котором они были выбраны, даст бутстрап-наблюдения.

Этот бутстрап работает с зависимыми данными, однако бутстреп-наблюдения больше не будут стационарными по своей конструкции. Однако было показано, что случайное изменение длины блока позволяет избежать этой проблемы. ^[36] Этот метод известен как стационарный бутстрап. Другими связанными модификациями бутстрапа с подвижным блоком являются марковский бутстрап и метод стационарного бутстрапа, который сопоставляет последующие блоки на основе сопоставления стандартного отклонения.

Временной ряд: бутстрап максимальной энтропии

Винод (2006), ^[37] представляет метод, который загружает данные временных рядов с использованием принципов максимальной энтропии, удовлетворяющих эргодической теореме, с ограничениями, сохраняющими среднее и сохраняющее массу. Есть пакет R, meboot , ^[38] в котором используется метод, который находит применение в эконометрике и информатике.

Данные кластера: блок начальной загрузки

Данные кластера описывают данные, в которых наблюдается множество наблюдений на единицу. Это может быть наблюдение за многими фирмами во многих штатах или наблюдение за студентами во многих классах. В таких случаях структура корреляции упрощается, и обычно делается предположение, что данные коррелируют внутри группы/кластера, но независимы между группами/кластерами. Легко получить структуру блочного бутстрапа (где блок просто соответствует группе), и обычно передискретизация выполняется только для групп, а наблюдения внутри групп остаются неизменными. Кэмерон и др. (2008) обсуждает это для кластерных ошибок в линейной регрессии. ^[39]

Методы повышения эффективности вычислений

Начальная загрузка — это мощный метод, хотя он может потребовать значительных вычислительных ресурсов как по времени, так и по памяти. Для уменьшения этого бремени были разработаны некоторые методы. Как правило, их можно комбинировать со многими различными типами схем Bootstrap и различными вариантами статистики.

Пуассоновский бутстрап

Обычный бутстрап требует случайного выбора n элементов из списка, что эквивалентно выборке из биномиального распределения. Это может потребовать большого количества проходов по данным, и параллельное выполнение этих вычислений затруднительно. Для больших значений n загрузка Пуассона является эффективным методом создания наборов данных с начальной загрузкой. ^[40] При создании одной бутстрап-выборки вместо случайного извлечения данных выборки с заменой каждой точке данных присваивается случайный вес, распределенный в соответствии с распределением Пуассона с $\lambda =1$ . Для данных большой выборки это будет приближаться к случайной выборке с заменой. Это связано со следующим приближением:

\lim _{n\to \infty }\operatorname {Binomial} (n,1/n)=\operatorname {Poisson} (1)

Этот метод также хорошо подходит для потоковой передачи данных и увеличения наборов данных, поскольку общее количество выборок не обязательно должно быть известно до начала отбора бутстрап-выборок.

Для достаточно большого n результаты относительно аналогичны первоначальным бутстреп-оценкам. ^[41]

Способ улучшения пуассоновской начальной загрузки, называемый «последовательной начальной загрузкой», состоит в том, чтобы взять первые выборки так, чтобы доля уникальных значений составляла ≈0,632 от исходного размера выборки n. Это обеспечивает распределение, в котором основные эмпирические характеристики находятся на расстоянии $O(n^{3/4})$ . ^[42] Эмпирические исследования показали, что этот метод может дать хорошие результаты. ^[43] Это связано с методом сокращенной начальной загрузки. ^[44]

Сумка с маленькими сапогами

Для больших наборов данных часто бывает невозможно с вычислительной точки зрения хранить все выборочные данные в памяти и выполнять повторную выборку из выборочных данных. Сумка с маленькими ботинками (BLB) ^[45] предоставляет метод предварительного агрегирования данных перед начальной загрузкой, чтобы уменьшить вычислительные ограничения. Это работает путем разделения набора данных на $b$ сегменты одинакового размера и агрегирование данных внутри каждого сегмента. Этот предварительно агрегированный набор данных становится новыми данными выборки, на основе которых строятся выборки с заменой. Этот метод похож на Block Bootstrap, но мотивы и определения блоков сильно различаются. При определенных предположениях распределение выборки должно приближаться к сценарию полной начальной загрузки. Одним из ограничений является количество сегментов. $b=n^{\gamma }$ где $\gamma \in [0.5,1]$ и авторы рекомендуют использовать $b=n^{0.7}$ как общее решение.

Выбор статистики

Бутстрап-распределение точечной оценки параметра совокупности использовалось для создания бутстрепированного доверительного интервала для истинного значения параметра, если параметр можно записать как функцию распределения совокупности .

Параметры популяции оцениваются с помощью многих точечных оценок . Популярные семейства точечных оценок включают несмещенные по среднему оценки с минимальной дисперсией , несмещенные по медиане оценки , байесовские оценки (например, апостериорного распределения , режим медиана , среднее ) и оценки максимального правдоподобия .

, байесовская точечная оценка и оценка максимального правдоподобия имеют хорошие характеристики, когда размер выборки бесконечен Согласно асимптотической теории . Для практических задач с конечными выборками другие средства оценки могут быть предпочтительнее. Асимптотическая теория предлагает методы, которые часто улучшают производительность самонастраивающихся оценок; начальную загрузку оценки максимального правдоподобия часто можно улучшить с помощью преобразований, связанных с основными величинами . ^[46]

Получение доверительных интервалов из бутстрап-распределения

Бутстреп-распределение средства оценки параметра использовалось для расчета доверительных интервалов для его параметра совокупности. ^[1]

Смещение, асимметрия и доверительные интервалы

Смещение : бутстреп-распределение и выборка могут систематически не расходиться, и в этом случае может возникнуть смещение .
Если бутстреп-распределение оценщика симметрично, то часто используется процентильный доверительный интервал; такие интервалы особенно подходят для несмещенных по медиане оценок минимального риска (относительно функции абсолютных потерь ). Смещение в бутстреп-распределении приведет к смещению доверительного интервала.
В противном случае, если бутстреп-распределение несимметрично, процентильные доверительные интервалы часто не подходят.

Методы определения доверительных интервалов начальной загрузки

Существует несколько методов построения доверительных интервалов на основе бутстреп-распределения реального параметра:

Базовый бутстрап , ^[46] также известный как обратный процентильный интервал . ^[47] Базовый бутстрап представляет собой простую схему построения доверительного интервала: просто берут эмпирические квантили из бутстреп-распределения параметра (см. Дэвисон и Хинкли, 1997, уравнение 5.6, стр. 194):

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

где

\theta _{(1-\alpha /2)}^{*}

обозначает

1-\alpha /2

процентиль бутстрепированных коэффициентов

\theta ^{*}

.

Процентильный бутстрап . Перцентильный бутстрап работает аналогично базовому бутстрапу, используя процентили бутстрап-распределения, но с другой формулой (обратите внимание на инверсию левого и правого квантилей):

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

где

\theta _{(1-\alpha /2)}^{*}

обозначает

1-\alpha /2

процентиль бутстрепированных коэффициентов

\theta ^{*}

.

См. Дэвисон и Хинкли (1997, эквивалент 5.18, стр. 203) и Эфрон и Тибширани (1993, эквивалент 13,5, стр. 171).

Этот метод можно применить к любой статистике. Это будет хорошо работать в случаях, когда бутстреп-распределение симметрично и сосредоточено на наблюдаемой статистике. ^[48] и где выборочная статистика несмещена по медиане и имеет максимальную концентрацию (или минимальный риск относительно функции потери абсолютного значения). При работе с небольшими размерами выборки (т. е. менее 50) базовый/обратный процентиль и процентильный доверительный интервал для (например) статистики дисперсии будут слишком узкими. Таким образом, при выборке из 20 точек 90% доверительный интервал будет включать истинную дисперсию только в 78% случаев. ^[49] Базовые/обратные процентильные доверительные интервалы легче обосновать математически. ^[50]^[47] но в целом они менее точны, чем процентильные доверительные интервалы, и некоторые авторы не рекомендуют их использовать. ^[47]

Студенческий бутстрап . Стьюдентизированный бутстрап, также называемый бутстрап-t , вычисляется аналогично стандартному доверительному интервалу, но заменяет квантили из нормального приближения или аппроксимации Стьюдента квантилями из бутстрап-распределения t-критерия Стьюдента (см. Дэвисон и Хинкли, 1997, уравнение .5.7 стр. 194 и Эфрон и Тибширани 1993 equ 12.22, стр. 160):

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

где

t_{(1-\alpha /2)}^{*}

обозначает

1-\alpha /2

процентиль бутстрепированного t-критерия Стьюдента

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

, и

{\widehat {\text{se}}}_{\theta }

— предполагаемая стандартная ошибка коэффициента исходной модели.

Стьюдентизированный тест обладает оптимальными свойствами, поскольку загружаемая статистика является ключевой (т. е. она не зависит от мешающих параметров , поскольку t-критерий асимптотически следует распределению N(0,1)), в отличие от процентильного бутстрепа.

Бутстрап с коррекцией смещения – корректирует смещение в распределении начальной загрузки.
Ускоренный бутстрап - бутстрап с коррекцией смещения и ускорением (BCa), Эфрон (1987), ^[15] корректирует как смещение, так и асимметрию в бутстреп-распределении. Этот подход точен в самых разных условиях, требует разумных вычислений и дает достаточно узкие интервалы. ^[15]

Проверка гипотезы Bootstrap

Эфрон и Тибширани ^[1] предложите следующий алгоритм сравнения средних значений двух независимых выборок:Позволять $x_{1},\ldots ,x_{n}$ быть случайной выборкой из распределения F со средним значением выборки ${\bar {x}}$ и выборочная дисперсия $\sigma _{x}^{2}$ . Позволять $y_{1},\ldots ,y_{m}$ быть другой независимой случайной выборкой из распределения G со средним значением ${\bar {y}}$ и дисперсия $\sigma _{y}^{2}$

Посчитать статистику теста $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$
Создайте два новых набора данных, значения которых $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ и $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ где ${\bar {z}}$ является средним значением объединенной выборки.
Сделайте случайную выборку ( $x_{i}^{*}$ ) размера $n$ с заменой от $x_{i}'$ и еще одна случайная выборка ( $y_{i}^{*}$ ) размера $m$ с заменой от $y_{i}'$ .
Посчитать статистику теста $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$
Повторите 3 и 4 $B$ раз (например $B=1000$ ) собирать $B$ значения тестовой статистики.
Оцените значение p как $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ где $I\{{\text{condition}}\}=1$ когда условие истинно и 0 в противном случае.

Примеры приложений

Сглаженный бутстрап

В 1878 году Саймон Ньюкомб провел наблюдения за скоростью света . ^[51]Набор данных содержит два выброса , которые сильно влияют на выборочное среднее значение . (Выборочное среднее не обязательно должно быть согласованной оценкой для любого среднего значения совокупности не должно существовать никакого среднего значения , поскольку для распределения с тяжелым хвостом .) Четко определенной и надежной статистикой для центральной тенденции является выборочная медиана, которая является последовательной и медианной. -несмещенный для медианы населения.

Распределение начальной загрузки данных Newcomb показано ниже. Мы можем уменьшить дискретность бутстреп-распределения, добавив небольшое количество случайного шума к каждой бутстреп-выборке. Обычный выбор — добавить шум со стандартным отклонением $\sigma /{\sqrt {n}}$ для размера выборки n ; этот шум часто извлекается из распределения Стьюдента с n-1 степенями свободы. ^[52] Это приводит к приблизительно несмещенной оценке дисперсии выборочного среднего значения. ^[53] Это означает, что выборки, взятые из бутстреп-распределения, будут иметь дисперсию, которая в среднем равна дисперсии всей совокупности.

Гистограммы бутстреп-распределения и плавного бутстреп-распределения показаны ниже. Бутстреп-распределение выборочной медианы имеет лишь небольшое количество значений. Сглаженный бутстрап-дистрибутив имеет более богатую поддержку . Однако обратите внимание, что выбор сглаженной или стандартной процедуры начальной загрузки является благоприятным в каждом конкретном случае и зависит как от базовой функции распределения, так и от оцениваемой величины. ^[54]

В этом примере 95%-ный (процентиль) доверительный интервал для медианы генеральной совокупности равен (26, 28,5), что близко к интервалу для (25,98, 28,46) для сглаженного бутстрепа.

Связь с другими подходами к выводу

Связь с другими методами повторной выборки

Бутстрап отличается от:

процедура складного ножа , используемая для оценки систематических ошибок выборочной статистики и оценки дисперсий, и
перекрестная проверка , при которой параметры (например, веса регрессии, факторные нагрузки), оцененные в одной подвыборке, применяются к другой подвыборке.

Более подробную информацию см. в разделе передискретизация .

Бутстрап-агрегирование (пакетирование) — это метаалгоритм, основанный на усреднении прогнозов модели, полученных на основе моделей, обученных на нескольких бутстрап-выборках.

U-статистика

В ситуациях, когда можно разработать очевидную статистику для измерения требуемой характеристики, используя лишь небольшое количество элементов данных r , можно сформулировать соответствующую статистику, основанную на всей выборке. Учитывая статистику r -выборки, можно создать статистику n -выборки с помощью чего-то похожего на начальную загрузку (взяв среднее значение статистики по всем подвыборкам размера r ). Известно, что эта процедура имеет определенные хорошие свойства, и результатом является U-статистика . Выборочное среднее и выборочная дисперсия имеют такую форму для r = 1 и r = 2.

Методы доказательства непротиворечивости бутстрап-оценок

Можно использовать центральную предельную теорему , чтобы показать непротиворечивость бутстреп-процедуры для оценки распределения выборочного среднего.

В частности, рассмотрим $X_{n1},\ldots ,X_{nn}$ независимые одинаково распределенные случайные величины с $\mathbb {E} [X_{n1}]=\mu$ и ${\text{Var}}[X_{n1}]=\sigma ^{2}<\infty$ для каждого $n\geq 1$ . Позволять ${\bar {X}}_{n}=n^{-1}(X_{n1}+\cdots +X_{nn})$ . Кроме того, для каждого $n\geq 1$ , при условии $X_{n1},\ldots ,X_{nn}$ , позволять $X_{n1}^{*},\ldots ,X_{nn}^{*}$ быть независимыми случайными величинами с распределением, равным эмпирическому распределению $X_{n1},\ldots ,X_{nn}$ . Это последовательность образцов начальной загрузки.

Тогда можно показать, что $\sup _{x\in \mathbb {R} }\left|P^{*}\left({\frac {{\sqrt {n}}({\bar {X}}_{n}^{*}-{\bar {X}}_{n})}{{\hat {\sigma }}_{n}}}\leq x\right)-P\left({\frac {{\sqrt {n}}({\bar {X}}_{n}-\mu )}{\sigma }}\leq x\right)\right|\to 0{\text{ in probability as }}n\to \infty ,$ где $P^{*}$ представляет вероятность, обусловленную $X_{n1},\ldots ,X_{nn}$ , $n\geq 1$ , ${\bar {X}}_{n}^{*}=n^{-1}(X_{n1}^{*}+\cdots +X_{nn}^{*})$ , и ${\hat {\sigma }}_{n}^{2}=n^{-1}\sum _{i=1}^{n}(X_{ni}-{\bar {X}}_{n})^{2}$ .

Чтобы увидеть это, обратите внимание, что $(X_{ni}^{*}-{\bar {X}}_{n})/{\sqrt {n}}{\hat {\sigma }}_{n}$ удовлетворяет условию Линдеберга , поэтому CLT выполняется. ^[55]

Теорема Гливенко – Кантелли обеспечивает теоретическую основу метода бутстрепа.

См. также

Ссылки

^ Перейти обратно: ^а ^б ^с ^д ^и Эфрон, Б .; Тибширани, Р. (1993). Введение в Bootstrap . Бока-Ратон, Флорида: Chapman & Hall/CRC. ISBN 0-412-04231-2 . программное обеспечение. Архивировано 12 июля 2012 г. на archive.today.
^ Вторая мысль о бутстрепе - Брэдли Эфрон, 2003 г.
^ Вариан, Х. (2005). «Учебник по начальной загрузке». Журнал Mathematica , 9, 768–775.
^ Вайсштейн, Эрик В. «Методы начальной загрузки». Из MathWorld — веб-ресурса Wolfram. http://mathworld.wolfram.com/BootstrapMethods.html
^ Леманн Э.Л. (1992) «Введение в Неймана и Пирсона (1933) К проблеме наиболее эффективных проверок статистических гипотез». В: Прорывы в статистике, Том 1 (Эдс Коц, С., Джонсон, Н.Л.), Springer-Verlag. ISBN 0-387-94037-5 (с последующим переизданием статьи).
^ Примечания к самым ранним известным использованиям некоторых математических слов: Bootstrap (Джон Олдрич)
^ Самые ранние известные варианты использования некоторых математических слов (B) (Джефф Миллер)
^ Перейти обратно: ^а ^б Эфрон, Б. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Анналы статистики . 7 (1): 1–26. дои : 10.1214/aos/1176344552 .
^ Кенуй М (1949) Приблизительные тесты корреляции во временных рядах. Джей Рой Статист Soc Ser B 11 68–84
^ Тьюки Дж. (1958) Предвзятость и уверенность в не совсем больших выборках (аннотация). Энн Математик-статистик 29 614
^ Джекель Л. (1972) Бесконечно малый складной нож. Меморандум MM72-1215-11, Bell Lab
^ Бикель П., Фриман Д. (1981) Некоторые асимптотические теории бутстрепа. Энн Статист 9 1196–1217 гг.
^ Сингх К. (1981) Об асимптотической точности бутстрапа Эфрона . Энн Статист 9 1187–1195 гг.
^ Рубин Д (1981). Байесовский бутстрап. Энн Статист 9 130–134
^ Перейти обратно: ^а ^б ^с Эфрон, Б. (1987). «Лучшие доверительные интервалы начальной загрузки». Журнал Американской статистической ассоциации . 82 (397). Журнал Американской статистической ассоциации, Vol. 82, № 397: 171–185. дои : 10.2307/2289144 . JSTOR 2289144 .
^ Дичичио, Томас; Эфрон, Брэдли (1 июня 1992 г.). «Более точные доверительные интервалы в экспоненциальных семействах» . Биометрика . 79 (2): 231–245. дои : 10.2307/2336835 . ISSN 0006-3444 . JSTOR 2336835 . OCLC 5545447518 . Проверено 31 января 2024 г.
^ Гуд, П. (2006) Методы повторной выборки. 3-е изд. Биркгаузер.
^ Перейти обратно: ^а ^б ^с «21 модель регрессии начальной загрузки» (PDF) . Архивировано (PDF) из оригинала 24 июля 2015 г.
^ DiCiccio TJ, Efron B (1996) Начальные доверительные интервалы (сОбсуждение). Статистическая наука 11: 189–228.
^ Хинкли, Дэвид (1 августа 1994 г.). «[Bootstrap: Больше, чем удар в темноте?]: Комментарий» . Статистическая наука . 9 (3). дои : 10.1214/ss/1177010387 . ISSN 0883-4237 .
^ Гудхью, Д.Л., Льюис, В., и Томпсон, Р. (2012). Имеет ли PLS преимущества для небольшого размера выборки или ненормальных данных? MIS Quarterly, 36 (3), 981–1001.
^ Эфрон Б., Рогоса Д. и Тибширани Р. (2004). Методы повторной выборки оценки. В Нью-Джерси Смелзере и П.Б. Балтесе (ред.). Международная энциклопедия социальных и поведенческих наук (стр. 13216–13220). Нью-Йорк, штат Нью-Йорк: Эльзевир.
^ Адер, HJ , Мелленберг GJ и Хэнд, DJ (2008). Консультирование по методам исследования: Спутник консультанта . Хейзен, Нидерланды: Издательство Йоханнеса ван Кесселя. ISBN 978-90-79418-01-5 .
^ Бутстрап среднего значения в случае бесконечной дисперсии Athreya, KB Ann Stats vol 15 (2) 1987 724–731
^ «Сколько существует различных образцов начальной загрузки? Statweb.stanford.edu» . Архивировано из оригинала 14 сентября 2019 г. Проверено 9 декабря 2019 г.
^ Дженкинс, Дэвид Г.; Кинтана-Асенсио, Педро Ф. (21 февраля 2020 г.). «Решение минимального размера выборки для регрессий» . ПЛОС ОДИН . 15 (2): e0229345. Бибкод : 2020PLoSO..1529345J . дои : 10.1371/journal.pone.0229345 . ISSN 1932-6203 . ПМК 7034864 . ПМИД 32084211 .
^ Ламли, Томас (2002). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения» . Ежегодный обзор общественного здравоохранения . 23 : 151–169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ПМИД 11910059 .
^ Ли, Сян; Вонг, Ванлин; Ламуре, Экосс Л.; Вонг, Тьен Ю. (01 мая 2012 г.). «Подходят ли методы линейной регрессии для анализа, когда зависимая (результат) переменная не имеет нормального распределения?» . Исследовательская офтальмология и визуальные науки . 53 (6): 3082–3083. дои : 10.1167/iovs.12-9967 . ISSN 1552-5783 . ПМИД 22618757 .
^ Рубин, Д.Б. (1981). «Байесовский бутстрап». Анналы статистики , 9, 130.
^ Перейти обратно: ^а ^б ВАН, СУОДЖИН (1995). «Оптимизация сглаженного бутстрапа». Энн. Инст. Статист. Математика . 47 : 65–80. дои : 10.1007/BF00773412 . S2CID 122041565 .
^ Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1 . OCLC 262680588 . {{cite book}}: CS1 maint: другие ( ссылка )
^ Перейти обратно: ^а ^б ^с Кирк, Пол (2009). «Загрузка регрессии гауссовского процесса: изучение последствий неопределенности в данных о динамике времени» . Биоинформатика . 25 (10): 1300–1306. doi : 10.1093/биоинформатика/btp139 . ПМЦ 2677737 . ПМИД 19289448 .
^ Ву, CFJ (1986). «Складной нож, бутстрап и другие методы повторной выборки в регрессионном анализе (с обсуждениями)» (PDF) . Анналы статистики . 14 : 1261–1350. дои : 10.1214/aos/1176350142 .
^ Маммен, Э. (март 1993 г.). «Бутстрап и дикий бутстрап для линейных моделей большого размера» . Анналы статистики . 21 (1): 255–285. дои : 10.1214/aos/1176349025 .
^ Кюнш, HR (1989). «Складной нож и ботинок для общих стационарных наблюдений» . Анналы статистики . 17 (3): 1217–1241. дои : 10.1214/aos/1176347265 .
^ Политис, Д.Н.; Романо, JP (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. дои : 10.1080/01621459.1994.10476870 . hdl : 10983/25607 .
^ Винод, HD (2006). «Ансамбли максимальной энтропии для вывода временных рядов в экономике». Журнал азиатской экономики . 17 (6): 955–978. doi : 10.1016/j.asieco.2006.09.001 .
^ Винод, Хришикеш; Лопес-де-Лакаль, Хавьер (2009). «Максимальная энтропийная загрузка для временных рядов: пакет meboot R» . Журнал статистического программного обеспечения . 29 (5): 1–19. дои : 10.18637/jss.v029.i05 .
^ Кэмерон, AC; Гельбах, Дж.Б.; Миллер, Д.Л. (2008). «Усовершенствования на основе начальной загрузки для вывода кластерных ошибок» (PDF) . Обзор экономики и статистики . 90 (3): 414–427. дои : 10.1162/rest.90.3.414 .
^ Шаманди, Н; Муралидхаран, О; Наджми, А; Найду, С (2012). «Оценка неопределенности для больших потоков данных» .
^ Хэнли, Джеймс А. и Бренда МакГиббон. «Создание непараметрических выборок начальной загрузки с использованием частот Пуассона». компьютерные методы и программы в биомедицине 83.1 (2006): 57-62. PDF
^ Бабу, Г. Джогеш, П.К. Патхак и Ч.Р. Рао. «Правильность второго порядка бутстрапа Пуассона». Анналы статистики 27.5 (1999): 1666–1683. связь
^ Шумейкер, Оуэн Дж. и П.К. Патак. «Последовательный бутстрап: сравнение с обычным бутстрапом». Коммуникации в теории статистики и методах 30.8-9 (2001): 1661-1674. связь
^ Хименес-Гамеро, Мария Долорес, Хоакин Муньос-Гарсия и Рафаэль Пино-Мехиас. «Уменьшенная начальная загрузка для медианы». Статистика Синика (2004): 1179–1198. связь
^ Кляйнер, А; Талвалкар, А; Саркар, П; Джордан, Мичиган (2014). «Масштабируемая начальная загрузка для больших данных». Журнал Королевского статистического общества, серия B (статистическая методология) . 76 (4): 795–816. arXiv : 1112.5016 . дои : 10.1111/rssb.12050 . ISSN 1369-7412 . S2CID 3064206 .
^ Перейти обратно: ^а ^б Дэвисон, AC ; Хинкли, Д.В. (1997). Методы начальной загрузки и их применение . Кембриджская серия по статистической и вероятностной математике. Издательство Кембриджского университета. ISBN 0-521-57391-2 . программное обеспечение .
^ Перейти обратно: ^а ^б ^с Хестерберг, Тим С. (2014). «Что учителя должны знать о начальной загрузке: повторная выборка в учебной программе по статистике бакалавриата». arXiv : 1411.5279 [ стат.ОТ ].
^ Эфрон, Б. (1982). Складной нож, бутстрап и другие планы повторной выборки . Том. 38. Монографии Общества промышленной и прикладной математики CBMS-NSF. ISBN 0-89871-179-7 .
^ Шайнер, С. (1998). Планирование и анализ экологических экспериментов . ЦРК Пресс. ISBN 0412035618 . Гл13, стр300
^ Райс, Джон. Математическая статистика и анализ данных (2-е изд.). п. 272. «Хотя это прямое уравнение квантилей распределения бутстреп-выборки с доверительными пределами может поначалу показаться привлекательным, его обоснование несколько неясно».
^ Данные из примеров в байесовском анализе данных.
^ Чихара, Лаура; Хестерберг, Тим (3 августа 2018 г.). Математическая статистика с повторной выборкой и R (2-е изд.). John Wiley & Sons, Inc., номер телефона : 10.1002/9781119505969 . ISBN 9781119416548 . S2CID 60138121 .
^ Воинов, Василий [Г.]; Никулин, Михаил [С.] (1993). Несмещенные оценки и их приложения. Том. 1: Одномерный случай. Дордрект: Kluwer Academic Publishers. ISBN 0-7923-2382-3.
^ Янг, Джорджия (июль 1990 г.). «Альтернативные сглаженные бутстрапы» . Журнал Королевского статистического общества, серия B (методологический) . 52 (3): 477–484. дои : 10.1111/j.2517-6161.1990.tb01801.x . ISSN 0035-9246 .
^ Грегори, Карл (29 декабря 2023 г.). «Некоторые результаты, основанные на центральной предельной теореме Линдеберга» (PDF) . Проверено 29 декабря 2023 г.

Дальнейшее чтение

Диаконис, П. ; Эфрон, Б. (май 1983 г.). «Компьютерные методы в статистике» (PDF) . Научный американец . 248 (5): 116–130. Бибкод : 1983SciAm.248e.116D . doi : 10.1038/scientificamerican0583-116 . Архивировано из оригинала (PDF) 13 марта 2016 г. Проверено 19 января 2016 г. научно-популярный
Эфрон, Б. (1981). «Непараметрические оценки стандартной ошибки: складной нож, бутстрап и другие методы». Биометрика . 68 (3): 589–599. дои : 10.1093/biomet/68.3.589 .
Хестерберг, TC; Д.С. Мур ; С. Монаган; А. Клипсон и Р. Эпштейн (2005). «Методы начальной загрузки и тесты перестановок» (PDF) . В Дэвиде С. Муре и Джордже Маккейбе (ред.). Введение в практику статистики . программное обеспечение . Архивировано из оригинала (PDF) 15 февраля 2006 г. Проверено 23 марта 2007 г.
Эфрон, Брэдли (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Анналы статистики . 7 :1–26. дои : 10.1214/aos/1176344552 .
Эфрон, Брэдли (1981). «Непараметрические оценки стандартной ошибки: складной нож, бутстрап и другие методы». Биометрика . 68 (3): 589–599. дои : 10.2307/2335441 . JSTOR 2335441 .
Эфрон, Брэдли (1982). Складной нож, бутстрап и другие планы повторной выборки , В монографиях Общества промышленной и прикладной математики CBMS-NSF , 38.
Диаконис, П. ; Эфрон, Брэдли (1983), «Компьютерные методы в статистике», Scientific American , май, 116–130.
Эфрон, Брэдли ; Тибширани, Роберт Дж. (1993). Введение в бутстрап , Нью-Йорк: Chapman & Hall , программное обеспечение .
Дэвисон, А.С. и Хинкли, Д.В. (1997): Методы начальной загрузки и их применение, программное обеспечение .
Муни, Чехия и Дюваль, Р.Д. (1993). Начальная загрузка. Непараметрический подход к статистическому выводу. Серия статей Университета Сейджа о количественных приложениях в социальных науках, 07-095. Ньюбери-Парк, Калифорния: Сейдж .
Саймон, Дж. Л. (1997): Передискретизация: новая статистика .
Райт Д.Б., Лондон К., Филд А.П. Использование бутстрап-оценки и принципа подключаемого модуля для данных клинической психологии. 2011 Textrum Ltd. Онлайн: https://www.researchgate.net/publication/236647074_Using_Bootstrap_Estimation_and_the_Plug-in_Principle_for_Clinical_Psychology_Data . Проверено 25.04.2016.
Введение в бутстрап. Монографии по статистике и прикладной вероятности 57. Chapman&Hall/CHC. 1998. Интернет https://books.google.com/books?id=gLlpIUxRntoC&q=plug+in+principle.&pg=PA35 Проверено 25 апреля 2016 г.
Гейл Гонг (1986) Перекрестная проверка, складной нож и бутстрап: оценка избыточной ошибки в прямой логистической регрессии, Журнал Американской статистической ассоциации, 81:393, 108–113, DOI: 10.1080/01621459.1986.10478245

Внешние ссылки

Программное обеспечение

Статистика101: Передискретизация, Bootstrap, программа моделирования Монте-Карло. Бесплатная программа, написанная на Java и работающая в любой операционной системе.

[:0-1] Перейти обратно: ^а ^б ^с ^д ^и Эфрон, Б .; Тибширани, Р. (1993). Введение в Bootstrap . Бока-Ратон, Флорида: Chapman & Hall/CRC. ISBN 0-412-04231-2 . программное обеспечение. Архивировано 12 июля 2012 г. на archive.today.

[2] Вторая мысль о бутстрепе - Брэдли Эфрон, 2003 г.

[Varian-3] Вариан, Х. (2005). «Учебник по начальной загрузке». Журнал Mathematica , 9, 768–775.

[4] Вайсштейн, Эрик В. «Методы начальной загрузки». Из MathWorld — веб-ресурса Wolfram. http://mathworld.wolfram.com/BootstrapMethods.html

[5] Леманн Э.Л. (1992) «Введение в Неймана и Пирсона (1933) К проблеме наиболее эффективных проверок статистических гипотез». В: Прорывы в статистике, Том 1 (Эдс Коц, С., Джонсон, Н.Л.), Springer-Verlag. ISBN 0-387-94037-5 (с последующим переизданием статьи).

[6] Примечания к самым ранним известным использованиям некоторых математических слов: Bootstrap (Джон Олдрич)

[7] Самые ранние известные варианты использования некоторых математических слов (B) (Джефф Миллер)

[:5-8] Перейти обратно: ^а ^б Эфрон, Б. (1979). «Методы начальной загрузки: еще один взгляд на складной нож» . Анналы статистики . 7 (1): 1–26. дои : 10.1214/aos/1176344552 .

[Quenouille1949-9] Кенуй М (1949) Приблизительные тесты корреляции во временных рядах. Джей Рой Статист Soc Ser B 11 68–84

[Tukey1958-10] Тьюки Дж. (1958) Предвзятость и уверенность в не совсем больших выборках (аннотация). Энн Математик-статистик 29 614

[Jaeckel1972-11] Джекель Л. (1972) Бесконечно малый складной нож. Меморандум MM72-1215-11, Bell Lab

[Bickel1981-12] Бикель П., Фриман Д. (1981) Некоторые асимптотические теории бутстрепа. Энн Статист 9 1196–1217 гг.

[Singh1981-13] Сингх К. (1981) Об асимптотической точности бутстрапа Эфрона . Энн Статист 9 1187–1195 гг.

[Rubin1981-14] Рубин Д (1981). Байесовский бутстрап. Энн Статист 9 130–134

[BCa-15] Перейти обратно: ^а ^б ^с Эфрон, Б. (1987). «Лучшие доверительные интервалы начальной загрузки». Журнал Американской статистической ассоциации . 82 (397). Журнал Американской статистической ассоциации, Vol. 82, № 397: 171–185. дои : 10.2307/2289144 . JSTOR 2289144 .

[Diciccio1992-16] Дичичио, Томас; Эфрон, Брэдли (1 июня 1992 г.). «Более точные доверительные интервалы в экспоненциальных семействах» . Биометрика . 79 (2): 231–245. дои : 10.2307/2336835 . ISSN 0006-3444 . JSTOR 2336835 . OCLC 5545447518 . Проверено 31 января 2024 г.

[17] Гуд, П. (2006) Методы повторной выборки. 3-е изд. Биркгаузер.

[:4-18] Перейти обратно: ^а ^б ^с «21 модель регрессии начальной загрузки» (PDF) . Архивировано (PDF) из оригинала 24 июля 2015 г.

[DiCiccio1996-19] DiCiccio TJ, Efron B (1996) Начальные доверительные интервалы (сОбсуждение). Статистическая наука 11: 189–228.

[20] Хинкли, Дэвид (1 августа 1994 г.). «[Bootstrap: Больше, чем удар в темноте?]: Комментарий» . Статистическая наука . 9 (3). дои : 10.1214/ss/1177010387 . ISSN 0883-4237 .

[21] Гудхью, Д.Л., Льюис, В., и Томпсон, Р. (2012). Имеет ли PLS преимущества для небольшого размера выборки или ненормальных данных? MIS Quarterly, 36 (3), 981–1001.

[22] Эфрон Б., Рогоса Д. и Тибширани Р. (2004). Методы повторной выборки оценки. В Нью-Джерси Смелзере и П.Б. Балтесе (ред.). Международная энциклопедия социальных и поведенческих наук (стр. 13216–13220). Нью-Йорк, штат Нью-Йорк: Эльзевир.

[Ader-23] Адер, HJ , Мелленберг GJ и Хэнд, DJ (2008). Консультирование по методам исследования: Спутник консультанта . Хейзен, Нидерланды: Издательство Йоханнеса ван Кесселя. ISBN 978-90-79418-01-5 .

[24] Бутстрап среднего значения в случае бесконечной дисперсии Athreya, KB Ann Stats vol 15 (2) 1987 724–731

[25] «Сколько существует различных образцов начальной загрузки? Statweb.stanford.edu» . Архивировано из оригинала 14 сентября 2019 г. Проверено 9 декабря 2019 г.

[26] Дженкинс, Дэвид Г.; Кинтана-Асенсио, Педро Ф. (21 февраля 2020 г.). «Решение минимального размера выборки для регрессий» . ПЛОС ОДИН . 15 (2): e0229345. Бибкод : 2020PLoSO..1529345J . дои : 10.1371/journal.pone.0229345 . ISSN 1932-6203 . ПМК 7034864 . ПМИД 32084211 .

[27] Ламли, Томас (2002). «Важность предположения о нормальности в больших наборах данных общественного здравоохранения» . Ежегодный обзор общественного здравоохранения . 23 : 151–169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ПМИД 11910059 .

[28] Ли, Сян; Вонг, Ванлин; Ламуре, Экосс Л.; Вонг, Тьен Ю. (01 мая 2012 г.). «Подходят ли методы линейной регрессии для анализа, когда зависимая (результат) переменная не имеет нормального распределения?» . Исследовательская офтальмология и визуальные науки . 53 (6): 3082–3083. дои : 10.1167/iovs.12-9967 . ISSN 1552-5783 . ПМИД 22618757 .

[29] Рубин, Д.Б. (1981). «Байесовский бутстрап». Анналы статистики , 9, 130.

[:1-30] Перейти обратно: ^а ^б ВАН, СУОДЖИН (1995). «Оптимизация сглаженного бутстрапа». Энн. Инст. Статист. Математика . 47 : 65–80. дои : 10.1007/BF00773412 . S2CID 122041565 .

[:3-31] Современное введение в вероятность и статистику: понимание почему и как . Деккинг, Мишель (1946 г.р.). Лондон: Спрингер. 2005. ISBN 978-1-85233-896-1 . OCLC 262680588 . {{cite book}}: CS1 maint: другие ( ссылка )

[:2-32] Перейти обратно: ^а ^б ^с Кирк, Пол (2009). «Загрузка регрессии гауссовского процесса: изучение последствий неопределенности в данных о динамике времени» . Биоинформатика . 25 (10): 1300–1306. doi : 10.1093/биоинформатика/btp139 . ПМЦ 2677737 . ПМИД 19289448 .

[33] Ву, CFJ (1986). «Складной нож, бутстрап и другие методы повторной выборки в регрессионном анализе (с обсуждениями)» (PDF) . Анналы статистики . 14 : 1261–1350. дои : 10.1214/aos/1176350142 .

[34] Маммен, Э. (март 1993 г.). «Бутстрап и дикий бутстрап для линейных моделей большого размера» . Анналы статистики . 21 (1): 255–285. дои : 10.1214/aos/1176349025 .

[35] Кюнш, HR (1989). «Складной нож и ботинок для общих стационарных наблюдений» . Анналы статистики . 17 (3): 1217–1241. дои : 10.1214/aos/1176347265 .

[36] Политис, Д.Н.; Романо, JP (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. дои : 10.1080/01621459.1994.10476870 . hdl : 10983/25607 .

[37] Винод, HD (2006). «Ансамбли максимальной энтропии для вывода временных рядов в экономике». Журнал азиатской экономики . 17 (6): 955–978. doi : 10.1016/j.asieco.2006.09.001 .

[38] Винод, Хришикеш; Лопес-де-Лакаль, Хавьер (2009). «Максимальная энтропийная загрузка для временных рядов: пакет meboot R» . Журнал статистического программного обеспечения . 29 (5): 1–19. дои : 10.18637/jss.v029.i05 .

[39] Кэмерон, AC; Гельбах, Дж.Б.; Миллер, Д.Л. (2008). «Усовершенствования на основе начальной загрузки для вывода кластерных ошибок» (PDF) . Обзор экономики и статистики . 90 (3): 414–427. дои : 10.1162/rest.90.3.414 .

[40] Шаманди, Н; Муралидхаран, О; Наджми, А; Найду, С (2012). «Оценка неопределенности для больших потоков данных» .

[41] Хэнли, Джеймс А. и Бренда МакГиббон. «Создание непараметрических выборок начальной загрузки с использованием частот Пуассона». компьютерные методы и программы в биомедицине 83.1 (2006): 57-62. PDF

[42] Бабу, Г. Джогеш, П.К. Патхак и Ч.Р. Рао. «Правильность второго порядка бутстрапа Пуассона». Анналы статистики 27.5 (1999): 1666–1683. связь

[43] Шумейкер, Оуэн Дж. и П.К. Патак. «Последовательный бутстрап: сравнение с обычным бутстрапом». Коммуникации в теории статистики и методах 30.8-9 (2001): 1661-1674. связь

[44] Хименес-Гамеро, Мария Долорес, Хоакин Муньос-Гарсия и Рафаэль Пино-Мехиас. «Уменьшенная начальная загрузка для медианы». Статистика Синика (2004): 1179–1198. связь

[45] Кляйнер, А; Талвалкар, А; Саркар, П; Джордан, Мичиган (2014). «Масштабируемая начальная загрузка для больших данных». Журнал Королевского статистического общества, серия B (статистическая методология) . 76 (4): 795–816. arXiv : 1112.5016 . дои : 10.1111/rssb.12050 . ISSN 1369-7412 . S2CID 3064206 .

[BMA-46] Перейти обратно: ^а ^б Дэвисон, AC ; Хинкли, Д.В. (1997). Методы начальной загрузки и их применение . Кембриджская серия по статистической и вероятностной математике. Издательство Кембриджского университета. ISBN 0-521-57391-2 . программное обеспечение .

[hesterberg2014teachers-47] Перейти обратно: ^а ^б ^с Хестерберг, Тим С. (2014). «Что учителя должны знать о начальной загрузке: повторная выборка в учебной программе по статистике бакалавриата». arXiv : 1411.5279 [ стат.ОТ ].

[48] Эфрон, Б. (1982). Складной нож, бутстрап и другие планы повторной выборки . Том. 38. Монографии Общества промышленной и прикладной математики CBMS-NSF. ISBN 0-89871-179-7 .

[DAEE-49] Шайнер, С. (1998). Планирование и анализ экологических экспериментов . ЦРК Пресс. ISBN 0412035618 . Гл13, стр300

[50] Райс, Джон. Математическая статистика и анализ данных (2-е изд.). п. 272. «Хотя это прямое уравнение квантилей распределения бутстреп-выборки с доверительными пределами может поначалу показаться привлекательным, его обоснование несколько неясно».

[51] Данные из примеров в байесовском анализе данных.

[52] Чихара, Лаура; Хестерберг, Тим (3 августа 2018 г.). Математическая статистика с повторной выборкой и R (2-е изд.). John Wiley & Sons, Inc., номер телефона : 10.1002/9781119505969 . ISBN 9781119416548 . S2CID 60138121 .

[53] Воинов, Василий [Г.]; Никулин, Михаил [С.] (1993). Несмещенные оценки и их приложения. Том. 1: Одномерный случай. Дордрект: Kluwer Academic Publishers. ISBN 0-7923-2382-3.

[54] Янг, Джорджия (июль 1990 г.). «Альтернативные сглаженные бутстрапы» . Журнал Королевского статистического общества, серия B (методологический) . 52 (3): 477–484. дои : 10.1111/j.2517-6161.1990.tb01801.x . ISSN 0035-9246 .

[55] Грегори, Карл (29 декабря 2023 г.). «Некоторые результаты, основанные на центральной предельной теореме Линдеберга» (PDF) . Проверено 29 декабря 2023 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

История

Подход

Обсуждение

Преимущества

Недостатки

Рекомендации

Типы схем начальной загрузки

Повторная выборка случая

Оценка распределения выборочного среднего значения

Регрессия

Байесовский бутстрап

Гладкая загрузка

Параметрический бутстрап

Повторная выборка остатков

Бутстрап регрессии гауссовского процесса

Дикий бутстрап

Блокировать начальную загрузку

Временной ряд: простой блочный бутстрап

Временной ряд: бутстрап движущегося блока

Временной ряд: бутстрап максимальной энтропии

Данные кластера: блок начальной загрузки

Методы повышения эффективности вычислений

Пуассоновский бутстрап

Сумка с маленькими сапогами

Выбор статистики

Получение доверительных интервалов из бутстрап-распределения

Смещение, асимметрия и доверительные интервалы

Методы определения доверительных интервалов начальной загрузки

Проверка гипотезы Bootstrap

Примеры приложений

Сглаженный бутстрап

Связь с другими подходами к выводу

Связь с другими методами повторной выборки

U-статистика

Методы доказательства непротиворечивости бутстрап-оценок

См. также

Ссылки

Дальнейшее чтение

Внешние ссылки

Программное обеспечение