Сбалансированная повторная репликация
Сбалансированная повторная репликация — это статистический метод оценки изменчивости выборки статистики, полученной с помощью стратифицированной выборки .
Краткое описание техники
[ редактировать ]- Выберите сбалансированные полувыборки из полной выборки.
- Рассчитайте интересующую статистику для каждой полувыборки.
- Оцените дисперсию статистики на основе различий между значениями полной выборки и полувыборки.
Отбор полувыборок
[ редактировать ]Упрощенная версия
[ редактировать ]Рассмотрим сначала идеализированную ситуацию, когда каждая страта нашей выборки содержит только две единицы. Тогда каждая полувыборка будет содержать ровно один из них, так что полувыборки разделяют стратификацию полной выборки. Если есть s страт, в идеале мы бы взяли все 2 с способы выбора полустрата; но если s велико, это может быть неосуществимо.
Если необходимо взять меньше полувыборок, они отбираются так, чтобы быть «сбалансированными» (отсюда и название метода). Пусть H — матрица Адамара размера s и выберите одну строку на полувыборку. (Неважно, какие строки; важен тот факт, что все строки H ортогональны.) Теперь для каждой полувыборки выберите, какую единицу взять из каждого слоя в соответствии со знаком соответствующей записи в H : то есть для полувыборки h мы выбираем первую единицу из страты k, если H hk = −1, и вторую единицу, если H hk = +1. Ортогональность строк H гарантирует, что наш выбор не коррелирует между полувыборками.
Реалистичная версия
[ редактировать ]К сожалению, матрицы Адамара размера s может не существовать . В этом случае мы выбираем размер немного больше s . Теперь подматрица H , определяющая наш выбор, больше не обязательно должна иметь строго ортогональные строки, но если размер H лишь немного больше s, строки будут примерно ортогональными.
Количество единиц на страту не обязательно должно быть ровно 2 и обычно не будет. В этом случае единицы в каждой страте делятся на две «ПЕВ дисперсии» (ПЕВ = первичная единица выборки) равного или почти равного размера. Это можно делать случайным образом или таким образом, чтобы ПЕВ были как можно более похожими. (Так, например, если стратификация была выполнена на основе некоторого числового параметра, единицы в каждой страте могут быть отсортированы в порядке этого параметра и выбраны альтернативные единицы для двух ПЕВ.)
Если количество слоев очень велико, перед применением BRR можно объединить несколько слоев. Полученные группы известны как «страты дисперсии».
Формула БРР
[ редактировать ]Пусть a — значение нашей статистики, рассчитанное на основе полной выборки; пусть a i ( i = 1,..., n ) — соответствующая статистика, рассчитанная для полувыборок. ( n — количество полувыборок.)
Тогда наша оценка выборочной дисперсии статистики равна среднему значению ( a i − a ) 2 . Это (по крайней мере, в идеальном случае) несмещенная оценка выборочной дисперсии.
метод Фэй
[ редактировать ]Метод Фэя является обобщением BRR. Вместо того, чтобы просто брать выборки половинного размера, мы каждый раз используем полную выборку, но с неравным весом: k для единиц вне полувыборки и 2 - k для единиц внутри нее. (BRR — это случай k = 0.) Тогда оценка дисперсии равна V /(1 − k ) 2 , где V — оценка, полученная по приведенной выше формуле BRR.
См. также
[ редактировать ]Ссылки и внешние ссылки
[ редактировать ]- Сбалансированная повторная репликация , Американские исследовательские институты.
- Маккарти, Пи Джей (1969). Псевдорепликация: половина образцов. Обзор Международного статистического института , 37 (3), 239-264.
- Кревски Д. и Дж. Н. К. Рао (1981). Вывод из стратифицированных выборок: свойства линеаризации, складного ножа и сбалансированных методов повторной репликации. Анналы статистики , 9 (5), 1010–1019.
- Джадкинс, Д.Р. (1990). Метод Фэя для оценки дисперсии. Журнал официальной статистики , 6 (3), 223–239.
- Рао, JNK и CFJ Ву (1985). Вывод из стратифицированных выборок: анализ второго порядка трех методов нелинейной статистики. Журнал Американской статистической ассоциации , 80 (391), 620–630.