Кластеризованные стандартные ошибки

Кластеризованные стандартные ошибки (или стандартные ошибки Лянга-Цегера ) ^[1] Это измерения, которые оценивают стандартную ошибку параметра регрессии в условиях, когда наблюдения могут быть разделены на группы меньшего размера («кластеры») и где выборка и/или назначение лечения коррелируют внутри каждой группы. ^[2]^[3] Кластерные стандартные ошибки широко используются в различных прикладных эконометрических условиях, включая разницу в разностях. ^[4] или эксперименты. ^[5]

Аналогично тому, как Хубера-Уайта стандартные ошибки согласуются при наличии гетероскедастичности , а стандартные ошибки Ньюи-Уэста согласуются при наличии точно смоделированной автокорреляции , кластерные стандартные ошибки согласуются при наличии выборки на основе кластеров или назначения лечения. Кластерные стандартные ошибки часто оправдываются возможной корреляцией остатков моделирования внутри каждого кластера; хотя недавние исследования показывают, что это не является точным обоснованием кластеризации, ^[6] это может быть педагогически полезно.

Интуитивная мотивация

Кластеризованные стандартные ошибки часто полезны, когда лечение назначается на уровне кластера, а не на индивидуальном уровне. Например, предположим, что исследователь в области образования хочет выяснить, улучшает ли новая методика обучения результаты тестов учащихся. Поэтому она поручает учителям «обработанных» классов опробовать эту новую технику, оставляя при этом «контрольные» классы незатронутыми. При анализе своих результатов она может захотеть сохранить данные на уровне учащихся (например, для контроля наблюдаемых характеристик на уровне учащихся). Однако при оценке стандартной ошибки или доверительного интервала своей статистической модели она понимает, что классические или даже устойчивые к гетероскедастичности стандартные ошибки неуместны, поскольку результаты тестов учащихся в каждом классе не распределяются независимо. Вместо этого учащиеся классов с лучшими учителями имеют особенно высокие результаты тестов (независимо от того, получают ли они экспериментальное лечение), тогда как учащиеся классов с худшими учителями имеют особенно низкие результаты тестов. Исследователь может сгруппировать свои стандартные ошибки на уровне класса, чтобы учесть этот аспект своего эксперимента. ^[7]

Хотя этот пример очень специфичен, аналогичные проблемы возникают в самых разных ситуациях. Например, во многих настройках панельных данных (таких как разница в разностях ) кластеризация часто предлагает простой и эффективный способ учета независимости между периодами внутри каждой единицы (иногда называемой «автокорреляцией в остатках»). ^[4] Другое распространенное и логически четкое обоснование кластеризации возникает, когда полная совокупность не может быть отобрана случайным образом, и вместо этого отбираются кластеры, а затем единицы рандомизируются внутри кластера. В этом случае кластерные стандартные ошибки объясняют неопределенность, вызванную тем фактом, что исследователь не наблюдает за большими частями интересующей совокупности. ^[8]

Математическая мотивация

Полезная математическая иллюстрация взята из случая односторонней кластеризации в обычной модели наименьших квадратов (OLS). Рассмотрим простую модель с N наблюдениями, которые разделены на C- кластеры. Позволять $Y$ быть $n\times 1$ вектор результатов, $X$ а $n\times m$ матрица ковариат, $\beta$ а $m\times 1$ вектор неизвестных параметров и $e$ а $n\times 1$ вектор необъяснимых остатков:

Y=X\beta +e

Как обычно в моделях МНК, мы минимизируем сумму квадратов остатков. $e$ чтобы получить оценку ${\hat {\beta }}$ :

\min _{\beta }(Y-X\beta )^{2}

\Rightarrow X'(Y-X{\hat {\beta }})=0

\Rightarrow {\hat {\beta }}=(X'X)^{-1}X'Y

Отсюда мы можем получить классическую «сэндвич»-оценку:

V({\hat {\beta }})=V((X'X)^{-1}X'Y)=V(\beta +(X'X)^{-1}X'e)=V((X'X)^{-1}X'e)=(X'X)^{-1}X'ee'X(X'X)^{-1}

Обозначая $\Omega \equiv ee'$ дает потенциально более знакомую форму

V({\hat {\beta }})=(X'X)^{-1}X'\Omega X(X'X)^{-1}

Хотя можно разработать подключаемый модуль оценки, определив ${\hat {e}}\equiv Y-X{\hat {\beta }}$ и позволяя ${\hat {\Omega }}\equiv {\hat {e}}{\hat {e}}'$ , эта полностью гибкая оценка не сходится к $V({\hat {\beta }})$ как $N\rightarrow \infty$ . Учитывая предположения, которые практикующий специалист считает разумными, разные типы стандартных ошибок решают эту проблему по-разному. Например, классические гомоскедастические стандартные ошибки предполагают, что $\Omega$ диагональная с одинаковыми элементами $\sigma ^{2}$ , что упрощает выражение для $V({\hat {\beta }})=\sigma ^{2}(X'X)^{-1}$ . Стандартные ошибки Хубера-Уайта предполагают $\Omega$ является диагональной, но диагональное значение варьируется, в то время как другие типы стандартных ошибок (например, Ньюи-Уэста , SE Моултона, пространственные SE Конли) накладывают другие ограничения на форму этой матрицы, чтобы уменьшить количество параметров, которые практикующий врач должен оценить.

Кластеризованные стандартные ошибки предполагают, что $\Omega$ является блочно-диагональным в соответствии с кластерами в выборке, с неограниченными значениями в каждом блоке и нулями в других местах. В этом случае можно определить $X_{c}$ и $\Omega _{c}$ как внутриблочные аналоги $X$ и $\Omega$ и выведем следующий математический факт:

X'\Omega X=\sum _{c}X'_{c}\Omega _{c}X_{c}

Путем построения подключаемых матриц ${\hat {\Omega }}_{c}$ , можно построить оценку для $V({\hat {\beta }})$ это соответствует количеству кластеров $c$ становится большим. Хотя статистически не доказано, что достаточное количество кластеров является достаточным, практики часто называют число в диапазоне 30–50 и спокойно используют кластеризованные стандартные ошибки, когда количество кластеров превышает этот порог. В качестве альтернативы обычно также используются модификации с конечной выборкой, чтобы уменьшить смещение вниз. $V({\hat {\beta }})$ из-за конечного C ^[9]. Таким образом, результирующая оценка с поправкой на предвзятость имеет вид:

{\hat {V}}({\hat {\beta }})=(X'X)^{-1}\sum _{c}X'_{c}{\hat {\Omega }}_{c}X_{c}(X'X)^{-1}{\frac {C}{C-1}}{\frac {n-1}{n-k}}.

Дальнейшее чтение

Альберто Абади, Сьюзан Эти, Гвидо В. Имбенс и Джеффри М. Вулдридж. 2022. « Когда следует корректировать стандартные ошибки для кластеризации? » Ежеквартальный журнал экономики .

Ссылки

^ Лян, Кунг-Йи ; Зегер, Скотт Л. (1 апреля 1986 г.). «Продольный анализ данных с использованием обобщенных линейных моделей» . Биометрика . 73 (1): 13–22. дои : 10.1093/biomet/73.1.13 . ISSN 0006-3444 .
^ Кэмерон, А. Колин ; Миллер, Дуглас Л. (31 марта 2015 г.). «Руководство для практикующего специалиста по кластерному выводу» . Журнал человеческих ресурсов . 50 (2): 317–372. CiteSeerX 10.1.1.703.724 . дои : 10.3368/jhr.50.2.317 . ISSN 0022-166X . S2CID 1296789 .
^ «АР 212» . Фиона Берлиг . Проверено 5 июля 2020 г.
^ Jump up to: ^а ^б Бертран, Марианна ; Дюфло, Эстер ; Муллайнатан, Сендхил (1 февраля 2004 г.). «Насколько нам следует доверять оценкам различий в различиях?» . Ежеквартальный экономический журнал . 119 (1): 249–275. дои : 10.1162/003355304772839588 . hdl : 1721.1/63690 . ISSN 0033-5533 . S2CID 470667 .
^ Исинь Тан (11 сентября 2019 г.). «Анализ экспериментов с обратным переключением с помощью кластерной устойчивой стандартной ошибки для предотвращения ложноположительных результатов» . Инженерный блог DoorDash . Проверено 5 июля 2020 г.
^ Абади, Альберто ; Эти, Сьюзен ; Имбенс, Гвидо ; Вулдридж, Джеффри (24 октября 2017 г.). «Когда следует корректировать стандартные ошибки для кластеризации?». arXiv : 1710.02926 [ math.ST ].
^ «КЛАСТЕРНЫЕ СТАНДАРТНЫЕ ОШИБКИ» . Блог экономической теории . 2016. Архивировано из оригинала 6 ноября 2016 г. Проверено 28 сентября 2021 г.
^ «Когда следует группировать стандартные ошибки? Новая мудрость от оракула эконометрики» . blogs.worldbank.org . Проверено 5 июля 2020 г.
^ «Руководство для практикующего специалиста по кластерному выводу» (PDF) . Калифорнийский университет в Дэвисе – Экономика . Проверено 4 июля 2024 г.

[1] Лян, Кунг-Йи ; Зегер, Скотт Л. (1 апреля 1986 г.). «Продольный анализ данных с использованием обобщенных линейных моделей» . Биометрика . 73 (1): 13–22. дои : 10.1093/biomet/73.1.13 . ISSN 0006-3444 .

[2] Кэмерон, А. Колин ; Миллер, Дуглас Л. (31 марта 2015 г.). «Руководство для практикующего специалиста по кластерному выводу» . Журнал человеческих ресурсов . 50 (2): 317–372. CiteSeerX 10.1.1.703.724 . дои : 10.3368/jhr.50.2.317 . ISSN 0022-166X . S2CID 1296789 .

[3] «АР 212» . Фиона Берлиг . Проверено 5 июля 2020 г.

[:0-4] Jump up to: ^а ^б Бертран, Марианна ; Дюфло, Эстер ; Муллайнатан, Сендхил (1 февраля 2004 г.). «Насколько нам следует доверять оценкам различий в различиях?» . Ежеквартальный экономический журнал . 119 (1): 249–275. дои : 10.1162/003355304772839588 . hdl : 1721.1/63690 . ISSN 0033-5533 . S2CID 470667 .

[5] Исинь Тан (11 сентября 2019 г.). «Анализ экспериментов с обратным переключением с помощью кластерной устойчивой стандартной ошибки для предотвращения ложноположительных результатов» . Инженерный блог DoorDash . Проверено 5 июля 2020 г.

[6] Абади, Альберто ; Эти, Сьюзен ; Имбенс, Гвидо ; Вулдридж, Джеффри (24 октября 2017 г.). «Когда следует корректировать стандартные ошибки для кластеризации?». arXiv : 1710.02926 [ math.ST ].

[7] «КЛАСТЕРНЫЕ СТАНДАРТНЫЕ ОШИБКИ» . Блог экономической теории . 2016. Архивировано из оригинала 6 ноября 2016 г. Проверено 28 сентября 2021 г.

[8] «Когда следует группировать стандартные ошибки? Новая мудрость от оракула эконометрики» . blogs.worldbank.org . Проверено 5 июля 2020 г.

[9] «Руководство для практикующего специалиста по кластерному выводу» (PDF) . Калифорнийский университет в Дэвисе – Экономика . Проверено 4 июля 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]