Обобщенные наименьшие квадраты

В статистике обобщенный метод наименьших квадратов (GLS) — это метод, используемый для оценки неизвестных параметров в модели линейной регрессии . Он используется, когда существует ненулевая степень корреляции между остатками в регрессионной модели. GLS используется для повышения статистической эффективности и снижения риска получения ошибочных выводов по сравнению с традиционными методами наименьших квадратов и взвешенными методами наименьших квадратов. Впервые он был описан Александром Эйткеном в 1935 году. ^[1]

Это требует знания ковариационной матрицы остатков. Если это неизвестно, оценка ковариационной матрицы дает метод допустимых обобщенных наименьших квадратов (FGLS). Однако FGLS дает меньше гарантий улучшения.

Метод

В стандартных моделях линейной регрессии наблюдаются данные $\{y_{i},x_{ij}\}_{i=1,\dots ,n,j=2,\dots ,k}$ на n статистических единицах с k - 1 значениями предикторов и одним значением ответа каждая.

Значения ответа помещаются в вектор, $\mathbf {y} \equiv {\begin{pmatrix}y_{1}\\\vdots \\y_{n}\end{pmatrix}},$ и значения предикторов помещаются в матрицу плана , $\mathbf {X} \equiv {\begin{pmatrix}1&x_{12}&x_{13}&\cdots &x_{1k}\\1&x_{22}&x_{23}&\cdots &x_{2k}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n2}&x_{n3}&\cdots &x_{nk}\end{pmatrix}},$ где каждая строка представляет собой вектор $k$ переменные-предикторы (включая константу) для $i$ эта точка данных.

Модель предполагает, что условное среднее $\mathbf {y}$ данный $\mathbf {X}$ быть линейной функцией от $\mathbf {X}$ и что условная дисперсия члена ошибки, заданная $\mathbf {X}$ — известная неособая ковариационная матрица , $\mathbf {\Omega }$ . То есть, $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\quad \operatorname {E} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=0,\quad \operatorname {Cov} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\boldsymbol {\Omega }},$ где ${\boldsymbol {\beta }}\in \mathbb {R} ^{k}$ представляет собой вектор неизвестных констант, называемых «коэффициентами регрессии», которые оцениваются на основе данных.

Если $\mathbf {b}$ это приблизительная оценка для ${\boldsymbol {\beta }}$ , то вектор невязки для $\mathbf {b}$ является $\mathbf {y} -\mathbf {X} \mathbf {b}$ . Оценки обобщенного метода наименьших квадратов ${\boldsymbol {\beta }}$ минимизируя квадрат длины Махаланобиса этого остаточного вектора: ${\begin{aligned}{\hat {\boldsymbol {\beta }}}&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )\\&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -\mathbf {y} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} \,,\end{aligned}}$ что эквивалентно ${\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -2\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} ,$ что является задачей квадратичного программирования . Стационарная точка целевой функции возникает, когда $2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} {\mathbf {b} }-2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} =0,$ поэтому оценщик ${\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} .$ Количество $\mathbf {\Omega } ^{-1}$ известна как матрица точности (или матрица дисперсии ), обобщение диагональной весовой матрицы .

Характеристики

Оценка GLS является несмещенной , последовательной , эффективной и асимптотически нормальной с $\operatorname {E} [{\hat {\boldsymbol {\beta }}}\mid \mathbf {X} ]={\boldsymbol {\beta }},\quad {\text{and}}\quad \operatorname {Cov} [{\hat {\boldsymbol {\beta }}}\mid \mathbf {X} ]=(\mathbf {X} ^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}\mathbf {X} )^{-1}.$ GLS эквивалентен применению обычного метода наименьших квадратов (OLS) к линейно преобразованной версии данных. Это можно увидеть, факторизовав $\mathbf {\Omega } =\mathbf {C} \mathbf {C} ^{\mathrm {T} }$ используя такой метод, как разложение Холецкого . Умножение слева обеих частей $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ к $\mathbf {C} ^{-1}$ дает эквивалентную линейную модель: $\mathbf {y} ^{*}=\mathbf {X} ^{*}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}^{*},\quad {\text{where}}\quad \mathbf {y} ^{*}=\mathbf {C} ^{-1}\mathbf {y} ,\quad \mathbf {X} ^{*}=\mathbf {C} ^{-1}\mathbf {X} ,\quad {\boldsymbol {\varepsilon }}^{*}=\mathbf {C} ^{-1}{\boldsymbol {\varepsilon }}.$ В этой модели $\operatorname {Var} [{\boldsymbol {\varepsilon }}^{*}\mid \mathbf {X} ]=\mathbf {C} ^{-1}\mathbf {\Omega } \left(\mathbf {C} ^{-1}\right)^{\mathrm {T} }=\mathbf {I}$ , где $\mathbf {I}$ является единичной матрицей . Затем, ${\boldsymbol {\beta }}$ может быть эффективно оценено путем применения МНК к преобразованным данным, что требует минимизации цели, $\left(\mathbf {y} ^{*}-\mathbf {X} ^{*}{\boldsymbol {\beta }}\right)^{\mathrm {T} }(\mathbf {y} ^{*}-\mathbf {X} ^{*}{\boldsymbol {\beta }})=(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} ).$ Это преобразование эффективно стандартизирует масштаб и декоррелирует ошибки. Когда OLS используется для данных с гомоскедастическими ошибками, применяется теорема Гаусса – Маркова , поэтому оценка GLS является лучшей линейной несмещенной оценкой для ${\boldsymbol {\beta }}$ .

Взвешенные наименьшие квадраты

Особый случай GLS, называемый взвешенным методом наименьших квадратов (WLS), возникает, когда все недиагональные элементы Ω равны 0. Эта ситуация возникает, когда дисперсии наблюдаемых значений неравны или когда гетероскедастичность присутствует , но между ними не существует корреляций. наблюдаемые отклонения. Вес для единицы i пропорционален обратной величине дисперсии ответа для единицы i . ^[2]

Вывод путем оценки максимального правдоподобия

Обыкновенный метод наименьших квадратов можно интерпретировать как оценку максимального правдоподобия с учетом того , что ошибки независимы и нормально распределены с нулевым средним значением и общей дисперсией. В GLS априорное правило обобщается на случай, когда ошибки не могут быть независимыми и могут иметь разные дисперсии . По заданным параметрам подгонки $\mathbf {b}$ предполагается , что условная функция плотности вероятности ошибок равна: $p({\boldsymbol {\varepsilon }}|\mathbf {b} )={\frac {1}{\sqrt {(2\pi )^{n}\det {\boldsymbol {\Omega }}}}}\exp \left(-{\frac {1}{2}}{\boldsymbol {\varepsilon }}^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}{\boldsymbol {\varepsilon }}\right).$ По теореме Байеса , $p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\frac {p({\boldsymbol {\varepsilon }}|\mathbf {b} )p(\mathbf {b} )}{p({\boldsymbol {\varepsilon }})}}.$ GLS для В $p(\mathbf {b} )$ , и как $p({\boldsymbol {\varepsilon }})$ является маргинальным распределением, оно не зависит от $\mathbf {b}$ . Следовательно, логарифмическая вероятность равна $\log p(\mathbf {b} |{\boldsymbol {\varepsilon }})=\log p({\boldsymbol {\varepsilon }}|\mathbf {b} )+\cdots =-{\frac {1}{2}}{\boldsymbol {\varepsilon }}^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}{\boldsymbol {\varepsilon }}+\cdots ,$ где скрытыми членами являются те, которые не зависят от $\mathbf {b}$ , и $\log p({\boldsymbol {\varepsilon }}|\mathbf {b} )$ — логарифмическая вероятность . Максимальная апостериорная оценка (MAP) тогда является оценкой максимального правдоподобия (MLE), которая эквивалентна задаче оптимизации, поставленной выше: ${\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmax} }}\;p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\underset {\mathbf {b} }{\operatorname {argmax} }}\;\log p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\underset {\mathbf {b} }{\operatorname {argmax} }}\;\log p({\boldsymbol {\varepsilon }}|\mathbf {b} )={\underset {\mathbf {b} }{\operatorname {argmin} }}\;{\frac {1}{2}}(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} ),$

где $\mathbf {y} -\mathbf {X} \mathbf {b}$ был заменен на ${\boldsymbol {\varepsilon }}$ , и задача оптимизации была переписана с учетом того факта, что логарифм является строго возрастающей функцией , и того свойства, что аргумент, решающий задачу оптимизации, не зависит от членов целевой функции, которые не включают указанные члены.

Возможные обобщенные методы наименьших квадратов

Если ковариация ошибок $\Omega$ неизвестно, можно получить непротиворечивую оценку $\Omega$ , сказать ${\widehat {\Omega }}$ , ^[3] используя реализуемую версию GLS, известную как осуществимая оценка обобщенных наименьших квадратов ( FGLS ).

В FGLS моделирование происходит в два этапа:

Модель оценивается с помощью OLS или другого непротиворечивого (но неэффективного) средства оценки, а остатки используются для построения непротиворечивого средства оценки ковариационной матрицы ошибок (для этого часто необходимо исследовать модель, добавляя дополнительные ограничения; например, если ошибки следуют за процессом временного ряда, статистику обычно необходимы некоторые теоретические предположения об этом процессе, чтобы гарантировать наличие непротиворечивой оценки).
Затем, используя непротиворечивую оценку ковариационной матрицы ошибок, можно реализовать идеи GLS.

Хотя GLS более эффективен, чем OLS, в условиях гетероскедастичности (также называемой гетероскедастичностью) или автокорреляции , это не относится к FGLS. Допустимая оценка асимптотически более эффективна (при условии, что ковариационная матрица ошибок оценивается последовательно), но для выборки малого и среднего размера она может быть фактически менее эффективной, чем МНК. Вот почему некоторые авторы предпочитают использовать МНК и переформулировать свои выводы, просто рассматривая альтернативную оценку дисперсии оценки, устойчивой к гетероскедастичности или серийной автокорреляции. Однако для больших выборок FGLS предпочтительнее OLS в условиях гетероскедастичности или серийной корреляции. ^[3]^[4] Предостережение: оценщик FGLS не всегда последовательен. Одним из случаев, когда FGLS может быть противоречивым, является наличие фиксированных эффектов, специфичных для конкретного человека. ^[5]

В общем, эта оценка имеет другие свойства, чем GLS. Для больших выборок (т. е. асимптотически) все свойства (при соответствующих условиях) являются общими по отношению к GLS, но для конечных выборок свойства оценок FGLS неизвестны: они резко изменяются в зависимости от каждой конкретной модели, и, как правило, их точные распределения не могут быть получены аналитически. Для конечных выборок FGLS в некоторых случаях может быть менее эффективным, чем OLS. Таким образом, хотя GLS может быть реализован, не всегда разумно применять этот метод, когда выборка мала. Метод, используемый для повышения точности оценок в конечных выборках, заключается в итерации; то есть взять остатки из FGLS для обновления средства оценки ковариации ошибок, а затем обновить оценку FGLS, итеративно применяя одну и ту же идею до тех пор, пока оценки не будут отличаться меньше, чем некоторый допуск. Однако этот метод не обязательно значительно повышает эффективность оценки, если исходная выборка была небольшой.

Разумный вариант, когда выборки не слишком велики, — применить МНК, но отказаться от классической оценки дисперсии.

\sigma ^{2}*(X^{\operatorname {T} }X)^{-1}

(что противоречиво в этой структуре) и вместо этого используйте оценщик HAC (согласованность гетероскедастичности и автокорреляции). В контексте автокорреляции оценку Ньюи-Уэста можно использовать оценку Эйкера-Уайта , а в гетероскедастических контекстах вместо нее можно использовать . Этот подход гораздо безопаснее, и его следует использовать, если только выборка не велика, где «большой» иногда является скользким вопросом (например, если распределение ошибок асимметрично, требуемая выборка будет намного больше).

Обычная оценка методом наименьших квадратов (OLS) рассчитывается по формуле:

{\widehat {\beta }}_{\text{OLS}}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y

и оценки остатков ${\widehat {u}}_{j}=(Y-X{\widehat {\beta }}_{\text{OLS}})_{j}$ построены.

Для простоты рассмотрим модель гетероскедастических и неавтокоррелированных ошибок. Предположим, что дисперсионно-ковариационная матрица $\Omega$ вектора ошибок является диагональным, или, что то же самое, ошибки различных наблюдений некоррелированы. Тогда каждая диагональная запись может быть оценена с помощью подобранных остатков ${\widehat {u}}_{j}$ так ${\widehat {\Omega }}_{OLS}$ может быть построено:

{\widehat {\Omega }}_{\text{OLS}}=\operatorname {diag} ({\widehat {\sigma }}_{1}^{2},{\widehat {\sigma }}_{2}^{2},\dots ,{\widehat {\sigma }}_{n}^{2}).

Важно отметить, что квадраты остатков нельзя использовать в предыдущем выражении; необходима оценка дисперсий ошибок. Для этого гетероскедастичности можно использовать параметрическую модель или непараметрическую программу оценки.

Оценивать $\beta _{FGLS1}$ с использованием ${\widehat {\Omega }}_{\text{OLS}}$ с использованием ^[4] взвешенные наименьшие квадраты :

{\widehat {\beta }}_{FGLS1}=(X^{\operatorname {T} }{\widehat {\Omega }}_{\text{OLS}}^{-1}X)^{-1}X^{\operatorname {T} }{\widehat {\Omega }}_{\text{OLS}}^{-1}y

Процедуру можно повторять. Первая итерация задается следующим образом:

{\widehat {u}}_{FGLS1}=Y-X{\widehat {\beta }}_{FGLS1}

{\widehat {\Omega }}_{FGLS1}=\operatorname {diag} ({\widehat {\sigma }}_{FGLS1,1}^{2},{\widehat {\sigma }}_{FGLS1,2}^{2},\dots ,{\widehat {\sigma }}_{FGLS1,n}^{2})

{\widehat {\beta }}_{FGLS2}=(X^{\operatorname {T} }{\widehat {\Omega }}_{FGLS1}^{-1}X)^{-1}X^{\operatorname {T} }{\widehat {\Omega }}_{FGLS1}^{-1}y

Эта оценка ${\widehat {\Omega }}$ можно повторить до сходимости.

В условиях регулярности оценка FGLS (или оценка ее итераций, если проводится конечное число итераций) асимптотически распределяется как:

{\sqrt {n}}({\hat {\beta }}_{FGLS}-\beta )\ \xrightarrow {d} \ {\mathcal {N}}\!\left(0,\,V\right)

где $n$ - размер выборки, и

V=\operatorname {p-lim} (X^{\operatorname {T} }\Omega ^{-1}X/n)

где ${\text{p-lim}}$ означает предел вероятности .

См. также

Ссылки

^ Эйткен, AC (1935). «О наименьших квадратах и линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга . 55 : 42–48. дои : 10.1017/s0370164600014346 .
^ Струц, Т. (2016). Подгонка данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и не только) . Спрингер Вьюег. ISBN 978-3-658-11455-8 . , глава 3
^ Перейти обратно: ^а ^б Балтаги, Б.Х. (2008). Эконометрика (4-е изд.). Нью-Йорк: Спрингер.
^ Перейти обратно: ^а ^б Грин, штат Вашингтон (2003). Эконометрический анализ (5-е изд.). Река Аппер-Седл, Нью-Джерси: Прентис-Холл.
^ Хансен, Кристиан Б. (2007). «Обобщенный вывод методом наименьших квадратов в панельных и многоуровневых моделях с последовательной корреляцией и фиксированными эффектами». Журнал эконометрики . 140 (2): 670–694. doi : 10.1016/j.jeconom.2006.07.011 .

Дальнейшее чтение

Амемия, Такеши (1985). «Обобщенная теория наименьших квадратов» . Продвинутая эконометрика . Издательство Гарвардского университета. ISBN 0-674-00560-0 .
Джонстон, Джон (1972). «Обобщенный метод наименьших квадратов» . Эконометрические методы (Второе изд.). Нью-Йорк: МакГроу-Хилл. стр. 208–242.
Кмента, Ян (1986). «Обобщенная модель линейной регрессии и ее приложения» . Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. стр. 607–650. ISBN 0-472-10886-7 .
Бек, Натаниэль; Кац, Джонатан Н. (сентябрь 1995 г.). «Что делать (и не делать) с данными временных рядов» . Американский обзор политической науки . 89 (3): 634–647. дои : 10.2307/2082979 . ISSN 1537-5943 . JSTOR 2082979 . S2CID 63222945 .

[1] Эйткен, AC (1935). «О наименьших квадратах и линейных комбинациях наблюдений». Труды Королевского общества Эдинбурга . 55 : 42–48. дои : 10.1017/s0370164600014346 .

[2] Струц, Т. (2016). Подгонка данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и не только) . Спрингер Вьюег. ISBN 978-3-658-11455-8 . , глава 3

[Baltagi2008-3] Перейти обратно: ^а ^б Балтаги, Б.Х. (2008). Эконометрика (4-е изд.). Нью-Йорк: Спрингер.

[Greene2003-4] Перейти обратно: ^а ^б Грин, штат Вашингтон (2003). Эконометрический анализ (5-е изд.). Река Аппер-Седл, Нью-Джерси: Прентис-Холл.

[5] Хансен, Кристиан Б. (2007). «Обобщенный вывод методом наименьших квадратов в панельных и многоуровневых моделях с последовательной корреляцией и фиксированными эффектами». Журнал эконометрики . 140 (2): 670–694. doi : 10.1016/j.jeconom.2006.07.011 .

[1]

[2]

[3]

[4]

[5]