Доказательства с использованием обычных наименьших квадратов.

Цель данной страницы — предоставить дополнительные материалы к обычной статье по методу наименьших квадратов , снизив нагрузку основной статьи математикой и повысив ее доступность, сохранив при этом полноту изложения.

Вывод нормальных уравнений

Определите $i$ остаток , который будет

r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.

Тогда цель $S$ можно переписать

S=\sum _{i=1}^{m}r_{i}^{2}.

Учитывая, что S выпуклая, она минимизируется, когда ее вектор градиента равен нулю (Это следует по определению: если вектор градиента не равен нулю, существует направление, в котором мы можем двигаться, чтобы минимизировать его дальше – см. максимумы и минимумы .) элементы вектора градиента являются частными производными S по параметрам:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i=1}^{m}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}\qquad (j=1,2,\dots ,n).

Производные

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.

Подстановка выражений для невязок и производных в уравнения градиента дает

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i=1}^{m}\left(y_{i}-\sum _{k=1}^{n}X_{ik}\beta _{k}\right)(-X_{ij})\qquad (j=1,2,\dots ,n).

Таким образом, если ${\widehat {\beta }}$ минимизирует S , мы имеем

2\sum _{i=1}^{m}\left(y_{i}-\sum _{k=1}^{n}X_{ik}{\widehat {\beta }}_{k}\right)(-X_{ij})=0\qquad (j=1,2,\dots ,n).

После перестановки получим нормальные уравнения :

\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\widehat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\qquad (j=1,2,\dots ,n).

Нормальные уравнения записываются в матричной записи как

(\mathbf {X} ^{\mathrm {T} }\mathbf {X} ){\widehat {\boldsymbol {\beta }}}=\mathbf {X} ^{\mathrm {T} }\mathbf {y}

(где Х ^Т — транспонированная X матрица , ).

Решение нормальных уравнений дает вектор ${\widehat {\boldsymbol {\beta }}}$ оптимальных значений параметров.

Вывод непосредственно через матрицы

Нормальные уравнения могут быть получены непосредственно из матричного представления задачи следующим образом. Цель состоит в том, чтобы свести к минимуму

S({\boldsymbol {\beta }})={\bigl \|}\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}{\bigr \|}^{2}=(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} -\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}.

Здесь $({\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} )^{\rm {T}}=\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}$ имеет размерность 1х1 (количество столбцов $\mathbf {y}$ ), поэтому он является скаляром и равен своему собственному транспонированию, следовательно ${\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} =\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}$ и количество, которое нужно минимизировать, становится

S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}.

Дифференцируя это относительно ${\boldsymbol {\beta }}$ и приравнивание нулю для удовлетворения условий первого порядка дает

-\mathbf {X} ^{\rm {T}}\mathbf {y} +(\mathbf {X} ^{\rm {T}}\mathbf {X} ){\boldsymbol {\beta }}=0,

что эквивалентно приведенным выше нормальным уравнениям. Достаточным условием выполнения условий минимума второго порядка является то, что $\mathbf {X}$ иметь полный ранг столбца, и в этом случае $\mathbf {X} ^{\rm {T}}\mathbf {X}$ является положительно определенным .

Вывод без исчисления

Когда $\mathbf {X} ^{\rm {T}}\mathbf {X}$ положительно определена, формула минимизации значения ${\boldsymbol {\beta }}$ могут быть получены без использования производных. Количество

S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}

можно записать как

\langle {\boldsymbol {\beta }},{\boldsymbol {\beta }}\rangle -2\langle {\boldsymbol {\beta }},(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +\langle (\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C,

где $C$ зависит только от $\mathbf {y}$ и $\mathbf {X}$ , и $\langle \cdot ,\cdot \rangle$ внутренний продукт , определяемый

\langle x,y\rangle =x^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )y.

Отсюда следует, что $S({\boldsymbol {\beta }})$ равно

\langle {\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,{\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C

и, следовательно, минимизируется именно тогда, когда

{\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} =0.

Обобщение для сложных уравнений

В общем случае коэффициенты матриц $\mathbf {X} ,{\boldsymbol {\beta }}$ и $\mathbf {y}$ может быть сложным. Используя эрмитово транспонирование вместо простого транспонирования, можно найти вектор ${\boldsymbol {\widehat {\beta }}}$ что сводит к минимуму $S({\boldsymbol {\beta }})$ , как и в случае реальной матрицы. Чтобы получить нормальные уравнения, мы идем по тому же пути, что и в предыдущих выводах:

\displaystyle S({\boldsymbol {\beta }})=\langle \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }},\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rangle =\langle \mathbf {y} ,\mathbf {y} \rangle -{\overline {\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {y} \rangle }}-{\overline {\langle \mathbf {y} ,\mathbf {X} {\boldsymbol {\beta }}\rangle }}+\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {X} {\boldsymbol {\beta }}\rangle =\mathbf {y} ^{\rm {T}}{\overline {\mathbf {y} }}-{\boldsymbol {\beta }}^{\dagger }\mathbf {X} ^{\dagger }\mathbf {y} -\mathbf {y} ^{\dagger }\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}{\overline {\mathbf {X} }}{\overline {\boldsymbol {\beta }}},

где $\dagger$ означает эрмитово транспонирование.

Теперь нам нужно взять производные от $S({\boldsymbol {\beta }})$ по каждому из коэффициентов $\beta _{j}$ , но сначала мы разделим действительную и мнимую части, чтобы разобраться с сопряженными факторами в приведенном выше выражении. Для $\beta _{j}$ у нас есть

\beta _{j}=\beta _{j}^{R}+i\beta _{j}^{I}

и производные превращаются в

{\frac {\partial S}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}}{\frac {\partial \beta _{j}^{R}}{\partial \beta _{j}}}+{\frac {\partial S}{\partial \beta _{j}^{I}}}{\frac {\partial \beta _{j}^{I}}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}}-i{\frac {\partial S}{\partial \beta _{j}^{I}}}\quad (j=1,2,3,\ldots ,n).

После переписывания $S({\boldsymbol {\beta }})$ в форме суммирования и записи $\beta _{j}$ явно, мы можем вычислить обе частные производные с результатом:

{\begin{aligned}{\frac {\partial S}{\partial \beta _{j}^{R}}}={}&-\sum _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}+{\overline {y}}_{i}X_{ij}{\Big )}+2\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{R}+\sum _{i=1}^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}+\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\\[8pt]&{}-i{\frac {\partial S}{\partial \beta _{j}^{I}}}=\sum _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}-{\overline {y}}_{i}X_{ij}{\Big )}-2i\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{I}+\sum _{i=1}^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}-\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\end{aligned}}

который после сложения и сравнения с нулем (условие минимизации ${\boldsymbol {\widehat {\beta }}}$ ) дает

\sum _{i=1}^{m}X_{ij}{\overline {y}}_{i}=\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}{\overline {X}}_{ik}{\overline {\widehat {\beta }}}_{k}\qquad (j=1,2,3,\ldots ,n).

В матричной форме:

{\textbf {X}}^{\rm {T}}{\overline {\textbf {y}}}={\textbf {X}}^{\rm {T}}{\overline {{\big (}{\textbf {X}}{\boldsymbol {\widehat {\beta }}}{\big )}}}\quad {\text{ or }}\quad {\big (}{\textbf {X}}^{\dagger }{\textbf {X}}{\big )}{\boldsymbol {\widehat {\beta }}}={\textbf {X}}^{\dagger }{\textbf {y}}.

Оценка методом наименьших квадратов для β

Используя матричные обозначения, сумма квадратов остатков определяется выражением

S(\beta )=(y-X\beta )^{T}(y-X\beta ).

Поскольку это квадратичное выражение, вектор, дающий глобальный минимум, можно найти с помощью матричного исчисления путем дифференцирования по вектору $\beta$ (используя раскладку знаменателя) и приравнивая к нулю:

0={\frac {dS}{d\beta }}({\widehat {\beta }})={\frac {d}{d\beta }}{\bigg (}y^{T}y-\beta ^{T}X^{T}y-y^{T}X\beta +\beta ^{T}X^{T}X\beta {\bigg )}{\bigg |}_{\beta ={\widehat {\beta }}}=-2X^{T}y+2X^{T}X{\widehat {\beta }}

По предположению матрица X имеет полный ранг столбца, и, следовательно, X ^ТX обратим, а оценка методом наименьших квадратов для β определяется выражением

{\widehat {\beta }}=(X^{T}X)^{-1}X^{T}y

Непредвзятость и дисперсия ${\widehat {\beta }}$

Подставьте y = Xβ + ε в формулу для ${\widehat {\beta }}$ а затем воспользуемся законом полного ожидания :

{\begin{aligned}\operatorname {E} [\,{\widehat {\beta }}]&=\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}(X\beta +\varepsilon ){\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon {\Big ]}\\&=\beta +\operatorname {E} {\Big [}\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \mid X{\Big ]}{\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\operatorname {E} [\varepsilon \mid X]{\Big ]}&=\beta ,\end{aligned}}

где E[ ε | X ] = 0 по предположениям модели. Поскольку ожидаемое значение ${\widehat {\beta }}$ равен параметру, который он оценивает, $\beta$ , это несмещенная оценка $\beta$ .

Для дисперсии пусть ковариационная матрица $\varepsilon$ быть $\operatorname {E} [\,\varepsilon \varepsilon ^{T}\,]=\sigma ^{2}I$ (где $I$ это личность $m\,\times \,m$ матрица), и пусть X — известная константа.Затем,

{\begin{aligned}\operatorname {E} [\,({\widehat {\beta }}-\beta )({\widehat {\beta }}-\beta )^{T}]&=\operatorname {E} {\Big [}((X^{T}X)^{-1}X^{T}\varepsilon )((X^{T}X)^{-1}X^{T}\varepsilon )^{T}{\Big ]}\\&=\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \varepsilon ^{T}X(X^{T}X)^{-1}{\Big ]}\\&=(X^{T}X)^{-1}X^{T}\operatorname {E} {\Big [}\varepsilon \varepsilon ^{T}{\Big ]}X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^{T}\sigma ^{2}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1},\end{aligned}}

где мы использовали тот факт, что ${\widehat {\beta }}-\beta$ это просто преобразование аффинное $\varepsilon$ по матрице $(X^{T}X)^{-1}X^{T}$ .

Для простой модели линейной регрессии, где $\beta =[\beta _{0},\beta _{1}]^{T}$ ( $\beta _{0}$ это y -перехват и $\beta _{1}$ – наклон), получаем

{\begin{aligned}\sigma ^{2}(X^{T}X)^{-1}&=\sigma ^{2}\left({\begin{pmatrix}1&1&\cdots \\x_{1}&x_{2}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \,\,\,\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\sum _{i=1}^{m}{\begin{pmatrix}1&x_{i}\\x_{i}&x_{i}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}m&\sum x_{i}\\\sum x_{i}&\sum x_{i}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum x_{i}^{2}-(\sum x_{i})^{2}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum {(x_{i}-{\bar {x}})^{2}}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[8pt]\operatorname {Var} ({\widehat {\beta }}_{1})&={\frac {\sigma ^{2}}{\sum _{i=1}^{m}(x_{i}-{\bar {x}})^{2}}}.\end{aligned}}

Ожидаемая ценность и предвзятость ${\widehat {\sigma }}^{\,2}$

Сначала мы подставим выражение для y в оценщик и воспользуемся тем фактом, что X'M = MX = 0 (матрица M проецируется на пространство, ортогональное X ):

{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}y'My={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )={\tfrac {1}{n}}\varepsilon 'M\varepsilon

Теперь мы можем распознать ε ′ Mε как матрицу 1×1, такая матрица равна собственному следу . Это полезно, потому что по свойствам оператора следа tr ( AB ) = tr ( BA ), и мы можем использовать это для отделения возмущения ε от матрицы M , которая является функцией регрессоров X :

\operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {E} {\big [}\operatorname {tr} (\varepsilon 'M\varepsilon ){\big ]}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [M\varepsilon \varepsilon ']{\big )}

Используя закон повторного ожидания, это можно записать как

\operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {tr} {\Big (}\operatorname {E} {\big [}M\,\operatorname {E} [\varepsilon \varepsilon '|X]{\big ]}{\Big )}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [\sigma ^{2}MI]{\big )}={\tfrac {1}{n}}\sigma ^{2}\operatorname {E} {\big [}\operatorname {tr} \,M{\big ]}

Напомним, что M = I − P , где P — проекция на линейное пространство, натянутое на столбцы X. матрицы По свойствам матрицы проекции она имеет собственные значения p = Rank( X ), равные 1, а все остальные собственные значения равны 0. След матрицы равен сумме ее характеристических значений, таким образом, tr( P ) = p и tr( M ) знак равно п - п . Поэтому,

\operatorname {E} \,{\widehat {\sigma }}^{\,2}={\frac {n-p}{n}}\sigma ^{2}

Поскольку ожидаемое значение ${\widehat {\sigma }}^{\,2}$ не равен параметру, который он оценивает, $\sigma ^{\,2}$ , это смещенная оценка $\sigma ^{\,2}$ . Обратите внимание, что в следующем разделе «Максимальное правдоподобие» мы показываем, что при дополнительном предположении, что ошибки распределяются нормально, оценщик ${\widehat {\sigma }}^{\,2}$ пропорционально распределению хи-квадрат с n – p степенями свободы, из которого сразу следует формула ожидаемой ценности. Однако результат, который мы показали в этом разделе, действителен независимо от распределения ошибок и, следовательно, имеет значение сам по себе.

Согласованность и асимптотическая нормальность ${\widehat {\beta }}$

Оценщик ${\widehat {\beta }}$ можно записать как

{\widehat {\beta }}={\big (}{\tfrac {1}{n}}X'X{\big )}^{-1}{\tfrac {1}{n}}X'y=\beta +{\big (}{\tfrac {1}{n}}X'X{\big )}^{-1}{\tfrac {1}{n}}X'\varepsilon =\beta \;+\;{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}

Используя закон больших чисел, мы можем установить, что

{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}\ {\xrightarrow {p}}\ \operatorname {E} [x_{i}x_{i}']={\frac {Q_{xx}}{n}},\qquad {\frac {1}{n}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}\ {\xrightarrow {p}}\ \operatorname {E} [x_{i}\varepsilon _{i}]=0

По теореме Слуцкого и теореме о непрерывном отображении эти результаты можно объединить, чтобы установить состоятельность оценки ${\widehat {\beta }}$ :

{\widehat {\beta }}\ {\xrightarrow {p}}\ \beta +nQ_{xx}^{-1}\cdot 0=\beta

Центральная предельная теорема говорит нам, что

{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\,V{\big )},

где

V=\operatorname {Var} [x_{i}\varepsilon _{i}]=\operatorname {E} [\,\varepsilon _{i}^{2}x_{i}x'_{i}\,]=\operatorname {E} {\big [}\,\operatorname {E} [\varepsilon _{i}^{2}\mid x_{i}]\;x_{i}x'_{i}\,{\big ]}=\sigma ^{2}{\frac {Q_{xx}}{n}}

Применяя еще раз теорему Слуцкого, получим

{\sqrt {n}}({\widehat {\beta }}-\beta )={\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}\ {\xrightarrow {d}}\ Q_{xx}^{-1}n\cdot {\mathcal {N}}{\big (}0,\sigma ^{2}{\frac {Q_{xx}}{n}}{\big )}={\mathcal {N}}{\big (}0,\sigma ^{2}Q_{xx}^{-1}n{\big )}

Подход максимального правдоподобия

Оценка максимального правдоподобия — это общий метод оценки неизвестных параметров в статистической модели путем построения логарифмической функции правдоподобия, соответствующей совместному распределению данных, а затем максимизации этой функции по всем возможным значениям параметров. Чтобы применить этот метод, мы должны сделать предположение о распределении y при заданном X, чтобы можно было построить логарифмическую функцию правдоподобия. Связь оценки максимального правдоподобия с МНК возникает, когда это распределение моделируется как многомерное нормальное .

В частности, предположим, что ошибки ε имеют многомерное нормальное распределение со средним значением 0 и матрицей дисперсии σ. ²Я. Тогда распределение y условно на X будет

y\mid X\ \sim \ {\mathcal {N}}(X\beta ,\,\sigma ^{2}I)

и функция логарифмического правдоподобия данных будет равна

{\begin{aligned}{\mathcal {L}}(\beta ,\sigma ^{2}\mid X)&=\ln {\bigg (}{\frac {1}{(2\pi )^{n/2}(\sigma ^{2})^{n/2}}}e^{-{\frac {1}{2}}(y-X\beta )'(\sigma ^{2}I)^{-1}(y-X\beta )}{\bigg )}\\[6pt]&=-{\frac {n}{2}}\ln 2\pi -{\frac {n}{2}}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}(y-X\beta )'(y-X\beta )\end{aligned}}

Дифференцируя это выражение по β и σ ² мы найдем оценки ML этих параметров:

{\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial \beta '}}&=-{\frac {1}{2\sigma ^{2}}}{\Big (}-2X'y+2X'X\beta {\Big )}=0\quad \Rightarrow \quad {\widehat {\beta }}=(X'X)^{-1}X'y\\[6pt]{\frac {\partial {\mathcal {L}}}{\partial \sigma ^{2}}}&=-{\frac {n}{2}}{\frac {1}{\sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}(y-X\beta )'(y-X\beta )=0\quad \Rightarrow \quad {\widehat {\sigma }}^{\,2}={\frac {1}{n}}(y-X{\widehat {\beta }})'(y-X{\widehat {\beta }})={\frac {1}{n}}S({\widehat {\beta }})\end{aligned}}

Мы можем проверить, что это действительно максимум, взглянув на матрицу Гессе функции логарифмического правдоподобия.

Распределение конечной выборки

Поскольку в этом разделе мы предположили, что распределение членов ошибок известно как нормальное, становится возможным вывести явные выражения для распределений оценок ${\widehat {\beta }}$ и ${\widehat {\sigma }}^{\,2}$ :

{\widehat {\beta }}=(X'X)^{-1}X'y=(X'X)^{-1}X'(X\beta +\varepsilon )=\beta +(X'X)^{-1}X'{\mathcal {N}}(0,\sigma ^{2}I)

так что по свойствам аффинного преобразования многомерного нормального распределения

{\widehat {\beta }}\mid X\ \sim \ {\mathcal {N}}(\beta ,\,\sigma ^{2}(X'X)^{-1}).

Аналогично распределение ${\widehat {\sigma }}^{\,2}$ следует из

{\begin{aligned}{\widehat {\sigma }}^{\,2}&={\tfrac {1}{n}}(y-X(X'X)^{-1}X'y)'(y-X(X'X)^{-1}X'y)\\[5pt]&={\tfrac {1}{n}}(My)'My\\[5pt]&={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )\\[5pt]&={\tfrac {1}{n}}\varepsilon 'M\varepsilon ,\end{aligned}}

где $M=I-X(X'X)^{-1}X'$ — симметричная матрица проекции на подпространство, ортогональное X , и, таким образом , MX = X ′ M мы утверждали = 0. Ранее , что эта матрица имеет ранг n – p и, следовательно, по свойствам распределения хи-квадрат ,

{\tfrac {n}{\sigma ^{2}}}{\widehat {\sigma }}^{\,2}\mid X=(\varepsilon /\sigma )'M(\varepsilon /\sigma )\ \sim \ \chi _{n-p}^{2}

Более того, оценщики ${\widehat {\beta }}$ и ${\widehat {\sigma }}^{\,2}$ оказываются независимыми (условными на X ), что является фундаментальным для построения классических t- и F-критерий. Независимость легко увидеть из следующего: ${\widehat {\beta }}$ представляет собой коэффициенты векторного разложения ${\widehat {y}}=X{\widehat {\beta }}=Py=X\beta +P\varepsilon$ на основе столбцов X , как таковых ${\widehat {\beta }}$ является функцией Pε . В то же время оценщик ${\widehat {\sigma }}^{\,2}$ является нормой вектора Mε, деленного на n , и, таким образом, эта оценка является функцией Mε . Теперь случайные величины ( Pε , Mε ) совместно нормальны как линейное преобразование ε , и они также некоррелированы, потому что PM = 0. Согласно свойствам многомерного нормального распределения это означает, что Pε и Mε независимы, и, следовательно, оценки ${\widehat {\beta }}$ и ${\widehat {\sigma }}^{\,2}$ также будет независимым.

Вывод простых оценок линейной регрессии

Мы ищем ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ которые минимизируют сумму квадратов ошибок (SSE):

\min _{{\widehat {\alpha }},{\widehat {\beta }}}\,\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\equiv \min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)^{2}

Чтобы найти минимум, возьмите частные производные по ${\widehat {\alpha }}$ и ${\widehat {\beta }}$

{\begin{aligned}&{\frac {\partial }{\partial {\widehat {\alpha }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=\sum _{i=1}^{n}{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=n{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\widehat {\alpha }}+{\frac {1}{n}}{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&{\bar {y}}={\widehat {\alpha }}+{\widehat {\beta }}{\bar {x}}\end{aligned}}

Прежде чем брать частную производную по ${\widehat {\beta }}$ , замените предыдущий результат на ${\widehat {\alpha }}.$

\min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[y_{i}-\left({\bar {y}}-{\widehat {\beta }}{\bar {x}}\right)-{\widehat {\beta }}x_{i}\right]^{2}=\min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]^{2}

Теперь возьмем производную по ${\widehat {\beta }}$ :

{\begin{aligned}&{\frac {\partial }{\partial {\widehat {\beta }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]\left(x_{i}-{\bar {x}}\right)=0\\\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x}}\right)-{\widehat {\beta }}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}=0\\\Rightarrow {}&{\widehat {\beta }}={\frac {\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x}}\right)}{\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}={\frac {\operatorname {Cov} (x,y)}{\operatorname {Var} (x)}}\end{aligned}}

И, наконец, заменить ${\widehat {\beta }}$ определить ${\widehat {\alpha }}$

{\widehat {\alpha }}={\bar {y}}-{\widehat {\beta }}{\bar {x}}