Цель данной страницы — предоставить дополнительные материалы к обычной статье по методу наименьших квадратов , снизив нагрузку основной статьи математикой и повысив ее доступность, сохранив при этом полноту изложения.
Определите
остаток , который будет

Тогда цель
можно переписать

Учитывая, что S выпуклая, она минимизируется, когда ее вектор градиента равен нулю (Это следует по определению: если вектор градиента не равен нулю, существует направление, в котором мы можем двигаться, чтобы минимизировать его дальше – см. максимумы и минимумы .) элементы вектора градиента являются частными производными S по параметрам:

Производные

Подстановка выражений для невязок и производных в уравнения градиента дает

Таким образом, если
минимизирует S , мы имеем

После перестановки получим нормальные уравнения :

Нормальные уравнения записываются в матричной записи как
(где Х Т — транспонированная X матрица , ).
Решение нормальных уравнений дает вектор
оптимальных значений параметров.
Нормальные уравнения могут быть получены непосредственно из матричного представления задачи следующим образом. Цель состоит в том, чтобы свести к минимуму

Здесь
имеет размерность 1х1 (количество столбцов
), поэтому он является скаляром и равен своему собственному транспонированию, следовательно
и количество, которое нужно минимизировать, становится

Дифференцируя это относительно
и приравнивание нулю для удовлетворения условий первого порядка дает

что эквивалентно приведенным выше нормальным уравнениям. Достаточным условием выполнения условий минимума второго порядка является то, что
иметь полный ранг столбца, и в этом случае
является положительно определенным .
Когда
положительно определена, формула минимизации значения
могут быть получены без использования производных. Количество

можно записать как

где
зависит только от
и
, и
внутренний продукт , определяемый

Отсюда следует, что
равно

и, следовательно, минимизируется именно тогда, когда

В общем случае коэффициенты матриц
и
может быть сложным. Используя эрмитово транспонирование вместо простого транспонирования, можно найти вектор
что сводит к минимуму
, как и в случае реальной матрицы. Чтобы получить нормальные уравнения, мы идем по тому же пути, что и в предыдущих выводах:

где
означает эрмитово транспонирование.
Теперь нам нужно взять производные от
по каждому из коэффициентов
, но сначала мы разделим действительную и мнимую части, чтобы разобраться с сопряженными факторами в приведенном выше выражении. Для
у нас есть

и производные превращаются в

После переписывания
в форме суммирования и записи
явно, мы можем вычислить обе частные производные с результатом:
![{\displaystyle {\begin{aligned}{\frac {\partial S}{\partial \beta _{j}^{R}}}={}&-\sum _{i=1}^{m} \Big (}{\overline {X}}_{ij}y_{i}+{\overline {y}}_{i}X_{ij}{\Big )}+2\sum _{i=1} ^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{R}+\sum _{i=1}^{m}\sum _{k\neq j }^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}+\beta _{k}X_{ik}{\ overline {X}}_{ij}{\Big )},\\[8pt]&{}-i{\frac {\partial S}{\partial \beta _{j}^{I}}}=\ sum _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}-{\overline {y}}_{i}X_{ij}{\Big )}-2i\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{I}+\sum _{i=1} ^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}- \beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1ca8fa94fe661274e8afdb8bdffd0d1b20bc6bcf)
который после сложения и сравнения с нулем (условие минимизации
) дает

В матричной форме:

Используя матричные обозначения, сумма квадратов остатков определяется выражением

Поскольку это квадратичное выражение, вектор, дающий глобальный минимум, можно найти с помощью матричного исчисления путем дифференцирования по вектору
(используя раскладку знаменателя) и приравнивая к нулю:

По предположению матрица X имеет полный ранг столбца, и, следовательно, X Т X обратим, а оценка методом наименьших квадратов для β определяется выражением

Непредвзятость и дисперсия 
[ редактировать ] Подставьте y = Xβ + ε в формулу для
а затем воспользуемся законом полного ожидания :
![{\displaystyle {\begin{aligned}\operatorname {E} [\, {\widehat {\beta }}]&=\operatorname {E} {\Big [}(X^{T}X)^{-1 }X^{T}(X\beta +\varepsilon ){\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X ^{T}\varepsilon {\Big ]}\\&=\beta +\operatorname {E} {\Big [}\operatorname {E} {\Big [}(X^{T}X)^{-1 }X^{T}\varepsilon \mid X{\Big ]}{\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1 }X^{T}\operatorname {E} [\varepsilon \mid X]{\Big ]}&=\beta ,\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7fb1d9fe0f8d00d3d91d4d81e8a665f8ad7052b3)
где E[ ε | X ] = 0 по предположениям модели. Поскольку ожидаемое значение
равен параметру, который он оценивает,
, это несмещенная оценка
.
Для дисперсии пусть ковариационная матрица
быть
(где
это личность
матрица), и пусть X — известная константа.Затем,
![{\displaystyle {\begin{aligned}\operatorname {E} [\,({\widehat {\beta }}-\beta )({\widehat {\beta }}-\beta )^{T}]&= \operatorname {E} {\Big [}((X^{T}X)^{-1}X^{T}\varepsilon )((X^{T}X)^{-1}X^{T }\varepsilon )^{T}{\Big ]}\\&=\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \varepsilon ^ {T}X(X^{T}X)^{-1}{\Big ]}\\&=(X^{T}X)^{-1}X^{T}\operatorname {E} { \Big [}\varepsilon \varepsilon ^{T}{\Big ]}X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^ {T}\sigma ^{2}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}X^{T }X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1},\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3cb74f6a9ca52308d402667278375f70ff926277)
где мы использовали тот факт, что
это просто преобразование аффинное
по матрице
.
Для простой модели линейной регрессии, где
(
это y -перехват и
– наклон), получаем
![{\displaystyle {\begin{aligned}\sigma ^{2}(X^{T}X)^{-1}&=\sigma ^{2}\left({\begin{pmatrix}1&1&\cdots \\ x_{1}&x_{2}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \,\,\,\end{pmatrix }}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\sum _{i=1}^{m}{\begin{pmatrix}1&x_{i}\\ x_{i}&x_{i}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}m&\sum x_{ i}\\\sum x_{i}&\sum x_{i}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum x_{i}^{2}-(\sum x_{i})^{2}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum {(x_{i }-{\bar {x}})^{2}}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i} &m\end{pmatrix}}\\[8pt]\operatorname {Var} ({\widehat {\beta }}_{1})&={\frac {\sigma ^{2}}{\sum _{i =1}^{m}(x_{i}-{\bar {x}})^{2}}}.\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1b4643f01c05be2409ebce8be32d4acad37630f5)
Ожидаемая ценность и предвзятость 
[ редактировать ] Сначала мы подставим выражение для y в оценщик и воспользуемся тем фактом, что X'M = MX = 0 (матрица M проецируется на пространство, ортогональное X ):

Теперь мы можем распознать ε ′ Mε как матрицу 1×1, такая матрица равна собственному следу . Это полезно, потому что по свойствам оператора следа tr ( AB ) = tr ( BA ), и мы можем использовать это для отделения возмущения ε от матрицы M , которая является функцией регрессоров X :
![{\displaystyle \operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {E} {\big [}\operatorname {tr} (\varepsilon 'M\varepsilon ){\big ]}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [M\varepsilon \varepsilon ']{\big )}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c1868b7e13df17de50f4c87497a933808e7266b2)
Используя закон повторного ожидания, это можно записать как
![{\displaystyle \operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {tr} {\Big (}\operatorname {E} {\big [}M\,\operatorname {E} [\varepsilon \varepsilon '|X]{\big ]}{\Big )}={\tfrac {1}{n}}\operatorname {tr} {\ big (}\operatorname {E} [\sigma ^{2}MI]{\big )}={\tfrac {1}{n}}\sigma ^{2}\operatorname {E} {\big [}\ имя оператора {tr} \,M{\big ]}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ed1ce313fa2b3e6b31e2fccbe99ffc86f8c1cc72)
Напомним, что M = I − P , где P — проекция на линейное пространство, натянутое на столбцы X. матрицы По свойствам матрицы проекции она имеет собственные значения p = Rank( X ), равные 1, а все остальные собственные значения равны 0. След матрицы равен сумме ее характеристических значений, таким образом, tr( P ) = p и tr( M ) знак равно п - п . Поэтому,

Поскольку ожидаемое значение
не равен параметру, который он оценивает,
, это смещенная оценка
. Обратите внимание, что в следующем разделе «Максимальное правдоподобие» мы показываем, что при дополнительном предположении, что ошибки распределяются нормально, оценщик
пропорционально распределению хи-квадрат с n – p степенями свободы, из которого сразу следует формула ожидаемой ценности. Однако результат, который мы показали в этом разделе, действителен независимо от распределения ошибок и, следовательно, имеет значение сам по себе.
Согласованность и асимптотическая нормальность 
[ редактировать ] Оценщик
можно записать как

Используя закон больших чисел, мы можем установить, что
![{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}\ {\xrightarrow {p}}\ \operatorname {E} [ x_{i}x_{i}']={\frac {Q_{xx}}{n}},\qquad {\frac {1}{n}}\sum _{i=1}^{n}x_ {i}\varepsilon _{i}\ {\xrightarrow {p}}\ \operatorname {E} [x_{i}\varepsilon _{i}]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f8027d33e895265dd61204d050a86a3d1f30cf1e)
По теореме Слуцкого и теореме о непрерывном отображении эти результаты можно объединить, чтобы установить состоятельность оценки
:

Центральная предельная теорема говорит нам, что
где ![{\displaystyle V=\operatorname {Var} [x_{i}\varepsilon _{i}]=\operatorname {E} [\,\varepsilon _{i}^{2}x_{i}x'_{i }\,]=\operatorname {E} {\big [}\,\operatorname {E} [\varepsilon _{i}^{2}\mid x_{i}]\;x_{i}x'_{ i}\,{\big ]}=\sigma ^{2}{\frac {Q_{xx}}{n}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/16d07e2695c798ab3556d7d51ae5596ecd5408e1)
Применяя еще раз теорему Слуцкого, получим

Оценка максимального правдоподобия — это общий метод оценки неизвестных параметров в статистической модели путем построения логарифмической функции правдоподобия, соответствующей совместному распределению данных, а затем максимизации этой функции по всем возможным значениям параметров. Чтобы применить этот метод, мы должны сделать предположение о распределении y при заданном X, чтобы можно было построить логарифмическую функцию правдоподобия. Связь оценки максимального правдоподобия с МНК возникает, когда это распределение моделируется как многомерное нормальное .
В частности, предположим, что ошибки ε имеют многомерное нормальное распределение со средним значением 0 и матрицей дисперсии σ. 2 Я. Тогда распределение y условно на X будет

и функция логарифмического правдоподобия данных будет равна
![{\displaystyle {\begin{aligned}{\mathcal {L}}(\beta ,\sigma ^{2}\mid X)&=\ln {\bigg (}{\frac {1}{(2\pi) )^{n/2}(\sigma ^{2})^{n/2}}}e^{-{\frac {1}{2}}(yX\beta )'(\sigma ^{2} I)^{-1}(yX\beta )}{\bigg )}\\[6pt]&=-{\frac {n}{2}}\ln 2\pi -{\frac {n}{2 }}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}(yX\beta )'(yX\beta )\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b9d2be7f29f162691a8678f5d8a878dce3ad57cb)
Дифференцируя это выражение по β и σ 2 мы найдем оценки ML этих параметров:
![{\displaystyle {\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial \beta '}}&=-{\frac {1}{2\sigma ^{2}}} {\Big (}-2X'y+2X'X\beta {\Big )}=0\quad \Rightarrow \quad {\widehat {\beta }}=(X'X)^{-1}X'y \\[6pt]{\frac {\partial {\mathcal {L}}}{\partial \sigma ^{2}}}&=-{\frac {n}{2}}{\frac {1}{ \sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}(yX\beta )'(yX\beta )=0\quad \Rightarrow \quad {\widehat {\sigma }}^{\,2}={\frac {1}{n}}(yX{\widehat {\beta }})'(yX{\widehat {\beta }})={\frac {1}{ n}}S({\widehat {\beta }})\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/aaa976fbdb2f01fd3b8d55cf263146acadd5b09d)
Мы можем проверить, что это действительно максимум, взглянув на матрицу Гессе функции логарифмического правдоподобия.
Поскольку в этом разделе мы предположили, что распределение членов ошибок известно как нормальное, становится возможным вывести явные выражения для распределений оценок
и
:

так что по свойствам аффинного преобразования многомерного нормального распределения

Аналогично распределение
следует из
![{\displaystyle {\begin{aligned}{\widehat {\sigma }}^{\,2}&={\tfrac {1}{n}}(yX(X'X)^{-1}X'y )'(yX(X'X)^{-1}X'y)\\[5pt]&={\tfrac {1}{n}}(My)'My\\[5pt]&={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )\\[5pt]&={\tfrac {1}{n}}\varepsilon 'M\varepsilon ,\ конец {выровнено}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8926254897d3673fd9ab47fe7af7fda54e570b2a)
где
— симметричная матрица проекции на подпространство, ортогональное X , и, таким образом , MX = X ′ M мы утверждали = 0. Ранее , что эта матрица имеет ранг n – p и, следовательно, по свойствам распределения хи-квадрат ,

Более того, оценщики
и
оказываются независимыми (условными на X ), что является фундаментальным для построения классических t- и F-критерий. Независимость легко увидеть из следующего:
представляет собой коэффициенты векторного разложения
на основе столбцов X , как таковых
является функцией Pε . В то же время оценщик
является нормой вектора Mε, деленного на n , и, таким образом, эта оценка является функцией Mε . Теперь случайные величины ( Pε , Mε ) совместно нормальны как линейное преобразование ε , и они также некоррелированы, потому что PM = 0. Согласно свойствам многомерного нормального распределения это означает, что Pε и Mε независимы, и, следовательно, оценки
и
также будет независимым.
Мы ищем
и
которые минимизируют сумму квадратов ошибок (SSE):

Чтобы найти минимум, возьмите частные производные по
и 
![{\displaystyle {\begin{aligned}&{\frac {\partial }{\partial {\widehat {\alpha }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }}, {\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat { \beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha } }-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=\sum _{ i=1}^{n}{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {} &\sum _{i=1}^{n}y_{i}=n{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{ i}\\[4pt]\Rightarrow {}&{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\widehat {\alpha }}+{\ frac {1}{n}}{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&{\bar {y}}= {\widehat {\alpha }}+{\widehat {\beta }}{\bar {x}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3e056ae27c927897f754c36d74694db81cfcee3b)
Прежде чем брать частную производную по
, замените предыдущий результат на 
![{\displaystyle \min _ {{\widehat {\alpha }}, {\widehat {\beta }}}\sum _{i = 1}^{n}\left[y_{i}-\left({\ bar {y}}-{\widehat {\beta }}{\bar {x}}\right)-{\widehat {\beta }}x_{i}\right]^{2}=\min _{{ \widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right) - {\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7590aefde23fc0f68ee41f75488588f6aab554c5)
Теперь возьмем производную по
:
![{\displaystyle {\begin{aligned}&{\frac {\partial }{\partial {\widehat {\beta }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }}, {\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right) -{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]\left(x_{i}-{\bar {x}}\right)=0 \\\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x }}\right)-{\widehat {\beta }}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}=0 \\\Rightarrow {}&{\widehat {\beta }}={\frac {\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right) \left(x_{i}-{\bar {x}}\right)}{\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right) ^{2}}}={\frac {\operatorname {Cov} (x,y)}{\operatorname {Var} (x)}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6622b62063274e7ffa58a37e1b9a8988624ee849)
И, наконец, заменить
определить 
