Разделение сумм квадратов

Разделение сумм квадратов – это концепция, которая пронизывает большую часть статистики вывода и описательной статистики . Точнее, это разделение сумм квадратов отклонений или ошибок . Математически сумма квадратов отклонений представляет собой немасштабированную или нескорректированную меру дисперсии (также называемой изменчивостью ). При масштабировании по количеству степеней свободы он оценивает дисперсию или разброс наблюдений об их среднем значении. Разделение суммы квадратов отклонений на различные компоненты позволяет отнести общую изменчивость в наборе данных к различным типам или источникам изменчивости, при этом относительная важность каждого из них количественно определяется размером каждого компонента общей суммы квадратов.

Фон

Расстояние от любой точки набора данных до среднего значения данных является отклонением. Это можно записать как $y_{i}-{\overline {y}}$ , где $y_{i}$ - i-я точка данных, а ${\overline {y}}$ это оценка среднего значения. Если все такие отклонения возвести в квадрат, то суммировать, как в $\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\,\right)^{2}$ , это дает «сумму квадратов» для этих данных.

Когда в коллекцию добавляется больше данных, сумма квадратов увеличивается, за исключением маловероятных случаев, например, когда новые данные равны среднему значению. Поэтому обычно сумма квадратов будет расти с размером сбора данных. Это проявление того, что оно немасштабировано.

Во многих случаях количество степеней свободы — это просто количество точек данных в коллекции минус одна. Мы запишем это как n - 1, где n — количество точек данных.

Масштабирование (также известное как нормализация) означает корректировку суммы квадратов таким образом, чтобы она не росла по мере увеличения размера коллекции данных. Это важно, когда мы хотим сравнить выборки разного размера, например выборку из 100 человек по сравнению с выборкой из 20 человек. Если бы сумма квадратов не была нормализована, ее значение для выборки из 100 человек всегда было бы больше, чем для выборки из 20 человек. Чтобы масштабировать сумму квадратов, мы делим ее на степени свободы, т. е. вычисляем сумму квадратов на степень свободы или дисперсию. Стандартное отклонение , в свою очередь, представляет собой квадратный корень дисперсии.

Вышеописанное описывает, как сумма квадратов используется в описательной статистике; см. статью об общей сумме квадратов , где описано применение этого широкого принципа к статистике вывода .

Разделение суммы квадратов в линейной регрессии

Теорема. Учитывая модель линейной регрессии $y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}$ включая постоянную $\beta _{0}$ , по образцу $(y_{i},x_{i1},\ldots ,x_{ip}),\,i=1,\ldots ,n$ содержащие n наблюдений, общая сумма квадратов $\mathrm {TSS} =\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}$ можно разделить следующим образом на объяснимую сумму квадратов (ESS) и остаточную сумму квадратов (RSS):

\mathrm {TSS} =\mathrm {ESS} +\mathrm {RSS} ,

где это уравнение эквивалентно каждой из следующих форм:

{\begin{aligned}\left\|y-{\bar {y}}\mathbf {1} \right\|^{2}&=\left\|{\hat {y}}-{\bar {y}}\mathbf {1} \right\|^{2}+\left\|{\hat {\varepsilon }}\right\|^{2},\quad \mathbf {1} =(1,1,\ldots ,1)^{T},\\\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2},\\\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2},\\\end{aligned}}

где

{\hat {y}}_{i}

значение, оцененное с помощью линии регрессии, имеющей

{\hat {b}}_{0}

,

{\hat {b}}_{1}

, ...,

{\hat {b}}_{p}

как расчетные коэффициенты . ^[1]

Доказательство

{\begin{aligned}\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}&=\sum _{i=1}^{n}(y_{i}-{\overline {y}}+{\hat {y}}_{i}-{\hat {y}}_{i})^{2}=\sum _{i=1}^{n}(({\hat {y}}_{i}-{\bar {y}})+\underbrace {(y_{i}-{\hat {y}}_{i})} _{{\hat {\varepsilon }}_{i}})^{2}\\&=\sum _{i=1}^{n}(({\hat {y}}_{i}-{\bar {y}})^{2}+2{\hat {\varepsilon }}_{i}({\hat {y}}_{i}-{\bar {y}})+{\hat {\varepsilon }}_{i}^{2})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}({\hat {y}}_{i}-{\bar {y}})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i1}+\cdots +{\hat {\beta }}_{p}x_{ip}-{\overline {y}})\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}+2({\hat {\beta }}_{0}-{\overline {y}})\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}} _{0}+2{\hat {\beta }}_{1}\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}x_{i1}} _{0}+\cdots +2{\hat {\beta }}_{p}\underbrace {\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}x_{ip}} _{0}\\&=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}+\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}=\mathrm {ESS} +\mathrm {RSS} \\\end{aligned}}

Требование, чтобы модель включала константу или, что то же самое, чтобы матрица плана содержала столбец единиц, гарантирует, что $\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}=0$ , то есть ${\hat {\varepsilon }}^{T}\mathbf {1} =0$ .

Доказательство также можно выразить в векторной форме следующим образом:

{\begin{aligned}SS_{\text{total}}=\Vert \mathbf {y} -{\bar {y}}\mathbf {1} \Vert ^{2}&=\Vert \mathbf {y} -{\bar {y}}\mathbf {1} +\mathbf {\hat {y}} -\mathbf {\hat {y}} \Vert ^{2},\\&=\Vert \left(\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} \right)+\left(\mathbf {y} -\mathbf {\hat {y}} \right)\Vert ^{2},\\&=\Vert {\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} }\Vert ^{2}+\Vert {\hat {\varepsilon }}\Vert ^{2}+2{\hat {\varepsilon }}^{T}\left(\mathbf {\hat {y}} -{\bar {y}}\mathbf {1} \right),\\&=SS_{\text{regression}}+SS_{\text{error}}+2{\hat {\varepsilon }}^{T}\left(X{\hat {\beta }}-{\bar {y}}\mathbf {1} \right),\\&=SS_{\text{regression}}+SS_{\text{error}}+2\left({\hat {\varepsilon }}^{T}X\right){\hat {\beta }}-2{\bar {y}}\underbrace {{\hat {\varepsilon }}^{T}\mathbf {1} } _{0},\\&=SS_{\text{regression}}+SS_{\text{error}}.\end{aligned}}

При исключении терминов в последней строке использовался тот факт, что

{\hat {\varepsilon }}^{T}X=\left(\mathbf {y} -\mathbf {\hat {y}} \right)^{T}X=\mathbf {y} ^{T}(I-X(X^{T}X)^{-1}X^{T})^{T}X={\mathbf {y} }^{T}(X^{T}-X^{T})^{T}={\mathbf {0} }.

Дальнейшее разбиение

Обратите внимание, что остаточную сумму квадратов можно разделить на сумму квадратов несоответствия плюс сумму квадратов из-за чистой ошибки.

См. также

Внутрипродуктовое пространство
- Гильбертово пространство
  - Евклидово пространство
Ожидаемые средние квадраты
- Ортогональность
- Ортонормированный базис
  - Ортогональное дополнение , замкнутое подпространство, ортогональное множеству (особенно подпространству)
  - Ортомодулярная решетка подпространств пространства со скалярным произведением
  - Ортогональная проекция
- Теорема Пифагора о том, что сумма квадратов норм ортогональных слагаемых равна квадрату нормы суммы.
Наименьшие квадраты
Среднеквадратическая ошибка
Квадратные отклонения

Ссылки

^ «Сумма квадратов – определение, формулы, регрессионный анализ» . Институт корпоративных финансов . Проверено 16 октября 2020 г.

Бейли, РА (2008). План сравнительных экспериментов . Издательство Кембриджского университета. ISBN 978-0-521-68357-9 . Предварительные главы доступны в Интернете.
Кристенсен, Рональд (2002). Плоские ответы на сложные вопросы: теория линейных моделей (Третье изд.). Нью-Йорк: Спрингер. ISBN 0-387-95361-2 .
Уиттл, Питер (1963). Прогнозирование и регулирование . Издательство английских университетов. ISBN 0-8166-1147-5 .
Переиздано как: Уиттл, П. (1983). Прогнозирование и регулирование линейными методами наименьших квадратов . Университет Миннесоты Пресс. ISBN 0-8166-1148-3 .
Уиттл, П. (20 апреля 2000 г.). Вероятность через ожидание (4-е изд.). Спрингер. ISBN 0-387-98955-2 .

[1] «Сумма квадратов – определение, формулы, регрессионный анализ» . Институт корпоративных финансов . Проверено 16 октября 2020 г.

[1]