Несоответствующая сумма квадратов

В статистике сумма квадратов из-за несоответствия или, более кратко, несоответствующая сумма квадратов , является одним из компонентов разделения суммы квадратов остатков в дисперсионном анализе , используемом в статистике. числитель в F-тесте нулевой гипотезы , который говорит, что предложенная модель хорошо подходит. Другой компонент — это сумма квадратов чистой ошибки .

Сумма квадратов чистой ошибки представляет собой сумму квадратов отклонений каждого значения зависимой переменной от среднего значения по всем наблюдениям, разделяющим значения ее независимой переменной . Это ошибки, которых невозможно избежать с помощью любого прогнозного уравнения, которое присваивает прогнозируемое значение зависимой переменной как функцию значения(й) независимой переменной(й). Оставшаяся часть остаточной суммы квадратов объясняется отсутствием соответствия модели, поскольку математически можно было бы полностью устранить эти ошибки.

Принцип

Чтобы сумма квадратов несоответствия отличалась от суммы квадратов остатков , должно существовать более одного значения переменной отклика хотя бы для одного из значений набора переменных-предикторов. Например, рассмотрим установку линии

y=\alpha x+\beta \,

методом наименьших квадратов . принимаются В качестве оценок α и β значения, которые минимизируют сумму квадратов остатков, т. е. сумму квадратов разностей между наблюдаемым значением y и подобранным значением y . Чтобы получить несоответствующую сумму квадратов, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного значения y для каждого из одного или нескольких значений x . Затем разделяют «сумму квадратов ошибок», т. е. сумму квадратов остатков, на две составляющие:

сумма квадратов из-за ошибки = (сумма квадратов из-за «чистой» ошибки) + (сумма квадратов из-за неподгонки).

Сумма квадратов «чистой» ошибки представляет собой сумму квадратов разностей между каждым наблюдаемым значением y и средним значением всех значений y , соответствующих одному и тому же значению x .

Сумма квадратов из-за отсутствия соответствия представляет собой взвешенную сумму квадратов разностей между каждым средним значением y , соответствующим одному и тому же значению x , и соответствующему подобранному значению y , причем вес в каждом случае представляет собой просто количество наблюдаемых значений. y -значения для этого x -значения. ^[1]^[2] Поскольку свойством регрессии наименьших квадратов является то, что вектор, компоненты которого являются «чистыми ошибками», и вектор несоответствующих компонентов ортогональны друг другу, выполняется следующее равенство:

{\begin{aligned}&\sum ({\text{observed value}}-{\text{fitted value}})^{2}&&{\text{(error)}}\\&\qquad =\sum ({\text{observed value}}-{\text{local average}})^{2}&&{\text{(pure error)}}\\&\qquad \qquad {}+\sum {\text{weight}}\times ({\text{local average}}-{\text{fitted value}})^{2}&&{\text{(lack of fit)}}\end{aligned}}

Следовательно, остаточная сумма квадратов полностью разложилась на две составляющие.

Математические детали

Рассмотрите возможность установки линии с одной переменной-предиктором. Определите i как индекс каждого из n различных значений x , j как индекс наблюдений переменной отклика для данного значения x и n _i как количество значений y , связанных с i. ^й значение х . Значение каждого наблюдения переменной отклика может быть представлено как

Y_{ij}=\alpha x_{i}+\beta +\varepsilon _{ij},\qquad i=1,\dots ,n,\quad j=1,\dots ,n_{i}.

Позволять

{\widehat {\alpha }},{\widehat {\beta }}\,

— оценки методом наименьших квадратов ненаблюдаемых параметров α и β на основе наблюдаемых значений x _i и Y _{i j} .

Позволять

{\widehat {Y}}_{i}={\widehat {\alpha }}x_{i}+{\widehat {\beta }}\,

быть подобранными значениями переменной ответа. Затем

{\widehat {\varepsilon }}_{ij}=Y_{ij}-{\widehat {Y}}_{i}\,

являются остатками , которые являются наблюдаемыми оценками ненаблюдаемых значений члена ошибки ε _ij . Из-за особенностей метода наименьших квадратов весь вектор остатков с

N=\sum _{i=1}^{n}n_{i}

скалярные компоненты обязательно удовлетворяют двум ограничениям

\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}{\widehat {\varepsilon }}_{ij}=0\,

\sum _{i=1}^{n}\left(x_{i}\sum _{j=1}^{n_{i}}{\widehat {\varepsilon }}_{ij}\right)=0.\,

Таким образом, он вынужден находиться в ( N − 2)-мерном подпространстве R ^Н, т. е. существует N − 2 « степеней свободы для ошибки».

Теперь позвольте

{\overline {Y}}_{i\bullet }={\frac {1}{n_{i}}}\sum _{j=1}^{n_{i}}Y_{ij}

быть средним значением всех Y -значений, связанных с i ^й х -значение.

Разобьем сумму квадратов ошибки на две составляющие:

{\begin{aligned}&\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}{\widehat {\varepsilon }}_{ij}^{\,2}=\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}\left(Y_{ij}-{\widehat {Y}}_{i}\right)^{2}\\&=\underbrace {\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}\left(Y_{ij}-{\overline {Y}}_{i\bullet }\right)^{2}} _{\text{(sum of squares due to pure error)}}+\underbrace {\sum _{i=1}^{n}n_{i}\left({\overline {Y}}_{i\bullet }-{\widehat {Y}}_{i}\right)^{2}.} _{\text{(sum of squares due to lack of fit)}}\end{aligned}}

Распределения вероятностей

Суммы квадратов

Предположим, что ошибки ε _{i j} независимы члены и нормально распределены с ожидаемым значением 0 и дисперсией σ. ². Мы считаем x _i постоянным, а не случайным. Тогда переменные отклика Y _{i j} являются случайными только потому, что ошибки ε _{i j} случайны.

Можно показать, что если прямолинейная модель верна, то сумма квадратов ошибок, деленная на дисперсию ошибки,

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}{\widehat {\varepsilon }}_{ij}^{\,2}

имеет распределение хи-квадрат с N - 2 степенями свободы.

При этом, учитывая общее количество наблюдений N , количество уровней независимой переменной n и количество параметров в модели p :

Сумма квадратов чистой ошибки, деленная на дисперсию ошибки σ. ², имеет распределение хи-квадрат с N − n степенями свободы;
Сумма квадратов из-за отсутствия соответствия, деленная на дисперсию ошибки σ. ², имеет распределение хи-квадрат с n - p степенями свободы (здесь p = 2, поскольку в прямолинейной модели два параметра);
Две суммы квадратов вероятностно независимы.

Тестовая статистика

Отсюда следует, что статистика

{\begin{aligned}F&={\frac {{\text{lack-of-fit sum of squares}}/{\text{degrees of freedom}}}{{\text{pure-error sum of squares}}/{\text{degrees of freedom}}}}\\[8pt]&={\frac {\left.\sum _{i=1}^{n}n_{i}\left({\overline {Y}}_{i\bullet }-{\widehat {Y}}_{i}\right)^{2}\right/(n-p)}{\left.\sum _{i=1}^{n}\sum _{j=1}^{n_{i}}\left(Y_{ij}-{\overline {Y}}_{i\bullet }\right)^{2}\right/(N-n)}}\end{aligned}}

имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе при условии корректности модели. Если модель неверна, то распределение вероятностей знаменателя остается таким же, как указано выше, а числитель и знаменатель по-прежнему независимы. Но тогда числитель имеет нецентральное распределение хи-квадрат , и, следовательно, частное в целом имеет нецентральное F-распределение .

Эту F-статистику используют для проверки нулевой гипотезы о правильности линейной модели. Поскольку нецентральное F-распределение стохастически больше, чем (центральное) F-распределение, нулевую гипотезу отвергают, если F-статистика больше критического значения F. Критическое значение соответствует кумулятивной функции распределения с распределения F x , равным желаемому уровню достоверности , и степенями свободы d ₁ = ( n - p ) и d ₂ = ( N - n ).

предположения о нормальном распределении ошибок и независимости Можно показать, что влекут за собой то, что этот критерий несоответствия является проверкой отношения правдоподобия этой нулевой гипотезы.

См. также

Примечания

^ Брук, Ричард Дж.; Арнольд, Грегори К. (1985). Прикладной регрессионный анализ и планирование экспериментов . ЦРК Пресс . стр. 48–49 . ISBN 0824772520 .
^ Нетер, Джон; Катнер, Майкл Х.; Нахстхайм, Кристофер Дж.; Вассерман, Уильям (1996). Прикладные линейные статистические модели (Четвертое изд.). Чикаго: Ирвин. стр. 121–122. ISBN 0256117365 .

[1] Брук, Ричард Дж.; Арнольд, Грегори К. (1985). Прикладной регрессионный анализ и планирование экспериментов . ЦРК Пресс . стр. 48–49 . ISBN 0824772520 .

[2] Нетер, Джон; Катнер, Майкл Х.; Нахстхайм, Кристофер Дж.; Вассерман, Уильям (1996). Прикладные линейные статистические модели (Четвертое изд.). Чикаго: Ирвин. стр. 121–122. ISBN 0256117365 .

[1]

[2]