Jump to content

Несоответствующая сумма квадратов

В статистике сумма квадратов из-за несоответствия или, более кратко, несоответствующая сумма квадратов , является одним из компонентов разделения суммы квадратов остатков в дисперсионном анализе , используемом в статистике. числитель в F-тесте нулевой гипотезы , который говорит, что предложенная модель хорошо подходит. Другой компонент — это сумма квадратов чистой ошибки .

Сумма квадратов чистой ошибки представляет собой сумму квадратов отклонений каждого значения зависимой переменной от среднего значения по всем наблюдениям, разделяющим значения ее независимой переменной . Это ошибки, которых невозможно избежать с помощью любого прогнозного уравнения, которое присваивает прогнозируемое значение зависимой переменной как функцию значения(й) независимой переменной(й). Оставшаяся часть остаточной суммы квадратов объясняется отсутствием соответствия модели, поскольку математически можно было бы полностью устранить эти ошибки.

Чтобы сумма квадратов несоответствия отличалась от суммы квадратов остатков , должно существовать более одного значения переменной отклика хотя бы для одного из значений набора переменных-предикторов. Например, рассмотрим установку линии

методом наименьших квадратов . принимаются В качестве оценок α и β значения, которые минимизируют сумму квадратов остатков, т. е. сумму квадратов разностей между наблюдаемым значением y и подобранным значением y . Чтобы получить несоответствующую сумму квадратов, которая отличается от остаточной суммы квадратов, необходимо наблюдать более одного значения y для каждого из одного или нескольких значений x . Затем разделяют «сумму квадратов ошибок», т. е. сумму квадратов остатков, на две составляющие:

сумма квадратов из-за ошибки = (сумма квадратов из-за «чистой» ошибки) + (сумма квадратов из-за неподгонки).

Сумма квадратов «чистой» ошибки представляет собой сумму квадратов разностей между каждым наблюдаемым значением y и средним значением всех значений y , соответствующих одному и тому же значению x .

Сумма квадратов из-за отсутствия соответствия представляет собой взвешенную сумму квадратов разностей между каждым средним значением y , соответствующим одному и тому же значению x , и соответствующему подобранному значению y , причем вес в каждом случае представляет собой просто количество наблюдаемых значений. y -значения для этого x -значения. [1] [2] Поскольку свойством регрессии наименьших квадратов является то, что вектор, компоненты которого являются «чистыми ошибками», и вектор несоответствующих компонентов ортогональны друг другу, выполняется следующее равенство:

Следовательно, остаточная сумма квадратов полностью разложилась на две составляющие.

Математические детали

[ редактировать ]

Рассмотрите возможность установки линии с одной переменной-предиктором. Определите i как индекс каждого из n различных значений x , j как индекс наблюдений переменной отклика для данного значения x и n i как количество значений y , связанных с i. й значение х . Значение каждого наблюдения переменной отклика может быть представлено как

Позволять

оценки методом наименьших квадратов ненаблюдаемых параметров α и β на основе наблюдаемых значений x   i и Y   i j .

Позволять

быть подобранными значениями переменной ответа. Затем

являются остатками , которые являются наблюдаемыми оценками ненаблюдаемых значений члена ошибки ε   ij . Из-за особенностей метода наименьших квадратов весь вектор остатков с

скалярные компоненты обязательно удовлетворяют двум ограничениям

Таким образом, он вынужден находиться в ( N − 2)-мерном подпространстве R  Н , т. е. существует N − 2 « степеней свободы для ошибки».

Теперь позвольте

быть средним значением всех Y -значений, связанных с i й х -значение.

Разобьем сумму квадратов ошибки на две составляющие:

Распределения вероятностей

[ редактировать ]

Суммы квадратов

[ редактировать ]

Предположим, что ошибки ε   i j независимы члены и нормально распределены с ожидаемым значением 0 и дисперсией   σ. 2 . Мы считаем x   i постоянным, а не случайным. Тогда переменные отклика Y   i j являются случайными только потому, что ошибки ε   i j случайны.

Можно показать, что если прямолинейная модель верна, то сумма квадратов ошибок, деленная на дисперсию ошибки,

имеет распределение хи-квадрат с N - 2 степенями свободы.

При этом, учитывая общее количество наблюдений N , количество уровней независимой переменной n и количество параметров в модели p :

  • Сумма квадратов чистой ошибки, деленная на дисперсию ошибки σ. 2 , имеет распределение хи-квадрат с N n степенями свободы;
  • Сумма квадратов из-за отсутствия соответствия, деленная на дисперсию ошибки σ. 2 , имеет распределение хи-квадрат с n - p степенями свободы (здесь p = 2, поскольку в прямолинейной модели два параметра);
  • Две суммы квадратов вероятностно независимы.

Тестовая статистика

[ редактировать ]

Отсюда следует, что статистика

имеет F-распределение с соответствующим числом степеней свободы в числителе и знаменателе при условии корректности модели. Если модель неверна, то распределение вероятностей знаменателя остается таким же, как указано выше, а числитель и знаменатель по-прежнему независимы. Но тогда числитель имеет нецентральное распределение хи-квадрат , и, следовательно, частное в целом имеет нецентральное F-распределение .

Эту F-статистику используют для проверки нулевой гипотезы о правильности линейной модели. Поскольку нецентральное F-распределение стохастически больше, чем (центральное) F-распределение, нулевую гипотезу отвергают, если F-статистика больше критического значения F. Критическое значение соответствует кумулятивной функции распределения с распределения F x , равным желаемому уровню достоверности , и степенями свободы d 1 = ( n - p ) и d 2 = ( N - n ).

предположения о нормальном распределении ошибок и независимости Можно показать, что влекут за собой то, что этот критерий несоответствия является проверкой отношения правдоподобия этой нулевой гипотезы.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Брук, Ричард Дж.; Арнольд, Грегори К. (1985). Прикладной регрессионный анализ и планирование экспериментов . ЦРК Пресс . стр. 48–49 . ISBN  0824772520 .
  2. ^ Нетер, Джон; Катнер, Майкл Х.; Нахстхайм, Кристофер Дж.; Вассерман, Уильям (1996). Прикладные линейные статистические модели (Четвертое изд.). Чикаго: Ирвин. стр. 121–122. ISBN  0256117365 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8d82cea821449be4adcc8b08f7d3cdfe__1677826200
URL1:https://arc.ask3.ru/arc/aa/8d/fe/8d82cea821449be4adcc8b08f7d3cdfe.html
Заголовок, (Title) документа по адресу, URL1:
Lack-of-fit sum of squares - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)