Ошибки и остатки

В статистике и оптимизации — ошибки и остатки спутанные меры отклонения наблюдаемого значения элемента статистической это две тесно связанные и легко выборки от его « истинного значения » (не обязательно наблюдаемого). Ошибка ) наблюдения — это отклонение наблюдаемого значения от истинного значения интересующей величины (например, среднего значения совокупности . Остаток — это разница между наблюдаемым значением и оценочным значением интересующей величины (например, выборочное среднее ). Это различие наиболее важно в регрессионном анализе , где эти понятия иногда называют ошибками регрессии и остатками регрессии и где они приводят к понятию стьюдентизированных остатков .В эконометрике «ошибки» также называют нарушениями . ^[1]^[2]^[3]

Введение

Предположим, имеется серия наблюдений одномерного распределения , и мы хотим оценить среднее значение этого распределения (так называемая модель местоположения ). В этом случае ошибки представляют собой отклонения наблюдений от среднего значения генеральной совокупности, а остатки — это отклонения наблюдений от среднего выборочного значения.

Статистическая ошибка (или возмущение ) — это величина, на которую наблюдение отличается от его ожидаемого значения , причем последнее основано на всей совокупности , из которой статистическая единица была выбрана случайным образом. Например, если средний рост среди 21-летних мужчин составляет 1,75 метра, а один случайно выбранный мужчина имеет рост 1,80 метра, то «ошибка» составит 0,05 метра; если рост случайно выбранного мужчины 1,70 метра, то «ошибка» составит -0,05 метра. Ожидаемое значение, представляющее собой среднее значение для всей совокупности, обычно ненаблюдаемо, и, следовательно, статистическую ошибку также невозможно наблюдать.

С другой стороны, остаток (или аппроксимирующее отклонение) представляет собой наблюдаемую оценку ненаблюдаемой статистической ошибки. Рассмотрим предыдущий пример с ростом мужчин и предположим, что у нас есть случайная выборка из n человек. может Среднее значение выборки служить хорошей оценкой среднего значения генеральной совокупности . Тогда у нас есть:

Разница между ростом каждого мужчины в выборке и ненаблюдаемым средним значением популяции является статистической ошибкой , тогда как
Разница между ростом каждого мужчины в выборке и наблюдаемым средним значением выборки является остатком .

Обратите внимание, что из-за определения выборочного среднего сумма остатков в пределах случайной выборки обязательно равна нулю, и, следовательно, остатки не обязательно являются независимыми . Статистические ошибки, напротив, независимы, и их сумма в пределах случайной выборки почти наверняка не равна нулю.

Можно стандартизировать статистические ошибки (особенно нормального распределения ) с помощью z-показателя (или «стандартного показателя») и стандартизировать остатки с помощью t -статистики или, в более общем смысле, стьюдентизированных остатков .

В одномерных распределениях

Если мы предположим, что популяция нормально распределена со средним значением µ и стандартным отклонением σ и выбираем особей независимо, то мы имеем

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

и выборочное среднее

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

— случайная величина, распределенная так, что:

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

статистические ошибки Тогда

e_{i}=X_{i}-\mu ,\,

с ожидаемыми значениями, равными нулю, ^[4] тогда остатки как

r_{i}=X_{i}-{\overline {X}}.

Сумма квадратов статистических ошибок , деленная на σ ², имеет распределение хи-квадрат с n степенями свободы :

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

Однако эта величина не наблюдаема, поскольку среднее значение популяции неизвестно. С другой стороны, сумма квадратов остатков наблюдаема . Частное этой суммы на σ ² имеет распределение хи-квадрат только с n - 1 степенями свободы:

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

Эта разница между n и n - 1 степенями свободы приводит к поправке Бесселя для оценки выборочной дисперсии совокупности с неизвестным средним значением и неизвестной дисперсией. Если известно среднее значение генеральной совокупности, коррекция не требуется.

Примечание

Примечательно, что можно показать, что сумма квадратов остатков и выборочное среднее независимы друг от друга, используя, например, теорему Басу . Этот факт, а также приведенные выше нормальное распределение и распределение хи-квадрат составляют основу расчетов с использованием t-статистики:

T={\frac {{\overline {X}}_{n}-\mu _{0}}{S_{n}/{\sqrt {n}}}},

где ${\overline {X}}_{n}-\mu _{0}$ представляет ошибки, $S_{n}$ представляет стандартное отклонение выборки для выборки размера n и неизвестного σ и член знаменателя $S_{n}/{\sqrt {n}}$ учитывает стандартное отклонение ошибок согласно: ^[5]

$\operatorname {Var} \left({\overline {X}}_{n}\right)={\frac {\sigma ^{2}}{n}}$

Распределения вероятностей числителя и знаменателя по отдельности зависят от значения ненаблюдаемого стандартного отклонения совокупности σ , но σ появляется как в числителе, так и в знаменателе и отменяется. Это удачно, потому что это означает, что даже если мы не знаем σ , мы знаем распределение вероятностей этого частного: оно имеет t-распределение Стьюдента с n - 1 степенями свободы. Поэтому мы можем использовать это частное, чтобы найти доверительный интервал для µ . Эту t-статистику можно интерпретировать как «количество стандартных ошибок вдали от линии регрессии». ^[6]

Регрессии

В регрессионном анализе различие между ошибками и остатками является тонким и важным и приводит к концепции стьюдентизированных остатков . Учитывая ненаблюдаемую функцию, которая связывает независимую переменную с зависимой переменной (скажем, линию), отклонения наблюдений зависимой переменной от этой функции представляют собой ненаблюдаемые ошибки. Если выполнить регрессию на некоторых данных, то отклонения наблюдений зависимой переменной от подобранной функции являются остатками. Если линейная модель применима, диаграмма рассеяния остатков, построенная в зависимости от независимой переменной, должна быть случайной, около нуля, без тенденции к остаткам. ^[5] Если данные демонстрируют тенденцию, регрессионная модель, скорее всего, неверна; например, истинная функция может быть квадратичным полиномом или полиномом более высокого порядка. Если они случайны или не имеют тенденции, а «разветвляются» — они демонстрируют явление, называемое гетероскедастичностью . Если все остатки равны или не расходятся веером, они демонстрируют гомоскедастичность .

Однако возникает терминологическое различие в выражении «среднеквадратическая ошибка» (MSE). Среднеквадратическая ошибка регрессии — это число, вычисленное из суммы квадратов вычисленных остатков , а не ненаблюдаемых ошибок . Если эту сумму квадратов разделить на n , количество наблюдений, результатом будет среднее значение квадратов остатков. Поскольку это смещенная оценка дисперсии ненаблюдаемых ошибок, смещение устраняется путем деления суммы квадратов остатков на df = n - p - 1 вместо n , где df — количество степеней свободы ( n минус количество оцениваемых параметров (исключая точку пересечения) p - 1). Это формирует несмещенную оценку дисперсии ненаблюдаемых ошибок и называется среднеквадратической ошибкой. ^[7]

Другой метод расчета среднего квадрата ошибки при анализе дисперсии линейной регрессии с использованием метода, подобного тому, который используется в ANOVA (они одинаковы, поскольку ANOVA — это тип регрессии), сумма квадратов остатков (также известная как сумма квадратов ошибки) делится на степени свободы (где степени свободы равны n - p - 1, где p — количество параметров, оцененных в модели (по одному для каждой переменной в уравнении регрессии, не включая точку пересечения) ). Затем можно также вычислить средний квадрат модели, разделив сумму квадратов модели минус степени свободы, что представляет собой просто количество параметров. Затем значение F можно вычислить путем деления среднего квадрата модели на средний квадрат ошибки, и затем мы можем определить значимость (именно поэтому вы хотите, чтобы средние квадраты начинались с). ^[8]

Однако из-за поведения процесса регрессии распределения остатков в разных точках данных (входной переменной) могут различаться, даже если сами ошибки распределены одинаково. Конкретно, в линейной регрессии , где ошибки распределены одинаково, изменчивость остатков входных данных в середине области будет выше , чем изменчивость остатков на концах области: ^[9] линейные регрессии лучше соответствуют конечным точкам, чем середине. Это также отражается на функциях влияния различных точек данных на коэффициенты регрессии : конечные точки имеют большее влияние.

Таким образом, чтобы сравнить остатки на разных входах, необходимо скорректировать остатки с учетом ожидаемой изменчивости остатков, что называется стьюдентизацией . Это особенно важно в случае обнаружения выбросов , когда рассматриваемый случай каким-то образом отличается от других в наборе данных. Например, можно ожидать большого остатка в середине домена, но считать его выбросом в конце домена.

Другие варианты использования слова «ошибка» в статистике

Использование термина «ошибка», как обсуждалось в разделах выше, подразумевает отклонение значения от гипотетического ненаблюдаемого значения. В статистике также встречаются по крайней мере два других применения, оба относятся к наблюдаемым ошибкам прогнозирования :

Среднеквадратическая ошибка (MSE) относится к величине, на которую значения, предсказанные оценщиком, отличаются от оцениваемых величин (обычно за пределами выборки, на основе которой оценивалась модель).Среднеквадратическая ошибка (RMSE) — это квадратный корень из MSE.Сумма квадратов ошибок (SSE) — это MSE, умноженная на размер выборки.

Сумма квадратов остатков (SSR) — это сумма квадратов отклонений фактических значений от прогнозируемых значений в пределах выборки, используемой для оценки. Это основа оценки методом наименьших квадратов , где коэффициенты регрессии выбираются так, чтобы SSR был минимальным (т.е. его производная равна нулю).

Аналогично, сумма абсолютных ошибок (SAE) представляет собой сумму абсолютных значений остатков, которая минимизируется при с наименьшими абсолютными отклонениями подходе к регрессии .

Средняя ошибка (ME) — это смещение.Средняя невязка (MR) всегда равна нулю для методов оценки методом наименьших квадратов.

См. также

Ссылки

^ Кеннеди, П. (2008). Руководство по эконометрике . Уайли. п. 576. ИСБН 978-1-4051-8257-7 . Проверено 13 мая 2022 г.
^ Вулдридж, Дж. М. (2019). Вводная эконометрика: современный подход . Cengage Обучение. п. 57. ИСБН 978-1-337-67133-0 . Проверено 13 мая 2022 г.
^ Дас, П. (2019). Эконометрика в теории и практике: анализ поперечных сечений, временных рядов и панельных данных с помощью статистики 15.1 . Спрингер Сингапур. п. 7. ISBN 978-981-329-019-8 . Проверено 13 мая 2022 г.
^ Уэтерилл, Дж. Барри. (1981). Промежуточные статистические методы . Лондон: Чепмен и Холл. ISBN 0-412-16440-Х . OCLC 7779780 .
^ Перейти обратно: ^а ^б Фредерик Мишель Деккинг; Корнелис Краайкамп; Хендрик Пауль Лопухаа; Людольф Эрвин Местер (15 июня 2005 г.). Современное введение в вероятность и статистику: понимание почему и как . Лондон: Спрингер Лондон. ISBN 978-1-85233-896-1 . OCLC 262680588 .
^ Питер Брюс; Эндрю Брюс (10 мая 2017 г.). Практическая статистика для специалистов по данным: 50 основных концепций (Первое изд.). Севастополь, Калифорния: ISBN O'Reilly Media Inc. 978-1-4919-5296-2 . OCLC 987251007 .
^ Стил, Роберт Г.Д.; Торри, Джеймс Х. (1960). Принципы и процедуры статистики с особым упором на биологические науки . МакГроу-Хилл. п. 288 .
^ Зельтерман, Дэниел (2010). Прикладные линейные модели с SAS (интернет-издание под ред.). Кембридж: Издательство Кембриджского университета. ISBN 9780521761598 .
^ «7.3: Типы выбросов в линейной регрессии» . Статистика LibreTexts . 21 ноября 2013 г. Проверено 22 ноября 2019 г.

Дальнейшее чтение

Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние в регрессии (переиздание). Нью-Йорк: Чепмен и Холл . ISBN 041224280X . Проверено 23 февраля 2013 г.
Кокс, Дэвид Р .; Снелл, Э. Джойс (1968). «Общее определение остатков». Журнал Королевского статистического общества, серия B. 30 (2): 248–275. JSTOR 2984505 .
Вайсберг, Сэнфорд (1985). Прикладная линейная регрессия (2-е изд.). Нью-Йорк: Уайли. ISBN 9780471879572 . Проверено 23 февраля 2013 г.
«Ошибки, теория» , Энциклопедия математики , EMS Press , 2001 [1994]

Внешние ссылки

СМИ, связанные с ошибками и остатками, на Викискладе?

[Kennedy_2008_p._576-1] Кеннеди, П. (2008). Руководство по эконометрике . Уайли. п. 576. ИСБН 978-1-4051-8257-7 . Проверено 13 мая 2022 г.

[Wooldridge_2019_p._57-2] Вулдридж, Дж. М. (2019). Вводная эконометрика: современный подход . Cengage Обучение. п. 57. ИСБН 978-1-337-67133-0 . Проверено 13 мая 2022 г.

[Das_2019_p._7-3] Дас, П. (2019). Эконометрика в теории и практике: анализ поперечных сечений, временных рядов и панельных данных с помощью статистики 15.1 . Спрингер Сингапур. п. 7. ISBN 978-981-329-019-8 . Проверено 13 мая 2022 г.

[4] Уэтерилл, Дж. Барри. (1981). Промежуточные статистические методы . Лондон: Чепмен и Холл. ISBN 0-412-16440-Х . OCLC 7779780 .

[modernintro-5] Перейти обратно: ^а ^б Фредерик Мишель Деккинг; Корнелис Краайкамп; Хендрик Пауль Лопухаа; Людольф Эрвин Местер (15 июня 2005 г.). Современное введение в вероятность и статистику: понимание почему и как . Лондон: Спрингер Лондон. ISBN 978-1-85233-896-1 . OCLC 262680588 .

[6] Питер Брюс; Эндрю Брюс (10 мая 2017 г.). Практическая статистика для специалистов по данным: 50 основных концепций (Первое изд.). Севастополь, Калифорния: ISBN O'Reilly Media Inc. 978-1-4919-5296-2 . OCLC 987251007 .

[7] Стил, Роберт Г.Д.; Торри, Джеймс Х. (1960). Принципы и процедуры статистики с особым упором на биологические науки . МакГроу-Хилл. п. 288 .

[8] Зельтерман, Дэниел (2010). Прикладные линейные модели с SAS (интернет-издание под ред.). Кембридж: Издательство Кембриджского университета. ISBN 9780521761598 .

[9] «7.3: Типы выбросов в линейной регрессии» . Статистика LibreTexts . 21 ноября 2013 г. Проверено 22 ноября 2019 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]