Простая линейная регрессия

В статистике — простая линейная регрессия ) (SLR это модель линейной регрессии с одной объясняющей переменной . ^[1]^[2]^[3]^[4]^[5] То есть он касается двумерных точек выборки с одной независимой переменной и одной зависимой переменной (обычно координаты x и y в декартовой системе координат ) и находит линейную функцию (невертикальную прямую ), которая с такой же точностью, как и возможно, прогнозирует значения зависимой переменной как функцию независимой переменной.Прилагательное простое относится к тому факту, что переменная результата связана с одним предиктором.

Обычно дополнительно оговаривается, что следует использовать обычный метод наименьших квадратов (OLS): точность каждого прогнозируемого значения измеряется его квадратом невязки (вертикальное расстояние между точкой набора данных и подобранной линией) и цель состоит в том, чтобы сделать сумму этих квадратов отклонений как можно меньшей. В этом случае наклон подобранной линии равен корреляции между y $и$ x $,$ скорректированной отношением стандартных отклонений этих переменных. Точка пересечения подобранной линии такова, что линия проходит через центр масс $(x, y)$ точек данных.

Формулировка и расчет

Рассмотрим модельную функцию

y=\alpha +\beta x,

которая описывает линию с наклоном $β$ и $y$ -пересечением $α$ . В общем, такая связь может не соблюдаться в точности для практически ненаблюдаемой совокупности значений независимых и зависимых переменных; мы называем ненаблюдаемые отклонения от приведенного выше уравнения ошибками . Предположим, мы наблюдаем $n$ пар данных и называем их ${(x i, y i), i = 1, ..., n$ }. Мы можем описать основную взаимосвязь между $y i$ и $x i,$ включающую этот ошибочный член $ε i,$ следующим образом:

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}.

Эта связь между истинными (но ненаблюдаемыми) базовыми параметрами $α$ и $β$ и точками данных называется моделью линейной регрессии.

Цель – найти оценочные значения ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ для параметров $α$ и $β,$ которые в некотором смысле обеспечили бы «наилучшее» соответствие точкам данных. Как упоминалось во введении, в этой статье под «наилучшим» соответствием будет пониматься метод наименьших квадратов : линия, которая минимизирует сумму квадратов остатков (см. также Ошибки и остатки ). ${\widehat {\varepsilon }}_{i}$ (разницы между фактическими и прогнозируемыми значениями зависимой переменной y ), каждое из которых определяется выражением для любых возможных значений параметра $\alpha$ и $\beta$ ,

{\widehat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}.

Другими словами, ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ решить следующую задачу минимизации :

({\hat {\alpha }},\,{\hat {\beta }})=\operatorname {argmin} \left(Q(\alpha ,\beta )\right),

где целевая функция $Q$ :

Q(\alpha ,\beta )=\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}\ .

Разложив, получим квадратное выражение в $\alpha$ и $\beta ,$ мы можем вывести минимизирующие значения аргументов функции, обозначаемые ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ : ^[6]

${\begin{aligned}{\widehat {\alpha }}&={\bar {y}}-({\widehat {\beta }}\,{\bar {x}}),\\[5pt]{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}\Delta x_{i}\Delta y_{i}}{\sum _{i=1}^{n}\Delta x_{i}^{2}}}\end{aligned}}$

Здесь мы представили

${\bar {x}}$ и ${\bar {y}}$ как среднее значение $x i$ и $y i$ соответственно
$\Delta x_{i}$ и $\Delta y_{i}$ как отклонения x $y i$ и $i .$ относительно их соответствующих средних значений

Расширенные формулы

Приведенные выше уравнения эффективно использовать, если среднее значение переменных x и y ( ${\bar {x}}{\text{ and }}{\bar {y}}$ ) известны. Если на момент расчета средние значения неизвестны, возможно, будет более эффективно использовать расширенную версию ${\widehat {\alpha }}{\text{ and }}{\widehat {\beta }}$ уравнения. Эти расширенные уравнения могут быть получены из более общих полиномиальной регрессии. уравнений ^[7]^[8] определив полином регрессии первого порядка следующим образом.

${\begin{bmatrix}n&\sum _{i=1}^{n}x_{i}\\\sum _{i=1}^{n}x_{i}&\sum _{i=1}^{n}x_{i}^{2}\end{bmatrix}}{\begin{bmatrix}{\widehat {\alpha }}\\{\widehat {\beta }}\end{bmatrix}}={\begin{bmatrix}\sum _{i=1}^{n}y_{i}\\\sum _{i=1}^{n}y_{i}x_{i}\end{bmatrix}}$

Вышеупомянутая система линейных уравнений может быть решена непосредственно или автономные уравнения для ${\widehat {\alpha }}{\text{ and }}{\widehat {\beta }}$ может быть получено путем расширения матричных уравнений, приведенных выше. Полученные уравнения алгебраически эквивалентны уравнениям, показанным в предыдущем абзаце, и показаны ниже без доказательства. ^[9]^[7]

${\begin{aligned}&\qquad {\widehat {\alpha }}={\frac {\sum _{i=1}^{n}y_{i}\sum _{i=1}^{n}x_{i}^{2}-\sum _{i=1}^{n}x_{i}\sum _{i=1}^{n}x_{i}y_{i}}{n\sum _{i=1}^{n}x_{i}^{2}-(\sum _{i=1}^{n}x_{i})^{2}}}\\[5pt]\\&\qquad {\widehat {\beta }}={\frac {n\sum _{i=1}^{n}x_{i}y_{i}-\sum _{i=1}^{n}x_{i}\sum _{i=1}^{n}y_{i}}{n\sum _{i=1}^{n}x_{i}^{2}-(\sum _{i=1}^{n}x_{i})^{2}}}\\&\qquad \end{aligned}}$

Интерпретация

Связь с выборочной ковариационной матрицей

Решение можно переформулировать, используя элементы ковариационной матрицы : ${\widehat {\beta }}={\frac {s_{x,y}}{s_{x}^{2}}}=r_{xy}{\frac {s_{y}}{s_{x}}}$

где

$r xy$ — выборочный коэффициент корреляции между $x$ и $y.$
$s x$ и $s y$ — неисправленные выборочные стандартные отклонения x $.$ и $y$
$s_{x}^{2}$ и $s_{x,y}$ — выборочная дисперсия и выборочная ковариация соответственно

Подставив приведенные выше выражения на ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ в исходное решение дает

{\frac {y-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}.

Это показывает, что $r xy$ — это наклон линии регрессии стандартизированных точек данных (и что эта линия проходит через начало координат). С $-1\leq r_{xy}\leq 1$ тогда мы получаем, что если x — какое-то измерение, а y — последующее измерение того же объекта, то мы ожидаем, что y (в среднем) будет ближе к среднему измерению, чем к исходному значению x. Это явление известно как регрессия к среднему значению .

Обобщая ${\bar {x}}$ обозначения, мы можем написать горизонтальную полосу над выражением, чтобы указать среднее значение этого выражения по набору образцов. Например:

{\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}.

Эти обозначения позволяют нам получить краткую формулу для $r xy$ :

r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}.

Коэффициент детерминации («R в квадрате») равен $r_{xy}^{2}$ когда модель линейна с одной независимой переменной. см . в примере коэффициента корреляции Дополнительные сведения .

Толкование про наклон

Умножив все члены суммы в числителе на: ${\begin{aligned}{\frac {(x_{i}-{\bar {x}})}{(x_{i}-{\bar {x}})}}=1\end{aligned}}$ (при этом не меняя его):

{\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}{\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}=\sum _{i=1}^{n}{\frac {(x_{i}-{\bar {x}})^{2}}{\sum _{j=1}^{n}(x_{j}-{\bar {x}})^{2}}}{\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}\\[6pt]\end{aligned}}

Мы видим, что наклон (тангенс угла) линии регрессии представляет собой средневзвешенное значение ${\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}$ это наклон (тангенс угла) линии, соединяющей i-ю точку со средним значением всех точек, взвешенный по $(x_{i}-{\bar {x}})^{2}$ потому что чем дальше находится точка, тем она более «важна», поскольку небольшие ошибки в ее положении будут больше влиять на наклон, соединяющий ее с центральной точкой.

Толкование о перехвате

{\begin{aligned}{\widehat {\alpha }}&={\bar {y}}-{\widehat {\beta }}\,{\bar {x}},\\[5pt]\end{aligned}}

Данный ${\widehat {\beta }}=\tan(\theta )=dy/dx\rightarrow dy=dx\times {\widehat {\beta }}$ с $\theta$ угол, который линия образует с положительной осью x, у нас есть $y_{\rm {intersection}}={\bar {y}}-dx\times {\widehat {\beta }}={\bar {y}}-dy$

Интерпретация корреляции

В приведенной выше формулировке обратите внимание, что каждый $x_{i}$ является постоянным («известным заранее») значением, а $y_{i}$ являются случайными величинами, которые зависят от линейной функции $x_{i}$ и случайный член $\varepsilon _{i}$ . Это предположение используется при определении стандартной ошибки наклона и демонстрации его несмещенности .

В этом контексте, когда $x_{i}$ на самом деле не является случайной величиной , какой тип параметра определяет эмпирическая корреляция? $r_{xy}$ оценивать? Проблема в том, что для каждого значения i мы будем иметь: $E(x_{i})=x_{i}$ и $Var(x_{i})=0$ . Возможная интерпретация $r_{xy}$ это представить, что $x_{i}$ определяет случайную величину, полученную из эмпирического распределения значений x в нашей выборке. Например, если x имеет 10 значений натуральных чисел : [1,2,3...,10], то мы можем представить x как дискретное равномерное распределение . Согласно этой интерпретации все $x_{i}$ имеют одинаковое математическое ожидание и некоторую положительную дисперсию. Используя эту интерпретацию, мы можем думать о $r_{xy}$ как средство оценки корреляции Пирсона между случайной величиной y и случайной величиной x (как мы только что ее определили).

Числовые свойства

Линия регрессии проходит через точку центра масс , $({\bar {x}},\,{\bar {y}})$ , если модель включает в себя термин-перехват (т. е. не принудительно проходит через начало координат).
Сумма остатков равна нулю, если модель включает в себя член-перехват:
$\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}=0.$
Остатки и $значения x$ не коррелируют (независимо от того, есть ли в модели член пересечения), что означает:
$\sum _{i=1}^{n}x_{i}{\widehat {\varepsilon }}_{i}\;=\;0$
Отношения между $\rho _{xy}$ ( коэффициент корреляции для совокупности ) и популяционные дисперсии $y$ ( $\sigma _{y}^{2}$ ) и член ошибки $\epsilon$ ( $\sigma _{\epsilon }^{2}$ ) является: ^[10]^: 401
$\sigma _{\epsilon }^{2}=(1-\rho _{xy}^{2})\sigma _{y}^{2}$
Для крайних значений $\rho _{xy}$ это само собой разумеется. С каких пор $\rho _{xy}=0$ затем $\sigma _{\epsilon }^{2}=\sigma _{y}^{2}$ . И когда $\rho _{xy}=1$ затем $\sigma _{\epsilon }^{2}=0$ .

Статистические свойства

Описание статистических свойств оценок на основе оценок простой линейной регрессии требует использования статистической модели . Следующее основано на предположении о справедливости модели, согласно которой оценки оптимальны. Также возможно оценить свойства при других предположениях, таких как неоднородность , но это обсуждается в другом месте. ^{[ нужны разъяснения ]}

Беспристрастность

Оценщики ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ являются беспристрастными .

Чтобы формализовать это утверждение, мы должны определить структуру, в которой эти оценки являются случайными величинами. Мы рассматриваем остатки $ε i$ как случайные величины, полученные независимо от некоторого распределения со средним нулевым значением. Другими словами, для каждого значения $x$ соответствующее значение $y$ генерируется как средний отклик $α + βx$ плюс дополнительная случайная величина $ε$ , называемая членом ошибки , равная в среднем нулю. При такой интерпретации оценки методом наименьших квадратов ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ сами будут случайными величинами, средние значения которых будут равны «истинным значениям» $α$ и $β$ . Это определение несмещенной оценки.

Доверительные интервалы

приведенные в предыдущем разделе, позволяют рассчитать точечные оценки α $Формулы ,$ и $β$ — то есть коэффициенты линии регрессии для заданного набора данных. Однако эти формулы не говорят нам, насколько точны оценки, т. е. насколько оценки ${\widehat {\alpha }}$ и ${\widehat {\beta }}$ варьируются от выборки к выборке для заданного размера выборки. Доверительные интервалы были разработаны для того, чтобы дать правдоподобный набор значений оценкам, которые можно было бы получить, если бы эксперимент повторялся очень большое количество раз.

Стандартный метод построения доверительных интервалов для коэффициентов линейной регрессии основан на предположении о нормальности, которое оправдано, если:

ошибки в регрессии распределены нормально (так называемое классическое предположение о регрессии ), или
количество наблюдений $n$ достаточно велико, и в этом случае оценка имеет приблизительно нормальное распределение.

Последний случай оправдывается центральной предельной теоремой .

Предположение о нормальности

При первом предположении, приведенном выше, о нормальности членов ошибки, оценка коэффициента наклона сама будет нормально распределяться со средним значением $β$ и дисперсией. $\sigma ^{2}\left/\sum (x_{i}-{\bar {x}})^{2}\right.,$ где $σ 2$ — это дисперсия членов ошибки (см. Доказательства с использованием обычных наименьших квадратов ). При этом сумма квадратов невязок $Q$ распределяется пропорционально $χ 2$ с $n - 2$ степенями свободы и независимо от ${\widehat {\beta }}$ . Это позволяет нам построить $t$ -значение

t={\frac {{\widehat {\beta }}-\beta }{s_{\widehat {\beta }}}}\ \sim \ t_{n-2},

где

s_{\widehat {\beta }}={\sqrt {\frac {{\frac {1}{n-2}}\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

является несмещенной оценкой стандартной ошибки оценщика ${\widehat {\beta }}$ .

Это $значение t$ имеет -распределение Стьюдента $t$ с $n - 2$ степенями свободы. Используя его, мы можем построить доверительный интервал для $β$ :

\beta \in \left[{\widehat {\beta }}-s_{\widehat {\beta }}t_{n-2}^{*},\ {\widehat {\beta }}+s_{\widehat {\beta }}t_{n-2}^{*}\right],

на уровне доверия $(1 - γ)$ , где $t_{n-2}^{*}$ это $\scriptstyle \left(1\;-\;{\frac {\gamma }{2}}\right){\text{-th}}$ квантиль $распределения t n -2$ . Например, если $γ = 0,05$ , то уровень достоверности составляет 95%.

Аналогично, доверительный интервал для коэффициента пересечения $α$ определяется выражением

\alpha \in \left[{\widehat {\alpha }}-s_{\widehat {\alpha }}t_{n-2}^{*},\ {\widehat {\alpha }}+s_{\widehat {\alpha }}t_{n-2}^{*}\right],

на уровне достоверности (1 − γ ), где

s_{\widehat {\alpha }}=s_{\widehat {\beta }}{\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}}}={\sqrt {{\frac {1}{n(n-2)}}\left(\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}\right){\frac {\sum _{i=1}^{n}x_{i}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}

Доверительные интервалы для $α$ и $β$ дают нам общее представление о том, где, скорее всего, будут находиться эти коэффициенты регрессии. Например, в показанной здесь регрессии по закону Оукена точечные оценки равны

{\widehat {\alpha }}=0.859,\qquad {\widehat {\beta }}=-1.817.

95% доверительные интервалы для этих оценок составляют

\alpha \in \left[\,0.76,0.96\right],\qquad \beta \in \left[-2.06,-1.58\,\right].

Чтобы представить эту информацию графически, в виде доверительных полос вокруг линии регрессии, необходимо действовать осторожно и учитывать совместное распределение оценок. Это можно показать ^[11] что на уровне достоверности (1 − γ ) доверительный интервал имеет гиперболическую форму, заданную уравнением

(\alpha +\beta \xi )\in \left[\,{\widehat {\alpha }}+{\widehat {\beta }}\xi \pm t_{n-2}^{*}{\sqrt {\left({\frac {1}{n-2}}\sum {\widehat {\varepsilon }}_{i}^{\,2}\right)\cdot \left({\frac {1}{n}}+{\frac {(\xi -{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}\right)}}\,\right].

Когда модель предполагала, что точка пересечения фиксирована и равна 0 ( $\alpha =0$ ), стандартная ошибка наклона превращается в:

s_{\widehat {\beta }}={\sqrt {{\frac {1}{n-1}}{\frac {\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\,2}}{\sum _{i=1}^{n}x_{i}^{2}}}}}

С: ${\hat {\varepsilon }}_{i}=y_{i}-{\hat {y}}_{i}$

Асимптотическое предположение

Альтернативное второе предположение гласит, что, когда количество точек в наборе данных «достаточно велико», становятся применимыми закон больших чисел и центральная предельная теорема , и тогда распределение оценок становится примерно нормальным. полученные в предыдущем разделе, остаются в силе, за исключением того, что квантиль t* _{n −2} Стьюдента При этом предположении все формулы , распределения заменяется квантилем q* стандартного нормального распределения . Иногда дробь $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num{display:block;line-height:1em;margin:0.0em 0.1em;border-bottom:1px solid}.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0.1em 0.1em}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}⁠ 1 / n −2 ⁠$ заменяется на $⁠ 1 / п ⁠$ . Когда $n$ велико, такое изменение существенно не меняет результаты.

Численный пример

Этот набор данных дает среднюю массу женщин в зависимости от их роста в выборке американских женщин в возрасте 30–39 лет. Хотя в статье OLS утверждается, что для этих данных было бы более целесообразно использовать квадратичную регрессию, вместо этого здесь применяется простая модель линейной регрессии.

Высота (м), x _i	1.47	1.50	1.52	1.55	1.57	1.60	1.63	1.65	1.68	1.70	1.73	1.75	1.78	1.80	1.83
Масса (кг), y _i	52.21	53.12	54.48	55.84	57.20	58.57	59.93	61.29	63.11	64.47	66.28	68.10	69.92	72.19	74.46

$i$	$x_{i}$	$y_{i}$	$x_{i}^{2}$	$x_{i}y_{i}$	$y_{i}^{2}$
1	1.47	52.21	2.1609	76.7487	2725.8841
2	1.50	53.12	2.2500	79.6800	2821.7344
3	1.52	54.48	2.3104	82.8096	2968.0704
4	1.55	55.84	2.4025	86.5520	3118.1056
5	1.57	57.20	2.4649	89.8040	3271.8400
6	1.60	58.57	2.5600	93.7120	3430.4449
7	1.63	59.93	2.6569	97.6859	3591.6049
8	1.65	61.29	2.7225	101.1285	3756.4641
9	1.68	63.11	2.8224	106.0248	3982.8721
10	1.70	64.47	2.8900	109.5990	4156.3809
11	1.73	66.28	2.9929	114.6644	4393.0384
12	1.75	68.10	3.0625	119.1750	4637.6100
13	1.78	69.92	3.1684	124.4576	4888.8064
14	1.80	72.19	3.2400	129.9420	5211.3961
15	1.83	74.46	3.3489	136.2618	5544.2916
$\Sigma$	24.76	931.17	41.0532	1548.2453	58498.5439

В этом наборе данных n = 15 точек. Ручные вычисления можно было бы начать с нахождения следующих пяти сумм:

{\begin{aligned}S_{x}&=\sum x_{i}\,=24.76,\qquad S_{y}=\sum y_{i}\,=931.17,\\[5pt]S_{xx}&=\sum x_{i}^{2}=41.0532,\;\;\,S_{yy}=\sum y_{i}^{2}=58498.5439,\\[5pt]S_{xy}&=\sum x_{i}y_{i}=1548.2453\end{aligned}}

Эти величины будут использоваться для расчета оценок коэффициентов регрессии и их стандартных ошибок.

{\begin{aligned}{\widehat {\beta }}&={\frac {nS_{xy}-S_{x}S_{y}}{nS_{xx}-S_{x}^{2}}}=61.272\\[8pt]{\widehat {\alpha }}&={\frac {1}{n}}S_{y}-{\widehat {\beta }}{\frac {1}{n}}S_{x}=-39.062\\[8pt]s_{\varepsilon }^{2}&={\frac {1}{n(n-2)}}\left[nS_{yy}-S_{y}^{2}-{\widehat {\beta }}^{2}(nS_{xx}-S_{x}^{2})\right]=0.5762\\[8pt]s_{\widehat {\beta }}^{2}&={\frac {ns_{\varepsilon }^{2}}{nS_{xx}-S_{x}^{2}}}=3.1539\\[8pt]s_{\widehat {\alpha }}^{2}&=s_{\widehat {\beta }}^{2}{\frac {1}{n}}S_{xx}=8.63185\end{aligned}}

-распределения Стьюдента Квантиль 0,975 t с 13 степенями свободы равен $t * 13 = 2,1604$ , и, таким образом, 95% доверительные интервалы для $α$ и $β$ равны

{\begin{aligned}&\alpha \in [\,{\widehat {\alpha }}\mp t_{13}^{*}s_{\alpha }\,]=[\,{-45.4},\ {-32.7}\,]\\[5pt]&\beta \in [\,{\widehat {\beta }}\mp t_{13}^{*}s_{\beta }\,]=[\,57.4,\ 65.1\,]\end{aligned}}

Коэффициент корреляции момента продукта также может быть рассчитан:

{\widehat {r}}={\frac {nS_{xy}-S_{x}S_{y}}{\sqrt {(nS_{xx}-S_{x}^{2})(nS_{yy}-S_{y}^{2})}}}=0.9946

Альтернативы

В SLR лежит допущение, что только зависимая переменная содержит ошибку измерения; если независимая переменная также измеряется с ошибкой, то простая регрессия не подходит для оценки базовой взаимосвязи, поскольку она будет смещена из-за разбавления регрессии .

Другие методы оценки, которые можно использовать вместо обычных методов наименьших квадратов, включают метод наименьших абсолютных отклонений (минимизация суммы абсолютных значений остатков) и оценщик Тейла – Сена (который выбирает линию, наклон которой является медианой наклонов, определяемых парами точки отбора проб).

Регрессия Деминга (полные наименьшие квадраты) также находит линию, которая соответствует набору двумерных точек выборки, но (в отличие от обычных методов наименьших квадратов, регрессии наименьших абсолютных отклонений и регрессии медианного наклона) на самом деле это не пример простой линейной регрессии, потому что он не разделяет координаты на одну зависимую и одну независимую переменную и потенциально может возвращать вертикальную линию в соответствии с ней. может привести к модели, которая пытается соответствовать выбросам больше, чем данным.

Линия фитинга

Подбор линии — это процесс построения прямой линии , которая наилучшим образом соответствует ряду точек данных.

Существует несколько методов, учитывая:

Вертикальное расстояние: простая линейная регрессия
- Устойчивость к выбросам : надежная простая линейная регрессия.
Перпендикулярное расстояние : ортогональная регрессия
- Взвешенное геометрическое расстояние: регрессия Деминга
Масштабная инвариантность : регрессия по главной оси

Простая линейная регрессия без члена (одиночный регрессор)

Иногда целесообразно заставить линию регрессии проходить через начало координат, поскольку $x$ и $y$ предполагается, что пропорциональны. Для модели без члена-члена $y = βx$ оценка МНК для $β$ упрощается до

{\widehat {\beta }}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}={\frac {\overline {xy}}{\overline {x^{2}}}}

Замена $(x - h, y - k)$ вместо $(x, y)$ дает регрессию через $(h, k)$ :

{\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-h)(y_{i}-k)}{\sum _{i=1}^{n}(x_{i}-h)^{2}}}={\frac {\overline {(x-h)(y-k)}}{\overline {(x-h)^{2}}}}\\[6pt]&={\frac {{\overline {xy}}-k{\bar {x}}-h{\bar {y}}+hk}{{\overline {x^{2}}}-2h{\bar {x}}+h^{2}}}\\[6pt]&={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}+({\bar {x}}-h)({\bar {y}}-k)}{{\overline {x^{2}}}-{\bar {x}}^{2}+({\bar {x}}-h)^{2}}}\\[6pt]&={\frac {\operatorname {Cov} (x,y)+({\bar {x}}-h)({\bar {y}}-k)}{\operatorname {Var} (x)+({\bar {x}}-h)^{2}}},\end{aligned}}

где Cov и Var относятся к ковариации и дисперсии выборочных данных (без поправки на систематическую ошибку).Последняя форма выше демонстрирует, как перемещение линии от центра масс точек данных влияет на наклон.

См. также

Матрица проектирования # Простая линейная регрессия
Оценка линейного тренда
Линейная сегментированная регрессия
Доказательства с использованием обычных наименьших квадратов - вывод всех формул, использованных в этой статье, в общем многомерном случае.
Оценщик Ньюи – Уэста

Ссылки

^ Селтман, Ховард Дж. (8 сентября 2008 г.). Экспериментальный дизайн и анализ (PDF) . п. 227.
^ «Статистическая выборка и регрессия: простая линейная регрессия» . Колумбийский университет . Проверено 17 октября 2016 г. Когда в регрессии используется одна независимая переменная, она называется простой регрессией; (...)
^ Лейн, Дэвид М. Введение в статистику (PDF) . п. 462.
^ Цзоу К.Х.; Тункали К; Сильверман С.Г. (2003). «Корреляция и простая линейная регрессия» . Радиология . 227 (3): 617–22. дои : 10.1148/radiol.2273011499 . ISSN 0033-8419 . ОСЛК 110941167 . ПМИД 12773666 .
^ Альтман, Наоми; Кшивинский, Мартин (2015). «Простая линейная регрессия» . Природные методы . 12 (11): 999–1000. дои : 10.1038/nmeth.3627 . ISSN 1548-7091 . OCLC 5912005539 . ПМИД 26824102 . S2CID 261269711 .
^ Кенни, Дж. Ф. и Кингинг, Э. С. (1962) «Линейная регрессия и корреляция». Ч. 15 по математике и статистике , Pt. 1, 3-е изд. Принстон, Нью-Джерси: Ван Ностранд, стр. 252–285.
^ Jump up to: ^а ^б Мутукришнан, Гоури (17 июня 2018 г.). «Математика полиномиальной регрессии, Мутукришнан» . Математика, лежащая в основе полиномиальной регрессии . Проверено 30 января 2024 г.
^ «Математика полиномиальной регрессии» . Полиномиальная регрессия. Класс регрессии PHP .
^ «Счет, математика и статистика — комплект академических навыков, Университет Ньюкасла» . Простая линейная регрессия . Проверено 30 января 2024 г.
^ Валиант, Ричард, Джилл А. Девер и Фрауке Кройтер. Практические инструменты для составления и взвешивания выборок обследований. Нью-Йорк: Спрингер, 2013.
^ Казелла, Г. и Бергер, Р.Л. (2002), «Статистический вывод» (2-е издание), Cengage, ISBN 978-0-534-24312-8 , стр. 558–559.

Внешние ссылки

[1] Селтман, Ховард Дж. (8 сентября 2008 г.). Экспериментальный дизайн и анализ (PDF) . п. 227.

[:0-2] «Статистическая выборка и регрессия: простая линейная регрессия» . Колумбийский университет . Проверено 17 октября 2016 г. Когда в регрессии используется одна независимая переменная, она называется простой регрессией; (...)

[3] Лейн, Дэвид М. Введение в статистику (PDF) . п. 462.

[4] Цзоу К.Х.; Тункали К; Сильверман С.Г. (2003). «Корреляция и простая линейная регрессия» . Радиология . 227 (3): 617–22. дои : 10.1148/radiol.2273011499 . ISSN 0033-8419 . ОСЛК 110941167 . ПМИД 12773666 .

[5] Альтман, Наоми; Кшивинский, Мартин (2015). «Простая линейная регрессия» . Природные методы . 12 (11): 999–1000. дои : 10.1038/nmeth.3627 . ISSN 1548-7091 . OCLC 5912005539 . ПМИД 26824102 . S2CID 261269711 .

[6] Кенни, Дж. Ф. и Кингинг, Э. С. (1962) «Линейная регрессия и корреляция». Ч. 15 по математике и статистике , Pt. 1, 3-е изд. Принстон, Нью-Джерси: Ван Ностранд, стр. 252–285.

[:1-7] Jump up to: ^а ^б Мутукришнан, Гоури (17 июня 2018 г.). «Математика полиномиальной регрессии, Мутукришнан» . Математика, лежащая в основе полиномиальной регрессии . Проверено 30 января 2024 г.

[8] «Математика полиномиальной регрессии» . Полиномиальная регрессия. Класс регрессии PHP .

[9] «Счет, математика и статистика — комплект академических навыков, Университет Ньюкасла» . Простая линейная регрессия . Проверено 30 января 2024 г.

[Valliant2013-10] Валиант, Ричард, Джилл А. Девер и Фрауке Кройтер. Практические инструменты для составления и взвешивания выборок обследований. Нью-Йорк: Спрингер, 2013.

[11] Казелла, Г. и Бергер, Р.Л. (2002), «Статистический вывод» (2-е издание), Cengage, ISBN 978-0-534-24312-8 , стр. 558–559.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]