Регрессионный анализ

В статистическом моделировании регрессионный анализ представляет собой набор статистических процессов для оценки взаимосвязей между зависимой переменной (часто называемой «результатной» или «переменной ответа» или «меткой» на языке машинного обучения) и одной или несколькими независимыми переменными ( часто называемые «предикторами», «ковариатами», «объясняющими переменными» или «признаками»). Наиболее распространенной формой регрессионного анализа является линейная регрессия , при которой находится линия (или более сложная линейная комбинация ), которая наиболее точно соответствует данным в соответствии с определенным математическим критерием. Например, метод обычных наименьших квадратов вычисляет уникальную линию (или гиперплоскость ), которая минимизирует сумму квадратов разностей между истинными данными и этой линией (или гиперплоскостью). По конкретным математическим причинам (см. линейную регрессию ) это позволяет исследователю оценить условное ожидание (или среднее значение совокупности ) зависимой переменной, когда независимые переменные принимают заданный набор значений. Менее распространенные формы регрессии используют несколько иные процедуры для оценки альтернатив. параметры местоположения (например, квантильная регрессия или анализ необходимых условий). ^[1]) или оценить условное ожидание по более широкому набору нелинейных моделей (например, непараметрическая регрессия ).

Регрессионный анализ в основном используется для двух концептуально различных целей. Во-первых, регрессионный анализ широко используется для предсказания и прогнозирования , где его использование существенно пересекается с областью машинного обучения . Во-вторых, в некоторых ситуациях регрессионный анализ можно использовать для вывода причинно-следственных связей между независимыми и зависимыми переменными. Важно отметить, что регрессии сами по себе выявляют только отношения между зависимой переменной и набором независимых переменных в фиксированном наборе данных. Чтобы использовать регрессии для прогнозирования или вывода причинно-следственных связей соответственно, исследователь должен тщательно обосновать, почему существующие взаимосвязи обладают предсказательной силой для нового контекста или почему связь между двумя переменными имеет причинно-следственную интерпретацию. Последнее особенно важно, когда исследователи надеются оценить причинно-следственные связи, используя данные наблюдений . ^[2]^[3]

История

Самой ранней формой регрессии был метод наименьших квадратов , опубликованный Лежандром в 1805 году. ^[4] и Гауссом в 1809 году. ^[5] Лежандр и Гаусс применили этот метод к проблеме определения на основе астрономических наблюдений орбит тел вокруг Солнца (в основном комет, но также и недавно открытых тогда малых планет). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году. ^[6] включая версию теоремы Гаусса–Маркова .

Термин «регрессия» был придуман Фрэнсисом Гальтоном в 19 веке для описания биологического явления. Феномен заключался в том, что рост потомков высоких предков имел тенденцию снижаться до нормального среднего значения (феномен, также известный как регрессия к среднему значению ). ^[7]^[8]Для Гальтона регрессия имела только биологический смысл: ^[9]^[10] но позже его работа была расширена Удным Юлом и Карлом Пирсоном на более общий статистический контекст. ^[11]^[12] В работе Юла и Пирсона совместное распределение отклика и объясняющих переменных предполагается гауссовым . Это предположение было ослаблено Р. А. Фишером в его работах 1922 и 1925 гг. ^[13]^[14]^[15] Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не обязательно должно быть таким. В этом отношении предположение Фишера ближе к формулировке Гаусса 1821 года.

В 1950-х и 1960-х годах экономисты использовали электромеханические настольные калькуляторы для расчета регрессий. До 1970 года получение результата одной регрессии иногда занимало до 24 часов. ^[16]

Методы регрессии продолжают оставаться областью активных исследований. В последние десятилетия были разработаны новые методы устойчивой регрессии , регрессии, включающей коррелированные ответы, такие как временные ряды и кривые роста , регрессии, в которой предиктором (независимой переменной) или переменными отклика являются кривые, изображения, графики или другие сложные объекты данных. методы регрессии, учитывающие различные типы пропущенных данных, непараметрическая регрессия , байесовские методы регрессии, регрессия, в которой переменные-предикторы измеряются с ошибкой, регрессия с большим количеством переменных-предикторов, чем наблюдений, и причинный вывод с регрессией.

Регрессионная модель

На практике исследователи сначала выбирают модель, которую они хотели бы оценить, а затем используют выбранный ими метод (например, обычный метод наименьших квадратов ) для оценки параметров этой модели. Регрессионные модели включают в себя следующие компоненты:

Неизвестные параметры , часто обозначаемые как скаляр или вектор. $\beta$ .
Независимые переменные , которые наблюдаются в данных и часто обозначаются как вектор. $X_{i}$ (где $i$ обозначает строку данных).
, Зависимая переменная которая наблюдается в данных и часто обозначается скаляром $Y_{i}$ .
Члены ошибок , которые не наблюдаются непосредственно в данных и часто обозначаются скаляром $e_{i}$ .

В различных областях применения вместо зависимых и независимых переменных используются разные термины .

Большинство регрессионных моделей предполагают, что $Y_{i}$ является функцией ( функцией регрессии ) $X_{i}$ и $\beta$ , с $e_{i}$ представляющий собой аддитивную ошибку , которая может заменять немоделированные детерминанты $Y_{i}$ или случайный статистический шум:

Y_{i}=f(X_{i},\beta )+e_{i}

Целью исследователей является оценка функции $f(X_{i},\beta )$ который наиболее точно соответствует данным. Для проведения регрессионного анализа вид функции $f$ должно быть указано. Иногда форма этой функции основана на знании о взаимосвязи между $Y_{i}$ и $X_{i}$ это не зависит от данных. Если такие знания отсутствуют, можно использовать гибкую или удобную форму для $f$ выбран. Например, простая одномерная регрессия может предложить $f(X_{i},\beta )=\beta _{0}+\beta _{1}X_{i}$ , что позволяет предположить, что исследователь считает $Y_{i}=\beta _{0}+\beta _{1}X_{i}+e_{i}$ быть разумным приближением для статистического процесса, генерирующего данные.

Как только исследователи определяют предпочтительную статистическую модель , различные формы регрессионного анализа предоставляют инструменты для оценки параметров. $\beta$ . Например, метод наименьших квадратов (включая его наиболее распространенный вариант, обычный метод наименьших квадратов ) находит значение $\beta$ что минимизирует сумму квадратов ошибок $\sum _{i}(Y_{i}-f(X_{i},\beta ))^{2}$ . Данный метод регрессии в конечном итоге даст оценку $\beta$ , обычно обозначается ${\hat {\beta }}$ чтобы отличить оценку от истинного (неизвестного) значения параметра, сгенерировавшего данные. Используя эту оценку, исследователь может затем использовать подобранное значение ${\hat {Y_{i}}}=f(X_{i},{\hat {\beta }})$ для прогнозирования или оценки точности модели при объяснении данных. Заинтересован ли исследователь в оценке ${\hat {\beta }}$ или прогнозируемое значение ${\hat {Y_{i}}}$ будет зависеть от контекста и их целей. Как описано в обычном методе наименьших квадратов , метод наименьших квадратов широко используется, потому что оценочная функция $f(X_{i},{\hat {\beta }})$ аппроксимирует условное ожидание $E(Y_{i}|X_{i})$ . ^[5] Однако альтернативные варианты (например, наименьшие абсолютные отклонения или квантильная регрессия ) полезны, когда исследователи хотят смоделировать другие функции. $f(X_{i},\beta )$ .

Важно отметить, что для оценки регрессионной модели должно быть достаточно данных. Например, предположим, что исследователь имеет доступ к $N$ строки данных с одной зависимой и двумя независимыми переменными: $(Y_{i},X_{1i},X_{2i})$ . Предположим далее, что исследователь хочет оценить двумерную линейную модель методом наименьших квадратов : $Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+e_{i}$ . Если у исследователя есть доступ только к $N=2$ точки данных, то они могли бы найти бесконечно много комбинаций $({\hat {\beta }}_{0},{\hat {\beta }}_{1},{\hat {\beta }}_{2})$ которые одинаково хорошо объясняют данные: можно выбрать любую комбинацию, удовлетворяющую ${\hat {Y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}$ , все это приводит к $\sum _{i}{\hat {e}}_{i}^{2}=\sum _{i}({\hat {Y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}))^{2}=0$ и, следовательно, являются действительными решениями, которые минимизируют сумму квадратов остатков . Чтобы понять, почему вариантов бесконечно много, заметим, что система $N=2$ уравнения приходится решать с тремя неизвестными, что делает систему недоопределенной . Альтернативно, можно визуализировать бесконечное множество трехмерных плоскостей, проходящих через $N=2$ фиксированные точки.

В более общем смысле, чтобы оценить модель наименьших квадратов с $k$ отдельные параметры, необходимо иметь $N\geq k$ отдельные точки данных. Если $N>k$ , то обычно не существует набора параметров, который идеально соответствовал бы данным. Количество $N-k$ часто появляется в регрессионном анализе и называется степенями свободы в модели. Более того, для оценки модели наименьших квадратов независимые переменные $(X_{1i},X_{2i},...,X_{ki})$ должна быть линейно независимой : нельзя восстановить ни одну из независимых переменных путем сложения и умножения остальных независимых переменных. Как обсуждалось в обычном методе наименьших квадратов , это условие гарантирует, что $X^{T}X$ является обратимой матрицей и, следовательно, единственным решением ${\hat {\beta }}$ существует.

Основные предположения

Сама по себе регрессия — это просто расчет с использованием данных. Чтобы интерпретировать результаты регрессии как значимую статистическую величину, измеряющую реальные отношения, исследователи часто полагаются на ряд классических предположений . Эти предположения часто включают в себя:

Выборка является репрезентативной для населения в целом.
Независимые переменные измеряются без ошибок.
Отклонения от модели имеют нулевое ожидаемое значение при условии наличия ковариат: $E(e_{i}|X_{i})=0$
Дисперсия остатков $e_{i}$ постоянен во всех наблюдениях ( гомоскедастичность ).
Остатки $e_{i}$ некоррелированы друг с другом. Математически дисперсионно-ковариационная матрица ошибок является диагональной .

Нескольких условий достаточно для того, чтобы оценщик наименьших квадратов обладал желаемыми свойствами: в частности, предположения Гаусса-Маркова подразумевают, что оценки параметров будут несмещенными , непротиворечивыми и эффективными в классе линейных несмещенных оценщиков. Практики разработали множество методов для поддержания некоторых или всех этих желательных свойств в реальных условиях, поскольку эти классические предположения вряд ли будут выполняться в точности. Например, моделирование ошибок в переменных может привести к разумным оценкам, независимые переменные измеряются с ошибками. Стандартные ошибки, согласованные с гетероскедастичностью, допускают дисперсию $e_{i}$ изменяться в пределах значений $X_{i}$ . Коррелированные ошибки, которые существуют в подмножествах данных или следуют определенным шаблонам, могут обрабатываться, среди других методов, с использованием кластерных стандартных ошибок, географической взвешенной регрессии или стандартных ошибок Ньюи-Уэста . Когда строки данных соответствуют местоположениям в пространстве, выбор способа моделирования $e_{i}$ внутри географических единиц может иметь важные последствия. ^[17]^[18] Подобласть эконометрики в основном сосредоточена на разработке методов, которые позволяют исследователям делать разумные выводы из реальной жизни в реальных условиях, где классические предположения не выполняются в точности.

Линейная регрессия

В линейной регрессии спецификация модели заключается в том, что зависимая переменная, $y_{i}$ представляет собой линейную комбинацию параметров ( но не обязательно линейную по независимым переменным ). Например, в простой линейной регрессии для моделирования $n$ точки данных есть одна независимая переменная: $x_{i}$ и два параметра, $\beta _{0}$ и $\beta _{1}$ :

прямая линия:

y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\quad i=1,\dots ,n.\!

В множественной линейной регрессии имеется несколько независимых переменных или функций независимых переменных.

Добавление термина в $x_{i}^{2}$ к предыдущей регрессии дает:

парабола:

y_{i}=\beta _{0}+\beta _{1}x_{i}+\beta _{2}x_{i}^{2}+\varepsilon _{i},\ i=1,\dots ,n.\!

Это все еще линейная регрессия; хотя выражение в правой части квадратично по независимой переменной $x_{i}$ , оно линейно по параметрам $\beta _{0}$ , $\beta _{1}$ и $\beta _{2}.$

В обоих случаях $\varepsilon _{i}$ является ошибкой, а нижний индекс $i$ индексирует конкретное наблюдение.

Возвращаясь к случаю прямой линии: учитывая случайную выборку генеральной совокупности, мы оцениваем параметры генеральной совокупности и получаем выборочную модель линейной регрессии:

{\widehat {y}}_{i}={\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}x_{i}.

Остаток , $e_{i}=y_{i}-{\widehat {y}}_{i}$ , — это разница между значением зависимой переменной, предсказанной моделью, ${\widehat {y}}_{i}$ и истинное значение зависимой переменной, $y_{i}$ . Одним из методов оценки является обычный метод наименьших квадратов . Этот метод получает оценки параметров, которые минимизируют сумму квадратов остатков , SSR :

SSR=\sum _{i=1}^{n}e_{i}^{2}

Минимизация этой функции приводит к набору нормальных уравнений , набору одновременных линейных уравнений относительно параметров, которые решаются для получения оценок параметров: ${\widehat {\beta }}_{0},{\widehat {\beta }}_{1}$ .

В случае простой регрессии формулы для оценок методом наименьших квадратов имеют вид

{\widehat {\beta }}_{1}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}

{\widehat {\beta }}_{0}={\bar {y}}-{\widehat {\beta }}_{1}{\bar {x}}

где ${\bar {x}}$ является средним (средним) значением $x$ ценности и ${\bar {y}}$ является средним значением $y$ ценности.

В предположении, что член ошибки генеральной совокупности имеет постоянную дисперсию, оценка этой дисперсии определяется следующим образом:

{\hat {\sigma }}_{\varepsilon }^{2}={\frac {SSR}{n-2}}

Это называется среднеквадратичной ошибкой (MSE) регрессии. Знаменатель представляет собой размер выборки, уменьшенный на количество параметров модели, оцененных на основе тех же данных, $(n-p)$ для $p$ регрессоры или $(n-p-1)$ если используется перехват. ^[19] В этом случае, $p=1$ поэтому знаменатель $n-2$ .

Стандартные ошибки оценок параметров определяются выражением

{\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}

{\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}={\hat {\sigma }}_{\beta _{1}}{\sqrt {\frac {\sum x_{i}^{2}}{n}}}.

При дальнейшем предположении, что член ошибки генеральной совокупности имеет нормальное распределение, исследователь может использовать эти оцененные стандартные ошибки для создания доверительных интервалов и проведения проверки гипотез о параметрах генеральной совокупности .

Общая линейная модель

В более общей модели множественной регрессии существуют $p$ независимые переменные:

y_{i}=\beta _{1}x_{i1}+\beta _{2}x_{i2}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i},\,

где $x_{ij}$ это $i$ -е наблюдение по $j$ -я независимая переменная.Если первая независимая переменная принимает значение 1 для всех $i$ , $x_{i1}=1$ , затем $\beta _{1}$ называется перехватом регрессии .

Оценки параметра методом наименьших квадратов получаются из $p$ нормальные уравнения. Остаток можно записать как

\varepsilon _{i}=y_{i}-{\hat {\beta }}_{1}x_{i1}-\cdots -{\hat {\beta }}_{p}x_{ip}.

Обычные уравнения :

\sum _{i=1}^{n}\sum _{k=1}^{p}x_{ij}x_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{n}x_{ij}y_{i},\ j=1,\dots ,p.\,

В матричной записи нормальные уравнения записываются как

\mathbf {(X^{\top }X){\hat {\boldsymbol {\beta }}}={}X^{\top }Y} ,\,

где $ij$ элемент $\mathbf {X}$ является $x_{ij}$ , $i$ элемент вектора-столбца $Y$ является $y_{i}$ и $j$ элемент ${\hat {\boldsymbol {\beta }}}$ является ${\hat {\beta }}_{j}$ . Таким образом $\mathbf {X}$ является $n\times p$ , $Y$ является $n\times 1$ , и ${\hat {\boldsymbol {\beta }}}$ является $p\times 1$ . Решение

\mathbf {{\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }Y} .\,

Диагностика

После построения регрессионной модели может оказаться важным подтвердить соответствие модели и статистическую значимость оцененных параметров. Обычно используемые проверки согласия включают R-квадрат , анализ структуры остатков и проверку гипотез. Статистическую значимость можно проверить с помощью F-критерия общего соответствия, за которым следуют t-критерии отдельных параметров.

Интерпретация этих диагностических тестов во многом зависит от предположений модели. Хотя анализ остатков может быть использован для признания модели недействительной, результаты t-теста или F-теста иногда труднее интерпретировать, если предположения модели нарушаются. Например, если член ошибки не имеет нормального распределения, в небольших выборках оцененные параметры не будут соответствовать нормальному распределению, что усложнит вывод. Однако при относительно больших выборках можно применить центральную предельную теорему , чтобы проверка гипотез могла продолжаться с использованием асимптотических приближений.

Ограниченные зависимые переменные

Ограниченные зависимые переменные , которые являются переменными отклика, которые являются категориальными переменными или переменными, ограниченными попаданием только в определенный диапазон, часто возникают в эконометрике .

Переменная ответа может быть прерывистой («ограниченной» и находиться в некотором подмножестве реальной линии). Для бинарных переменных (ноль или одна), если анализ продолжается с помощью линейной регрессии по методу наименьших квадратов, модель называется линейной вероятностной моделью . Нелинейные модели для двоичных зависимых переменных включают пробит- и логит-модель . Многомерная пробит- модель — это стандартный метод оценки совместной связи между несколькими двоичными зависимыми переменными и некоторыми независимыми переменными. Для категориальных переменных с более чем двумя значениями существует полиномиальный логит . Для порядковых переменных с более чем двумя значениями существуют упорядоченные логит-модели и упорядоченные пробит- модели. Модели цензурированной регрессии можно использовать, когда зависимая переменная наблюдается лишь иногда, а модели типа коррекции Хекмана можно использовать, когда выборка не выбрана случайным образом из интересующей совокупности. Альтернативой таким процедурам является линейная регрессия, основанная на полихорической корреляции (или полисерийных корреляциях) между категориальными переменными. Такие процедуры различаются предположениями о распределении переменных в совокупности. Если переменная положительна с низкими значениями и представляет собой повторение события, подсчитайте такие модели, как регрессию Пуассона или модель отрицательного бинома Можно использовать .

Нелинейная регрессия

Когда модельная функция не является линейной по параметрам, сумму квадратов необходимо минимизировать с помощью итерационной процедуры. Это создает множество сложностей, которые обобщены в разделе «Различия между линейными и нелинейными методами наименьших квадратов» .

Прогнозирование (интерполяция и экстраполяция)

Интерполированная прямая линия посередине представляет собой лучший баланс между точками выше и ниже этой линии. Пунктирные линии представляют две крайние линии. Первые кривые представляют расчетные значения. Внешние кривые представляют собой прогноз для нового измерения. ^[20]

Модели регрессии прогнозируют значение переменной Y при известных значениях X. переменных Прогнозирование в диапазоне значений набора данных, используемого для подбора модели, неофициально называется интерполяцией . Прогнозирование за пределами этого диапазона данных известно как экстраполяция . Выполнение экстраполяции во многом зависит от предположений регрессии. Чем дальше экстраполяция выходит за пределы данных, тем больше вероятность того, что модель потерпит неудачу из-за различий между предположениями и выборочными данными или истинными значениями.

Интервал прогнозирования , который представляет неопределенность, может сопровождать точечное прогнозирование. Такие интервалы имеют тенденцию быстро расширяться по мере того, как значения независимой переменной(й) выходят за пределы диапазона, охватываемого наблюдаемыми данными.

По этим и другим причинам некоторые склонны говорить, что было бы неразумно прибегать к экстраполяции. ^[21]

которые могут быть допущены: в частности, предположение о конкретной форме связи между Y и X. Однако это не охватывает весь набор ошибок моделирования , Правильно проведенный регрессионный анализ будет включать оценку того, насколько хорошо предполагаемая форма соответствует наблюдаемым данным, но он может сделать это только в пределах диапазона значений фактически доступных независимых переменных. Это означает, что любая экстраполяция особенно зависит от предположений о структурной форме регрессионной зависимости. Если это знание включает в себя тот факт, что зависимая переменная не может выйти за пределы определенного диапазона значений, это можно использовать при выборе модели – даже если наблюдаемый набор данных не имеет значений, особенно близких к таким границам. Последствия этого шага выбора подходящей функциональной формы для регрессии могут быть значительными, если рассматривать экстраполяцию. Как минимум, он может гарантировать, что любая экстраполяция, вытекающая из подобранной модели, является «реалистичной» (или соответствует тому, что известно).

Расчеты мощности и размера выборки

Не существует общепринятых методов связи количества наблюдений с количеством независимых переменных в модели. Один из методов, предложенный Гудом и Хардином, заключается в следующем. $N=m^{n}$ , где $N$ размер выборки, $n$ количество независимых переменных и $m$ — это количество наблюдений, необходимое для достижения желаемой точности, если бы модель имела только одну независимую переменную. ^[22] Например, исследователь строит модель линейной регрессии, используя набор данных, содержащий 1000 пациентов ( $N$ ). Если исследователь решит, что для точного определения прямой линии необходимо пять наблюдений ( $m$ ), то максимальное количество независимых переменных, которые может поддерживать модель, равно 4, поскольку

{\frac {\log 1000}{\log 5}}\approx 4.29

.

Другие методы

Хотя параметры регрессионной модели обычно оцениваются с использованием метода наименьших квадратов, другие используемые методы включают:

Байесовские методы , например байесовская линейная регрессия
Процентная регрессия для ситуаций, когда уменьшение процентных ошибок считается более целесообразным. ^[23]
Наименьшие абсолютные отклонения , которые более устойчивы при наличии выбросов и приводят к квантильной регрессии.
Непараметрическая регрессия требует большого количества наблюдений и требует больших вычислительных ресурсов.
Оптимизация сценариев , ведущая к моделям интервального прогнозирования
Дистанционное обучение метрике, которое изучается путем поиска значимой метрики расстояния в заданном входном пространстве. ^[24]

Программное обеспечение

Все основные пакеты статистического программного обеспечения выполняют по методу наименьших квадратов регрессионный анализ и выводы . Простую линейную регрессию и множественную регрессию с использованием метода наименьших квадратов можно выполнить в некоторых приложениях для работы с электронными таблицами и на некоторых калькуляторах. Хотя многие пакеты статистического программного обеспечения могут выполнять различные типы непараметрической и устойчивой регрессии, эти методы менее стандартизированы. Различные пакеты программного обеспечения реализуют разные методы, и метод с заданным именем может быть реализован по-разному в разных пакетах. Специализированное программное обеспечение для регрессии было разработано для использования в таких областях, как анализ опросов и нейровизуализация.

См. также

Ссылки

^ Необходимый анализ состояния
^ Дэвид А. Фридман (27 апреля 2009 г.). Статистические модели: теория и практика . Издательство Кембриджского университета. ISBN 978-1-139-47731-4 .
^ Р. Деннис Кук; Сэнфорд Вейсберг Критика и анализ влияния в регрессии , Социологическая методология , Vol. 13. (1982), стр. 313–361.
^ AM Лежандр . Новые методы определения орбит комет , Фирмен Дидо, Париж, 1805 г. «О методе наименьших квадратов» появляется в качестве приложения.
^ Jump up to: ^а ^б Глава 1: Ангрист, Дж. Д. и Пишке, Дж. С. (2008). В основном безобидная эконометрика: спутник эмпирика . Издательство Принстонского университета.
^ CF Гаусс. Теория сочетания наблюдений допускает мельчайшие ошибки . (1821/1823)
^ Могул, Роберт Г. (2004). Прикладная статистика за второй семестр . Кендалл/Хант Издательская компания. п. 59. ИСБН 978-0-7575-1181-3 .
^ Гальтон, Фрэнсис (1989). «Родство и корреляция (переиздано в 1989 г.)» . Статистическая наука . 4 (2): 80–86. дои : 10.1214/ss/1177012581 . JSTOR 2245330 .
^ Фрэнсис Гальтон . «Типичные законы наследственности», Nature 15 (1877), 492–495, 512–514, 532–533. (Гальтон использует термин «реверсия» в этой статье, где обсуждается размер горошин.)
^ Фрэнсис Гальтон. Послание Президента, Раздел H, Антропология. (1885) (Гальтон использует термин «регрессия» в этой статье, где обсуждается рост человека.)
^ Юле, Г. Удный (1897). «К теории корреляции» . Журнал Королевского статистического общества . 60 (4): 812–54. дои : 10.2307/2979746 . JSTOR 2979746 .
^ Пирсон, Карл ; Юл, ГУ; Бланшар, Норман; Ли, Алиса (1903). «Закон наследственности» . Биометрика . 2 (2): 211–236. дои : 10.1093/biomet/2.2.211 . JSTOR 2331683 .
^ Фишер, Р.А. (1922). «Наличие соответствия формул регрессии и распределение коэффициентов регрессии» . Журнал Королевского статистического общества . 85 (4): 597–612. дои : 10.2307/2341124 . JSTOR 2341124 . ПМЦ 1084801 .
^ Рональд А. Фишер (1954). Статистические методы для научных работников (Двенадцатое изд.). Эдинбург : Оливер и Бойд. ISBN 978-0-05-002170-5 .
^ Олдрич, Джон (2005). «Фишер и регрессия» (PDF) . Статистическая наука . 20 (4): 401–417. дои : 10.1214/088342305000000331 . JSTOR 20061201 .
^ Родни Рамчаран. Регрессии: почему экономисты одержимы ими? Март 2006 г. По состоянию на 3 декабря 2011 г.
^ Фотерингем, А. Стюарт; Брансдон, Крис; Чарльтон, Мартин (2002). Географически взвешенная регрессия: анализ пространственно меняющихся отношений (переиздание). Чичестер, Англия: Джон Уайли. ISBN 978-0-471-49616-8 .
^ Фотерингем, AS; Вонг, DWS (1 января 1991 г.). «Проблема модифицируемой единицы площади в многомерном статистическом анализе». Окружающая среда и планирование А . 23 (7): 1025–1044. дои : 10.1068/a231025 . S2CID 153979055 .
^ Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.
^ Руо, Матье (2013). Вероятность, статистика и оценка (PDF) . п. 60.
^ Чан, CL, (2003) Статистические методы анализа , World Scientific. ISBN 981-238-310-7 - стр. 274, раздел 9.7.4 «Интерполяция и экстраполяция»
^ Хорошо, Пи ; Хардин, JW (2009). Распространенные ошибки в статистике (и как их избежать) (3-е изд.). Хобокен, Нью-Джерси: Уайли. п. 211. ИСБН 978-0-470-45798-6 .
^ Тофаллис, К. (2009). «Процентная регрессия по методу наименьших квадратов» . Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472 . HDL : 2299/965 . ССНР 1406472 .
^ ЯнЦзин Лун (2009). «Оценка возраста человека с помощью метрического обучения для задач регрессии» (PDF) . Учеб. Международная конференция по компьютерному анализу изображений и узоров : 74–82. Архивировано из оригинала (PDF) 8 января 2010 г.

Дальнейшее чтение

Уильям Х. Краскал и Джудит М. Танур , изд. (1978), «Линейные гипотезы», Международная энциклопедия статистики . Свободная пресса, т. 1,

Эван Дж. Уильямс, «I. Регрессия», стр. 523–41.

Джулиан К. Стэнли , «II. Дисперсионный анализ», стр. 541–554.

Линдли, Д.В. (1987). «Регрессионный и корреляционный анализ», Нью-Пэлгрейв: Экономический словарь , т. 4, стр. 120–23.
Биркс, Дэвид и Додж, Ю. , Альтернативные методы регрессии . ISBN 0-471-56881-3
Чатфилд, К. (1993) « Расчет интервальных прогнозов », Журнал деловой и экономической статистики, 11 . стр. 121–135.
Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. ISBN 978-0-471-17082-2 .
Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы. Мудрец
Хардл, В., Прикладная непараметрическая регрессия (1990), ISBN 0-521-42950-1
Мид, Найджел; Ислам, Тохидул (1995). «Интервалы прогнозирования для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. дои : 10.1002/for.3980140502 .
А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
Т. Струц: Подбор данных и неопределенность (Практическое введение в метод взвешенных наименьших квадратов и не только) . Вьюег+Тойбнер, ISBN 978-3-8348-1022-9 .
Стульп, Фрик и Оливье Сиго. Множество алгоритмов регрессии, одна унифицированная модель: обзор. Нейронные сети, вып. 69, сентябрь 2015 г., стр. 60–79. https://doi.org/10.1016/j.neunet.2015.05.005 .
Малакути, Б. (2013). Операции и производственные системы с множеством целей . Джон Уайли и сыновья.
Чикко, Давиде; Уорренс, Маттейс Дж.; Юрман, Джузеппе (2021). «Коэффициент детерминации R-квадрат более информативен, чем SMAPE, MAE, MAPE, MSE и RMSE при оценке регрессионного анализа» . PeerJ Информатика . 7 (e623): e623. дои : 10.7717/peerj-cs.623 . ПМЦ 8279135 . ПМИД 34307865 .

Внешние ссылки

«Регрессионный анализ» , Математическая энциклопедия , EMS Press , 2001 [1994]
Самое раннее использование: регрессия - основная история и ссылки.
Для чего используется множественная регрессия? – Множественная регрессия
Регрессия слабокоррелированных данных – как могут появиться ошибки линейной регрессии, когда диапазон Y намного меньше диапазона X

[1] Необходимый анализ состояния

[Freedman2009-2] Дэвид А. Фридман (27 апреля 2009 г.). Статистические модели: теория и практика . Издательство Кембриджского университета. ISBN 978-1-139-47731-4 .

[3] Р. Деннис Кук; Сэнфорд Вейсберг Критика и анализ влияния в регрессии , Социологическая методология , Vol. 13. (1982), стр. 313–361.

[Legendre-4] AM Лежандр . Новые методы определения орбит комет , Фирмен Дидо, Париж, 1805 г. «О методе наименьших квадратов» появляется в качестве приложения.

[Gauss-5] Jump up to: ^а ^б Глава 1: Ангрист, Дж. Д. и Пишке, Дж. С. (2008). В основном безобидная эконометрика: спутник эмпирика . Издательство Принстонского университета.

[Gauss2-6] CF Гаусс. Теория сочетания наблюдений допускает мельчайшие ошибки . (1821/1823)

[7] Могул, Роберт Г. (2004). Прикладная статистика за второй семестр . Кендалл/Хант Издательская компания. п. 59. ИСБН 978-0-7575-1181-3 .

[8] Гальтон, Фрэнсис (1989). «Родство и корреляция (переиздано в 1989 г.)» . Статистическая наука . 4 (2): 80–86. дои : 10.1214/ss/1177012581 . JSTOR 2245330 .

[9] Фрэнсис Гальтон . «Типичные законы наследственности», Nature 15 (1877), 492–495, 512–514, 532–533. (Гальтон использует термин «реверсия» в этой статье, где обсуждается размер горошин.)

[10] Фрэнсис Гальтон. Послание Президента, Раздел H, Антропология. (1885) (Гальтон использует термин «регрессия» в этой статье, где обсуждается рост человека.)

[11] Юле, Г. Удный (1897). «К теории корреляции» . Журнал Королевского статистического общества . 60 (4): 812–54. дои : 10.2307/2979746 . JSTOR 2979746 .

[12] Пирсон, Карл ; Юл, ГУ; Бланшар, Норман; Ли, Алиса (1903). «Закон наследственности» . Биометрика . 2 (2): 211–236. дои : 10.1093/biomet/2.2.211 . JSTOR 2331683 .

[13] Фишер, Р.А. (1922). «Наличие соответствия формул регрессии и распределение коэффициентов регрессии» . Журнал Королевского статистического общества . 85 (4): 597–612. дои : 10.2307/2341124 . JSTOR 2341124 . ПМЦ 1084801 .

[FisherR1954Statistical-14] Рональд А. Фишер (1954). Статистические методы для научных работников (Двенадцатое изд.). Эдинбург : Оливер и Бойд. ISBN 978-0-05-002170-5 .

[15] Олдрич, Джон (2005). «Фишер и регрессия» (PDF) . Статистическая наука . 20 (4): 401–417. дои : 10.1214/088342305000000331 . JSTOR 20061201 .

[16] Родни Рамчаран. Регрессии: почему экономисты одержимы ими? Март 2006 г. По состоянию на 3 декабря 2011 г.

[17] Фотерингем, А. Стюарт; Брансдон, Крис; Чарльтон, Мартин (2002). Географически взвешенная регрессия: анализ пространственно меняющихся отношений (переиздание). Чичестер, Англия: Джон Уайли. ISBN 978-0-471-49616-8 .

[18] Фотерингем, AS; Вонг, DWS (1 января 1991 г.). «Проблема модифицируемой единицы площади в многомерном статистическом анализе». Окружающая среда и планирование А . 23 (7): 1025–1044. дои : 10.1068/a231025 . S2CID 153979055 .

[19] Стил, RGD, и Торри, JH, Принципы и процедуры статистики с особым упором на биологические науки. , МакГроу Хилл , 1960, стр. 288.

[20] Руо, Матье (2013). Вероятность, статистика и оценка (PDF) . п. 60.

[21] Чан, CL, (2003) Статистические методы анализа , World Scientific. ISBN 981-238-310-7 - стр. 274, раздел 9.7.4 «Интерполяция и экстраполяция»

[22] Хорошо, Пи ; Хардин, JW (2009). Распространенные ошибки в статистике (и как их избежать) (3-е изд.). Хобокен, Нью-Джерси: Уайли. п. 211. ИСБН 978-0-470-45798-6 .

[23] Тофаллис, К. (2009). «Процентная регрессия по методу наименьших квадратов» . Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472 . HDL : 2299/965 . ССНР 1406472 .

[24] ЯнЦзин Лун (2009). «Оценка возраста человека с помощью метрического обучения для задач регрессии» (PDF) . Учеб. Международная конференция по компьютерному анализу изображений и узоров : 74–82. Архивировано из оригинала (PDF) 8 января 2010 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]