Линейная регрессия

В статистике линейную линейная регрессия — это статистическая модель, которая оценивает связь между скалярным ответом и одной или несколькими объясняющими переменными (также известными как зависимые и независимые переменные ). Случай одной объясняющей переменной называется простой линейной регрессией ; для более чем одного этот процесс называется множественной линейной регрессией . ^[1] Этот термин отличается от многомерной линейной регрессии , где несколько коррелирующих зависимых переменных, а не одна скалярная переменная. прогнозируется ^[2] Если объясняющие переменные измеряются с ошибкой, то модели ошибок в переменных необходимы , также известные как модели ошибок измерения.

В линейной регрессии отношения моделируются с использованием линейных предикторных функций , неизвестные параметры модели которых оцениваются основе на данных . Такие модели называются линейными моделями . ^[3] Чаще всего условное среднее ответа с учетом значений объясняющих переменных (или предикторов) считается аффинной функцией этих значений; реже условную медиану или какой-либо другой квантиль используют . Как и все формы регрессионного анализа , линейная регрессия фокусируется на условном распределении вероятностей ответа с учетом значений предикторов, а не на совместном распределении вероятностей всех этих переменных, что является областью многомерного анализа .

Линейная регрессия была первым типом регрессионного анализа, который тщательно изучался и широко использовался в практических приложениях. ^[4] Это связано с тем, что модели, которые линейно зависят от неизвестных параметров, легче подобрать, чем модели, которые нелинейно связаны с их параметрами, и потому, что статистические свойства полученных оценок легче определить.

Линейная регрессия имеет множество практических применений. Большинство приложений попадают в одну из следующих двух широких категорий:

Если целью является ошибка, т. е. уменьшение дисперсии в прогнозировании или прогнозировании , можно использовать линейную регрессию, чтобы подогнать прогностическую модель к наблюдаемому набору данных значений отклика и объясняющих переменных. Если после разработки такой модели собираются дополнительные значения объясняющих переменных без сопровождающего значения ответа, подобранную модель можно использовать для прогнозирования ответа.
Если цель состоит в том, чтобы объяснить изменение переменной отклика, которое можно отнести к вариациям объясняющих переменных, можно применить линейный регрессионный анализ для количественной оценки силы связи между ответом и объясняющими переменными и, в частности, для определения того, являются ли некоторые объясняющие переменные могут вообще не иметь линейной связи с ответом или определить, какие подмножества объясняющих переменных могут содержать избыточную информацию об ответе.

Модели линейной регрессии часто подбираются с использованием метода наименьших квадратов , но их также можно подбирать и другими способами, например, путем минимизации « несоответствия » какой-либо другой норме (как в случае с регрессией наименьших абсолютных отклонений ) или путем минимизации штрафного наименьших квадратов, версия функции стоимости как в гребневой регрессии ( L ²-норма штрафа) и аркан ( L ¹-норма штрафа). Использование среднеквадратической ошибки (MSE) в качестве стоимости набора данных, который имеет много крупных выбросов, может привести к тому, что модель будет соответствовать выбросам больше, чем истинным данным, из-за более высокой важности, придаваемой MSE большим ошибкам. следует использовать функции стоимости, устойчивые к выбросам Таким образом, если в наборе данных много крупных выбросов, . И наоборот, метод наименьших квадратов можно использовать для подбора моделей, которые не являются линейными моделями. Таким образом, хотя термины «наименьшие квадраты» и «линейная модель» тесно связаны, они не являются синонимами.

Формулировка [ править ]

Учитывая данных набор $\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}$ Для n статистических единиц модель линейной регрессии предполагает, что связь между зависимой переменной y и вектором регрессоров x является линейной . Эта связь моделируется с помощью члена возмущения или переменной ошибки ε — ненаблюдаемой случайной величины , которая добавляет «шум» к линейной зависимости между зависимой переменной и регрессорами. Таким образом, модель принимает вид

y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n,

где ^Т обозначает транспонирование , так что x _i^Тβ — произведение векторов . x _i и β скалярное

Часто эти n уравнений складываются вместе и записываются в матричной записи как

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,

где

\mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}},\quad

\mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{bmatrix}}={\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}},

{\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}.

Обозначения и терминология [ править ]

$\mathbf {y}$ представляет собой вектор наблюдаемых значений $y_{i}\ (i=1,\ldots ,n)$ переменной, называемой регрессией , эндогенной переменной , переменной отклика , целевой переменной , измеряемой переменной , критериальной переменной или зависимой переменной . Эту переменную также иногда называют прогнозируемой переменной , но ее не следует путать с прогнозируемыми значениями , которые обозначаются ${\hat {y}}$ . Решение о том, какая переменная в наборе данных моделируется как зависимая переменная, а какая — как независимые переменные, может быть основано на предположении, что значение одной из переменных обусловлено другими переменными или напрямую зависит от них. Альтернативно, может существовать оперативная причина моделировать одну из переменных с точки зрения других, и в этом случае не требуется презумпции причинно-следственной связи.
$\mathbf {X}$ $\mathbf {X}$ можно рассматривать как матрицу векторов-строк $\mathbf {x} _{i\cdot }$ $\mathbf {x} _{i\cdot }$ или n -мерных векторов-столбцов $\mathbf {x} _{\cdot j}$ $\mathbf {x} _ {\cdot j}$ , которые известны как регрессоры , экзогенные переменные , объясняющие переменные , ковариаты , входные переменные , переменные-предикторы или независимые переменные (не путать с концепцией независимых случайных величин ). Матрица $\mathbf {X}$ $\mathbf {X}$ иногда называют матрицей проекта .
- Обычно константа включается в качестве одного из регрессоров. В частности, $x_{i0}=1$ для $i=1,\ldots ,n$ . Соответствующий элемент β называется перехватом . Многие процедуры статистического вывода для линейных моделей требуют присутствия точки пересечения, поэтому ее часто включают, даже если теоретические соображения предполагают, что ее значение должно быть равно нулю.
- Иногда один из регрессоров может быть нелинейной функцией другого регрессора или значений данных, как в полиномиальной регрессии и сегментированной регрессии . Модель остается линейной до тех пор, пока она линейна по вектору параметров β .
- Значения x _ij можно рассматривать либо как наблюдаемые значения случайных величин X _j , либо как фиксированные значения, выбранные до наблюдения зависимой переменной. Обе интерпретации могут быть уместны в разных случаях и обычно приводят к одним и тем же процедурам оценки; однако в этих двух ситуациях используются разные подходы к асимптотическому анализу.
${\boldsymbol {\beta }}$ это $(p+1)$ -мерный вектор параметров , где $\beta _{0}$ — это член пересечения (если он включен в модель, в противном случае ${\boldsymbol {\beta }}$ является p -мерным). Его элементы известны как эффекты или коэффициенты регрессии (хотя последний термин иногда используется для оценки эффектов). В простой линейной регрессии p = 1, а коэффициент известен как наклон регрессии . Статистическая оценка и вывод в линейной регрессии фокусируются на β . Элементы этого вектора параметров интерпретируются как частные производные зависимой переменной по отношению к различным независимым переменным.
${\boldsymbol {\varepsilon }}$ это вектор значений $\varepsilon _{i}$ . Эта часть модели называется членом ошибки , членом возмущения или иногда шумом (в отличие от «сигнала», обеспечиваемого остальной частью модели). Эта переменная учитывает все другие факторы, которые влияют на зависимую переменную y, кроме регрессоров x . Взаимосвязь между членом ошибки и регрессорами, например, их корреляция , является решающим фактором при формулировании модели линейной регрессии, поскольку она определяет соответствующий метод оценки.

Подбор линейной модели к заданному набору данных обычно требует оценки коэффициентов регрессии. ${\boldsymbol {\beta }}$ такой, что член ошибки ${\boldsymbol {\varepsilon }}=\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}$ сведен к минимуму. Например, обычно используют сумму квадратов ошибок. $\|{\boldsymbol {\varepsilon }}\|_{2}^{2}$ как мера ${\boldsymbol {\varepsilon }}$ для минимизации.

Пример [ править ]

когда небольшой шарик подбрасывают в воздух, а затем мы измеряем высоту его подъема hi _{Рассмотрим ситуацию ,} в различные моменты времени t _i . Физика говорит нам, что, игнорируя сопротивление, эту взаимосвязь можно смоделировать как

h_{i}=\beta _{1}t_{i}+\beta _{2}t_{i}^{2}+\varepsilon _{i},

где β ₁ определяет начальную скорость мяча, β ₂ пропорциональна стандартной силе тяжести , а ε _i обусловлена ошибками измерения. Линейную регрессию можно использовать для оценки значений β ₁ и β ₂ на основе измеренных данных. Эта модель нелинейна по временной переменной, но линейна по параметрам β ₁ и β ₂ ; если мы возьмем регрессоры x _i = ( x _{i 1} , x _{i 2} ) = ( t _i , t _i²), модель принимает стандартный вид

h_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i}.

Предположения [ править ]

Стандартные модели линейной регрессии со стандартными методами оценки делают ряд предположений о переменных-предикторах, переменных ответа и их взаимосвязи. Были разработаны многочисленные расширения, которые позволяют ослабить каждое из этих предположений (т.е. привести к более слабой форме), а в некоторых случаях полностью исключить их. Как правило, эти расширения делают процедуру оценки более сложной и трудоемкой, а также могут потребовать больше данных для создания столь же точной модели. ^{[ нужна ссылка ]}

Ниже приведены основные допущения, сделанные с помощью стандартных моделей линейной регрессии со стандартными методами оценки (например, методом наименьших квадратов ):

Слабая экзогенность . По сути, это означает, что переменные-предикторы x можно рассматривать как фиксированные значения, а не как случайные переменные . Это означает, например, что переменные-предикторы считаются безошибочными, то есть не содержат ошибок измерений. Хотя это предположение нереалистично во многих случаях, отказ от него приводит к значительно более сложным моделям ошибок в переменных .
Линейность . Это означает, что среднее значение переменной ответа представляет собой линейную комбинацию параметров (коэффициентов регрессии) и переменных-предикторов. Обратите внимание, что это предположение гораздо менее ограничительно, чем может показаться на первый взгляд. Поскольку переменные-предикторы рассматриваются как фиксированные значения (см. выше), линейность на самом деле является лишь ограничением параметров. Сами переменные-предикторы могут быть преобразованы произвольно, и фактически можно добавить несколько копий одной и той же базовой переменной-предиктора, каждая из которых преобразуется по-разному. Этот метод используется, например, в полиномиальной регрессии , которая использует линейную регрессию для соответствия переменной ответа произвольной полиномиальной функции (до заданной степени) переменной-предиктора. Обладая такой большой гибкостью, такие модели, как полиномиальная регрессия, часто обладают «слишком большой мощностью», поскольку они имеют тенденцию переоценивать данные. В результате обычно необходимо использовать некоторую регуляризацию , чтобы предотвратить появление необоснованных решений в процессе оценки. Распространенными примерами являются гребневая регрессия и лассо-регрессия . Также можно использовать байесовскую линейную регрессию , которая по своей природе более или менее невосприимчива к проблеме переобучения. (Фактически, гребневую регрессию и лассо-регрессию можно рассматривать как частные случаи байесовской линейной регрессии с определенными типами априорных распределений , помещенными в коэффициенты регрессии.)
Визуализация гетероскедастичности на диаграмме рассеяния по 100 случайным подобранным значениям с использованием Matlab
Постоянная дисперсия (она же гомоскедастичность ). Это означает, что дисперсия ошибок не зависит от значений переменных-предикторов. Таким образом, изменчивость ответов для заданных фиксированных значений предикторов одинакова независимо от того, насколько велики или малы ответы. Зачастую это не так, поскольку переменная с большим средним значением обычно будет иметь большую дисперсию, чем переменная с малым средним значением. Например, человек, чей прогнозируемый доход составит 100 000 долларов, может легко иметь фактический доход в 80 000 или 120 000 долларов, то есть стандартное отклонение около 20 000 долларов, в то время как другой человек с прогнозируемым доходом в 10 000 долларов вряд ли будет иметь такое же стандартное отклонение в 20 000 долларов. , поскольку это будет означать, что их фактический доход может варьироваться от −10 000 до 30 000 долларов. (Фактически, как это показывает, во многих случаях — часто в тех же случаях, когда предположение о нормально распределенных ошибках терпит неудачу — дисперсию или стандартное отклонение следует прогнозировать как пропорциональную среднему значению, а не константу.) Отсутствие гомоскедастичности является следствием отсутствия гомоскедастичности. называется гетероскедастичность . Чтобы проверить это предположение, график остатков в сравнении с прогнозируемыми значениями (или значениями каждого отдельного предиктора) можно проверить на предмет «эффекта веера» (т. е. увеличения или уменьшения вертикального разброса при движении слева направо на графике). . График абсолютных или квадратичных остатков в сравнении с прогнозируемыми значениями (или каждым предиктором) также можно проверить на наличие тенденции или кривизны. Также можно использовать формальные тесты; см . Гетероскедастичность . Наличие гетероскедастичности приведет к использованию общей «средней» оценки дисперсии вместо той, которая учитывает истинную структуру дисперсии. Это приводит к менее точным (но в случае обычного метода наименьших квадратов , не смещенным) оценкам параметров и смещенным стандартным ошибкам, что приводит к вводящим в заблуждение тестам и интервальным оценкам. Среднеквадратическая ошибка модели также будет неверной. Различные методы оценки, включая взвешенные методы наименьших квадратов и использование стандартных ошибок, совместимых с гетероскедастичностью. может справиться с гетероскедастичностью довольно общим способом. Методы байесовской линейной регрессии также можно использовать, когда предполагается, что дисперсия является функцией среднего значения. В некоторых случаях также возможно решить проблему, применив преобразование к переменной отклика (например, подбирая логарифм переменной отклика с помощью модели линейной регрессии, которая подразумевает, что сама переменная отклика имеет логарифмически нормальное распределение, а не логарифмическое) . нормальное распределение ).

Независимость ошибок . Это предполагает, что ошибки переменных ответа не коррелируют друг с другом. (Фактическая статистическая независимость является более сильным условием, чем простое отсутствие корреляции, и часто в ней нет необходимости, хотя ее можно использовать, если известно, что она выполняется.) Некоторые методы, такие как обобщенный метод наименьших квадратов, способны обрабатывать коррелированные ошибки, хотя обычно они требуют значительно больше данных, если только не используется какая-то регуляризация , чтобы сместить модель в сторону допущения некоррелированных ошибок. Байесова линейная регрессия — общий способ решения этой проблемы.
Отсутствие идеальной мультиколлинеарности у предикторов. Для стандартных методов оценки методом наименьших квадратов матрица плана X должна иметь полный ранг столбца p ; в противном случае в переменных-предикторах существует идеальная мультиколлинеарность , что означает, что между двумя или более переменными-предикторами существует линейная связь. Это может быть вызвано случайным дублированием переменной в данных, использованием линейного преобразования переменной вместе с оригиналом (например, тех же измерений температуры, выраженными в градусах Фаренгейта и Цельсия) или включением в модель линейной комбинации нескольких переменных. например, их среднее значение. Это также может произойти, если доступных данных слишком мало по сравнению с количеством оцениваемых параметров (например, меньше точек данных, чем коэффициентов регрессии). Близкие нарушения этого предположения, когда предикторы сильно, но не идеально, коррелируют, могут снизить точность оценок параметров (см. Фактор инфляции дисперсии ). В случае совершенной мультиколлинеарности вектор параметров β будет неидентифицируемой — она не имеет единственного решения. В таком случае можно идентифицировать только некоторые параметры (т. е. их значения можно оценить только в пределах некоторого линейного подпространства полного пространства параметров R). ^п). См. частичную регрессию наименьших квадратов . Разработаны методы аппроксимации линейных моделей с мультиколлинеарностью. ^[5]^[6]^[7]^[8] некоторые из них требуют дополнительных предположений, таких как «разреженность эффектов» - что большая часть эффектов равна нулю. Обратите внимание, что более затратные в вычислительном отношении итерационные алгоритмы оценки параметров, например те, которые используются в обобщенных линейных моделях , не страдают от этой проблемы.
Допущение о нулевом среднем значении остатков . В регрессионном анализе еще одним важным допущением является то, что среднее значение остатков равно нулю или близко к нулю. Это предположение имеет основополагающее значение для обоснованности любых выводов, сделанных на основе оценок параметров методом наименьших квадратов. Остатки — это различия между наблюдаемыми значениями и значениями, предсказанными моделью. Если среднее значение этих остатков не равно нулю, это означает, что модель последовательно переоценивает или занижает наблюдаемые значения, что указывает на потенциальное смещение в оценке модели. Обеспечение того, что среднее значение остатков равно нулю, позволяет считать модель несмещенной с точки зрения ее ошибки, что имеет решающее значение для точной интерпретации коэффициентов регрессии.

Нарушение этих предположений может привести к смещенным оценкам β , смещенным стандартным ошибкам, ненадежным доверительным интервалам и тестам значимости. ^[9] Помимо этих предположений, на эффективность различных методов оценки сильно влияют несколько других статистических свойств данных:

Статистическая связь между членами ошибок и регрессорами играет важную роль в определении того, обладает ли процедура оценки желаемыми свойствами выборки, такими как несмещенность и последовательность.
Расположение или распределение вероятностей переменных-предсказателей x оказывает большое влияние на точность оценок β . Выборка и планирование экспериментов являются высокоразвитыми разделами статистики, которые обеспечивают руководство по сбору данных таким образом, чтобы получить точную оценку β .

Пример того, как проверить эти предположения в практических сценариях, см. в этом подробном руководстве по Kaggle: Основы регрессии с проверкой предположений .

Интерпретация [ править ]

Подобранная модель линейной регрессии может использоваться для определения взаимосвязи между одной переменной-предиктором x _j и переменной отклика y, когда все остальные переменные-предикторы в модели «удерживаются фиксированными». В частности, интерпретация β _j — это ожидаемое изменение y на одну единицу для изменения x _j когда другие ковариаты остаются фиксированными, то есть ожидаемое значение частной производной y , по отношению к x _j . называют уникальным эффектом xj это _y на Иногда . Напротив, предельное влияние xj связывающей _можно на y оценить с помощью корреляции или простой модели линейной регрессии, только xj _{коэффициента} с y ; эффект является полной производной y j по x _этот .

Необходимо соблюдать осторожность при интерпретации результатов регрессии, поскольку некоторые регрессоры могут не допускать незначительных изменений (например, фиктивные переменные или член-перехват), в то время как другие не могут быть фиксированными (вспомните пример из введения: было бы невозможно «удерживать t _i фиксированным» и в то же время изменять значение t _i²).

Вполне возможно, что уникальный эффект может быть почти нулевым, даже если предельный эффект велик. Это может означать, что какая-то другая ковариата фиксирует всю информацию в x _j , так что, как только эта переменная появится в модели, x _j не будет вносить вклад в изменение y . И наоборот, уникальный эффект x _j может быть большим, в то время как его предельный эффект почти равен нулю. Это произошло бы, если бы другие ковариаты объясняли большую часть вариаций y они объясняют вариацию способом, дополняющим то, что отражается xj _{, но в основном} . В этом случае включение других переменных в модель уменьшает ту часть изменчивости y , которая не связана с x _j , тем самым усиливая очевидную связь с x _j .

Значение выражения «удерживается фиксированным» может зависеть от того, как возникают значения переменных-предсказателей. Если экспериментатор непосредственно устанавливает значения переменных-предикторов в соответствии с планом исследования, интересующие сравнения могут буквально соответствовать сравнениям между единицами, переменные-предикторы которых были «фиксированы» экспериментатором. Альтернативно, выражение «удерживается фиксированным» может относиться к выбору, который происходит в контексте анализа данных. В этом случае мы «фиксируем переменную», ограничивая наше внимание подмножествами данных, которые имеют общее значение для данной переменной-предиктора. Это единственная интерпретация термина «фиксированный», которую можно использовать в обсервационном исследовании.

Идея «уникального эффекта» привлекательна при изучении сложной системы, в которой множество взаимосвязанных компонентов влияют на переменную отклика. В некоторых случаях его можно буквально интерпретировать как причинный эффект вмешательства, связанного со значением предикторной переменной. Однако утверждалось, что во многих случаях множественный регрессионный анализ не может прояснить взаимосвязь между переменными-предикторами и переменной ответа, когда предикторы коррелируют друг с другом и не назначаются в соответствии с дизайном исследования. ^[10]

Расширения [ править ]

Были разработаны многочисленные расширения линейной регрессии, которые позволяют ослабить некоторые или все предположения, лежащие в основе базовой модели.

Простая и регрессия множественная линейная

Самый простой случай одной скалярной переменной-предиктора x и одной скалярной переменной отклика y известен как простая линейная регрессия . Расширение множественных и/или векторных переменных-предикторов (обозначаемых заглавной буквой X ) известно как множественная линейная регрессия , также известная как многомерная линейная регрессия (не путать с многомерной линейной регрессией). ^[11]).

Множественная линейная регрессия — это обобщение простой линейной регрессии на случай более чем одной независимой переменной и частный случай общих линейных моделей, ограниченных одной зависимой переменной. Базовая модель множественной линейной регрессии:

Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}

за каждое наблюдение ${\textstyle i=1,\ldots ,n}$ .

В приведенной выше формуле мы рассматриваем n наблюдений одной зависимой переменной и p независимых переменных. Таким образом, Y _i - это i ^й наблюдение зависимой переменной, X _ij - это i ^й наблюдение за j ^й независимая переменная, j = 1, 2, ..., p . Значения β _j представляют параметры, подлежащие оценке, а ε _i — это i ^й независимая одинаково распределенная нормальная ошибка.

В более общей многомерной линейной регрессии существует одно уравнение приведенной выше формы для каждой из m > 1 зависимых переменных, которые имеют один и тот же набор объясняющих переменных и, следовательно, оцениваются одновременно друг с другом:

Y_{ij}=\beta _{0j}+\beta _{1j}X_{i1}+\beta _{2j}X_{i2}+\ldots +\beta _{pj}X_{ip}+\epsilon _{ij}

для всех наблюдений, индексированных как i = 1,..., n , и для всех зависимых переменных, индексированных как j = 1,..., m .

Почти все реальные модели регрессии включают в себя множественные предикторы, и базовые описания линейной регрессии часто формулируются в терминах модели множественной регрессии. Однако обратите внимание, что в этих случаях переменная ответа y по-прежнему является скаляром. Другой термин, многомерная линейная регрессия , относится к случаям, когда y является вектором, то есть то же самое, что и общая линейная регрессия .

Общие линейные модели [ править ]

Общая линейная модель рассматривает ситуацию, когда переменная отклика является не скаляром (для каждого наблюдения), а вектором y _i . Условная линейность $E(\mathbf {y} \mid \mathbf {x} _{i})=\mathbf {x} _{i}^{\mathsf {T}}B$ по-прежнему предполагается, при этом матрица B заменяет вектор β классической модели линейной регрессии. многомерные аналоги обычного метода наименьших квадратов (OLS) и обобщенного метода наименьших квадратов Разработаны (GLS). «Общие линейные модели» также называют «многомерными линейными моделями». Это не то же самое, что многомерные линейные модели (также называемые «множественными линейными моделями»).

модели Гетероскедастические

Были созданы различные модели, допускающие гетероскедастичность , т.е. ошибки для разных переменных ответа могут иметь разные дисперсии . Например, взвешенный метод наименьших квадратов — это метод оценки моделей линейной регрессии, когда переменные ответа могут иметь разные дисперсии ошибок, возможно, с коррелирующими ошибками. (См. также Взвешенные линейные методы наименьших квадратов и Обобщенные наименьшие квадраты .) Стандартные ошибки, совместимые с гетероскедастичностью, — это улучшенный метод для использования с некоррелированными, но потенциально гетероскедастическими ошибками.

Обобщенные линейные модели [ править ]

Обобщенные линейные модели (GLM) представляют собой основу для моделирования ограниченных или дискретных переменных отклика. Это используется, например:

при моделировании положительных величин (например, цен или численности населения), которые изменяются в большом масштабе, которые лучше описываются с помощью асимметричного распределения, такого как логарифмически нормальное распределение или распределение Пуассона (хотя GLM не используются для логарифмически нормальных данных, вместо этого используется ответ переменная просто преобразуется с помощью функции логарифма);
при моделировании категориальных данных , таких как выбор данного кандидата на выборах (который лучше описать с помощью распределения Бернулли / биномиального распределения для двоичного выбора или категориального распределения / мультиномиального распределения для многостороннего выбора), где есть фиксированное количество вариантов выбора, которые невозможно осмысленно упорядочить;
при моделировании порядковых данных , например, рейтингов по шкале от 0 до 5, где различные результаты могут быть упорядочены, но сама величина может не иметь абсолютного значения (например, рейтинг 4 не может быть «вдвое лучше» для какой-либо цели) означает оценку 2, а просто указывает на то, что она лучше, чем 2 или 3, но не так хороша, как 5).

Обобщенные линейные модели допускают произвольную связи функцию g , которая связывает среднее значение переменной (переменных) ответа с предикторами: $E(Y)=g^{-1}(XB)$ . Функция связи часто связана с распределением ответа и, в частности, обычно имеет эффект преобразования между $(-\infty ,\infty )$ диапазон линейного предиктора и диапазон переменной отклика.

Некоторые распространенные примеры GLM:

Регрессия Пуассона для данных подсчета.
Логистическая регрессия и пробит-регрессия для двоичных данных.
Полиномиальная логистическая регрессия и полиномиальная пробит -регрессия для категориальных данных.
Упорядоченная логит- и упорядоченная пробит -регрессия для порядковых данных.

Модели с одним индексом ^{[ нужны разъяснения ]} допускают некоторую степень нелинейности во взаимосвязи между x и y , сохраняя при этом центральную роль линейного предиктора β ′ x, как в классической модели линейной регрессии. При определенных условиях простое применение МНК к данным одноиндексной модели позволит последовательно оценить β с точностью до константы пропорциональности. ^[12]

Иерархические линейные модели [ править ]

Иерархические линейные модели (или многоуровневая регрессия ) организуют данные в иерархию регрессий, например, где регрессируется на B , а B регрессируется на C. A Он часто используется там, где интересующие переменные имеют естественную иерархическую структуру, например, в статистике образования, где учащиеся вложены в классы, классы вложены в школы, а школы вложены в некоторую административную группу, например, в школьный округ. Переменная ответа может служить показателем успеваемости учащихся, например, результатом теста, а различные ковариаты будут собираться на уровне класса, школы и школьного округа.

Ошибки в переменных [ править ]

Модели ошибок в переменных (или «модели ошибок измерения») расширяют традиционную модель линейной регрессии, позволяя переменные-предикторы X наблюдать с ошибкой. Эта ошибка приводит к тому, что стандартные оценки β становятся смещенными. Как правило, формой смещения является затухание, что означает, что эффекты смещаются к нулю.

Групповые эффекты [ править ]

В модели множественной линейной регрессии

y=\beta _{0}+\beta _{1}x_{1}+\cdots +\beta _{p}x_{p}+\varepsilon ,

параметр $\beta _{j}$ переменной-предиктора $x_{j}$ представляет собой индивидуальный эффект $x_{j}$ . Он интерпретируется как ожидаемое изменение переменной отклика. $y$ когда $x_{j}$ увеличивается на одну единицу, при этом другие переменные-предикторы остаются постоянными. Когда $x_{j}$ сильно коррелирует с другими переменными-предикторами, маловероятно, что $x_{j}$ может увеличиться на одну единицу при неизменных других переменных. В этом случае интерпретация $\beta _{j}$ становится проблематичным, поскольку оно основано на маловероятном условии, а эффект $x_{j}$ невозможно оценить изолированно.

Для группы переменных-предикторов, скажем, $\{x_{1},x_{2},\dots ,x_{q}\}$ , групповой эффект $\xi (\mathbf {w} )$ определяется как линейная комбинация их параметров

\xi (\mathbf {w} )=w_{1}\beta _{1}+w_{2}\beta _{2}+\dots +w_{q}\beta _{q},

где $\mathbf {w} =(w_{1},w_{2},\dots ,w_{q})^{\intercal }$ является весовым вектором, удовлетворяющим ${\textstyle \sum _{j=1}^{q}|w_{j}|=1}$ . Из-за ограничения на ${w_{j}}$ , $\xi (\mathbf {w} )$ также называется нормализованным групповым эффектом. Групповой эффект $\xi (\mathbf {w} )$ интерпретируется как ожидаемое изменение $y$ когда переменные в группе $x_{1},x_{2},\dots ,x_{q}$ изменить на сумму $w_{1},w_{2},\dots ,w_{q}$ соответственно, в то же время с переменными, не входящими в группу, оставались постоянными. Он обобщает индивидуальный эффект переменной на группу переменных в том смысле, что ( $i$ ) если $q=1$ , то групповой эффект сводится к индивидуальному эффекту, и ( $ii$ ) если $w_{i}=1$ и $w_{j}=0$ для $j\neq i$ , то групповой эффект также сводится к индивидуальному эффекту.Групповой эффект $\xi (\mathbf {w} )$ считается значимым, если лежащие в его основе одновременные изменения $q$ переменные $(w_{1},w_{2},\dots ,w_{q})^{\intercal }$ вероятно.

Групповые эффекты предоставляют средства для изучения коллективного влияния сильно коррелированных переменных-предикторов в моделях линейной регрессии. Индивидуальные эффекты таких переменных не определены четко, поскольку их параметры не имеют хорошей интерпретации. Более того, когда размер выборки невелик, ни один из ее параметров не может быть точно оценен с помощью регрессии наименьших квадратов из-за проблемы мультиколлинеарности . Тем не менее, существуют значимые групповые эффекты, которые хорошо интерпретируются и могут быть точно оценены с помощью регрессии наименьших квадратов. Простой способ выявить эти значимые групповые эффекты — использовать схему всех положительных корреляций (APC) сильно коррелирующих переменных, при которой все парные корреляции между этими переменными положительны, и стандартизировать все $p$ переменные-предикторы в модели так, чтобы все они имели нулевое среднее значение и длину один. Чтобы проиллюстрировать это, предположим, что $\{x_{1},x_{2},\dots ,x_{q}\}$ представляет собой группу сильно коррелированных переменных в схеме APC и что они не сильно коррелируют с переменными-предикторами вне группы. Позволять $y'$ быть центрированным $y$ и $x_{j}'$ быть стандартизированным $x_{j}$ . Тогда стандартизованная модель линейной регрессии имеет вид

y'=\beta _{1}'x_{1}'+\cdots +\beta _{p}'x_{p}'+\varepsilon .

Параметры $\beta _{j}$ в исходной модели, включая $\beta _{0}$ , являются простыми функциями $\beta _{j}'$ в стандартизированной модели. Стандартизация переменных не меняет их корреляций, поэтому $\{x_{1}',x_{2}',\dots ,x_{q}'\}$ представляет собой группу сильно коррелированных переменных в схеме APC, и они не сильно коррелируют с другими переменными-предикторами в стандартизированной модели. Групповой эффект $\{x_{1}',x_{2}',\dots ,x_{q}'\}$ является

\xi '(\mathbf {w} )=w_{1}\beta _{1}'+w_{2}\beta _{2}'+\dots +w_{q}\beta _{q}',

и его несмещенная линейная оценка с минимальной дисперсией равна

{\hat {\xi }}'(\mathbf {w} )=w_{1}{\hat {\beta }}_{1}'+w_{2}{\hat {\beta }}_{2}'+\dots +w_{q}{\hat {\beta }}_{q}',

где ${\hat {\beta }}_{j}'$ является оценкой методом наименьших квадратов $\beta _{j}'$ . В частности, средний групповой эффект $q$ стандартизированные переменные

\xi _{A}={\frac {1}{q}}(\beta _{1}'+\beta _{2}'+\dots +\beta _{q}'),

которое интерпретируется как ожидаемое изменение $y'$ когда все $x_{j}'$ в сильно коррелированной группе увеличивается на $(1/q)$ единицы в то же время, когда переменные вне группы остаются постоянными. При сильных положительных корреляциях и в стандартизированных единицах переменные в группе примерно равны, поэтому они, скорее всего, будут увеличиваться одновременно и в одинаковой величине. Таким образом, средний групповой эффект $\xi _{A}$ это значимый эффект. Его можно точно оценить с помощью несмещенной линейной оценки с минимальной дисперсией. ${\textstyle {\hat {\xi }}_{A}={\frac {1}{q}}({\hat {\beta }}_{1}'+{\hat {\beta }}_{2}'+\dots +{\hat {\beta }}_{q}')}$ , даже если по отдельности ни один из $\beta _{j}'$ можно точно оценить по ${\hat {\beta }}_{j}'$ .

Не все групповые эффекты значимы и не могут быть точно оценены. Например, $\beta _{1}'$ это специальный групповой эффект с весами $w_{1}=1$ и $w_{j}=0$ для $j\neq 1$ , но его нельзя точно оценить с помощью ${\hat {\beta }}'_{1}$ . Это также не имеет значимого эффекта. В целом для группы $q$ сильно коррелированные переменные-предикторы в схеме APC в стандартизированной модели, групповые эффекты, весовые векторы которых $\mathbf {w}$ находятся в центре симплекса или рядом с ним ${\textstyle \sum _{j=1}^{q}w_{j}=1}$ ( $w_{j}\geq 0$ ) имеют смысл и могут быть точно оценены с помощью несмещенных линейных оценок с минимальной дисперсией. Эффекты с весовыми векторами, расположенными далеко от центра, не имеют смысла, поскольку такие весовые векторы представляют собой одновременные изменения переменных, которые нарушают сильные положительные корреляции стандартизированных переменных в схеме APC. Как таковые они маловероятны. Эти эффекты также не могут быть точно оценены.

Применение групповых эффектов включает (1) оценку и вывод о значимых групповых эффектах на переменную ответа, (2) проверку «групповой значимости» $q$ переменные посредством тестирования $H_{0}:\xi _{A}=0$ против $H_{1}:\xi _{A}\neq 0$ и (3) характеризуют область пространства переменных предиктора, в которой прогнозы по модели наименьших квадратов являются точными.

Групповой эффект исходных переменных $\{x_{1},x_{2},\dots ,x_{q}\}$ может быть выражен как константа, умноженная на групповой эффект стандартизированных переменных $\{x_{1}',x_{2}',\dots ,x_{q}'\}$ . Первое имеет смысл, когда второе. Таким образом, значимые групповые эффекты исходных переменных можно найти через значимые групповые эффекты стандартизированных переменных. ^[13]

Другие [ править ]

В теории Демпстера-Шейфера или, в частности, в линейной функции доверия , модель линейной регрессии может быть представлена как частично скользящая матрица, которую можно комбинировать с аналогичными матрицами, представляющими наблюдения и другие предполагаемые нормальные распределения и уравнения состояния. Комбинация матриц с качающейся и несверткой обеспечивает альтернативный метод оценки моделей линейной регрессии.

Методы оценки [ править ]

Было разработано большое количество процедур для оценки параметров и вывода в линейной регрессии. Эти методы отличаются вычислительной простотой алгоритмов, наличием решения в замкнутой форме, устойчивостью к распределениям с тяжелым хвостом и теоретическими предположениями, необходимыми для проверки желаемых статистических свойств, таких как согласованность и асимптотическая эффективность .

Некоторые из наиболее распространенных методов оценки линейной регрессии кратко изложены ниже.

Оценка методом наименьших квадратов и связанные ней с методы

Предполагая, что независимая переменная равна ${\vec {x_{i}}}=\left[x_{1}^{i},x_{2}^{i},\ldots ,x_{m}^{i}\right]$ и параметры модели ${\vec {\beta }}=\left[\beta _{0},\beta _{1},\ldots ,\beta _{m}\right]$ , то предсказание модели будет

y_{i}\approx \beta _{0}+\sum _{j=1}^{m}\beta _{j}\times x_{j}^{i}

.

Если ${\vec {x_{i}}}$ распространяется на ${\vec {x_{i}}}=\left[1,x_{1}^{i},x_{2}^{i},\ldots ,x_{m}^{i}\right]$ затем $y_{i}$ станет скалярным произведением параметра и независимой переменной, т.е.

y_{i}\approx \sum _{j=0}^{m}\beta _{j}\times x_{j}^{i}={\vec {\beta }}\cdot {\vec {x_{i}}}

.

В методе наименьших квадратов оптимальный параметр определяется как такой, который минимизирует сумму среднеквадратичных потерь:

{\vec {\hat {\beta }}}={\underset {\vec {\beta }}{\mbox{arg min}}}\,L\left(D,{\vec {\beta }}\right)={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\left({\vec {\beta }}\cdot {\vec {x_{i}}}-y_{i}\right)^{2}

Теперь помещаем независимые и зависимые переменные в матрицы $X$ и $Y$ соответственно, функцию потерь можно переписать как:

{\begin{aligned}L\left(D,{\vec {\beta }}\right)&=\|X{\vec {\beta }}-Y\|^{2}\\&=\left(X{\vec {\beta }}-Y\right)^{\textsf {T}}\left(X{\vec {\beta }}-Y\right)\\&=Y^{\textsf {T}}Y-Y^{\textsf {T}}X{\vec {\beta }}-{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}Y+{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}X{\vec {\beta }}\end{aligned}}

Поскольку потери выпуклые, оптимальное решение находится при нулевом градиенте. Градиент функции потерь (с использованием соглашения о расположении знаменателя ):

{\begin{aligned}{\frac {\partial L\left(D,{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{\textsf {T}}Y-Y^{\textsf {T}}X{\vec {\beta }}-{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}Y+{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2X^{\textsf {T}}Y+2X^{\textsf {T}}X{\vec {\beta }}\end{aligned}}

Установка градиента на ноль дает оптимальный параметр:

{\begin{aligned}-2X^{\textsf {T}}Y+2X^{\textsf {T}}X{\vec {\beta }}&=0\\\Rightarrow X^{\textsf {T}}X{\vec {\beta }}&=X^{\textsf {T}}Y\\\Rightarrow {\vec {\hat {\beta }}}&=\left(X^{\textsf {T}}X\right)^{-1}X^{\textsf {T}}Y\end{aligned}}

Примечание. Чтобы доказать, что ${\hat {\beta }}$ полученное значение действительно является локальным минимумом, нужно еще раз дифференцировать, чтобы получить матрицу Гессе и показать, что она положительно определена. Это обеспечивает теорема Гаусса–Маркова .

Линейные методы наименьших квадратов включают в себя в основном:

Оценка максимального правдоподобия и связанные методы с ней

Оценка максимального правдоподобия может быть выполнена, когда известно, что распределение членов ошибок принадлежит определенному параметрическому семейству ƒ _θ вероятностей распределений . ^[16] Когда f _θ является нормальным распределением с нулевым средним значением и дисперсией θ, результирующая оценка идентична оценке МНК. Оценки GLS представляют собой оценки максимального правдоподобия, когда ε соответствует многомерному нормальному распределению с известной ковариационной матрицей .
Гребневая регрессия ^[17]^[18]^[19] и другие формы штрафной оценки, такие как регрессия Лассо , ^[5] намеренно вносить систематическую ошибку в оценку β , чтобы уменьшить изменчивость оценки. Полученные оценки обычно имеют меньшую среднеквадратическую ошибку , чем оценки МНК, особенно когда мультиколлинеарность присутствует или когда проблема переобучения является проблемой. Они обычно используются, когда цель состоит в том, чтобы предсказать значение переменной отклика y для значений предикторов x, которые еще не наблюдались. Эти методы не так часто используются, когда целью является вывод, поскольку трудно учесть предвзятость.
Регрессия наименьшего абсолютного отклонения (LAD) — это надежный метод оценки , поскольку он менее чувствителен к наличию выбросов, чем OLS (но менее эффективен, чем OLS, когда выбросы отсутствуют). Это эквивалентно оценке максимального правдоподобия в рамках модели распределения Лапласа для ε . ^[20]
Адаптивная оценка . Если предположить, что члены ошибок не зависят от регрессоров, $\varepsilon _{i}\perp \mathbf {x} _{i}$ , то оптимальной оценкой является двухэтапный MLE, где первый шаг используется для непараметрической оценки распределения ошибки. ^[21]

методы оценки Другие

Байесовская линейная регрессия применяет структуру байесовской статистики к линейной регрессии. (См. также Байесовскую многомерную линейную регрессию .) В частности, предполагается, что коэффициенты регрессии β являются случайными величинами с заданным априорным распределением . Априорное распределение может искажать решения для коэффициентов регрессии, аналогично (но более общему) гребневой регрессии или лассо-регрессии . Кроме того, процесс байесовской оценки дает не одну точечную оценку для «лучших» значений коэффициентов регрессии, а целое апостериорное распределение , полностью описывающее неопределенность, окружающую величину. Это можно использовать для оценки «лучших» коэффициентов с использованием среднего значения, моды, медианы, любого квантиля (см. квантильную регрессию ) или любой другой функции апостериорного распределения.
Квантильная регрессия фокусируется на условных квантилях y с учетом X, не на условном среднем y с учетом X. а Линейная квантильная регрессия моделирует конкретный условный квантиль, например условную медиану, как линейную функцию β. ^Тx предикторов.
Смешанные модели широко используются для анализа отношений линейной регрессии с участием зависимых данных, когда зависимости имеют известную структуру. Общие применения смешанных моделей включают анализ данных, включающих повторные измерения, таких как продольные данные или данные, полученные в результате кластерной выборки. Обычно они подходят как параметрические модели, использующие максимальное правдоподобие или байесовскую оценку. В случае, когда ошибки моделируются как обычные случайные величины, существует тесная связь между смешанными моделями и обобщенным методом наименьших квадратов. ^[22] Оценка фиксированных эффектов — альтернативный подход к анализу данных этого типа.
Регрессия главных компонентов (ПЦР) ^[7]^[8] используется, когда количество переменных-предикторов велико или когда между переменными-предикторами существуют сильные корреляции. Эта двухэтапная процедура сначала уменьшает переменные-предикторы с помощью анализа главных компонентов , а затем использует уменьшенные переменные при подборе регрессии OLS. Хотя на практике это часто хорошо работает, не существует общей теоретической причины, по которой наиболее информативная линейная функция переменных-предикторов должна лежать среди доминирующих главных компонентов многомерного распределения переменных-предикторов. Частичная регрессия наименьших квадратов является расширением метода ПЦР, лишенным указанного недостатка.
Регрессия по наименьшему углу ^[6] — это процедура оценки моделей линейной регрессии, которая была разработана для обработки многомерных векторов ковариат, потенциально с большим количеством ковариат, чем наблюдений.
Оценщик Тейла -Сена представляет собой простой метод надежной оценки , который выбирает наклон аппроксимационной линии в качестве медианы наклонов линий, проходящих через пары точек выборки. Он имеет те же свойства статистической эффективности, что и простая линейная регрессия, но гораздо менее чувствителен к выбросам . ^[23]
другие надежные методы оценки, включая подход с усеченным средним значением α и L-, M-, S- и R-оценки . Были представлены

Приложения [ править ]

Линейная регрессия широко используется в биологических, поведенческих и социальных науках для описания возможных связей между переменными. Он считается одним из наиболее важных инструментов, используемых в этих дисциплинах.

Линия тренда [ править ]

Линия тренда представляет собой тенденцию, долгосрочное движение данных временного ряда после учета других компонентов. Он показывает, увеличился или уменьшился конкретный набор данных (например, ВВП, цены на нефть или цены на акции) за определенный период времени. Линию тренда можно просто нарисовать на глаз через набор точек данных, но более правильно их положение и наклон рассчитываются с использованием статистических методов, таких как линейная регрессия. Линии тренда обычно представляют собой прямые линии, хотя в некоторых вариантах используются полиномы более высокой степени в зависимости от желаемой степени кривизны линии.

Линии тренда иногда используются в бизнес-аналитике, чтобы показать изменения данных с течением времени. Это имеет то преимущество, что является простым. Линии тренда часто используются, чтобы доказать, что конкретное действие или событие (например, обучение или рекламная кампания) вызвало наблюдаемые изменения в определенный момент времени. Это простой метод, не требующий создания контрольной группы, планирования эксперимента или сложной техники анализа. Однако он страдает отсутствием научной обоснованности в тех случаях, когда другие потенциальные изменения могут повлиять на данные.

Эпидемиология [ править ]

Первые данные о связи курения табака со смертностью и заболеваемостью были получены в ходе наблюдательных исследований с использованием регрессионного анализа. Чтобы уменьшить ложные корреляции при анализе данных наблюдений, исследователи обычно включают в свои регрессионные модели несколько переменных в дополнение к переменной, представляющей основной интерес. Например, в регрессионную модель, в которой курение сигарет является независимой переменной, представляющей основной интерес, а зависимой переменной является продолжительность жизни, измеряемая в годах, исследователи могут включить образование и доход в качестве дополнительных независимых переменных, чтобы гарантировать, что любое наблюдаемое влияние курения на продолжительность жизни является достоверным. не из-за других социально-экономических факторов . Однако никогда невозможно включить все возможные мешающие в эмпирический анализ переменные. Например, гипотетический ген может увеличить смертность, а также заставить людей больше курить. По этой причине рандомизированные контролируемые исследования часто способны предоставить более убедительные доказательства причинно-следственных связей, чем те, которые можно получить с помощью регрессионного анализа данных наблюдений. Когда контролируемые эксперименты невозможны, используются варианты регрессионного анализа, такие как Регрессия инструментальных переменных может использоваться, чтобы попытаться оценить причинно-следственные связи на основе данных наблюдений.

Финансы [ править ]

Модель ценообразования капитальных активов использует линейную регрессию, а также концепцию бета-версии для анализа и количественной оценки систематического риска инвестиций. Это происходит непосредственно из бета-коэффициента модели линейной регрессии, которая связывает доходность инвестиций с доходностью всех рискованных активов.

Экономика [ править ]

Линейная регрессия является преобладающим эмпирическим инструментом в экономике . Например, он используется для прогнозирования потребительских расходов . ^[24] инвестиции в основной капитал , инвестиции в запасы страны , закупки экспортной продукции , ^[25] расходы на импорт , ^[25] требование иметь ликвидные активы , ^[26] спрос на рабочую силу , ^[27] и предложение рабочей силы . ^[27]

Наука об окружающей среде [ править ]

Линейная регрессия находит применение в широком спектре приложений науки об окружающей среде, таких как землепользование, ^[28] инфекционные заболевания, ^[29] и загрязнение воздуха. ^[30]

наука Строительная

Линейная регрессия обычно используется в полевых исследованиях в области строительства для получения характеристик жильцов здания. При полевых исследованиях теплового комфорта ученые-строители обычно запрашивают голоса жильцов по тепловым ощущениям, которые варьируются от -3 (ощущение холода) до 0 (нейтральное) и до +3 (ощущение жары), и измеряют данные о температуре окружающей среды жильцов. Нейтральная или комфортная температура может быть рассчитана на основе линейной регрессии между показателем теплового ощущения и температурой в помещении и установкой показателя теплового ощущения равным нулю. Однако были дебаты о направлении регрессии: регрессия голосов тепловых ощущений (ось Y) в зависимости от температуры в помещении (ось X) или наоборот: регрессия температуры в помещении (ось Y) в зависимости от голосов тепловых ощущений (ось X). . ^[31]

Машинное обучение [ править ]

Линейная регрессия играет важную роль в области искусственного интеллекта, известной как машинное обучение . Алгоритм линейной регрессии является одним из фундаментальных алгоритмов машинного обучения с учителем благодаря своей относительной простоте и хорошо известным свойствам. ^[32]

История [ править ]

Линейная регрессия по методу наименьших квадратов как средство нахождения хорошей грубой линейной аппроксимации набора точек была выполнена Лежандром (1805) и Гауссом (1809) для предсказания движения планет. Кетле сделал эту процедуру широко известной и широко использовал ее в социальных науках. ^[33]

См. также [ править ]

Ссылки [ править ]

Цитаты [ править ]

^ Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 26. Простое уравнение регрессии имеет в правой части точку пересечения и объясняющую переменную с коэффициентом наклона. Правая часть множественной регрессии, каждая из которых имеет свой собственный коэффициент наклона.
^ Ренчер, Элвин К.; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия - Раздел 10.1, Введение», Методы многомерного анализа , Ряды Уайли в вероятности и статистике, том. 709 (3-е изд.), John Wiley & Sons, с. 19, ISBN 9781118391679 .
^ Хилари Л. Сил (1967). «Историческое развитие линейной модели Гаусса». Биометрика . 54 (1/2): 1–24. дои : 10.1093/biomet/54.1-2.1 . JSTOR 2333849 .
^ Ян, Синь (2009), Линейный регрессионный анализ: теория и вычисления , World Scientific, стр. 1–2, ISBN 9789812834119 , Регрессионный анализ... вероятно, одна из старейших тем математической статистики, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, который был опубликован Лежандром в 1805 году и Гауссом в 1809 году ... Лежандр и Гаусс оба применили этот метод к проблеме определения на основе астрономических наблюдений орбит тел. о солнце.
^ Jump up to: Перейти обратно: ^а ^б Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества, серия B. 58 (1): 267–288. дои : 10.1111/j.2517-6161.1996.tb02080.x . JSTOR 2346178 .
^ Jump up to: Перейти обратно: ^а ^б Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла». Анналы статистики . 32 (2): 407–451. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . JSTOR 3448465 . S2CID 204004121 .
^ Jump up to: Перейти обратно: ^а ^б Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий с помощью анализа главных компонентов». Журнал Королевского статистического общества, серия C. 22 (3): 275–286. дои : 10.2307/2346776 . JSTOR 2346776 .
^ Jump up to: Перейти обратно: ^а ^б Джоллифф, Ян Т. (1982). «Заметки об использовании главных компонентов в регрессии». Журнал Королевского статистического общества, серия C. 31 (3): 300–303. дои : 10.2307/2348005 . JSTOR 2348005 .
^ Уильямс, Мэтт; Грахалес, Карлос; Куркевич, Дэйсон (25 ноября 2019 г.). «Предположения о множественной регрессии: исправление двух заблуждений» . Практическая оценка, исследования и оценка . 18 (1). дои : 10.7275/55hn-wk47 . ISSN 1531-7714 .
^ Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. дои : 10.1177/0734016807304871 . S2CID 145389362 .
^ Идальго, Берта; Гудман, Мелоди (15 ноября 2012 г.). «Многомерная или многовариантная регрессия?» . Американский журнал общественного здравоохранения . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897 . ISSN 0090-0036 . ПМЦ 3518362 . ПМИД 23153131 .
^ Бриллинджер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Биометрика . 64 (3): 509–515. дои : 10.1093/biomet/64.3.509 . JSTOR 2345326 .
^ Цао, Мин (2022). «Групповая регрессия методом наименьших квадратов для линейных моделей с сильно коррелированными переменными-предикторами». Летопись Института статистической математики . 75 (2): 233–250. arXiv : 1804.02499 . дои : 10.1007/s10463-022-00841-7 . S2CID 237396158 .
^ Гальтон, Фрэнсис (1886). «Регрессия к посредственности в наследственном статусе» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583 . ISSN 0959-5295 . JSTOR 2841583 .
^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w . S2CID 244896511 .
^ Ланге, Кеннет Л.; Литтл, Родерик Дж.А.; Тейлор, Джереми М.Г. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. дои : 10.2307/2290063 . JSTOR 2290063 .
^ Суиндел, Бени Ф. (1981). «Иллюстрированная геометрия ридж-регрессии». Американский статистик . 35 (1): 12–15. дои : 10.2307/2683577 . JSTOR 2683577 .
^ Дрейпер, Норман Р.; ван Ностранд; Р. Крейг (1979). «Гребтовая регрессия и оценка Джеймса-Стейна: обзор и комментарии». Технометрика . 21 (4): 451–466. дои : 10.2307/1268284 . JSTOR 1268284 .
^ Хёрл, Артур Э.; Кеннард, Роберт В.; Хёрл, Роджер В. (1985). «Практическое использование ридж-регрессии: решенная задача». Журнал Королевского статистического общества, серия C. 34 (2): 114–120. JSTOR 2347363 .
^ Нарула, Субхаш К.; Веллингтон, Джон Ф. (1982). «Регрессия минимальной суммы абсолютных ошибок: современное исследование». Международный статистический обзор . 50 (3): 317–326. дои : 10.2307/1402501 . JSTOR 1402501 .
^ Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения» . Анналы статистики . 3 (2): 267–284. дои : 10.1214/aos/1176343056 . JSTOR 2958945 .
^ Гольдштейн, Х. (1986). «Анализ многоуровневой смешанной линейной модели с использованием итерационного обобщенного метода наименьших квадратов». Биометрика . 73 (1): 43–56. дои : 10.1093/biomet/73.1.43 . JSTOR 2336270 .
^ Тейл, Х. (1950). «Ранг-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III». Недерл. Акад. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. МР 0036489 . ; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. дои : 10.2307/2285891 . JSTOR 2285891 . МР 0258201 . .
^ Дитон, Ангус (1992). Понимание потребления . Издательство Оксфордского университета. ISBN 978-0-19-828824-4 .
^ Jump up to: Перейти обратно: ^а ^б Кругман, Пол Р .; Обстфельд, М .; Мелитц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное изд.). Харлоу: Пирсон. ISBN 9780273754091 .
^ Лейдлер, Дэвид Э.В. (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Харпер Коллинз. ISBN 978-0065010985 .
^ Jump up to: Перейти обратно: ^а ^б Эренберг; Смит (2008). Современная экономика труда (10-е международное изд.). Лондон: Аддисон-Уэсли. ISBN 9780321538963 .
^ Хук, Джерард; Билен, Роб; де Хух, Кес; Вьенно, Даниэль; Гулливер, Джон; Фишер, Пол; Бриггс, Дэвид (1 октября 2008 г.). «Обзор регрессионных моделей землепользования для оценки пространственных изменений загрязнения наружного воздуха» . Атмосферная среда . 42 (33): 7561–7578. Бибкод : 2008AtmEn..42.7561H . дои : 10.1016/j.atmosenv.2008.05.057 . ISSN 1352-2310 .
^ Имаи, Чисато; Хашизуме, Масахиро (2015). «Систематический обзор методологии: регрессионный анализ временных рядов факторов окружающей среды и инфекционных заболеваний» . Тропическая медицина и здоровье . 43 (1): 1–9. дои : 10.2149/tmh.2014-21 . hdl : 10069/35301 . ПМИД 25859149 .
^ Милионис, А.Е.; Дэвис, Т.Д. (1 сентября 1994 г.). «Регрессия и стохастические модели загрязнения воздуха — I. Обзор, комментарии и предложения» . Атмосферная среда . 28 (17): 2801–2810. Бибкод : 1994AtmEn..28.2801M . дои : 10.1016/1352-2310(94)90083-3 . ISSN 1352-2310 .
^ Сунь, Руиджи; Скьявон, Стефано; Брагер, Гейл; Аренс, Эдвард; Чжан, Хуэй; Паркинсон, Томас; Чжан, Ченлу (2024). «Причинное мышление: раскрытие скрытых предположений и интерпретаций статистического анализа в строительной науке» . Строительство и окружающая среда . дои : 10.1016/j.buildenv.2024.111530 .
^ «Линейная регрессия (машинное обучение)» (PDF) . Университет Питтсбурга .
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1 .

Источники [ править ]

Коэн Дж., Коэн П., Уэст С.Г. и Эйкен Л.С. (2003). Применил множественный регрессионный/корреляционный анализ для поведенческих наук . (2-е изд.) Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates
Чарльз Дарвин . Изменение животных и растений при одомашнивании . (1868) (Глава XIII описывает то, что было известно о реверсии во времена Гальтона. Дарвин использует термин «реверсия».)
Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. ISBN 978-0-471-17082-2 .
Фрэнсис Гальтон. «Регрессия к посредственности в наследственном росте», Журнал Антропологического института , 15:246-263 (1886). (Факсимиле: [1] )
Роберт С. Пиндик и Дэниел Л. Рубинфельд (1998, 4-е изд.). Эконометрические модели и экономические прогнозы , гл. 1 (Введение, включая приложения по Σ-операторам и получению оценок параметров) и Приложение 4.3 (множественная регрессия в матричной форме).

Дальнейшее чтение [ править ]

Педазур, Элазар Дж (1982). Множественная регрессия в поведенческих исследованиях: объяснение и прогноз (2-е изд.). Нью-Йорк: Холт, Райнхарт и Уинстон. ISBN 978-0-03-041760-3 .
Матье Руо, 2013: Вероятность, статистика и оценка. Глава 2: Линейная регрессия, линейная регрессия с полосами ошибок и нелинейная регрессия.
Национальная физическая лаборатория (1961). «Глава 1: Линейные уравнения и матрицы: прямые методы». Современные вычислительные методы . Заметки по прикладной науке. Том. 16 (2-е изд.). Канцелярия Ее Величества .

Внешние ссылки [ править ]

Регрессия наименьших квадратов , Интерактивное моделирование PhET , Университет Колорадо в Боулдере
Линейная посадка своими руками

[Freedman09-1] Дэвид А. Фридман (2009). Статистические модели: теория и практика . Издательство Кембриджского университета . п. 26. Простое уравнение регрессии имеет в правой части точку пересечения и объясняющую переменную с коэффициентом наклона. Правая часть множественной регрессии, каждая из которых имеет свой собственный коэффициент наклона.

[2] Ренчер, Элвин К.; Кристенсен, Уильям Ф. (2012), «Глава 10, Многомерная регрессия - Раздел 10.1, Введение», Методы многомерного анализа , Ряды Уайли в вероятности и статистике, том. 709 (3-е изд.), John Wiley & Sons, с. 19, ISBN 9781118391679 .

[3] Хилари Л. Сил (1967). «Историческое развитие линейной модели Гаусса». Биометрика . 54 (1/2): 1–24. дои : 10.1093/biomet/54.1-2.1 . JSTOR 2333849 .

[4] Ян, Синь (2009), Линейный регрессионный анализ: теория и вычисления , World Scientific, стр. 1–2, ISBN 9789812834119 , Регрессионный анализ... вероятно, одна из старейших тем математической статистики, возникшая около двухсот лет назад. Самой ранней формой линейной регрессии был метод наименьших квадратов, который был опубликован Лежандром в 1805 году и Гауссом в 1809 году ... Лежандр и Гаусс оба применили этот метод к проблеме определения на основе астрономических наблюдений орбит тел. о солнце.

[tibs_lasso-5] Jump up to: Перейти обратно: ^а ^б Тибширани, Роберт (1996). «Регрессионное сокращение и отбор с помощью лассо». Журнал Королевского статистического общества, серия B. 58 (1): 267–288. дои : 10.1111/j.2517-6161.1996.tb02080.x . JSTOR 2346178 .

[efron_lars-6] Jump up to: Перейти обратно: ^а ^б Эфрон, Брэдли; Хасти, Тревор; Джонстон, Иэн; Тибширани, Роберт (2004). «Регрессия наименьшего угла». Анналы статистики . 32 (2): 407–451. arXiv : math/0406456 . дои : 10.1214/009053604000000067 . JSTOR 3448465 . S2CID 204004121 .

[hawkins_pcr-7] Jump up to: Перейти обратно: ^а ^б Хокинс, Дуглас М. (1973). «Об исследовании альтернативных регрессий с помощью анализа главных компонентов». Журнал Королевского статистического общества, серия C. 22 (3): 275–286. дои : 10.2307/2346776 . JSTOR 2346776 .

[joliffe_pcr-8] Jump up to: Перейти обратно: ^а ^б Джоллифф, Ян Т. (1982). «Заметки об использовании главных компонентов в регрессии». Журнал Королевского статистического общества, серия C. 31 (3): 300–303. дои : 10.2307/2348005 . JSTOR 2348005 .

[9] Уильямс, Мэтт; Грахалес, Карлос; Куркевич, Дэйсон (25 ноября 2019 г.). «Предположения о множественной регрессии: исправление двух заблуждений» . Практическая оценка, исследования и оценка . 18 (1). дои : 10.7275/55hn-wk47 . ISSN 1531-7714 .

[10] Берк, Ричард А. (2007). «Регрессионный анализ: конструктивная критика». Обзор уголовного правосудия . 32 (3): 301–302. дои : 10.1177/0734016807304871 . S2CID 145389362 .

[11] Идальго, Берта; Гудман, Мелоди (15 ноября 2012 г.). «Многомерная или многовариантная регрессия?» . Американский журнал общественного здравоохранения . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897 . ISSN 0090-0036 . ПМЦ 3518362 . ПМИД 23153131 .

[12] Бриллинджер, Дэвид Р. (1977). «Идентификация конкретной нелинейной системы временных рядов». Биометрика . 64 (3): 509–515. дои : 10.1093/biomet/64.3.509 . JSTOR 2345326 .

[13] Цао, Мин (2022). «Групповая регрессия методом наименьших квадратов для линейных моделей с сильно коррелированными переменными-предикторами». Летопись Института статистической математики . 75 (2): 233–250. arXiv : 1804.02499 . дои : 10.1007/s10463-022-00841-7 . S2CID 237396158 .

[14] Гальтон, Фрэнсис (1886). «Регрессия к посредственности в наследственном статусе» . Журнал Антропологического института Великобритании и Ирландии . 15 : 246–263. дои : 10.2307/2841583 . ISSN 0959-5295 . JSTOR 2841583 .

[15] Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w . S2CID 244896511 .

[16] Ланге, Кеннет Л.; Литтл, Родерик Дж.А.; Тейлор, Джереми М.Г. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . Журнал Американской статистической ассоциации . 84 (408): 881–896. дои : 10.2307/2290063 . JSTOR 2290063 .

[17] Суиндел, Бени Ф. (1981). «Иллюстрированная геометрия ридж-регрессии». Американский статистик . 35 (1): 12–15. дои : 10.2307/2683577 . JSTOR 2683577 .

[18] Дрейпер, Норман Р.; ван Ностранд; Р. Крейг (1979). «Гребтовая регрессия и оценка Джеймса-Стейна: обзор и комментарии». Технометрика . 21 (4): 451–466. дои : 10.2307/1268284 . JSTOR 1268284 .

[19] Хёрл, Артур Э.; Кеннард, Роберт В.; Хёрл, Роджер В. (1985). «Практическое использование ридж-регрессии: решенная задача». Журнал Королевского статистического общества, серия C. 34 (2): 114–120. JSTOR 2347363 .

[20] Нарула, Субхаш К.; Веллингтон, Джон Ф. (1982). «Регрессия минимальной суммы абсолютных ошибок: современное исследование». Международный статистический обзор . 50 (3): 317–326. дои : 10.2307/1402501 . JSTOR 1402501 .

[21] Стоун, CJ (1975). «Адаптивные оценки максимального правдоподобия параметра местоположения» . Анналы статистики . 3 (2): 267–284. дои : 10.1214/aos/1176343056 . JSTOR 2958945 .

[22] Гольдштейн, Х. (1986). «Анализ многоуровневой смешанной линейной модели с использованием итерационного обобщенного метода наименьших квадратов». Биометрика . 73 (1): 43–56. дои : 10.1093/biomet/73.1.43 . JSTOR 2336270 .

[23] Тейл, Х. (1950). «Ранг-инвариантный метод линейного и полиномиального регрессионного анализа. I, II, III». Недерл. Акад. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. МР 0036489 . ; Сен, Пранаб Кумар (1968). «Оценки коэффициента регрессии на основе тау Кендалла». Журнал Американской статистической ассоциации . 63 (324): 1379–1389. дои : 10.2307/2285891 . JSTOR 2285891 . МР 0258201 . .

[24] Дитон, Ангус (1992). Понимание потребления . Издательство Оксфордского университета. ISBN 978-0-19-828824-4 .

[Krugman-25] Jump up to: Перейти обратно: ^а ^б Кругман, Пол Р .; Обстфельд, М .; Мелитц, Марк Дж. (2012). Международная экономика: теория и политика (9-е глобальное изд.). Харлоу: Пирсон. ISBN 9780273754091 .

[26] Лейдлер, Дэвид Э.В. (1993). Спрос на деньги: теории, доказательства и проблемы (4-е изд.). Нью-Йорк: Харпер Коллинз. ISBN 978-0065010985 .

[Ehrenberg-27] Jump up to: Перейти обратно: ^а ^б Эренберг; Смит (2008). Современная экономика труда (10-е международное изд.). Лондон: Аддисон-Уэсли. ISBN 9780321538963 .

[28] Хук, Джерард; Билен, Роб; де Хух, Кес; Вьенно, Даниэль; Гулливер, Джон; Фишер, Пол; Бриггс, Дэвид (1 октября 2008 г.). «Обзор регрессионных моделей землепользования для оценки пространственных изменений загрязнения наружного воздуха» . Атмосферная среда . 42 (33): 7561–7578. Бибкод : 2008AtmEn..42.7561H . дои : 10.1016/j.atmosenv.2008.05.057 . ISSN 1352-2310 .

[29] Имаи, Чисато; Хашизуме, Масахиро (2015). «Систематический обзор методологии: регрессионный анализ временных рядов факторов окружающей среды и инфекционных заболеваний» . Тропическая медицина и здоровье . 43 (1): 1–9. дои : 10.2149/tmh.2014-21 . hdl : 10069/35301 . ПМИД 25859149 .

[30] Милионис, А.Е.; Дэвис, Т.Д. (1 сентября 1994 г.). «Регрессия и стохастические модели загрязнения воздуха — I. Обзор, комментарии и предложения» . Атмосферная среда . 28 (17): 2801–2810. Бибкод : 1994AtmEn..28.2801M . дои : 10.1016/1352-2310(94)90083-3 . ISSN 1352-2310 .

[31] Сунь, Руиджи; Скьявон, Стефано; Брагер, Гейл; Аренс, Эдвард; Чжан, Хуэй; Паркинсон, Томас; Чжан, Ченлу (2024). «Причинное мышление: раскрытие скрытых предположений и интерпретаций статистического анализа в строительной науке» . Строительство и окружающая среда . дои : 10.1016/j.buildenv.2024.111530 .

[32] «Линейная регрессия (машинное обучение)» (PDF) . Университет Питтсбурга .

[stigler-33] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 года . Кембридж: Гарвард. ISBN 0-674-40340-1 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]