Нелинейная регрессия

В статистике нелинейная регрессия — это форма регрессионного анализа , в которой данные наблюдений моделируются функцией, которая представляет собой нелинейную комбинацию параметров модели и зависит от одной или нескольких независимых переменных. Данные аппроксимируются методом последовательных приближений (итераций).

Общий

В нелинейной регрессии статистическая модель вида

\mathbf {y} \sim f(\mathbf {x} ,{\boldsymbol {\beta }})

связывает вектор независимых переменных , $\mathbf {x}$ и связанные с ним наблюдаемые зависимые переменные , $\mathbf {y}$ . Функция $f$ нелинейно по компонентам вектора параметров $\beta$ , но в остальном произвольный. Например, модель Михаэлиса-Ментен для кинетики ферментов имеет два параметра и одну независимую переменную, связанные соотношением $f$ к: ^[а]

f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}

Эта функция, представляющая собой прямоугольную гиперболу, является нелинейной , поскольку ее нельзя выразить как линейную комбинацию двух $\beta$ с.

Систематическая ошибка может присутствовать в независимых переменных, но ее обработка выходит за рамки регрессионного анализа. Если независимые переменные не лишены ошибок, это модель ошибок в переменных , также выходящая за рамки этой области.

Другие примеры нелинейных функций включают экспоненциальные функции , логарифмические функции , тригонометрические функции , степенные функции , функцию Гаусса и распределения Лоренца . Некоторые функции, такие как показательная или логарифмическая функции, можно преобразовать так, чтобы они стали линейными. При таком преобразовании можно выполнить стандартную линейную регрессию, но ее следует применять с осторожностью. Более подробную информацию см. в разделе Линеаризация§Преобразование ниже.

В общем, не существует выражения в закрытой форме для наиболее подходящих параметров, как в линейной регрессии . Обычно алгоритмы численной оптимизации применяются для определения наиболее подходящих параметров. может быть много локальных минимумов Опять же, в отличие от линейной регрессии, у оптимизируемой функции , и даже глобальный минимум может давать смещенную оценку. На практике оценочные значения параметров используются вместе с алгоритмом оптимизации, чтобы попытаться найти глобальный минимум суммы квадратов.

Подробную информацию о нелинейном моделировании данных см. в разделе «Наименьшие квадраты» и «Нелинейный метод наименьших квадратов» .

Статистика регрессии

В основе этой процедуры лежит предположение, что модель может быть аппроксимирована линейной функцией, а именно рядом Тейлора первого порядка :

f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},0)+\sum _{j}J_{ij}\beta _{j}

где $J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}$ являются матричными элементами Якобиана. Из этого следует, что оценки наименьших квадратов имеют вид

{\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} ,

сравнить обобщенный метод наименьших квадратов с ковариационной матрицей, пропорциональной единичной матрице. Статистика нелинейной регрессии вычисляется и используется так же, как статистика линейной регрессии, но используется J вместо X. в формулах

Когда функция $f(x_{i},{\boldsymbol {\beta }})$ сам по себе неизвестен аналитически, но его необходимо линейно аппроксимировать из $n+1$ или более известных значений (где $n$ — количество оценщиков), лучшая оценка получается непосредственно из линейной подгонки шаблона как ^[1] ${\hat {\boldsymbol {\beta }}}=((\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {Y{\tilde {M}}} )^{-1}(\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}(\mathbf {d} -\mathbf {Y{\bar {m}})}$ (см. также линейный метод наименьших квадратов ).

Линейное приближение вносит систематическую ошибку в статистику. Поэтому при интерпретации статистики, полученной на основе нелинейной модели, требуется больше осторожности, чем обычно.

Обычные и взвешенные наименьшие квадраты

Часто предполагается, что наиболее подходящей кривой является та, которая минимизирует сумму квадратов остатков . Это обычный метод наименьших квадратов (МНК). Однако в случаях, когда зависимая переменная не имеет постоянной дисперсии или имеются выбросы, сумма взвешенных квадратов остатков может быть минимизирована; см. взвешенные наименьшие квадраты . Каждый вес в идеале должен быть равен обратной величине дисперсии наблюдения или обратной величине зависимой переменной некоторой степени в случае выброса. ^[2], но веса могут пересчитываться на каждой итерации в итерационно взвешенном алгоритме наименьших квадратов.

Линеаризация

Трансформация

Некоторые задачи нелинейной регрессии можно перенести в линейную область путем соответствующего преобразования формулировки модели.

Например, рассмотрим задачу нелинейной регрессии

y=ae^{bx}U\,\!

с параметрами a и b с мультипликативной ошибкой U. и Если мы возьмем логарифм обеих частей, это станет

\ln {(y)}=\ln {(a)}+bx+u,\,\!

где u = ln( U ), что предполагает оценку неизвестных параметров с помощью линейной регрессии ln( y ) по x , вычисление, которое не требует итеративной оптимизации. Однако использование нелинейного преобразования требует осторожности. Влияние значений данных изменится, равно как и структура ошибок модели и интерпретация любых логических выводов. Это могут быть нежелательные эффекты. С другой стороны, в зависимости от того, что является крупнейшим источником ошибок, нелинейное преобразование может распределять ошибки по Гауссу, поэтому выбор выполнения нелинейного преобразования должен основываться на соображениях моделирования.

Для кинетики Михаэлиса-Ментен линейный график Лайнуивера-Бёрка

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

соотношение 1/ v против 1/[ S ] широко использовалось. Однако, поскольку он очень чувствителен к ошибкам данных и сильно смещен в сторону соответствия данных определенному диапазону независимой переменной [ S ], его использование настоятельно не рекомендуется.

Для распределений ошибок, принадлежащих к экспоненциальному семейству , можно использовать функцию связи для преобразования параметров в рамках обобщенной линейной модели .

Сегментация

Независимую или для объясняющую переменную (скажем, X) можно разделить на классы или сегменты, и линейную регрессию каждого сегмента можно выполнить . Сегментированная регрессия с доверительным анализом может привести к тому, что зависимая переменная или отклика переменная (скажем, Y) ведет себя по-разному в различных сегментах. ^[3]

На рисунке видно, что засоленность почвы (X) первоначально не оказывает влияния на урожайность культуры (Y) горчицы до достижения критического или порогового значения ( точки перелома ), после чего урожайность снижается отрицательно. ^[4]

См. также

Ссылки

^ Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w .
^ Мотульский, HJ; Ранснас, Луизиана (1987). «Подбор кривых к данным с использованием нелинейной регрессии: практический и нематематический обзор» . Журнал ФАСЭБ . 1 (5): 365–374. дои : 10.1096/fasebj.1.5.3315805 . ПМИД 3315805 .
^ RJOosterbaan, 1994, Частотный и регрессионный анализ. В: HPRitzema (ред.), Принципы и применение дренажа, Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 90-70754-33-9 . Скачать в формате PDF: [1]
^ RJOosterbaan, 2002. Исследование дренажа на фермерских полях: анализ данных. Часть проекта «Жидкое золото»Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать в формате PDF: [2] . Рисунок сделан с помощью программы SegReg , которую можно бесплатно скачать по адресу [3].

Примечания

^ Эту модель также можно выразить в традиционных биологических обозначениях:
$v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}$

Дальнейшее чтение

Бетея, РМ; Дюран, бакалавр наук; Бульон, ТЛ (1985). Статистические методы для инженеров и ученых . Нью-Йорк: Марсель Деккер. ISBN 0-8247-7227-Х .
Мид, Н.; Ислам, Т. (1995). «Интервалы прогнозирования для прогнозов кривой роста». Журнал прогнозирования . 14 (5): 413–430. дои : 10.1002/for.3980140502 .
Шитковски, К. (2002). Подгонка данных в динамических системах . Бостон: Клювер. ISBN 1402010796 .
Себер, ГАФ; Уайлд, CJ (1989). Нелинейная регрессия . Нью-Йорк: Джон Уайли и сыновья. ISBN 0471617601 .

[2] Бритцгер, Дэниел (2022). «Подгонка линейного шаблона». Евро. Физ. Джей Си . 82 (8): 731. arXiv : 2112.01548 . Бибкод : 2022EPJC...82..731B . doi : 10.1140/epjc/s10052-022-10581-w .

[3] Мотульский, HJ; Ранснас, Луизиана (1987). «Подбор кривых к данным с использованием нелинейной регрессии: практический и нематематический обзор» . Журнал ФАСЭБ . 1 (5): 365–374. дои : 10.1096/fasebj.1.5.3315805 . ПМИД 3315805 .

[4] RJOosterbaan, 1994, Частотный и регрессионный анализ. В: HPRitzema (ред.), Принципы и применение дренажа, Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN 90-70754-33-9 . Скачать в формате PDF: [1]

[5] RJOosterbaan, 2002. Исследование дренажа на фермерских полях: анализ данных. Часть проекта «Жидкое золото»Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать в формате PDF: [2] . Рисунок сделан с помощью программы SegReg , которую можно бесплатно скачать по адресу [3].

[1] Эту модель также можно выразить в традиционных биологических обозначениях:
$v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}$

[а]

[1]

[2]

[3]

[4]