Jump to content

Сегментированная регрессия

Сегментированная регрессия , также известная как кусочная регрессия или регрессия с ломаной линией , представляет собой метод регрессионного анализа , в котором независимая переменная разбивается на интервалы и каждому интервалу соответствует отдельный сегмент линии. Сегментированный регрессионный анализ также можно выполнить на многомерных данных путем разделения различных независимых переменных. Сегментированная регрессия полезна, когда независимые переменные, сгруппированные в разные группы, демонстрируют разные отношения между переменными в этих регионах. Границы между сегментами являются точками останова .

Сегментированная линейная регрессия — это сегментированная регрессия, при которой отношения в интервалах получаются с помощью линейной регрессии .

Сегментированная линейная регрессия, два сегмента

[ редактировать ]
1-я конечность горизонтальная
1-я конечность наклонена вверх
1-я конечность наклонена вниз

Сегментированная линейная регрессия с двумя сегментами, разделенными точкой останова, может быть полезна для количественной оценки резкого изменения функции отклика (Yr) варьирующегося влиятельного фактора ( x ). Точку останова можно интерпретировать как критическое , безопасное или пороговое значение, за которым или ниже которого возникают (не)желательные эффекты. Точка останова может быть важна при принятии решений. [ 1 ]

На рисунках показаны некоторые полученные результаты и типы регрессии.

Сегментированный регрессионный анализ основан на наличии набора данных ( y, x ), в которых y является зависимой переменной , а x — независимой переменной .

Метод наименьших квадратов применяется отдельно к каждому сегменту, с помощью которого две линии регрессии создаются так, чтобы максимально точно соответствовать набору данных, при этом минимизируя сумму квадратов разностей (SSD) между наблюдаемыми ( y ) и расчетными (Yr) значениями. зависимой переменной приводит к следующим двум уравнениям:

  • Год = А 1 . x + K 1 для x < BP (точка останова)
  • Год = А 2 . x + K 2 для x > BP (точка останова)

где:

Yr — ожидаемое (прогнозированное) значение y для определенного значения x ;
A 1 и A 2 коэффициенты регрессии (обозначающие наклон отрезков линии);
K 1 и K 2 являются константами регрессии (указывающими точку пересечения на оси y ).

Данные могут отражать множество типов или тенденций, [ 2 ] см. цифры.

Этот метод также дает два коэффициента корреляции (R):

  • для x < BP (точка останова)

и

  • для x > BP (точка останова)

где:

это минимизированный SSD на сегмент

и

Y a1 и Y a2 — средние значения y на соответствующих участках.

При определении наиболее подходящего тренда статистические тесты необходимо провести , чтобы убедиться, что этот тренд надежен (значим).

Когда не удается обнаружить значимую точку останова, необходимо вернуться к регрессии без точки останова.

Сегментированная линейная регрессия, тип 3b

Для синего рисунка справа, который показывает связь между урожайностью горчицы (Yr = Ym, т/га) и засолением почвы ( x = Ss, выраженной как электропроводность почвенного раствора EC в дСм/м), обнаружено, что : [ 3 ]

БП = 4,93, А 1 = 0, К 1 = 1,74, А 2 = -0,129, К 2 = 2,38, Р 1 2 = 0,0035 (незначительно), R 2 2 = 0,395 (значимый) и:

  • Ym = 1,74 т/га для Ss < 4,93 (точка перелома)
  • Ym = −0,129 Ss + 2,38 т/га для Ss > 4,93 (точка перелома)

что указывает на то, что засоление почвы < 4,93 дСм/м является безопасным, а засоление почвы > 4,93 дСм/м снижает урожайность при 0,129 т/га на единицу увеличения засоления почвы.

На рисунке также показаны доверительные интервалы и неопределенность, как описано ниже.

Процедуры испытаний

[ редактировать ]
Пример временного ряда, тип 5
Пример таблицы ANOVA: в этом случае введение точки останова очень важно.

следующие статистические тесты Для определения типа тренда используются :

  1. значимость точки останова (BP) путем выражения BP как функции коэффициентов регрессии A 1 и A 2 и средних значений Y 1 и Y 2 данных y и средних значений X 1 и X 2 данных x (слева и справа). BP), используя законы распространения ошибок при сложении и умножении для вычисления стандартной ошибки (SE) BP и применяя t-критерий Стьюдента
  2. значимость A 1 и A 2 с применением t-распределения Стьюдента и стандартной ошибки SE A 1 и A 2
  3. значимость разницы A 1 и A 2 с применением t-распределения Стьюдента с использованием SE их разницы.
  4. значимость разницы Y 1 и Y 2 с применением t-распределения Стьюдента с использованием SE их разницы.
  5. Более формальный статистический подход к проверке существования точки останова заключается в тесте псевдооценки, который не требует оценки сегментированной линии. [ 4 ]

Кроме того, используются коэффициент корреляции всех данных (Ra), коэффициент детерминации или коэффициент объяснения, доверительные интервалы функций регрессии и анализ ANOVA . [ 5 ]

Коэффициент детерминации для всех данных (Cd), который должен быть максимизирован в условиях, установленных критериями значимости, находится из:

где Yr — ожидаемое (прогнозированное) значение y согласно предыдущим уравнениям регрессии, а Ya — среднее всех значений y .

Коэффициент Cd варьируется от 0 (полное отсутствие объяснения) до 1 (полное объяснение, идеальное совпадение).
В чистой несегментированной линейной регрессии значения Cd и Ra 2 равны. В сегментированной регрессии Cd должен быть значительно больше, чем Ra. 2 чтобы оправдать сегментацию.

Оптимальное был значение точки излома может быть найдено таким, чтобы коэффициент Cd максимальным .

Диапазон без эффекта

[ редактировать ]
Иллюстрация диапазона от X=0 до X=7,85, в котором эффект отсутствует.

Сегментированная регрессия часто используется для определения того, в каком диапазоне объясняющая переменная (X) не оказывает влияния на зависимую переменную (Y), в то время как за пределами досягаемости существует четкий ответ, будь то положительный или отрицательный. Область отсутствия эффекта может быть обнаружена в начальной части X-домена или, наоборот, в его последней части. Для анализа «без эффекта» применение метода наименьших квадратов для сегментного регрессионного анализа. [ 6 ] может быть не самым подходящим методом, поскольку цель состоит скорее в том, чтобы найти самый длинный участок, на котором можно считать, что отношение YX имеет нулевой наклон, в то время как за пределами досягаемости наклон значительно отличается от нуля, но знание о наилучшем значении этого наклона не материален. Методом определения диапазона отсутствия эффекта является прогрессивная частичная регрессия. [ 7 ] по диапазону, расширяя диапазон небольшими шагами до тех пор, пока коэффициент регрессии не станет значительно отличаться от нуля.

На следующем рисунке точка излома находится при X=7,9, в то время как для тех же данных (см. синий рисунок выше, где показан выход горчицы), метод наименьших квадратов дает точку излома только при X=4,9. Последнее значение ниже, но соответствие данных за точкой останова лучше. Следовательно, от цели анализа будет зависеть, какой метод необходимо использовать.

См. также

[ редактировать ]
  1. ^ Частотный и регрессионный анализ . Глава 6 в: HPRitzema (изд., 1994), Принципы и применение дренажа , Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN   90-70754-33-9 . Бесплатная загрузка с веб-страницы [1] под номером. 20 или напрямую в формате PDF: [2]
  2. ^ Исследования дренажа на фермерских полях: анализ данных . Часть проекта «Жидкое золото» Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать в формате PDF: [3]
  3. ^ RJOosterbaan, DPSharma, KNSingh и KVGKRao, 1990, Растениеводство и засоленность почвы: оценка полевых данных из Индии с помощью сегментированной линейной регрессии . В: Материалы симпозиума по дренажу земель для борьбы с засолением в засушливых и полузасушливых регионах, 25 февраля - 2 марта 1990 г., Каир, Египет, Vol. 3, Сессия V, с. 373 – 383.
  4. ^ Муггео, ВМР (2016). «Тестирование с использованием мешающего параметра присутствует только в альтернативном варианте: подход на основе оценок с применением к сегментированному моделированию» (PDF) . Журнал статистических вычислений и моделирования . 86 (15): 3059–3067. дои : 10.1080/00949655.2016.1149855 . S2CID   124914264 .
  5. ^ Статистическая значимость сегментированной линейной регрессии с точкой излома с использованием дисперсионного анализа и F-тестов . Скачать из [4] под номером. 13 или напрямую в формате PDF: [5]
  6. ^ Сегментированный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [6]
  7. ^ Частичный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [7]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 2f76ed129b898c4d895b9bd414a0e125__1713561360
URL1:https://arc.ask3.ru/arc/aa/2f/25/2f76ed129b898c4d895b9bd414a0e125.html
Заголовок, (Title) документа по адресу, URL1:
Segmented regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)