Разбавление регрессии

Разбавление регрессии также известное как затухание регрессии , — это смещение наклона линейной регрессии , к нулю (занижение ее абсолютного значения), вызванное ошибками в независимой переменной .

Рассмотрите возможность построения прямой линии для связи переменной результата y с переменной-предиктором x и оценки наклона линии. Статистическая изменчивость, ошибка измерения или случайный шум в переменной y вызывают неопределенность в расчетном наклоне, но не смещение : в среднем процедура вычисляет правильный наклон. Однако изменчивость, ошибка измерения или случайный шум переменной x вызывают погрешность оценки наклона (а также неточность). Чем больше отклонение в измерении x , тем ближе расчетный наклон должен приближаться к нулю, а не к истинному значению.

Может показаться нелогичным, что шум в переменной-предикторе x вызывает смещение, а шум в выходной переменной y – нет. Напомним, что линейная регрессия не симметрична: линия наилучшего соответствия для прогнозирования y по x (обычная линейная регрессия) не совпадает с линией наилучшего соответствия для прогнозирования x по y . ^[1]

Коррекция наклона

Наклон регрессии и другие коэффициенты регрессии можно уменьшить следующим образом.

Случай фиксированной x переменной

Случай, когда x фиксирован, но измеряется с шумом, известен как функциональная модель или функциональное соотношение . ^[2]Это можно исправить, используя общий метод наименьших квадратов. ^[3] и модели ошибок в переменных в целом.

Случай случайно распределенной x переменной

Случай, когда переменная x возникает случайным образом, известен как структурная модель или структурная взаимосвязь . Например, в медицинском исследовании пациенты набираются в качестве выборки из популяции, и их характеристики, такие как артериальное давление, можно рассматривать как возникающие из случайной выборки .

При определенных предположениях (обычно предположениях о нормальном распределении ) существует известное соотношение между истинным наклоном и ожидаемым расчетным наклоном. Фрост и Томпсон (2000) рассматривают несколько методов оценки этого отношения и, следовательно, корректировки расчетного наклона. ^[4] Термин «коэффициент разбавления регрессии» , хотя он и не определен всеми авторами одинаково, используется для этого общего подхода, в котором подбирается обычная линейная регрессия, а затем применяется коррекция. Ответ Лонгфорда (2001) на Frost & Thompson отсылает читателя к другим методам, расширяющим модель регрессии для признания изменчивости переменной x, чтобы не возникало систематической ошибки. ^[5] Фуллер (1987) является одним из стандартных источников для оценки и коррекции разбавления регрессии. ^[6]

Хьюз (1993) показывает, что методы коэффициента разбавления регрессии примерно применимы в моделях выживания. ^[7] Рознер (1992) показывает, что методы соотношений примерно применимы к моделям логистической регрессии. ^[8] Кэрролл и др. (1995) дают более подробную информацию о разбавлении регрессии в нелинейных моделях, представляя методы коэффициента разбавления регрессии как простейший случай методов калибровки регрессии , в которые также могут быть включены дополнительные ковариаты. ^[9]

В общем, методы структурной модели требуют некоторой оценки изменчивости переменной x. Это потребует повторных измерений переменной x у одних и тех же людей либо в рамках дополнительного исследования основного набора данных, либо в отдельном наборе данных. Без этой информации внести исправление будет невозможно.

Несколько x переменных

Случай множественных переменных-предикторов, подверженных изменчивости (возможно, коррелирующей ), был хорошо изучен для линейной регрессии и для некоторых моделей нелинейной регрессии. ^[6]^[9] Другие нелинейные модели, такие как модели пропорциональных рисков для анализа выживаемости , рассматривались только с одним предиктором, подверженным изменчивости. ^[7]

Корреляционная коррекция

Чарльз Спирмен разработал в 1904 году процедуру коррекции корреляций для разбавления регрессии. ^[10] т. е. «избавить коэффициент корреляции от ослабляющего эффекта ошибки измерения ». ^[11]

В измерениях и статистике эту процедуру также называют ослаблением корреляции или ослаблением корреляции . ^[12]Коррекция гарантирует, что коэффициент корреляции Пирсона между единицами данных (например, людьми) между двумя наборами переменных оценивается таким образом, чтобы учитывать ошибку, содержащуюся при измерении этих переменных. ^[13]

Формулировка

Позволять $\beta$ и $\theta$ быть истинными значениями двух атрибутов некоторого человека или статистической единицы . Эти значения являются переменными в силу предположения, что они различаются для разных статистических единиц генеральной совокупности . Позволять ${\hat {\beta }}$ и ${\hat {\theta }}$ быть оценками $\beta$ и $\theta$ полученные либо непосредственно путем наблюдения с ошибкой, либо в результате применения модели измерения, такой как модель Раша . Кроме того, пусть

{\hat {\beta }}=\beta +\epsilon _{\beta },\quad \quad {\hat {\theta }}=\theta +\epsilon _{\theta },

где $\epsilon _{\beta }$ и $\epsilon _{\theta }$ – ошибки измерения, связанные с оценками ${\hat {\beta }}$ и ${\hat {\theta }}$ .

Предполагаемая корреляция между двумя наборами оценок равна

\operatorname {corr} ({\hat {\beta }},{\hat {\theta }})={\frac {\operatorname {cov} ({\hat {\beta }},{\hat {\theta }})}{{\sqrt {\operatorname {var} [{\hat {\beta }}]\operatorname {var} [{\hat {\theta }}}}]}}

={\frac {\operatorname {cov} (\beta +\epsilon _{\beta },\theta +\epsilon _{\theta })}{\sqrt {\operatorname {var} [\beta +\epsilon _{\beta }]\operatorname {var} [\theta +\epsilon _{\theta }]}}},

что, предполагая, что ошибки не коррелируют друг с другом и с истинными значениями атрибута, дает

\operatorname {corr} ({\hat {\beta }},{\hat {\theta }})={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}

={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]\operatorname {var} [\theta ])}}}.{\frac {\sqrt {\operatorname {var} [\beta ]\operatorname {var} [\theta ]}}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}

=\rho {\sqrt {R_{\beta }R_{\theta }}},

где $R_{\beta }$ – индекс разделения множества оценок $\beta$ , что аналогично альфе Кронбаха ; то есть, с точки зрения классической теории тестов , $R_{\beta }$ аналогичен коэффициенту надежности. В частности, индекс разделения задается следующим образом:

R_{\beta }={\frac {\operatorname {var} [\beta ]}{\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }]}}={\frac {\operatorname {var} [{\hat {\beta }}]-\operatorname {var} [\epsilon _{\beta }]}{\operatorname {var} [{\hat {\beta }}]}},

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, $\epsilon _{\beta }$ . Стандартные ошибки обычно возникают как побочный продукт процесса оценки (см. Оценка модели Раша ).

Таким образом, неослабленная оценка корреляции между двумя наборами оценок параметров равна

\rho ={\frac {{\mbox{corr}}({\hat {\beta }},{\hat {\theta }})}{\sqrt {R_{\beta }R_{\theta }}}}.

То есть оценка ослабленной корреляции получается путем деления корреляции между оценками на среднее геометрическое индексов разделения двух наборов оценок. Выражаясь в терминах классической теории тестов, корреляция делится на среднее геометрическое коэффициентов надежности двух тестов.

Даны две случайные величины $X^{\prime }$ и $Y^{\prime }$ измеряется как $X$ и $Y$ с измеренной корреляцией $r_{xy}$ и известная надежность для каждой переменной, $r_{xx}$ и $r_{yy}$ , предполагаемая корреляция между $X^{\prime }$ и $Y^{\prime }$ с поправкой на затухание

r_{x'y'}={\frac {r_{xy}}{\sqrt {r_{xx}r_{yy}}}}

.

влияет на корреляцию X и Y. Насколько хорошо измеряются переменные , Поправка на затухание говорит нам, какой должна быть предполагаемая корреляция, если бы можно было измерить X' и Y' с абсолютной надежностью.

Таким образом, если $X$ и $Y$ считаются несовершенными измерениями базовых переменных $X'$ и $Y'$ с независимыми ошибками, то $r_{x'y'}$ оценивает истинную корреляцию между $X'$ и $Y'$ .

Применимость

Поправка на разбавление регрессии необходима при статистическом выводе на основе коэффициентов регрессии . Однако в приложениях прогнозного моделирования коррекция не является ни необходимой, ни целесообразной. При обнаружении изменений необходима коррекция.

Чтобы понять это, рассмотрим погрешность измерения следующим образом. Пусть y будет переменной результата, x будет истинной переменной-предиктором, а w будет приблизительным наблюдением x . Фрост и Томпсон предполагают, например, что x может быть истинным долговременным артериальным давлением пациента, а w может быть артериальным давлением, наблюдаемым во время одного конкретного визита в клинику. ^[4] Разбавление регрессии возникает, если нас интересует взаимосвязь между y и x , но мы оцениваем взаимосвязь между y и w . Поскольку w измеряется с изменчивостью, наклон линии регрессии y по w меньше, чем линия регрессии y по x .Стандартные методы могут без предвзятости провести регрессию y по w. Смещение существует только в том случае, если мы затем используем регрессию y на w как приближение к регрессии y на x. В этом примере, если предположить, что измерения артериального давления у будущих пациентов будут аналогичным образом различаться, наша линия регрессии y на w (наблюдаемое артериальное давление) дает несмещенные прогнозы.

Примером обстоятельств, при которых желательна коррекция, является прогнозирование изменений. Предположим, что изменение x известно при некоторых новых обстоятельствах: для оценки вероятного изменения выходной переменной y наклон регрессии y по x необходим , а не y по w . Это возникает в эпидемиологии . Продолжая пример, в котором x обозначает артериальное давление, возможно, крупное клиническое исследование позволило оценить изменение артериального давления при новом лечении; тогда возможное влияние на y при новом подходе следует оценить по наклону регрессии y на x .

Еще одним обстоятельством является прогнозное моделирование, при котором будущие наблюдения также являются переменными, но не (в использованной выше фразе) «подобно переменными». Например, если текущий набор данных включает артериальное давление, измеренное с большей точностью, чем обычно в клинической практике. Один конкретный пример этого возник при разработке уравнения регрессии на основе клинического исследования, в котором артериальное давление было средним из шести измерений, для использования в клинической практике, где артериальное давление обычно представляет собой одно измерение. ^[14]

Все эти результаты могут быть продемонстрированы математически в случае простой линейной регрессии, предполагающей нормальное распределение повсюду (структура Фроста и Томпсона).

Обсуждалось, что плохо выполненная поправка на разбавление регрессии, особенно если она выполняется без проверки основных допущений, может нанести больший ущерб оценке, чем отсутствие поправки. ^[15]

Дальнейшее чтение

Разбавление регрессии впервые было упомянуто под названием «аттенюация» Спирменом ( 1904). ^[16] Те, кто ищет понятную математическую трактовку, могут начать с Фроста и Томпсона (2000). ^[4]

См. также

Модели ошибок в переменных
Квантование (обработка сигналов) – распространенный источник ошибок в объясняющих или независимых переменных.

Ссылки

^ Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. п. 19. ISBN 0-471-17082-8 .
^ Риггс, Д.С.; Гварниери, Дж.А.; и др. (1978). «Подбор прямых линий, когда обе переменные подвержены ошибкам». Науки о жизни . 22 (13–15): 1305–60. дои : 10.1016/0024-3205(78)90098-х . ПМИД 661506 .
^ Голуб, Джин Х.; ван Лоан, Чарльз Ф. (1980). «Анализ общей задачи наименьших квадратов». SIAM Journal по численному анализу . 17 (6). Общество промышленной и прикладной математики (SIAM): 883–893. дои : 10.1137/0717073 . hdl : 1813/6251 . ISSN 0036-1429 .
^ Jump up to: ^а ^б ^с Фрост, К. и С. Томпсон (2000). «Коррекция систематической ошибки разбавления регрессии: сравнение методов для одной предикторной переменной». Журнал Королевского статистического общества, серия A 163: 173–190.
^ Лонгфорд, Северная Каролина (2001). «Переписка» . Журнал Королевского статистического общества, серия A. 164 (3): 565. дои : 10.1111/1467-985x.00219 . S2CID 247674444 .
^ Jump up to: ^а ^б Фуллер, Вашингтон (1987). Модели ошибок измерения . Нью-Йорк: Уайли. ISBN 9780470317334 .
^ Jump up to: ^а ^б Хьюз, доктор медицины (1993). «Разбавление регрессии в модели пропорциональных рисков». Биометрия . 49 (4): 1056–1066. дои : 10.2307/2532247 . JSTOR 2532247 . ПМИД 8117900 .
^ Рознер, Б.; Шпигельман, Д.; и др. (1992). «Коррекция оценок относительного риска логистической регрессии и доверительных интервалов для случайной ошибки измерения внутри человека». Американский журнал эпидемиологии . 136 (11): 1400–1403. doi : 10.1093/oxfordjournals.aje.a116453 . ПМИД 1488967 .
^ Jump up to: ^а ^б Кэрролл Р.Дж., Руперт Д. и Стефански Л.А. (1995). Ошибка измерения в нелинейных моделях. Нью-Йорк, Уайли.
^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» (PDF) . Американский журнал психологии . 15 (1). Издательство Университета Иллинойса: 72–101. дои : 10.2307/1412159 . ISSN 0002-9556 . JSTOR 1412159 . Проверено 10 июля 2021 г.
^ Дженсен, Арканзас (1998). Фактор g: наука об умственных способностях . Эволюция, поведение и интеллект человека. Прегер. ISBN 978-0-275-96103-9 .
^ Осборн, Джейсон В. (27 мая 2003 г.). «Размеры эффекта и ослабление коэффициентов корреляции и регрессии: уроки педагогической психологии» . Практическая оценка, исследования и оценка . 8 (1). дои : 10.7275/0k9h-tq64 . Проверено 10 июля 2021 г.
^ Фрэнкс, Александр; Айролди, Эдоардо; Славов, Николай (08.05.2017). «Посттранскрипционная регуляция в тканях человека» . PLOS Вычислительная биология . 13 (5): e1005535. дои : 10.1371/journal.pcbi.1005535 . ISSN 1553-7358 . ПМК 5440056 . ПМИД 28481885 .
^ Стивенс, Р.Дж.; Котари, В.; Адлер, А.И.; Страттон, ИМ; Холман, Р.Р. (2001). «Приложение к «Системе риска UKPDS: модель риска ишемической болезни сердца при диабете 2 типа UKPDS 56)». Clinical Science . 101 : 671–679. doi : 10.1042/cs20000335 .
^ Дэйви Смит, Дж .; Филлипс, АН (1996). «Инфляция в эпидемиологии: новый взгляд на доказательство и измерение связи между двумя вещами» . Британский медицинский журнал . 312 (7047): 1659–1661. дои : 10.1136/bmj.312.7047.1659 . ПМК 2351357 . PMID 8664725 .
^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR 1412159 .

[1] Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. п. 19. ISBN 0-471-17082-8 .

[Riggs1978-2] Риггс, Д.С.; Гварниери, Дж.А.; и др. (1978). «Подбор прямых линий, когда обе переменные подвержены ошибкам». Науки о жизни . 22 (13–15): 1305–60. дои : 10.1016/0024-3205(78)90098-х . ПМИД 661506 .

[vanLoan1980-3] Голуб, Джин Х.; ван Лоан, Чарльз Ф. (1980). «Анализ общей задачи наименьших квадратов». SIAM Journal по численному анализу . 17 (6). Общество промышленной и прикладной математики (SIAM): 883–893. дои : 10.1137/0717073 . hdl : 1813/6251 . ISSN 0036-1429 .

[Frost2000-4] Jump up to: ^а ^б ^с Фрост, К. и С. Томпсон (2000). «Коррекция систематической ошибки разбавления регрессии: сравнение методов для одной предикторной переменной». Журнал Королевского статистического общества, серия A 163: 173–190.

[5] Лонгфорд, Северная Каролина (2001). «Переписка» . Журнал Королевского статистического общества, серия A. 164 (3): 565. дои : 10.1111/1467-985x.00219 . S2CID 247674444 .

[Fuller1987-6] Jump up to: ^а ^б Фуллер, Вашингтон (1987). Модели ошибок измерения . Нью-Йорк: Уайли. ISBN 9780470317334 .

[Hughes1993-7] Jump up to: ^а ^б Хьюз, доктор медицины (1993). «Разбавление регрессии в модели пропорциональных рисков». Биометрия . 49 (4): 1056–1066. дои : 10.2307/2532247 . JSTOR 2532247 . ПМИД 8117900 .

[8] Рознер, Б.; Шпигельман, Д.; и др. (1992). «Коррекция оценок относительного риска логистической регрессии и доверительных интервалов для случайной ошибки измерения внутри человека». Американский журнал эпидемиологии . 136 (11): 1400–1403. doi : 10.1093/oxfordjournals.aje.a116453 . ПМИД 1488967 .

[Carroll1995-9] Jump up to: ^а ^б Кэрролл Р.Дж., Руперт Д. и Стефански Л.А. (1995). Ошибка измерения в нелинейных моделях. Нью-Йорк, Уайли.

[Spearman1904-10] Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» (PDF) . Американский журнал психологии . 15 (1). Издательство Университета Иллинойса: 72–101. дои : 10.2307/1412159 . ISSN 0002-9556 . JSTOR 1412159 . Проверено 10 июля 2021 г.

[Jensen1998-11] Дженсен, Арканзас (1998). Фактор g: наука об умственных способностях . Эволюция, поведение и интеллект человека. Прегер. ISBN 978-0-275-96103-9 .

[Osborne_2003-12] Осборн, Джейсон В. (27 мая 2003 г.). «Размеры эффекта и ослабление коэффициентов корреляции и регрессии: уроки педагогической психологии» . Практическая оценка, исследования и оценка . 8 (1). дои : 10.7275/0k9h-tq64 . Проверено 10 июля 2021 г.

[13] Фрэнкс, Александр; Айролди, Эдоардо; Славов, Николай (08.05.2017). «Посттранскрипционная регуляция в тканях человека» . PLOS Вычислительная биология . 13 (5): e1005535. дои : 10.1371/journal.pcbi.1005535 . ISSN 1553-7358 . ПМК 5440056 . ПМИД 28481885 .

[14] Стивенс, Р.Дж.; Котари, В.; Адлер, А.И.; Страттон, ИМ; Холман, Р.Р. (2001). «Приложение к «Системе риска UKPDS: модель риска ишемической болезни сердца при диабете 2 типа UKPDS 56)». Clinical Science . 101 : 671–679. doi : 10.1042/cs20000335 .

[15] Дэйви Смит, Дж .; Филлипс, АН (1996). «Инфляция в эпидемиологии: новый взгляд на доказательство и измерение связи между двумя вещами» . Британский медицинский журнал . 312 (7047): 1659–1661. дои : 10.1136/bmj.312.7047.1659 . ПМК 2351357 . PMID 8664725 .

[16] Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR 1412159 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]