Разбавление регрессии
Разбавление регрессии также известное как затухание регрессии , — это смещение наклона линейной регрессии , к нулю (занижение ее абсолютного значения), вызванное ошибками в независимой переменной .
Рассмотрите возможность построения прямой линии для связи переменной результата y с переменной-предиктором x и оценки наклона линии. Статистическая изменчивость, ошибка измерения или случайный шум в переменной y вызывают неопределенность в расчетном наклоне, но не смещение : в среднем процедура вычисляет правильный наклон. Однако изменчивость, ошибка измерения или случайный шум переменной x вызывают погрешность оценки наклона (а также неточность). Чем больше отклонение в измерении x , тем ближе расчетный наклон должен приближаться к нулю, а не к истинному значению.
Может показаться нелогичным, что шум в переменной-предикторе x вызывает смещение, а шум в выходной переменной y – нет. Напомним, что линейная регрессия не симметрична: линия наилучшего соответствия для прогнозирования y по x (обычная линейная регрессия) не совпадает с линией наилучшего соответствия для прогнозирования x по y . [1]
Коррекция наклона
[ редактировать ]Наклон регрессии и другие коэффициенты регрессии можно уменьшить следующим образом.
Случай фиксированной x переменной
[ редактировать ]Случай, когда x фиксирован, но измеряется с шумом, известен как функциональная модель или функциональное соотношение . [2] Это можно исправить, используя общий метод наименьших квадратов. [3] и модели ошибок в переменных в целом.
Случай случайно распределенной x переменной
[ редактировать ]Случай, когда переменная x возникает случайным образом, известен как структурная модель или структурная взаимосвязь . Например, в медицинском исследовании пациенты набираются в качестве выборки из популяции, и их характеристики, такие как артериальное давление, можно рассматривать как возникающие из случайной выборки .
При определенных предположениях (обычно предположениях о нормальном распределении ) существует известное соотношение между истинным наклоном и ожидаемым расчетным наклоном. Фрост и Томпсон (2000) рассматривают несколько методов оценки этого отношения и, следовательно, корректировки расчетного наклона. [4] Термин «коэффициент разбавления регрессии» , хотя он и не определен всеми авторами одинаково, используется для этого общего подхода, в котором подбирается обычная линейная регрессия, а затем применяется коррекция. Ответ Лонгфорда (2001) на Frost & Thompson отсылает читателя к другим методам, расширяющим модель регрессии для признания изменчивости переменной x, чтобы не возникало систематической ошибки. [5] Фуллер (1987) является одним из стандартных источников для оценки и коррекции разбавления регрессии. [6]
Хьюз (1993) показывает, что методы коэффициента разбавления регрессии примерно применимы в моделях выживания. [7] Рознер (1992) показывает, что методы соотношений примерно применимы к моделям логистической регрессии. [8] Кэрролл и др. (1995) дают более подробную информацию о разбавлении регрессии в нелинейных моделях, представляя методы коэффициента разбавления регрессии как простейший случай методов калибровки регрессии , в которые также могут быть включены дополнительные ковариаты. [9]
В общем, методы структурной модели требуют некоторой оценки изменчивости переменной x. Это потребует повторных измерений переменной x у одних и тех же людей либо в рамках дополнительного исследования основного набора данных, либо в отдельном наборе данных. Без этой информации внести исправление будет невозможно.
Несколько x переменных
[ редактировать ]Случай множественных переменных-предикторов, подверженных изменчивости (возможно, коррелирующей ), был хорошо изучен для линейной регрессии и для некоторых моделей нелинейной регрессии. [6] [9] Другие нелинейные модели, такие как модели пропорциональных рисков для анализа выживаемости , рассматривались только с одним предиктором, подверженным изменчивости. [7]
Корреляционная коррекция
[ редактировать ]Чарльз Спирмен разработал в 1904 году процедуру коррекции корреляций для разбавления регрессии. [10] т. е. «избавить коэффициент корреляции от ослабляющего эффекта ошибки измерения ». [11]
В измерениях и статистике эту процедуру также называют ослаблением корреляции или ослаблением корреляции . [12] Коррекция гарантирует, что коэффициент корреляции Пирсона между единицами данных (например, людьми) между двумя наборами переменных оценивается таким образом, чтобы учитывать ошибку, содержащуюся при измерении этих переменных. [13]
Формулировка
[ редактировать ]Позволять и быть истинными значениями двух атрибутов некоторого человека или статистической единицы . Эти значения являются переменными в силу предположения, что они различаются для разных статистических единиц генеральной совокупности . Позволять и быть оценками и полученные либо непосредственно путем наблюдения с ошибкой, либо в результате применения модели измерения, такой как модель Раша . Кроме того, пусть
где и – ошибки измерения, связанные с оценками и .
Предполагаемая корреляция между двумя наборами оценок равна
что, предполагая, что ошибки не коррелируют друг с другом и с истинными значениями атрибута, дает
где – индекс разделения множества оценок , что аналогично альфе Кронбаха ; то есть, с точки зрения классической теории тестов , аналогичен коэффициенту надежности. В частности, индекс разделения задается следующим образом:
где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, . Стандартные ошибки обычно возникают как побочный продукт процесса оценки (см. Оценка модели Раша ).
Таким образом, неослабленная оценка корреляции между двумя наборами оценок параметров равна
То есть оценка ослабленной корреляции получается путем деления корреляции между оценками на среднее геометрическое индексов разделения двух наборов оценок. Выражаясь в терминах классической теории тестов, корреляция делится на среднее геометрическое коэффициентов надежности двух тестов.
Даны две случайные величины и измеряется как и с измеренной корреляцией и известная надежность для каждой переменной, и , предполагаемая корреляция между и с поправкой на затухание
- .
влияет на корреляцию X и Y. Насколько хорошо измеряются переменные , Поправка на затухание говорит нам, какой должна быть предполагаемая корреляция, если бы можно было измерить X' и Y' с абсолютной надежностью.
Таким образом, если и считаются несовершенными измерениями базовых переменных и с независимыми ошибками, то оценивает истинную корреляцию между и .
Применимость
[ редактировать ]Поправка на разбавление регрессии необходима при статистическом выводе на основе коэффициентов регрессии . Однако в приложениях прогнозного моделирования коррекция не является ни необходимой, ни целесообразной. При обнаружении изменений необходима коррекция.
Чтобы понять это, рассмотрим погрешность измерения следующим образом. Пусть y будет переменной результата, x будет истинной переменной-предиктором, а w будет приблизительным наблюдением x . Фрост и Томпсон предполагают, например, что x может быть истинным долговременным артериальным давлением пациента, а w может быть артериальным давлением, наблюдаемым во время одного конкретного визита в клинику. [4] Разбавление регрессии возникает, если нас интересует взаимосвязь между y и x , но мы оцениваем взаимосвязь между y и w . Поскольку w измеряется с изменчивостью, наклон линии регрессии y по w меньше, чем линия регрессии y по x .Стандартные методы могут без предвзятости провести регрессию y по w. Смещение существует только в том случае, если мы затем используем регрессию y на w как приближение к регрессии y на x. В этом примере, если предположить, что измерения артериального давления у будущих пациентов будут аналогичным образом варьироваться, наша линия регрессии y на w (наблюдаемое артериальное давление) дает несмещенные прогнозы.
Примером обстоятельств, при которых желательна коррекция, является прогнозирование изменений. Предположим, что изменение x известно при некоторых новых обстоятельствах: для оценки вероятного изменения выходной переменной y наклон регрессии y по x необходим , а не y по w . Это возникает в эпидемиологии . Продолжая пример, в котором x обозначает артериальное давление, возможно, крупное клиническое исследование позволило оценить изменение артериального давления при новом лечении; тогда возможное влияние на y при новом подходе следует оценить по наклону регрессии y на x .
Еще одним обстоятельством является прогнозное моделирование, при котором будущие наблюдения также являются переменными, но не (в использованной выше фразе) «подобно переменными». Например, если текущий набор данных включает артериальное давление, измеренное с большей точностью, чем обычно в клинической практике. Один конкретный пример этого возник при разработке уравнения регрессии на основе клинического исследования, в котором артериальное давление было средним из шести измерений, для использования в клинической практике, где артериальное давление обычно представляет собой одно измерение. [14]
Все эти результаты могут быть показаны математически в случае простой линейной регрессии, предполагающей нормальное распределение повсюду (структура Фроста и Томпсона).
Обсуждалось, что плохо выполненная поправка на разбавление регрессии, особенно если она выполняется без проверки основных допущений, может нанести больший ущерб оценке, чем отсутствие поправки. [15]
Дальнейшее чтение
[ редактировать ]Разбавление регрессии впервые было упомянуто под названием «аттенюация» Спирменом ( 1904). [16] Те, кто ищет понятную математическую трактовку, могут начать с Фроста и Томпсона (2000). [4]
См. также
[ редактировать ]- Модели ошибок в переменных
- Квантование (обработка сигналов) – распространенный источник ошибок в объясняющих или независимых переменных.
Ссылки
[ редактировать ]- ^ Дрейпер, Северная Каролина; Смит, Х. (1998). Прикладной регрессионный анализ (3-е изд.). Джон Уайли. п. 19. ISBN 0-471-17082-8 .
- ^ Риггс, Д.С.; Гварниери, Дж.А.; и др. (1978). «Подбор прямых линий, когда обе переменные подвержены ошибкам». Науки о жизни . 22 (13–15): 1305–60. дои : 10.1016/0024-3205(78)90098-х . ПМИД 661506 .
- ^ Голуб, Джин Х.; ван Лоан, Чарльз Ф. (1980). «Анализ общей задачи наименьших квадратов». SIAM Journal по численному анализу . 17 (6). Общество промышленной и прикладной математики (SIAM): 883–893. дои : 10.1137/0717073 . hdl : 1813/6251 . ISSN 0036-1429 .
- ^ Jump up to: а б с Фрост, К. и С. Томпсон (2000). «Коррекция систематической ошибки разбавления регрессии: сравнение методов для одной предикторной переменной». Журнал Королевского статистического общества, серия A 163: 173–190.
- ^ Лонгфорд, Северная Каролина (2001). «Переписка» . Журнал Королевского статистического общества, серия A. 164 (3): 565. дои : 10.1111/1467-985x.00219 . S2CID 247674444 .
- ^ Jump up to: а б Фуллер, Вашингтон (1987). Модели ошибок измерения . Нью-Йорк: Уайли. ISBN 9780470317334 .
- ^ Jump up to: а б Хьюз, доктор медицины (1993). «Разбавление регрессии в модели пропорциональных рисков». Биометрия . 49 (4): 1056–1066. дои : 10.2307/2532247 . JSTOR 2532247 . ПМИД 8117900 .
- ^ Рознер, Б.; Шпигельман, Д.; и др. (1992). «Коррекция оценок относительного риска логистической регрессии и доверительных интервалов для случайной ошибки измерения внутри человека». Американский журнал эпидемиологии . 136 (11): 1400–1403. doi : 10.1093/oxfordjournals.aje.a116453 . ПМИД 1488967 .
- ^ Jump up to: а б Кэрролл Р.Дж., Руперт Д. и Стефански Л.А. (1995). Ошибка измерения в нелинейных моделях. Нью-Йорк, Уайли.
- ^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» (PDF) . Американский журнал психологии . 15 (1). Издательство Университета Иллинойса: 72–101. дои : 10.2307/1412159 . ISSN 0002-9556 . JSTOR 1412159 . Проверено 10 июля 2021 г.
- ^ Дженсен, Арканзас (1998). Фактор g: наука об умственных способностях . Эволюция, поведение и интеллект человека. Прегер. ISBN 978-0-275-96103-9 .
- ^ Осборн, Джейсон В. (27 мая 2003 г.). «Размеры эффекта и ослабление коэффициентов корреляции и регрессии: уроки педагогической психологии» . Практическая оценка, исследования и оценка . 8 (1). дои : 10.7275/0k9h-tq64 . Проверено 10 июля 2021 г.
- ^ Фрэнкс, Александр; Айролди, Эдоардо; Славов, Николай (08.05.2017). «Посттранскрипционная регуляция в тканях человека» . PLOS Вычислительная биология . 13 (5): e1005535. дои : 10.1371/journal.pcbi.1005535 . ISSN 1553-7358 . ПМК 5440056 . ПМИД 28481885 .
- ^ Стивенс, Р.Дж.; Котари, В.; Адлер, А.И.; Страттон, ИМ; Холман, Р.Р. (2001). «Приложение к «Системе риска UKPDS: модель риска ишемической болезни сердца при диабете 2 типа UKPDS 56)». Clinical Science . 101 : 671–679. doi : 10.1042/cs20000335 .
- ^ Дэйви Смит, Дж .; Филлипс, АН (1996). «Инфляция в эпидемиологии: новый взгляд на доказательство и измерение связи между двумя вещами» . Британский медицинский журнал . 312 (7047): 1659–1661. дои : 10.1136/bmj.312.7047.1659 . ПМК 2351357 . PMID 8664725 .
- ^ Спирмен, К. (1904). «Доказательство и измерение связи между двумя вещами» . Американский журнал психологии . 15 (1): 72–101. дои : 10.2307/1412159 . JSTOR 1412159 .