Смещение пропущенной переменной
Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Июль 2010 г. ) |
В статистике ) возникает , смещение пропущенной переменной ( OVB когда статистическая модель не учитывает одну или несколько соответствующих переменных. Смещение приводит к тому, что модель приписывает влияние отсутствующих переменных тем, которые были включены.
Более конкретно, OVB — это смещение , которое появляется в оценках параметров в регрессионном анализе , когда предполагаемая спецификация неверна, поскольку в ней отсутствует независимая переменная, которая является определяющим фактором зависимой переменной и коррелирует с одной или несколькими включенными независимыми переменными. переменные.
В линейной регрессии
[ редактировать ]Интуиция
[ редактировать ]Предположим, что истинная причинно-следственная связь определяется формулой:
с параметрами a, b, c , зависимой переменной y , независимыми переменными x и z и ошибкой u . Мы хотим знать влияние самого x на y (то есть мы хотим получить оценку b ).
существовало смещение по пропущенной переменной, должны соблюдаться два условия Для того чтобы в линейной регрессии :
- пропущенная переменная должна быть детерминантом зависимой переменной (т. е. ее истинный коэффициент регрессии не должен быть равен нулю); и
- пропущенная переменная должна коррелировать с независимой переменной, указанной в регрессии (т. е. cov( z , x ) не должна равняться нулю).
Предположим, мы опускаем z из регрессии и предположим, что связь между x и z определяется выражением
с параметрами d , f и ошибкой e . Подстановка второго уравнения в первое дает
Если регрессия y проводится только по x , это последнее уравнение и является тем, что оценивается, а коэффициент регрессии по x на самом деле является оценкой ( b + cf ), давая не просто оценку желаемого прямого воздействия x на y. (то есть b ), а скорее его сумму с косвенным эффектом (эффект f от x на z , умноженный на эффект c от z на y ). Таким образом, исключив переменную z из регрессии, мы оценили полную производную y а по x, не его частную производную по x . Они различаются, если оба c и f не равны нулю.
Направление и степень смещения содержатся в cf , поскольку искомый эффект равен b, но оценки регрессии b+cf . Степень смещения представляет собой абсолютное значение cf , а направление смещения вверх (в сторону более положительного или менее отрицательного значения), если cf > 0 (если направление корреляции между y и z такое же, как и между x и z ), в противном случае – вниз.
Детальный анализ
[ редактировать ]В качестве примера рассмотрим линейную модель вида
где
- x i — вектор-строка размером 1 × p значений p независимых переменных, наблюдаемых в момент времени i или для i й участник исследования;
- β — вектор-столбец p × 1 ненаблюдаемых параметров (коэффициенты отклика зависимой переменной на каждую из p независимых переменных в x i ), подлежащих оценке;
- z i — скаляр и значение другой независимой переменной, наблюдаемой в момент времени i или в течение i й участник исследования;
- δ является скаляром и представляет собой ненаблюдаемый параметр (коэффициент отклика зависимой переменной на z i ), подлежащий оценке;
- u i — это ненаблюдаемая ошибка, возникающая в момент времени i или в течение i й участник исследования; это ненаблюдаемая реализация случайной величины, математическое ожидание 0 (условно по xi и имеющей z i );
- y i — это наблюдение зависимой переменной в момент времени i или для i й участник исследования.
Мы собираем наблюдения всех переменных с индексами i = 1,..., n и складываем их одно под другим, чтобы получить матрицу X и векторы Y , Z и U :
и
Если независимая переменная z исключена из регрессии, то оценочные значения параметров отклика других независимых переменных будут получены путем обычного методом наименьших квадратов расчета :
(где «простое» обозначение означает транспонирование матрицы, а верхний индекс -1 означает инверсию матрицы ).
Заменив Y на основе предполагаемой линейной модели,
Принимая во внимание ожидания, вклад последнего члена равен нулю; это следует из предположения, что U некоррелирован с регрессорами X . Об упрощении остальных условий:
Второй член после знака равенства в этом случае представляет собой смещение пропущенной переменной, которое не равно нулю, если пропущенная переменная z коррелирует с любой из включенных переменных в матрице X (то есть, если X'Z не равна вектор нулей). Обратите внимание, что смещение равно взвешенной части z i, которая «объясняется» x i .
Эффект в обычных наименьших квадратах
[ редактировать ]Теорема Гаусса -Маркова утверждает, что модели регрессии, которые удовлетворяют предположениям классической модели линейной регрессии, обеспечивают наиболее эффективные , линейные и несмещенные оценки. В обычном методе наименьших квадратов соответствующее предположение классической модели линейной регрессии заключается в том, что член ошибки не коррелирует с регрессорами.
Наличие систематической ошибки, связанной с пропущенными переменными, нарушает это конкретное предположение. Нарушение приводит к тому, что оценщик OLS оказывается предвзятым и противоречивым . Направление смещения зависит от оценщиков, а также от ковариации между регрессорами и пропущенными переменными. Положительная ковариация пропущенной переменной как с регрессором, так и с зависимой переменной приведет к тому, что оценка МНК коэффициента включенного регрессора будет больше истинного значения этого коэффициента. Этот эффект можно увидеть, взяв математическое ожидание параметра, как показано в предыдущем разделе.
См. также
[ редактировать ]Ссылки
[ редактировать ]- Баррето; Хауленд (2006). «Смещение пропущенной переменной» . Вводная эконометрика: использование моделирования Монте-Карло с Microsoft Excel . Издательство Кембриджского университета.
- Кларк, Кевин А. (2005). «Скрытая угроза: смещение пропущенной переменной в эконометрических исследованиях». Управление конфликтами и наука о мире . 22 (4): 341–352. дои : 10.1080/07388940500339183 .
- Грин, штат Вашингтон (1993). Эконометрический анализ (2-е изд.). Макмиллан. стр. 245–246.
- Вулдридж, Джеффри М. (2009). «Смещение пропущенной переменной: простой случай». Вводная эконометрика: современный подход . Мейсон, Огайо: Cengage Learning. стр. 89–93. ISBN 9780324660548 .