Модели ошибок в переменных
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике модели ошибок в переменных или модели ошибок измерения представляют собой регрессионные модели , которые учитывают ошибки измерения в независимых переменных . Напротив, стандартные регрессионные модели предполагают, что эти регрессоры были измерены точно или наблюдались без ошибок; как таковые, эти модели учитывают только ошибки в зависимых переменных или ответах. [ нужна ссылка ]
В случае, когда некоторые регрессоры были измерены с ошибками, оценка на основе стандартного предположения приводит к противоречивым оценкам, то есть оценки параметров не стремятся к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффектом является занижение коэффициента, известного как смещение затухания . В нелинейных моделях направление смещения, вероятно, будет более сложным. [1] [2] [3]
Мотивирующий пример
[ редактировать ]Рассмотрим простую модель линейной регрессии вида
где обозначает истинный , но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:
где погрешность измерения предполагается независимым от истинного значения .
Если просто регрессируют на ′s (см. простую линейную регрессию ), то оценка коэффициента наклона равна
который сходится как размер выборки увеличивается неограниченно:
Это противоречит «истинному» эффекту , оцененный с использованием ,:
Дисперсии неотрицательны, так что в пределе оцененная меньше, чем эффект, который статистики называют ослаблением или разбавлением регрессии . [4] Таким образом, «наивная» оценка методом наименьших квадратов является противоречивой оценкой для . Однако, является последовательной оценкой параметра, необходимого для лучшего линейного предсказателя учитывая наблюдаемое : в некоторых приложениях может потребоваться именно это, а не оценка «истинного» коэффициента регрессии. , хотя это предполагает, что дисперсия ошибок оценки и прогнозирования идентична. Это следует непосредственно из результата, приведенного выше, и того факта, что коэффициент регрессии, связывающий к фактически наблюдаемому ′s в простой линейной регрессии определяется выражением
Именно этот коэффициент, а не , что потребуется для построения предиктора на основе наблюдаемого который подвержен шуму.
Можно утверждать, что почти все существующие наборы данных содержат ошибки разного характера и величины, поэтому смещение затухания встречается крайне часто (хотя в многомерной регрессии направление смещения неоднозначно). [5] ). Джерри Хаусман видит в этом железный закон эконометрики : «Величина оценки обычно меньше ожидаемой». [6]
Спецификация
[ редактировать ]Обычно модели ошибок измерения описываются с использованием подхода скрытых переменных . Если является переменной ответа и являются наблюдаемыми значениями регрессоров, то предполагается, что существуют некоторые скрытые переменные и модели. которые соответствуют «истинным» функциональным отношениям , и такие, что наблюдаемые величины являются их зашумленными наблюдениями:
где модели параметр и – это те регрессоры, которые считаются безошибочными (например, когда линейная регрессия содержит точку пересечения, регрессор, соответствующий константе, заведомо не имеет «ошибок измерения»). В зависимости от спецификации эти безошибочные регрессоры могут обрабатываться или не обрабатываться отдельно; в последнем случае просто предполагается, что соответствующие записи в матрице отклонений равны нулю.
Переменные , , все наблюдаются , а это означает, что статистик располагает данных набором статистические единицы которые следуют процессу генерации данных , описанному выше; скрытые переменные , , , и однако не наблюдаются.
Эта спецификация не охватывает все существующие модели ошибок в переменных. Например, в некоторых из них функционируют может быть непараметрическим или полупараметрическим. Другие подходы моделируют отношения между и как распределительный, а не функциональный, то есть они предполагают, что условно на следует определенному (обычно параметрическому) распределению.
Терминология и предположения
[ редактировать ]- Наблюдаемая переменная может называться манифестом , индикатором или прокси- переменной .
- Ненаблюдаемая переменная может быть названа скрытой или истинной переменной. Ее можно рассматривать либо как неизвестную константу (в этом случае модель называется функциональной моделью ), либо как случайную величину (соответственно структурную модель ). [7]
- Связь между погрешностью измерения и скрытая переменная можно моделировать разными способами:
- Классические ошибки : ошибки не зависят от скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что погрешности вносит измерительный прибор и их величина не зависит от измеряемой величины.
- Средняя независимость : ошибки имеют среднее значение нуля для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое. [8] поскольку это допускает наличие гетероскедастичности или других эффектов в ошибках измерения.
- Ошибки Берксона : ошибки не зависят от наблюдаемого регрессора x . [9] Это предположение имеет весьма ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека* является непрерывной случайной величиной , а наблюдаемый возраст усекается до следующего наименьшего целого числа, то ошибка усечения приблизительно не зависит от наблюдаемого возраста . Другая возможность связана с экспериментом с фиксированной планировкой: например, если ученый решает провести измерение в определенный заранее определенный момент времени. , скажи в , то реальное измерение может происходить при каком-то другом значении (например, из-за ее конечного времени реакции), и такая ошибка измерения, как правило, не будет зависеть от «наблюдаемого» значения регрессора.
- Ошибки неправильной классификации : специальный случай, используемый для фиктивных регрессоров . Если является индикатором определенного события или состояния (например, является ли человек мужчиной/женщиной, какое-либо медицинское лечение было/не получено и т. д.), то ошибка измерения в таком регрессоре будет соответствовать неправильной классификации, аналогично ошибкам типа I и типа II. в статистическом тестировании. В этом случае ошибка может принимать только 3 возможных значения, а его распределение обусловлено моделируется двумя параметрами: , и . Необходимым условием идентификации является то, что , то есть ошибочная классификация не должна происходить "слишком часто". (Эту идею можно обобщить на дискретные переменные с более чем двумя возможными значениями.)
Линейная модель
[ редактировать ]В первую очередь изучались линейные модели ошибок в переменных, вероятно, потому, что линейные модели широко использовались и они проще, чем нелинейные. В отличие от стандартной регрессии наименьших квадратов (OLS), распространение ошибок в регрессии переменных (EiV) от простого случая к случаю с несколькими переменными не является простым.
Простая линейная модель
[ редактировать ]Простая модель линейных ошибок в переменных уже была представлена в разделе «мотивация»:
где все переменные скалярные . Здесь α и β — интересующие параметры, тогда как σε — и ση стандартные отклонения членов ошибки — являются параметрами помех . «Истинный» регрессор x* рассматривается как случайная величина ( структурная модель), независимая от ошибки измерения η ( классическое предположение).
Эту модель можно идентифицировать в двух случаях: (1) либо латентный регрессор x* является не нормально распределенным , (2) или x* имеет нормальное распределение, но ни ε t, ни η t не делятся на нормальное распределение. [10] То есть параметры α , β можно последовательно оценить по набору данных без какой-либо дополнительной информации, при условии, что латентный регрессор не является гауссовым.
Прежде чем этот результат идентифицируемости был установлен, статистики пытались применить метод максимального правдоподобия , предполагая, что все переменные нормальны, а затем пришли к выводу, что модель не идентифицирована. Предлагаемое решение заключалось в том, чтобы предположить , что некоторые параметры модели известны или могут быть оценены из внешнего источника. Такие методы оценки включают в себя [11]
- Регрессия Деминга соотношение δ = σ² ε / σ² η — предполагает, что известно . Это может быть уместно, например, когда ошибки в y и x вызваны измерениями, а точность измерительных устройств или процедур известна. Случай, когда δ = 1, также известен как ортогональная регрессия .
- Регрессия с известным коэффициентом надежности λ = σ² ∗ / ( σ² η + σ² ∗ ), где σ² ∗ — дисперсия скрытого регрессора. Такой подход может быть применим, например, когда доступны повторяющиеся измерения одной и той же единицы или когда коэффициент надежности известен из независимого исследования. В этом случае непротиворечивая оценка наклона равна оценке методом наименьших квадратов, деленной на λ .
- Регрессия с известным σ² η может возникнуть, когда известен источник ошибок в x и можно вычислить их дисперсию. Это может включать ошибки округления или ошибки, вносимые измерительным устройством. Когда σ² η известно, мы можем вычислить коэффициент надежности как λ = ( σ² x − σ² η ) / σ² x и свести задачу к предыдущему случаю.
К методам оценки, не предполагающим знания некоторых параметров модели, относятся
- Метод моментов — оценка GMM третьего (или более высокого) порядка , основанная на совместных кумулянтах наблюдаемых переменных . Коэффициент наклона можно оценить по формуле [12]
где ( n 1 , n 2 ) таковы, что K ( n 1 +1, n 2 ) — совместный кумулянт ( x , y ) — не равен нулю. В случае, когда третий центральный момент скрытого регрессора x* отличен от нуля, формула сводится к
- Инструментальные переменные — регрессия, которая требует наличия определенных дополнительных переменных данных z , называемых инструментами . Эти переменные не должны коррелировать с ошибками в уравнении для зависимой (результатной) переменной ( действительной ), а также они должны быть коррелированы ( релевантны ) с истинными регрессорами x* . Если такие переменные можно найти, то оценка принимает вид
- Среднегеометрическое функциональное соотношение. При этом обе переменные рассматриваются как имеющие одинаковую надежность. Полученный наклон представляет собой среднее геометрическое наклона обычного метода наименьших квадратов и наклона обратного метода наименьших квадратов, то есть двух красных линий на диаграмме. [13]
Многомерная линейная модель
[ редактировать ]Многопараметрическая модель выглядит точно так же, как простая линейная модель, только на этот раз β , η t , x t и x* t являются векторами k × 1.
В случае, когда ( ε t , η t ) совместно нормально, параметр β не идентифицируется тогда и только тогда, когда существует неособая блочная матрица k × k [ a A ], где a - вектор k × 1, такой что a’x* распределяется нормально и независимо от A’x* . В случае, когда ε t , η t1 ,..., η tk взаимно независимы, параметр β не идентифицируется тогда и только тогда, когда в дополнение к указанным выше условиям некоторые ошибки можно записать в виде суммы двух независимых переменных один из них нормальный. [14]
Некоторые из методов оценки для линейных моделей с несколькими переменными:
- Суммарный метод наименьших квадратов является расширением регрессии Деминга для многомерных условий. Когда все k +1 компоненты вектора ( ε , η ) имеют равные дисперсии и независимы, это эквивалентно выполнению ортогональной регрессии y на векторе x — то есть регрессии, которая минимизирует сумму квадратов расстояний между точки ( y t , x t ) и k -мерная гиперплоскость «наилучшего соответствия».
- Метод моментов оценки [15] может быть построена на основе моментных условий E[ z t ·( y t − α − β'x t )] = 0, где (5 k +3)-мерный вектор инструментов z t определяется как
где обозначает Адамара произведение матриц , а переменные x t , y t были предварительно обесценены. Авторы метода предлагают использовать модифицированную оценку IV Фуллера. [16]
При необходимости этот метод можно расширить, чтобы использовать моменты выше третьего порядка и учитывать переменные, измеренные без ошибок. [17] - Подход инструментальных переменных требует от нас найти дополнительные переменные данных z t , которые служат инструментами для неправильно измеренных регрессоров x t . Этот метод является наиболее простым с точки зрения реализации, однако его недостатком является необходимость сбора дополнительных данных, что может быть дорогостоящим или даже невозможным. Когда инструменты найдены, оценщик принимает стандартную форму.
- Подход беспристрастной аппроксимации рассматривает все переменные одинаково, предполагая одинаковую надежность, и не требует какого-либо различия между объясняющими и ответными переменными, поскольку полученное уравнение можно перестроить. Это простейшая модель ошибки измерения, которая является обобщением упомянутой выше функциональной зависимости среднего геометрического для двух переменных. Для этого требуется только вычислить ковариации, и поэтому их можно оценить с помощью основных функций электронных таблиц. [18]
Нелинейные модели
[ редактировать ]Общая нелинейная модель ошибки измерения принимает форму
Здесь функция g может быть как параметрической, так и непараметрической. Когда функция g является параметрической, она записывается как g ( x *, β ).
Для общего векторного регрессора x* условия идентифицируемости модели неизвестны. Однако в случае скаляра x* модель идентифицируется, если только функция g не имеет «логарифмически-экспоненциальной» формы. [19]
а латентный регрессор x* имеет плотность
где константы A , B , C , D , E , F могут зависеть от a , b , c , d .
Несмотря на этот оптимистичный результат, на данный момент не существует методов оценки нелинейных моделей ошибок в переменных без какой-либо посторонней информации. Однако существует несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.
Методы инструментальных переменных
[ редактировать ]- Метод имитации моментов Ньюи [20] для параметрических моделей — требуется наличие дополнительного набора наблюдаемых переменных-предсказателей z t , таких, чтобы истинный регрессор можно было выразить как
где π 0 и σ 0 — (неизвестные) постоянные матрицы, а ζ t ⊥ z t . Коэффициент π 0 можно оценить с помощью стандартной методом наименьших квадратов регрессии x по z . Распределение ζ t неизвестно, однако мы можем смоделировать его как принадлежащее к гибкому параметрическому семейству — ряду Эджворта :
где φ — стандартное нормальное распределение.
Смоделированные моменты можно вычислить с помощью алгоритма выборки по важности : сначала мы генерируем несколько случайных величин { v ts ~ φ , s = 1,…, S , t = 1,…, T } из стандартного нормального распределения, затем вычисляем моменты при t -ом наблюдении как
где θ = ( β , σ , γ ), A — это просто некоторая функция инструментальных переменных z , а H — двухкомпонентный вектор моментов
Повторные наблюдения
[ редактировать ]два (или, возможно, более) повторных наблюдения регрессора x* В этом подходе доступны . Оба наблюдения содержат свои собственные ошибки измерения, однако эти ошибки должны быть независимыми:
где х* ⊥ η 1 ⊥ η 2 . Переменные η 1 , η 2 не обязательно должны быть одинаково распределены (хотя, если они распределены одинаково, эффективность оценки можно немного повысить). Имея только эти два наблюдения, можно последовательно оценить функцию плотности x*, Котларского используя метод деконволюции . [21]
- Метод условной плотности Ли для параметрических моделей. [22] Уравнение регрессии можно записать в терминах наблюдаемых переменных как
где можно было бы вычислить интеграл, если бы мы знали функцию условной плотности ƒ x*|x . Если бы эта функция была известна или оценена, то задача превращается в стандартную нелинейную регрессию, которую можно оценить, например, с помощью метода NLLS .
Полагая для простоты, что η 1 , η 2 одинаково распределены, эту условную плотность можно вычислить какгде с небольшим злоупотреблением обозначениями x j обозначает j -ю компоненту вектора.
Все плотности в этой формуле можно оценить с помощью обращения эмпирических характеристических функций . В частности,Чтобы инвертировать эти характеристические функции, необходимо применить обратное преобразование Фурье с параметром обрезки C, необходимым для обеспечения численной стабильности. Например:
- Оценка Шеннаха для параметрической модели, линейной по параметрам, нелинейной по переменным. [23] Это модель формы
где w t представляет собой переменные, измеренные без ошибок. Регрессор x* на случай вектора x* ). здесь является скалярным (метод можно распространить и
Если бы не ошибки измерения, это была бы стандартная линейная модель с оценщикомгде
Оказывается, все ожидаемые значения в этой формуле можно оценить с помощью одного и того же приема деконволюции. В частности, для общей наблюдаемой w t (которая может быть 1, w 1 t , …, w ℓ t или y t ) и некоторой функции h (которая может представлять любой g j или gi g j ) мы имеем
где φ h — преобразование Фурье h характеристических ( x* ), но с использованием того же соглашения, что и для функций ,
- ,
и
- Оценка Шеннаха для непараметрической модели. [24] Стандартная оценка Надарайи – Ватсона для непараметрической модели имеет вид
Ссылки
[ редактировать ]- ^ Гриличес, Цви; Рингстад, Видар (1970). «Смещение ошибок в переменных в нелинейном контексте». Эконометрика . 38 (2): 368–370. дои : 10.2307/1913020 . JSTOR 1913020 .
- ^ Чешер, Эндрю (1991). «Влияние ошибки измерения». Биометрика . 78 (3): 451–462. дои : 10.1093/biomet/78.3.451 . JSTOR 2337015 .
- ^ Кэрролл, Рэймонд Дж.; Руперт, Дэвид; Стефански, Леонард А.; Краиничану, Чиприан (2006). Ошибка измерения в нелинейных моделях: современный взгляд (второе изд.). ISBN 978-1-58488-633-4 .
- ^ Грин, Уильям Х. (2003). Эконометрический анализ (5-е изд.). Нью-Джерси: Прентис Холл. Глава 5.6.1. ISBN 978-0-13-066189-0 .
- ^ Вансбек, Т.; Мейер, Э. (2000). «Ошибка измерения и скрытые переменные» . В Балтаги, Б.Х. (ред.). Спутник теоретической эконометрики . Блэквелл. стр. 162–179. дои : 10.1111/b.9781405106764.2003.00013.x . ISBN 9781405106764 .
- ^ Хаусман, Джерри А. (2001). «Неизмеряемые переменные в эконометрическом анализе: проблемы справа и проблемы слева» . Журнал экономических перспектив . 15 (4): 57–67 [с. 58]. дои : 10.1257/jep.15.4.57 . JSTOR 2696516 .
- ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 2. ISBN 978-0-471-86187-4 .
- ^ Хаяси, Фумио (2000). Эконометрика . Издательство Принстонского университета. стр. 7–8. ISBN 978-1400823833 .
- ^ Коул, Хира; Песня, Вэйсин (2008). «Проверка регрессионной модели с ошибками измерения Берксона». Журнал статистического планирования и выводов . 138 (6): 1615–1628. дои : 10.1016/j.jspi.2007.05.048 .
- ^ Рейерсёл, Олав (1950). «Идентифицируемость линейной зависимости между переменными, подверженными ошибкам». Эконометрика . 18 (4): 375–389 [с. 383]. дои : 10.2307/1907835 . JSTOR 1907835 . Несколько более ограничительный результат был получен ранее Гири, RC (1942). «Внутренние отношения между случайными величинами». Труды Королевской ирландской академии . 47 : 63–76. JSTOR 20488436 . Он показал, что при дополнительном предположении, что ( ε, η ) совместно нормальны, модель не идентифицируется тогда и только тогда, когда x* s нормальны.
- ^ Фуллер, Уэйн А. (1987). «Одна поясняющая переменная» . Модели ошибок измерения . Джон Уайли и сыновья. стр. 1–99. ISBN 978-0-471-86187-4 .
- ^ Пал, Маноранджан (1980). «Согласованные моментные оценки коэффициентов регрессии при наличии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). дои : 10.1016/0304-4076(80)90032-9 .
- ^ Сюй, Шаоцзи (2 октября 2014 г.). «Свойство регрессии среднего геометрического» . Американский статистик . 68 (4): 277–281. дои : 10.1080/00031305.2014.962763 . ISSN 0003-1305 .
- ^ Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками по всем переменным». Эконометрическая теория . 37 (4): 1–31. arXiv : 1404.1473 . дои : 10.1017/S0266466620000250 . S2CID 225653359 .
- ^ Дажене, Марсель Г.; Дагенайс, Дениз Л. (1997). «Оценщики высших моментов для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . дои : 10.1016/0304-4076(95)01789-5 . В более ранней статье Пал (1980) рассмотрел более простой случай, когда все компоненты вектора ( ε , η ) независимы и симметрично распределены.
- ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 184. ИСБН 978-0-471-86187-4 .
- ^ Эриксон, Тимоти; Уайтед, Тони М. (2002). «Двухэтапная GMM-оценка модели ошибок в переменных с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. дои : 10.1017/s0266466602183101 . JSTOR 3533649 . S2CID 14729228 .
- ^ Тофалис, К. (2023). Беспристрастная подгонка уравнения к данным. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957.
- ^ Шеннах, С. ; Ху, Ю.; Левбель, А. (2007). «Непараметрическая идентификация классической модели ошибок в переменных без дополнительной информации» . Рабочий документ .
- ^ Ньюи, Уитни К. (2001). «Гибкая моделируемая оценка момента нелинейной модели ошибок в переменных». Обзор экономики и статистики . 83 (4): 616–627. дои : 10.1162/003465301753237704 . hdl : 1721.1/63613 . JSTOR 3211757 . S2CID 57566922 .
- ^ Ли, Тонг; Выонг, Куанг (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких показателей» . Журнал многомерного анализа . 65 (2): 139–165. дои : 10.1006/jmva.1998.1741 .
- ^ Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей ошибок в переменных». Журнал эконометрики . 110 (1): 1–26. дои : 10.1016/S0304-4076(02)00120-3 .
- ^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с ошибкой измерения». Эконометрика . 72 (1): 33–75. дои : 10.1111/j.1468-0262.2004.00477.x . JSTOR 3598849 .
- ^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия при наличии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. дои : 10.1017/S0266466604206028 . S2CID 123036368 .
Дальнейшее чтение
[ редактировать ]- Догерти, Кристофер (2011). «Стохастические регрессоры и ошибки измерения» . Введение в эконометрику (Четвертое изд.). Издательство Оксфордского университета. стр. 300–330. ISBN 978-0-19-956708-9 .
- Кмента, Ян (1986). «Оценка с недостаточными данными» . Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. стр. 346–391 . ISBN 978-0-02-365070-3 .
- Шеннах, Сюзанна (2013). «Ошибка измерения в нелинейных моделях – обзор». В Аджемоглу, Дарон; Арельяно, Мануэль; Декель, Эдди (ред.). Достижения в области экономики и эконометрики . Издательство Кембриджского университета. стр. 296–337. дои : 10.1017/CBO9781139060035.009 . hdl : 10419/79526 . ISBN 9781107017214 .
Внешние ссылки
[ редактировать ]- Исторический обзор линейной регрессии с ошибками в обеих переменных , Дж. В. Гиллард, 2006 г.
- Лекция по эконометрике (тема: Стохастические регрессоры и ошибки измерения) на YouTube Марка Тома .