Ошибки моделей

В статистике модели ошибок в испачках или модели ошибок измерения представляют собой регрессионные модели , которые учитывают ошибки измерения в независимых переменных . Напротив, стандартные регрессионные модели предполагают, что эти регрессоры были измерены точно или наблюдались без ошибок; Таким образом, эти модели учитывают только для ошибок в зависимых переменных или ответах. ^{[ Цитация необходима ]}

В случае, когда некоторые регрессоры были измерены с помощью ошибок, оценка, основанная на стандартном предположении, приводит к противоречивым оценкам, что означает, что оценки параметров не имеют тенденции к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффект является недооценкой коэффициента, известного как смещение ослабления . В нелинейных моделях направление смещения, вероятно, будет более сложным. ^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}

Мотивирующий пример

Рассмотрим простую модель линейной регрессии формы

y_{t}=\alpha +\beta x_{t}^{*}+\varepsilon _{t}\,,\quad t=1,\ldots ,T,

где $x_{t}^{*}$ Обозначает истинный , но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:

x_{t}=x_{t}^{*}+\eta _{t}\,

где ошибка измерения $\eta _{t}$ предполагается, что не зависит от истинной ценности $x_{t}^{*}$ .
Практическое применение - это стандартный школьный научный эксперимент по закону Гука , в котором оценивает взаимосвязь между весом, добавленным к пружине, и количеством, на которое растягивается пружина.
Если $y_{t}$ ′ Просто регрессируют на $x_{t}$ S (см. Простую линейную регрессию ), то оценка коэффициента наклона

{\hat {\beta }}_{x}={\frac {{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}-{\bar {x}})(y_{t}-{\bar {y}})}{{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}-{\bar {x}})^{2}}}\,,

который сходится как размер выборки $T$ увеличивается без связанного:

{\hat {\beta }}_{x}\xrightarrow {p} {\frac {\operatorname {Cov} [\,x_{t},y_{t}\,]}{\operatorname {Var} [\,x_{t}\,]}}={\frac {\beta \sigma _{x^{*}}^{2}}{\sigma _{x^{*}}^{2}+\sigma _{\eta }^{2}}}={\frac {\beta }{1+\sigma _{\eta }^{2}/\sigma _{x^{*}}^{2}}}\,.

Это в отличие от «истинного» эффекта $\beta$ , оценивается с использованием $x_{t}^{*}$ ,:

{\hat {\beta }}={\frac {{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}^{*}-{\bar {x}})(y_{t}-{\bar {y}})}{{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}^{*}-{\bar {x}})^{2}}}\,,

Отклонения неотрицательны, так что в пределах оцененный ${\hat {\beta }}_{x}$ меньше ${\hat {\beta }}$ , эффект, который статистики называют ослаблением или разведением регрессии . ^{[ 4 ]} Таким образом, «наивная» оценка наименьших квадратов ${\hat {\beta }}_{x}$ является непоследовательной оценкой для $\beta$ Полем Однако, ${\hat {\beta }}_{x}$ является последовательной оценкой параметра, необходимого для лучшего линейного предиктора $y$ Учитывая наблюдение $x_{t}$ : В некоторых приложениях это может быть то, что требуется, а не оценка «истинного» коэффициента регрессии $\beta$ , хотя это предполагает, что дисперсия ошибок в оценке и прогнозировании идентична. Это следует непосредственно из результата, указанного непосредственно выше, и того факта, что коэффициент регрессии, относящийся к $y_{t}$ ′ С фактически наблюдаемым $x_{t}$ S, в простой линейной регрессии, дается

\beta _{x}={\frac {\operatorname {Cov} [\,x_{t},y_{t}\,]}{\operatorname {Var} [\,x_{t}\,]}}.

Это этот коэффициент, а не $\beta$ , это потребуется для построения предиктора $y$ на основе наблюдаемого $x$ который подлежит шуму.

Можно утверждать, что почти все существующие наборы данных содержат ошибки различной природы и величины, так что смещение ослабления чрезвычайно часто (хотя при многомерной регрессии направление смещения является неоднозначным ^{[ 5 ]}) Джерри Хаусман рассматривает это как железный закон эконометрики : «Величина оценки обычно меньше, чем ожидалось». ^{[ 6 ]}

Спецификация

Обычно модели ошибок измерения описаны с использованием подхода скрытых переменных . Если $y$ является переменной ответа и $x$ наблюдаются значения регрессоров, тогда предполагается, что существуют некоторые скрытые переменные $y^{*}$ и $x^{*}$ модели которые следуют за «истинными» функциональными отношениями $g(\cdot )$ и так, что наблюдаемые величины являются их шумными наблюдениями:

{\begin{cases}y^{*}=g(x^{*}\!,w\,|\,\theta ),\\y=y^{*}+\varepsilon ,\\x=x^{*}+\eta ,\end{cases}}

где $\theta$ модели параметр и $w$ Являются ли те регрессоры, которые, как предполагается, являются без ошибок (например, когда линейная регрессия содержит перехват, регрессор, который соответствует константу, безусловно, не имеет «ошибок измерения»). В зависимости от спецификации эти без ошибки регрессоры могут или не могут рассматриваться отдельно; В последнем случае просто предполагается, что соответствующие записи в матрице дисперсии $\eta$ 'a Zero.

Переменные $y$ , $x$ , $w$ все наблюдаются , что означает, что статистик обладает данных набором $n$ статистические единицы $\left\{y_{i},x_{i},w_{i}\right\}_{i=1,\dots ,n}$ которые следуют процессу генерирования данных, описанный выше; скрытые переменные $x^{*}$ , $y^{*}$ , $\varepsilon$ , и $\eta$ однако не наблюдаются.

Эта спецификация не охватывает все существующие модели ошибок. Например, в некоторых из них функционируют $g(\cdot )$ может быть непараметрическим или полупараметрическим. Другие подходы моделируют взаимосвязь между $y^{*}$ и $x^{*}$ как распределение вместо функционального, то есть они предполагают, что $y^{*}$ условно на $x^{*}$ следует определенному (обычно параметрическому) распределению.

Терминология и предположения

Наблюдаемая переменная $x$ может называться манифестом , индикатором или прокси -переменной .
Неисправная переменная $x^{*}$ может называться скрытой или истинной переменной. Это может рассматриваться как неизвестная константа (в этом случае модель называется функциональной моделью ), либо как случайная величина (соответственно структурная модель ). ^{[ 7 ]}
Взаимосвязь между ошибкой измерения $\eta$ ${\ Displastyle \ eta}$ и скрытая переменная $x^{*}$ ${\ displayStyle x^{*}}$ может быть смоделирован по -разному:
- Классические ошибки : $\eta \perp x^{*}$ Ошибки не зависят от скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вводятся измерительным устройством, и их величина не зависит от измеренного значения.
- Средняя независимость : $\operatorname {E} [\eta |x^{*}]\,=\,0,$ Ошибки являются средне-нулевыми для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое, ^{[ 8 ]} поскольку это позволяет присутствовать гетероскедастичности или других эффектов в ошибках измерения.
- Ошибки Берксона : $\eta \,\perp \,x,$ Ошибки не зависят от наблюдаемого регрессора x . ^{[ 9 ]} Это предположение имеет очень ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека* является непрерывной случайной величиной , тогда как наблюдаемый возраст усекается до следующего наименьшего целого числа, то ошибка усечения приблизительно не зависит от наблюдаемого возраста . Другая возможность - эксперимент с фиксированным дизайном: например, если ученый решает провести измерение в определенный момент времени. $x$ , скажем в $x=10s$ , тогда реальное измерение может произойти при каком -то другом значении $x^{*}$ (Например, из -за ее конечного времени реакции) и такая ошибка измерения, как правило, не зависит от «наблюдаемого» значения регрессора.
- Ошибки неправильной классификации : особый случай, используемый для фиктивных регрессоров . Если $x^{*}$ является индикатором определенного события или состояния (например, человек - это мужчина/женщина, некоторое медицинское лечение/нет и т. Д.), тогда ошибка измерения в таком регрессоре будет соответствовать неверной классификации, аналогичной ошибкам типа I и типа II в статистическом тестировании. В этом случае ошибка $\eta$ может занять только 3 возможных значения, а его распределение условное на $x^{*}$ моделируется с двумя параметрами: $\alpha =\operatorname {Pr} [\eta =-1|x^{*}=1]$ , и $\beta =\operatorname {Pr} [\eta =1|x^{*}=0]$ Полем Необходимым условием для идентификации является то, что $\alpha +\beta <1$ Это неправильная классификация не должна происходить «слишком часто». (Эта идея может быть обобщена для дискретных переменных с более чем двумя возможными значениями.)

Линейная модель

В первую очередь были изучены линейные ошибки в разных моделях, вероятно, потому, что линейные модели были настолько широко использованы, и они легче, чем нелинейные. В отличие от стандартной регрессии наименьших квадратов (OLS), расширение ошибок в регрессии переменных (EIV) от простых до многофункционального случая не является простым, если только кто -то не рассматривает все переменные одинаково, т. Е. Принимают достоверность. ^{[ 10 ]}

Простая линейная модель

Простые линейные ошибки в исходных условиях уже были представлены в разделе «Мотивация»:

{\begin{cases}y_{t}=\alpha +\beta x_{t}^{*}+\varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t},\end{cases}}

где все переменные скалярны . Здесь α и β представляют собой интересующие параметры, тогда как σ _ε и σ _η - стандартные отклонения терминов ошибки - являются параметрами неприятностей . «Истинный» регрессор X* рассматривается как случайная переменная ( структурная модель), независимо от ошибки измерения η ( классическое предположение).

Эта модель идентифицируется в двух случаях: (1) либо скрытый регрессор x* обычно не распределяется , (2) или x* не имеет нормального распределения, но ни ε _t , ни η _t не делится при нормальном распределении. ^{[ 11 ]} То есть параметры α , β можно последовательно оцениваться по набору данных $\scriptstyle (x_{t},\,y_{t})_{t=1}^{T}$ Без какой -либо дополнительной информации при условии, что скрытый регрессор не является гауссовым.

До того, как этот результат идентификации был установлен, статистики попытались применить метод максимального правдоподобия , предполагая, что все переменные являются нормальными, а затем пришли к выводу, что модель не идентифицирована. Предлагаемое лекарство должно было предположить , что некоторые параметры модели известны или могут быть оценены из внешнего источника. Такие методы оценки включают ^{[ 12 ]}

Деминг регрессия - предполагает, что отношение Δ = σ² _ε / σ² _η известно. Это может быть подходящим, например, когда ошибки в Y и X вызваны измерениями, и известна точность измерительных устройств или процедур. Случай, когда Δ = 1 также известен как ортогональная регрессия .
Регрессия с известным коэффициентом надежности λ = σ² _∗ / ( σ² _η + σ² _∗ ), где σ² _∗ является дисперсией скрытого регрессора. Такой подход может быть применим, например, при повторении измерений одной и той же единицы доступны или когда коэффициент надежности был известен из независимого исследования. В этом случае последовательная оценка наклона равна оценке наименьших квадратов, деленной на λ .
Регрессия с известным σ² _η может возникнуть, когда известен источник ошибок в x и их дисперсию можно рассчитать. Это может включать ошибки округления или ошибки, введенные измерительным устройством. Когда σ² _η известно, мы можем вычислить коэффициент надежности как λ = ( σ² _x - σ² _η ) / σ² _x и уменьшить проблему до предыдущего случая.

Методы оценки, которые не предполагают знания о некоторых параметрах модели, включают

Метод моментов- оценка GMM на основе третьего (или более высокого) порядок кумулянтов суставов наблюдаемых переменных. Коэффициент наклона может быть оценен по ^{[ 13 ]}
${\hat {\beta }}={\frac {{\hat {K}}(n_{1},n_{2}+1)}{{\hat {K}}(n_{1}+1,n_{2})}},\quad n_{1},n_{2}>0,$

где ( n ₁ , n ₂ ) таковы, что k ( n ₁ +1, n ₂ ) - кумулянт сустава ( x , y ) - не равна нулю. В случае, когда третий центральный момент скрытого регрессора x* не нулевой, формула сводится к

${\hat {\beta }}={\frac {{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}-{\bar {x}})(y_{t}-{\bar {y}})^{2}}{{\tfrac {1}{T}}\sum _{t=1}^{T}(x_{t}-{\bar {x}})^{2}(y_{t}-{\bar {y}})}}\ .$
Инструментальные переменные - была доступна регрессия, которая требует, чтобы определенные дополнительные переменные данных Z , называемые инструментами . Эти переменные должны быть некоррелированы с ошибками в уравнении для зависимой (результата) переменной ( допустимым ), и они также должны быть коррелированы ( актуально ) с истинными регрессорами x* . Если такие переменные можно найти, то оценщик принимает форму
${\hat {\beta }}={\frac {{\tfrac {1}{T}}\sum _{t=1}^{T}(z_{t}-{\bar {z}})(y_{t}-{\bar {y}})}{{\tfrac {1}{T}}\sum _{t=1}^{T}(z_{t}-{\bar {z}})(x_{t}-{\bar {x}})}}\ .$
Геометрические средние функциональные отношения. Это рассматривает обе переменные как имеющие одинаковую надежность. Полученным наклоном является среднее геометрическое значение обычного наклона наименьших квадратов и наклона обратного наименьшего квадрата, то есть две красные линии на диаграмме. ^{[ 14 ]}

Многовариантная линейная модель

Многовариантная модель выглядит точно так же, как простая линейная модель, только на этот раз β , η _t , x _t и x* _t являются K × векторами 1.

{\begin{cases}y_{t}=\alpha +\beta 'x_{t}^{*}+\varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t}.\end{cases}}

В случае, когда ( ε _t , η _t ) совместно нормально, параметр β не идентифицируется тогда, если и только если есть не-симулярная K × k матрица блока [ A ], где a - вектор × 1 такой что A'x* распределяется нормально и независимо от A'x* . В случае, когда ε _t , η _t1 , ..., η _tk, взаимно независимы, параметр β не идентифицируется тогда и только тогда, когда в дополнение к условиям выше некоторых ошибок может быть записано как сумма двух независимых переменных один из которых нормальный. ^{[ 15 ]}

Некоторые из методов оценки для многовариантных линейных моделей

Общее наименьшее квадраты - это расширение регрессии Деминга на многомерную настройку. все компоненты K +1 вектора ( , η ) отклонения и являются независимы Когда имеют равные ε Точки ( y _t , x _t ) и k -мерная гиперплоскость «наилучшей подгонки».
Метод моментов оценки ^{[ 16 ]} может быть сконструировано на основе моментных условий e [ z _t · ( y _t - α - β'x _t )] = 0, где (5 K +3) -мерный вектор инструментов z _t определяется как
${\begin{aligned}&z_{t}=\left(1\ z_{t1}'\ z_{t2}'\ z_{t3}'\ z_{t4}'\ z_{t5}'\ z_{t6}'\ z_{t7}'\right)',\quad {\text{where}}\\&z_{t1}=x_{t}\circ x_{t}\\&z_{t2}=x_{t}y_{t}\\&z_{t3}=y_{t}^{2}\\&z_{t4}=x_{t}\circ x_{t}\circ x_{t}-3{\big (}\operatorname {E} [x_{t}x_{t}']\circ I_{k}{\big )}x_{t}\\&z_{t5}=x_{t}\circ x_{t}y_{t}-2{\big (}\operatorname {E} [y_{t}x_{t}']\circ I_{k}{\big )}x_{t}-y_{t}{\big (}\operatorname {E} [x_{t}x_{t}']\circ I_{k}{\big )}\iota _{k}\\&z_{t6}=x_{t}y_{t}^{2}-\operatorname {E} [y_{t}^{2}]x_{t}-2y_{t}\operatorname {E} [x_{t}y_{t}]\\&z_{t7}=y_{t}^{3}-3y_{t}\operatorname {E} [y_{t}^{2}]\end{aligned}}$

где $\circ$ Определяет продукт хадамарда матриц, и переменные X _T , Y _T были предварительно оснащены. Авторы метода предлагают использовать модифицированный IV оценщик Fuller. ^{[ 17 ]}

Этот метод может быть расширен для использования моментов выше третьего порядка, если это необходимо, и для размещения переменных, измеренных без ошибок. ^{[ 18 ]}
Подход « Инструментальные переменные» , чтобы мы находили дополнительные переменные данных Z _T , которые служат инструментами для неправильных регрессоров x _T. требует Этот метод является самым простым с точки зрения реализации, однако его недостаток заключается в том, что он требует сбора дополнительных данных, которые могут быть дорогостоящими или даже невозможными. Когда инструменты можно найти, оценщик принимает стандартную форму
${\hat {\beta }}={\big (}X'Z(Z'Z)^{-1}Z'X{\big )}^{-1}X'Z(Z'Z)^{-1}Z'y.$
Беспристрастный подход к подходу обрабатывает все переменные одинаковым образом, предполагая одинаковую надежность и не требует какого -либо различия между объяснительными переменными и переменными ответа, поскольку полученное уравнение может быть перестановлено. Это самая простая модель ошибок измерения, и это обобщение геометрического среднего функционального отношения, упомянутого выше для двух переменных. Это только требует, чтобы ковариации были рассчитаны, и поэтому можно оценить с использованием основных функций электронных таблиц. ^{[ 19 ]}

Нелинейные модели

Общая нелинейная модель ошибок измерения принимает форму

{\begin{cases}y_{t}=g(x_{t}^{*})+\varepsilon _{t},\\x_{t}=x_{t}^{*}+\eta _{t}.\end{cases}}

Здесь функция G может быть либо параметрической, либо непараметрической. Когда функция G является параметрической, она будет записана как g ( x *, β ).

Для общего векторного регрессора x* условия для идентификации модели не известны. Однако в случае скалярного x* модель идентифицирована, если функция g не имеет «логической экспоненциальной» формы ^{[ 20 ]}

g(x^{*})=a+b\ln {\big (}e^{cx^{*}}+d{\big )}

и скрытый регрессор x* имеет плотность

f_{x^{*}}(x)={\begin{cases}Ae^{-Be^{Cx}+CDx}(e^{Cx}+E)^{-F},&{\text{if}}\ d>0\\Ae^{-Bx^{2}+Cx}&{\text{if}}\ d=0\end{cases}}

где константы a , b , c , d , e , f могут зависеть от A , b , c , d .

Несмотря на этот оптимистичный результат, на данный момент не существует никаких методов для оценки нелинейных моделей ошибок без каких-либо посторонней информации. Однако есть несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.

Инструментальные переменные методы

Метод смоделированных моментов Ньюи ^{[ 21 ]} Для параметрических моделей - требует, чтобы был дополнительный набор наблюдаемых предикторов z _t , чтобы истинный регрессор мог быть выражен как
$x_{t}^{*}=\pi _{0}'z_{t}+\sigma _{0}\zeta _{t},$

где π ₀ и σ ₀ являются (неизвестны) постоянными матрицами и ζ _t ⊥ z _t . Коэффициент π ₀ может быть оценен с использованием стандартной наименьших квадратов регрессии x на z . Распределение ζ _T неизвестно, однако мы можем моделировать его как принадлежащее гибкому параметрическому семейству - серия Edgeworth :

$f_{\zeta }(v;\,\gamma )=\phi (v)\,\textstyle \sum _{j=1}^{J}\!\gamma _{j}v^{j}$

где ϕ является стандартным нормальным распределением.
Смоделированные моменты могут быть рассчитаны с использованием алгоритма выборки важности : сначала мы генерируем несколько случайных переменных { v _ts ~ ϕ , s = 1,…, s , t = 1,…, t } из стандартного нормального распределения, затем мы вычисляем моменты При наблюдении

$m_{t}(\theta )=A(z_{t}){\frac {1}{S}}\sum _{s=1}^{S}H(x_{t},y_{t},z_{t},v_{ts};\theta )\sum _{j=1}^{J}\!\gamma _{j}v_{ts}^{j},$

где θ = ( β , σ , γ ), A -это лишь некоторая функция инструментальных переменных z , а H -двухкомпонентный вектор моментов

${\begin{aligned}&H_{1}(x_{t},y_{t},z_{t},v_{ts};\theta )=y_{t}-g({\hat {\pi }}'z_{t}+\sigma v_{ts},\beta ),\\&H_{2}(x_{t},y_{t},z_{t},v_{ts};\theta )=z_{t}y_{t}-({\hat {\pi }}'z_{t}+\sigma v_{ts})g({\hat {\pi }}'z_{t}+\sigma v_{ts},\beta )\end{aligned}}$
С моментами функции M _T можно применить стандартную методику GMM для оценки неизвестного параметра θ .

Повторные наблюдения

два (или, может быть, больше) повторных наблюдения регрессора x* В этом подходе доступны . Оба наблюдения содержат свои собственные ошибки измерения, однако эти ошибки должны быть независимыми:

{\begin{cases}x_{1t}=x_{t}^{*}+\eta _{1t},\\x_{2t}=x_{t}^{*}+\eta _{2t},\end{cases}}

где x* ⊥ η ₁ ⊥ η ₂ . Переменные η ₁ , η ₂ не должны быть одинаковыми распределены (хотя, если они являются эффективностью оценщика могут быть немного улучшены). При только этих двух наблюдениях можно последовательно оценивать функцию плотности x*, Котларского используя технику деконволюции . ^{[ 22 ]}

Метод условной плотности Ли для параметрических моделей. ^{[ 23 ]} Уравнение регрессии может быть записано в терминах наблюдаемых переменных как
$\operatorname {E} [\,y_{t}|x_{t}\,]=\int g(x_{t}^{*},\beta )f_{x^{*}|x}(x_{t}^{*}|x_{t})dx_{t}^{*},$

где можно было бы вычислить интеграл, если бы мы знали функцию условной плотности ƒ _{x*| x} . Если эта функция может быть известна или оценена, то проблема превращается в стандартную нелинейную регрессию, которая может быть оценена, например, с использованием метода NLLS .
Предполагая, что для простоты, что η ₁ , η ₂ идентично распределены, эта условная плотность может быть рассчитана как

${\hat {f}}_{x^{*}|x}(x^{*}|x)={\frac {{\hat {f}}_{x^{*}}(x^{*})}{{\hat {f}}_{x}(x)}}\prod _{j=1}^{k}{\hat {f}}_{\eta _{j}}{\big (}x_{j}-x_{j}^{*}{\big )},$

где с небольшим злоупотреблением обозначениями x _J обозначает J -один компонент вектора.
Все плотности в этой формуле могут быть оценены с использованием инверсии эмпирических характерных функций . В частности,

${\begin{aligned}&{\hat {\varphi }}_{\eta _{j}}(v)={\frac {{\hat {\varphi }}_{x_{j}}(v,0)}{{\hat {\varphi }}_{x_{j}^{*}}(v)}},\quad {\text{where }}{\hat {\varphi }}_{x_{j}}(v_{1},v_{2})={\frac {1}{T}}\sum _{t=1}^{T}e^{iv_{1}x_{1tj}+iv_{2}x_{2tj}},\\{\hat {\varphi }}_{x_{j}^{*}}(v)=\exp \int _{0}^{v}{\frac {\partial {\hat {\varphi }}_{x_{j}}(0,v_{2})/\partial v_{1}}{{\hat {\varphi }}_{x_{j}}(0,v_{2})}}dv_{2},\\&{\hat {\varphi }}_{x}(u)={\frac {1}{2T}}\sum _{t=1}^{T}{\Big (}e^{iu'x_{1t}}+e^{iu'x_{2t}}{\Big )},\quad {\hat {\varphi }}_{x^{*}}(u)={\frac {{\hat {\varphi }}_{x}(u)}{\prod _{j=1}^{k}{\hat {\varphi }}_{\eta _{j}}(u_{j})}}.\end{aligned}}$

Чтобы инвертировать эту характерную функцию, необходимо применить обратное преобразование Фурье, с параметром обрезки C, необходимым для обеспечения численной стабильности. Например:

${\hat {f}}_{x}(x)={\frac {1}{(2\pi )^{k}}}\int _{-C}^{C}\cdots \int _{-C}^{C}e^{-iu'x}{\hat {\varphi }}_{x}(u)du.$
Оценка Шеннаха для параметрической модели линейно-в-параметров нелинейно-впальных. ^{[ 24 ]} Это модель формы
${\begin{cases}y_{t}=\textstyle \sum _{j=1}^{k}\beta _{j}g_{j}(x_{t}^{*})+\sum _{j=1}^{\ell }\beta _{k+j}w_{jt}+\varepsilon _{t},\\x_{1t}=x_{t}^{*}+\eta _{1t},\\x_{2t}=x_{t}^{*}+\eta _{2t},\end{cases}}$

где w _t представляет переменные, измеренные без ошибок. Регрессор X* здесь скалярно (метод может быть расширен до случая вектора X* ).
Если бы не ошибки измерения, это была бы стандартная линейная модель с оценкой

${\hat {\beta }}={\big (}{\hat {\operatorname {E} }}[\,\xi _{t}\xi _{t}'\,]{\big )}^{-1}{\hat {\operatorname {E} }}[\,\xi _{t}y_{t}\,],$

где

$\xi _{t}'=(g_{1}(x_{t}^{*}),\cdots ,g_{k}(x_{t}^{*}),w_{1,t},\cdots ,w_{l,t}).$

Оказывается, что все ожидаемые значения в этой формуле оцениваются с использованием того же уловка деконволюции. В частности, для общего наблюдаемого w _t (который может быть 1, w _{1 t} ,…, w _{ℓ t} или y _t ) и некоторая функция h (что может представлять собой любую g _j или g _i g _j ), у нас есть

$\operatorname {E} [\,w_{t}h(x_{t}^{*})\,]={\frac {1}{2\pi }}\int _{-\infty }^{\infty }\varphi _{h}(-u)\psi _{w}(u)du,$

где φ _h - это преобразование Фурье H характерных ( x* ), но использует то же соглашение, что и для функций ,

$\varphi _{h}(u)=\int e^{iux}h(x)dx$ ,

и

$\psi _{w}(u)=\operatorname {E} [\,w_{t}e^{iux^{*}}\,]={\frac {\operatorname {E} [w_{t}e^{iux_{1t}}]}{\operatorname {E} [e^{iux_{1t}}]}}\exp \int _{0}^{u}i{\frac {\operatorname {E} [x_{2t}e^{ivx_{1t}}]}{\operatorname {E} [e^{ivx_{1t}}]}}dv$
Полученная оценка $\scriptstyle {\hat {\beta }}$ является последовательным и асимптотически нормальным.
Оценка Шеннаха для непараметрической модели. ^{[ 25 ]} Стандартная оценка Надарая -Уотсон для непараметрической модели принимает форму
${\hat {g}}(x)={\frac {{\hat {\operatorname {E} }}[\,y_{t}K_{h}(x_{t}^{*}-x)\,]}{{\hat {\operatorname {E} }}[\,K_{h}(x_{t}^{*}-x)\,]}},$
Для подходящего выбора ядра K и полосы пропускания h . Оба ожидания здесь могут быть оценены с использованием той же техники, что и в предыдущем методе.

Ссылки

^ Griliches, ZVI; Ringstad, Vidar (1970). «Ошибки в разных смещениях в нелинейных контекстах». Econcemetrica . 38 (2): 368–370. doi : 10.2307/1913020 . JSTOR 1913020 .
^ Чесер, Эндрю (1991). «Эффект ошибки измерения». Биометрика . 78 (3): 451–462. doi : 10.1093/biomet/78.3.451 . JSTOR 2337015 .
^ Кэрролл, Рэймонд Дж.; Рупперт, Дэвид; Стефански, Леонард А.; Crainiceanu, Ciprian (2006). Ошибка измерения в нелинейных моделях: современная перспектива (второе изд.). ISBN 978-1-58488-633-4 .
^ Грин, Уильям Х. (2003). Эконометрический анализ (5 -е изд.). Нью -Джерси: Прентис Холл. Глава 5.6.1. ISBN 978-0-13-066189-0 .
^ Wansbeek, T.; Meijer, E. (2000). «Ошибка измерения и скрытые переменные» . В Балтаги, BH (ред.). Компаньон теоретической эконометрии . Блэквелл. С. 162–179. doi : 10.1111/b.9781405106764.2003.00013.x . ISBN 9781405106764 .
^ Хаусман, Джерри А. (2001). «Миластные переменные в эконометрическом анализе: проблемы справа и проблемы слева» . Журнал экономических перспектив . 15 (4): 57–67 [с. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516 .
^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 2. ISBN 978-0-471-86187-4 .
^ Хаяси, Фумио (2000). Эконометрика . ПРИЗНАЯ УНИВЕРСИТЕТА ПРИСЕТА. С. 7–8. ISBN 978-1400823833 .
^ Коул, Хира; Песня, Weixing (2008). «Проверка модели регрессии с ошибками измерения Берксона». Журнал статистического планирования и вывода . 138 (6): 1615–1628. doi : 10.1016/j.jspi.2007.05.048 .
^ Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.
^ Reiersøl, Olav (1950). «Идентификация линейной связи между переменными, которые подвергаются ошибке». Econcemetrica . 18 (4): 375–389 [с. 383]. doi : 10.2307/1907835 . JSTOR 1907835 . Несколько более ограниченный результат был установлен ранее Geary, RC (1942). «Необеспеченные отношения между случайными переменными». Труды Королевской ирландской академии . 47 : 63–76. JSTOR 20488436 . Он показал, что при дополнительном предположении, что ( ε, η ) совместно нормальны, модель не идентифицирована тогда и только тогда, когда x* s нормальны.
^ Фуллер, Уэйн А. (1987). «Единственная объяснительная переменная» . Модели ошибок измерения . Джон Уайли и сыновья. С. 1–99. ISBN 978-0-471-86187-4 .
^ Пал, Маноранджан (1980). «Последовательные оценки моментов коэффициентов регрессии в присутствии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). doi : 10.1016/0304-4076 (80) 90032-9 .
^ Сюй, Шаоджи (2014-10-02). «Свойство геометрической средней регрессии» . Американский статистик . 68 (4): 277–281. doi : 10.1080/00031305.2014.962763 . ISSN 0003-1305 .
^ Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками во всех переменных». Эконометрическая теория . 37 (4): 1–31. Arxiv : 1404.1473 . doi : 10.1017/s0266466620000250 . S2CID 225653359 .
^ Дагенас, Марсель Г.; Daagenais, Denyse L. (1997). «Оценки более высокого момента для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. Citeseerx 10.1.1.669.8286 . doi : 10.1016/0304-4076 (95) 01789-5 . В предыдущей статье PAL (1980) рассматривался более простой случай, когда все компоненты в векторе ( ε , η ) независимы и симметрично распределены.
^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 184. ISBN 978-0-471-86187-4 .
^ Эриксон, Тимоти; Whited, Toni M. (2002). «Двухступенчатая оценка GMM модели ошибок в variables с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. doi : 10.1017/s0266466602183101 . JSTOR 3533649 . S2CID 14729228 .
^ Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.
^ Шеннах С .; HU, Y.; Льюбель А. (2007). «Непараметрическая идентификация классической модели в исходных ошибках без побочной информации» . Рабочий документ .
^ Ньюи, Уитни К. (2001). «Гибкая моделируемая оценка модели нелинейных ошибок в модели в испачках». Обзор экономики и статистики . 83 (4): 616–627. doi : 10.1162/003465301753237704 . HDL : 1721.1/63613 . JSTOR 3211757 . S2CID 57566922 .
^ Ли, Тонг; Vuong, Quang (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких индикаторов» . Журнал многомерного анализа . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
^ Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей ошибок». Журнал эконометрики . 110 (1): 1–26. doi : 10.1016/s0304-4076 (02) 00120-3 .
^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с ошибкой измерения». Econcemetrica . 72 (1): 33–75. doi : 10.1111/j.1468-0262.2004.00477.x . JSTOR 3598849 .
^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия в присутствии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. doi : 10.1017/s0266466604206028 . S2CID 123036368 .

Дальнейшее чтение

Догерти, Кристофер (2011). «Стохастические регрессоры и ошибки измерения» . Введение в эконометрику (четвертое изд.). Издательство Оксфордского университета. С. 300–330. ISBN 978-0-19-956708-9 .
Kmenta, Jan (1986). «Оценка с дефицитными данными» . Элементы эконометрики (второе изд.). Нью -Йорк: Макмиллан. С. 346–391 . ISBN 978-0-02-365070-3 .
Шеннах, Сюзанна (2013). «Ошибка измерения в нелинейных моделях - обзор». В Acemoglu, Дарон; Ареллано, Мануэль; Dekel, Eddie (Eds.). Достижения в области экономики и эконометрики . Издательство Кембриджского университета. С. 296–337. doi : 10.1017/cbo9781139060035.009 . HDL : 10419/79526 . ISBN 9781107017214 .

Внешние ссылки

[1] Griliches, ZVI; Ringstad, Vidar (1970). «Ошибки в разных смещениях в нелинейных контекстах». Econcemetrica . 38 (2): 368–370. doi : 10.2307/1913020 . JSTOR 1913020 .

[2] Чесер, Эндрю (1991). «Эффект ошибки измерения». Биометрика . 78 (3): 451–462. doi : 10.1093/biomet/78.3.451 . JSTOR 2337015 .

[3] Кэрролл, Рэймонд Дж.; Рупперт, Дэвид; Стефански, Леонард А.; Crainiceanu, Ciprian (2006). Ошибка измерения в нелинейных моделях: современная перспектива (второе изд.). ISBN 978-1-58488-633-4 .

[4] Грин, Уильям Х. (2003). Эконометрический анализ (5 -е изд.). Нью -Джерси: Прентис Холл. Глава 5.6.1. ISBN 978-0-13-066189-0 .

[5] Wansbeek, T.; Meijer, E. (2000). «Ошибка измерения и скрытые переменные» . В Балтаги, BH (ред.). Компаньон теоретической эконометрии . Блэквелл. С. 162–179. doi : 10.1111/b.9781405106764.2003.00013.x . ISBN 9781405106764 .

[6] Хаусман, Джерри А. (2001). «Миластные переменные в эконометрическом анализе: проблемы справа и проблемы слева» . Журнал экономических перспектив . 15 (4): 57–67 [с. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516 .

[7] Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 2. ISBN 978-0-471-86187-4 .

[8] Хаяси, Фумио (2000). Эконометрика . ПРИЗНАЯ УНИВЕРСИТЕТА ПРИСЕТА. С. 7–8. ISBN 978-1400823833 .

[9] Коул, Хира; Песня, Weixing (2008). «Проверка модели регрессии с ошибками измерения Берксона». Журнал статистического планирования и вывода . 138 (6): 1615–1628. doi : 10.1016/j.jspi.2007.05.048 .

[10] Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.

[11] Reiersøl, Olav (1950). «Идентификация линейной связи между переменными, которые подвергаются ошибке». Econcemetrica . 18 (4): 375–389 [с. 383]. doi : 10.2307/1907835 . JSTOR 1907835 . Несколько более ограниченный результат был установлен ранее Geary, RC (1942). «Необеспеченные отношения между случайными переменными». Труды Королевской ирландской академии . 47 : 63–76. JSTOR 20488436 . Он показал, что при дополнительном предположении, что ( ε, η ) совместно нормальны, модель не идентифицирована тогда и только тогда, когда x* s нормальны.

[12] Фуллер, Уэйн А. (1987). «Единственная объяснительная переменная» . Модели ошибок измерения . Джон Уайли и сыновья. С. 1–99. ISBN 978-0-471-86187-4 .

[13] Пал, Маноранджан (1980). «Последовательные оценки моментов коэффициентов регрессии в присутствии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). doi : 10.1016/0304-4076 (80) 90032-9 .

[14] Сюй, Шаоджи (2014-10-02). «Свойство геометрической средней регрессии» . Американский статистик . 68 (4): 277–281. doi : 10.1080/00031305.2014.962763 . ISSN 0003-1305 .

[15] Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками во всех переменных». Эконометрическая теория . 37 (4): 1–31. Arxiv : 1404.1473 . doi : 10.1017/s0266466620000250 . S2CID 225653359 .

[16] Дагенас, Марсель Г.; Daagenais, Denyse L. (1997). «Оценки более высокого момента для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. Citeseerx 10.1.1.669.8286 . doi : 10.1016/0304-4076 (95) 01789-5 . В предыдущей статье PAL (1980) рассматривался более простой случай, когда все компоненты в векторе ( ε , η ) независимы и симметрично распределены.

[17] Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 184. ISBN 978-0-471-86187-4 .

[18] Эриксон, Тимоти; Whited, Toni M. (2002). «Двухступенчатая оценка GMM модели ошибок в variables с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. doi : 10.1017/s0266466602183101 . JSTOR 3533649 . S2CID 14729228 .

[19] Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.

[20] Шеннах С .; HU, Y.; Льюбель А. (2007). «Непараметрическая идентификация классической модели в исходных ошибках без побочной информации» . Рабочий документ .

[21] Ньюи, Уитни К. (2001). «Гибкая моделируемая оценка модели нелинейных ошибок в модели в испачках». Обзор экономики и статистики . 83 (4): 616–627. doi : 10.1162/003465301753237704 . HDL : 1721.1/63613 . JSTOR 3211757 . S2CID 57566922 .

[22] Ли, Тонг; Vuong, Quang (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких индикаторов» . Журнал многомерного анализа . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .

[23] Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей ошибок». Журнал эконометрики . 110 (1): 1–26. doi : 10.1016/s0304-4076 (02) 00120-3 .

[24] Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с ошибкой измерения». Econcemetrica . 72 (1): 33–75. doi : 10.1111/j.1468-0262.2004.00477.x . JSTOR 3598849 .

[25] Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия в присутствии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. doi : 10.1017/s0266466604206028 . S2CID 123036368 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]