Ошибки моделей
Часть серии на |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике модели ошибок в испачках или модели ошибок измерения представляют собой регрессионные модели , которые учитывают ошибки измерения в независимых переменных . Напротив, стандартные регрессионные модели предполагают, что эти регрессоры были измерены точно или наблюдались без ошибок; Таким образом, эти модели учитывают только для ошибок в зависимых переменных или ответах. [ Цитация необходима ]

В случае, когда некоторые регрессоры были измерены с помощью ошибок, оценка, основанная на стандартном предположении, приводит к противоречивым оценкам, что означает, что оценки параметров не имеют тенденции к истинным значениям даже в очень больших выборках. Для простой линейной регрессии эффект является недооценкой коэффициента, известного как смещение ослабления . В нелинейных моделях направление смещения, вероятно, будет более сложным. [ 1 ] [ 2 ] [ 3 ]
Мотивирующий пример
[ редактировать ]Рассмотрим простую модель линейной регрессии формы
где Обозначает истинный , но ненаблюдаемый регрессор . Вместо этого мы наблюдаем это значение с ошибкой:
где ошибка измерения предполагается, что не зависит от истинной ценности .
Практическое применение - это стандартный школьный научный эксперимент по закону Гука , в котором оценивает взаимосвязь между весом, добавленным к пружине, и количеством, на которое растягивается пружина.
Если ′ Просто регрессируют на S (см. Простую линейную регрессию ), то оценка коэффициента наклона
который сходится как размер выборки увеличивается без связанного:
Это в отличие от «истинного» эффекта , оценивается с использованием ,:
Отклонения неотрицательны, так что в пределах оцененный меньше , эффект, который статистики называют ослаблением или разведением регрессии . [ 4 ] Таким образом, «наивная» оценка наименьших квадратов является непоследовательной оценкой для Полем Однако, является последовательной оценкой параметра, необходимого для лучшего линейного предиктора Учитывая наблюдение : В некоторых приложениях это может быть то, что требуется, а не оценка «истинного» коэффициента регрессии , хотя это предполагает, что дисперсия ошибок в оценке и прогнозировании идентична. Это следует непосредственно из результата, указанного непосредственно выше, и того факта, что коэффициент регрессии, относящийся к ′ С фактически наблюдаемым S, в простой линейной регрессии, дается
Это этот коэффициент, а не , это потребуется для построения предиктора на основе наблюдаемого который подлежит шуму.
Можно утверждать, что почти все существующие наборы данных содержат ошибки различной природы и величины, так что смещение ослабления чрезвычайно часто (хотя при многомерной регрессии направление смещения является неоднозначным [ 5 ] ) Джерри Хаусман рассматривает это как железный закон эконометрики : «Величина оценки обычно меньше, чем ожидалось». [ 6 ]
Спецификация
[ редактировать ]Обычно модели ошибок измерения описаны с использованием подхода скрытых переменных . Если является переменной ответа и наблюдаются значения регрессоров, тогда предполагается, что существуют некоторые скрытые переменные и модели которые следуют за «истинными» функциональными отношениями и так, что наблюдаемые величины являются их шумными наблюдениями:
где модели параметр и Являются ли те регрессоры, которые, как предполагается, являются без ошибок (например, когда линейная регрессия содержит перехват, регрессор, который соответствует константу, безусловно, не имеет «ошибок измерения»). В зависимости от спецификации эти без ошибки регрессоры могут или не могут рассматриваться отдельно; В последнем случае просто предполагается, что соответствующие записи в матрице дисперсии 'a Zero.
Переменные , , все наблюдаются , что означает, что статистик обладает данных набором статистические единицы которые следуют процессу генерирования данных, описанный выше; скрытые переменные , , , и однако не наблюдаются.
Эта спецификация не охватывает все существующие модели ошибок. Например, в некоторых из них функционируют может быть непараметрическим или полупараметрическим. Другие подходы моделируют взаимосвязь между и как распределение вместо функционального, то есть они предполагают, что условно на следует определенному (обычно параметрическому) распределению.
Терминология и предположения
[ редактировать ]- Наблюдаемая переменная может называться манифестом , индикатором или прокси -переменной .
- Неисправная переменная может называться скрытой или истинной переменной. Это может рассматриваться как неизвестная константа (в этом случае модель называется функциональной моделью ), либо как случайная величина (соответственно структурная модель ). [ 7 ]
- Взаимосвязь между ошибкой измерения и скрытая переменная может быть смоделирован по -разному:
- Классические ошибки : Ошибки не зависят от скрытой переменной. Это наиболее распространенное предположение, оно подразумевает, что ошибки вводятся измерительным устройством, и их величина не зависит от измеренного значения.
- Средняя независимость : Ошибки являются средне-нулевыми для каждого значения скрытого регрессора. Это менее ограничительное предположение, чем классическое, [ 8 ] поскольку это позволяет присутствовать гетероскедастичности или других эффектов в ошибках измерения.
- Ошибки Берксона : Ошибки не зависят от наблюдаемого регрессора x . [ 9 ] Это предположение имеет очень ограниченную применимость. Одним из примеров являются ошибки округления: например, если возраст человека* является непрерывной случайной величиной , тогда как наблюдаемый возраст усекается до следующего наименьшего целого числа, то ошибка усечения приблизительно не зависит от наблюдаемого возраста . Другая возможность - эксперимент с фиксированным дизайном: например, если ученый решает провести измерение в определенный момент времени. , скажем в , тогда реальное измерение может произойти при каком -то другом значении (Например, из -за ее конечного времени реакции) и такая ошибка измерения, как правило, не зависит от «наблюдаемого» значения регрессора.
- Ошибки неправильной классификации : особый случай, используемый для фиктивных регрессоров . Если является индикатором определенного события или состояния (например, человек - это мужчина/женщина, некоторое медицинское лечение/нет и т. Д.), тогда ошибка измерения в таком регрессоре будет соответствовать неверной классификации, аналогичной ошибкам типа I и типа II в статистическом тестировании. В этом случае ошибка может занять только 3 возможных значения, а его распределение условное на моделируется с двумя параметрами: , и Полем Необходимым условием для идентификации является то, что Это неправильная классификация не должна происходить «слишком часто». (Эта идея может быть обобщена для дискретных переменных с более чем двумя возможными значениями.)
Линейная модель
[ редактировать ]В первую очередь были изучены линейные ошибки в разных моделях, вероятно, потому, что линейные модели были настолько широко использованы, и они легче, чем нелинейные. В отличие от стандартной регрессии наименьших квадратов (OLS), расширение ошибок в регрессии переменных (EIV) от простых до многофункционального случая не является простым, если только кто -то не рассматривает все переменные одинаково, т. Е. Принимают достоверность. [ 10 ]
Простая линейная модель
[ редактировать ]Простые линейные ошибки в исходных условиях уже были представлены в разделе «Мотивация»:
где все переменные скалярны . Здесь α и β представляют собой интересующие параметры, тогда как σ ε и σ η - стандартные отклонения терминов ошибки - являются параметрами неприятностей . «Истинный» регрессор X* рассматривается как случайная переменная ( структурная модель), независимо от ошибки измерения η ( классическое предположение).
Эта модель идентифицируется в двух случаях: (1) либо скрытый регрессор x* обычно не распределяется , (2) или x* не имеет нормального распределения, но ни ε t , ни η t не делится при нормальном распределении. [ 11 ] То есть параметры α , β можно последовательно оцениваться по набору данных Без какой -либо дополнительной информации при условии, что скрытый регрессор не является гауссовым.
До того, как этот результат идентификации был установлен, статистики попытались применить метод максимального правдоподобия , предполагая, что все переменные являются нормальными, а затем пришли к выводу, что модель не идентифицирована. Предлагаемое лекарство должно было предположить , что некоторые параметры модели известны или могут быть оценены из внешнего источника. Такие методы оценки включают [ 12 ]
- Деминг регрессия - предполагает, что отношение Δ = σ² ε / σ² η известно. Это может быть подходящим, например, когда ошибки в Y и X вызваны измерениями, и известна точность измерительных устройств или процедур. Случай, когда Δ = 1 также известен как ортогональная регрессия .
- Регрессия с известным коэффициентом надежности λ = σ² ∗ / ( σ² η + σ² ∗ ), где σ² ∗ является дисперсией скрытого регрессора. Такой подход может быть применим, например, при повторении измерений одной и той же единицы доступны или когда коэффициент надежности был известен из независимого исследования. В этом случае последовательная оценка наклона равна оценке наименьших квадратов, деленной на λ .
- Регрессия с известным σ² η может возникнуть, когда известен источник ошибок в x и их дисперсию можно рассчитать. Это может включать ошибки округления или ошибки, введенные измерительным устройством. Когда σ² η известно, мы можем вычислить коэффициент надежности как λ = ( σ² x - σ² η ) / σ² x и уменьшить проблему до предыдущего случая.
Методы оценки, которые не предполагают знания о некоторых параметрах модели, включают
- Метод моментов- оценка GMM на основе третьего (или более высокого) порядок кумулянтов суставов наблюдаемых переменных. Коэффициент наклона может быть оценен по [ 13 ]
где ( n 1 , n 2 ) таковы, что k ( n 1 +1, n 2 ) - кумулянт сустава ( x , y ) - не равна нулю. В случае, когда третий центральный момент скрытого регрессора x* не нулевой, формула сводится к
- Инструментальные переменные - была доступна регрессия, которая требует, чтобы определенные дополнительные переменные данных Z , называемые инструментами . Эти переменные должны быть некоррелированы с ошибками в уравнении для зависимой (результата) переменной ( допустимым ), и они также должны быть коррелированы ( актуально ) с истинными регрессорами x* . Если такие переменные можно найти, то оценщик принимает форму
- Геометрические средние функциональные отношения. Это рассматривает обе переменные как имеющие одинаковую надежность. Полученным наклоном является среднее геометрическое значение обычного наклона наименьших квадратов и наклона обратного наименьшего квадрата, то есть две красные линии на диаграмме. [ 14 ]
Многовариантная линейная модель
[ редактировать ]Многовариантная модель выглядит точно так же, как простая линейная модель, только на этот раз β , η t , x t и x* t являются K × векторами 1.
В случае, когда ( ε t , η t ) совместно нормально, параметр β не идентифицируется тогда, если и только если есть не-симулярная K × k матрица блока [ A ], где a - вектор × 1 такой что A'x* распределяется нормально и независимо от A'x* . В случае, когда ε t , η t1 , ..., η tk, взаимно независимы, параметр β не идентифицируется тогда и только тогда, когда в дополнение к условиям выше некоторых ошибок может быть записано как сумма двух независимых переменных один из которых нормальный. [ 15 ]
Некоторые из методов оценки для многовариантных линейных моделей
- Общее наименьшее квадраты - это расширение регрессии Деминга на многомерную настройку. все компоненты K +1 вектора ( , η ) отклонения и являются независимы Когда имеют равные ε Точки ( y t , x t ) и k -мерная гиперплоскость «наилучшей подгонки».
- Метод моментов оценки [ 16 ] может быть сконструировано на основе моментных условий e [ z t · ( y t - α - β'x t )] = 0, где (5 K +3) -мерный вектор инструментов z t определяется как
где Определяет продукт хадамарда матриц, и переменные X T , Y T были предварительно оснащены. Авторы метода предлагают использовать модифицированный IV оценщик Fuller. [ 17 ]
Этот метод может быть расширен для использования моментов выше третьего порядка, если это необходимо, и для размещения переменных, измеренных без ошибок. [ 18 ]
- Подход « Инструментальные переменные» , чтобы мы находили дополнительные переменные данных Z T , которые служат инструментами для неправильных регрессоров x T. требует Этот метод является самым простым с точки зрения реализации, однако его недостаток заключается в том, что он требует сбора дополнительных данных, которые могут быть дорогостоящими или даже невозможными. Когда инструменты можно найти, оценщик принимает стандартную форму
- Беспристрастный подход к подходу обрабатывает все переменные одинаковым образом, предполагая одинаковую надежность и не требует какого -либо различия между объяснительными переменными и переменными ответа, поскольку полученное уравнение может быть перестановлено. Это самая простая модель ошибок измерения, и это обобщение геометрического среднего функционального отношения, упомянутого выше для двух переменных. Это только требует, чтобы ковариации были рассчитаны, и поэтому можно оценить с использованием основных функций электронных таблиц. [ 19 ]
Нелинейные модели
[ редактировать ]Общая нелинейная модель ошибок измерения принимает форму
Здесь функция G может быть либо параметрической, либо непараметрической. Когда функция G является параметрической, она будет записана как g ( x *, β ).
Для общего векторного регрессора x* условия для идентификации модели не известны. Однако в случае скалярного x* модель идентифицирована, если функция g не имеет «логической экспоненциальной» формы [ 20 ]
и скрытый регрессор x* имеет плотность
где константы a , b , c , d , e , f могут зависеть от A , b , c , d .
Несмотря на этот оптимистичный результат, на данный момент не существует никаких методов для оценки нелинейных моделей ошибок без каких-либо посторонней информации. Однако есть несколько методов, которые используют некоторые дополнительные данные: либо инструментальные переменные, либо повторные наблюдения.
Инструментальные переменные методы
[ редактировать ]- Метод смоделированных моментов Ньюи [ 21 ] Для параметрических моделей - требует, чтобы был дополнительный набор наблюдаемых предикторов z t , чтобы истинный регрессор мог быть выражен как
где π 0 и σ 0 являются (неизвестны) постоянными матрицами и ζ t ⊥ z t . Коэффициент π 0 может быть оценен с использованием стандартной наименьших квадратов регрессии x на z . Распределение ζ T неизвестно, однако мы можем моделировать его как принадлежащее гибкому параметрическому семейству - серия Edgeworth :
где ϕ является стандартным нормальным распределением.
Смоделированные моменты могут быть рассчитаны с использованием алгоритма выборки важности : сначала мы генерируем несколько случайных переменных { v ts ~ ϕ , s = 1,…, s , t = 1,…, t } из стандартного нормального распределения, затем мы вычисляем моменты При наблюдении
где θ = ( β , σ , γ ), A -это лишь некоторая функция инструментальных переменных z , а H -двухкомпонентный вектор моментов
Повторные наблюдения
[ редактировать ]два (или, может быть, больше) повторных наблюдения регрессора x* В этом подходе доступны . Оба наблюдения содержат свои собственные ошибки измерения, однако эти ошибки должны быть независимыми:
где x* ⊥ η 1 ⊥ η 2 . Переменные η 1 , η 2 не должны быть одинаковыми распределены (хотя, если они являются эффективностью оценщика могут быть немного улучшены). При только этих двух наблюдениях можно последовательно оценивать функцию плотности x*, Котларского используя технику деконволюции . [ 22 ]
- Метод условной плотности Ли для параметрических моделей. [ 23 ] Уравнение регрессии может быть записано в терминах наблюдаемых переменных как
где можно было бы вычислить интеграл, если бы мы знали функцию условной плотности ƒ x*| x . Если эта функция может быть известна или оценена, то проблема превращается в стандартную нелинейную регрессию, которая может быть оценена, например, с использованием метода NLLS .
Предполагая, что для простоты, что η 1 , η 2 идентично распределены, эта условная плотность может быть рассчитана какгде с небольшим злоупотреблением обозначениями x J обозначает J -один компонент вектора.
Все плотности в этой формуле могут быть оценены с использованием инверсии эмпирических характерных функций . В частности,Чтобы инвертировать эту характерную функцию, необходимо применить обратное преобразование Фурье, с параметром обрезки C, необходимым для обеспечения численной стабильности. Например:
- Оценка Шеннаха для параметрической модели линейно-в-параметров нелинейно-впальных. [ 24 ] Это модель формы
где w t представляет переменные, измеренные без ошибок. Регрессор X* здесь скалярно (метод может быть расширен до случая вектора X* ).
Если бы не ошибки измерения, это была бы стандартная линейная модель с оценкойгде
Оказывается, что все ожидаемые значения в этой формуле оцениваются с использованием того же уловка деконволюции. В частности, для общего наблюдаемого w t (который может быть 1, w 1 t ,…, w ℓ t или y t ) и некоторая функция h (что может представлять собой любую g j или g i g j ), у нас есть
где φ h - это преобразование Фурье H характерных ( x* ), но использует то же соглашение, что и для функций ,
- ,
и
- Оценка Шеннаха для непараметрической модели. [ 25 ] Стандартная оценка Надарая -Уотсон для непараметрической модели принимает форму
Ссылки
[ редактировать ]- ^ Griliches, ZVI; Ringstad, Vidar (1970). «Ошибки в разных смещениях в нелинейных контекстах». Econcemetrica . 38 (2): 368–370. doi : 10.2307/1913020 . JSTOR 1913020 .
- ^ Чесер, Эндрю (1991). «Эффект ошибки измерения». Биометрика . 78 (3): 451–462. doi : 10.1093/biomet/78.3.451 . JSTOR 2337015 .
- ^ Кэрролл, Рэймонд Дж.; Рупперт, Дэвид; Стефански, Леонард А.; Crainiceanu, Ciprian (2006). Ошибка измерения в нелинейных моделях: современная перспектива (второе изд.). ISBN 978-1-58488-633-4 .
- ^ Грин, Уильям Х. (2003). Эконометрический анализ (5 -е изд.). Нью -Джерси: Прентис Холл. Глава 5.6.1. ISBN 978-0-13-066189-0 .
- ^ Wansbeek, T.; Meijer, E. (2000). «Ошибка измерения и скрытые переменные» . В Балтаги, BH (ред.). Компаньон теоретической эконометрии . Блэквелл. С. 162–179. doi : 10.1111/b.9781405106764.2003.00013.x . ISBN 9781405106764 .
- ^ Хаусман, Джерри А. (2001). «Миластные переменные в эконометрическом анализе: проблемы справа и проблемы слева» . Журнал экономических перспектив . 15 (4): 57–67 [с. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516 .
- ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 2. ISBN 978-0-471-86187-4 .
- ^ Хаяси, Фумио (2000). Эконометрика . ПРИЗНАЯ УНИВЕРСИТЕТА ПРИСЕТА. С. 7–8. ISBN 978-1400823833 .
- ^ Коул, Хира; Песня, Weixing (2008). «Проверка модели регрессии с ошибками измерения Берксона». Журнал статистического планирования и вывода . 138 (6): 1615–1628. doi : 10.1016/j.jspi.2007.05.048 .
- ^ Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.
- ^ Reiersøl, Olav (1950). «Идентификация линейной связи между переменными, которые подвергаются ошибке». Econcemetrica . 18 (4): 375–389 [с. 383]. doi : 10.2307/1907835 . JSTOR 1907835 . Несколько более ограниченный результат был установлен ранее Geary, RC (1942). «Необеспеченные отношения между случайными переменными». Труды Королевской ирландской академии . 47 : 63–76. JSTOR 20488436 . Он показал, что при дополнительном предположении, что ( ε, η ) совместно нормальны, модель не идентифицирована тогда и только тогда, когда x* s нормальны.
- ^ Фуллер, Уэйн А. (1987). «Единственная объяснительная переменная» . Модели ошибок измерения . Джон Уайли и сыновья. С. 1–99. ISBN 978-0-471-86187-4 .
- ^ Пал, Маноранджан (1980). «Последовательные оценки моментов коэффициентов регрессии в присутствии ошибок в переменных». Журнал эконометрики . 14 (3): 349–364 (стр. 360–361). doi : 10.1016/0304-4076 (80) 90032-9 .
- ^ Сюй, Шаоджи (2014-10-02). «Свойство геометрической средней регрессии» . Американский статистик . 68 (4): 277–281. doi : 10.1080/00031305.2014.962763 . ISSN 0003-1305 .
- ^ Бен-Моше, Дэн (2020). «Идентификация линейных регрессий с ошибками во всех переменных». Эконометрическая теория . 37 (4): 1–31. Arxiv : 1404.1473 . doi : 10.1017/s0266466620000250 . S2CID 225653359 .
- ^ Дагенас, Марсель Г.; Daagenais, Denyse L. (1997). «Оценки более высокого момента для моделей линейной регрессии с ошибками в переменных». Журнал эконометрики . 76 (1–2): 193–221. Citeseerx 10.1.1.669.8286 . doi : 10.1016/0304-4076 (95) 01789-5 . В предыдущей статье PAL (1980) рассматривался более простой случай, когда все компоненты в векторе ( ε , η ) независимы и симметрично распределены.
- ^ Фуллер, Уэйн А. (1987). Модели ошибок измерения . Джон Уайли и сыновья. п. 184. ISBN 978-0-471-86187-4 .
- ^ Эриксон, Тимоти; Whited, Toni M. (2002). «Двухступенчатая оценка GMM модели ошибок в variables с использованием моментов высокого порядка». Эконометрическая теория . 18 (3): 776–799. doi : 10.1017/s0266466602183101 . JSTOR 3533649 . S2CID 14729228 .
- ^ Tofallis, C. (2023). Подходящее уравнение к данным беспристрастно. Математика, 11 (18), https://ssrn.com/abstract=4556739 3957.
- ^ Шеннах С .; HU, Y.; Льюбель А. (2007). «Непараметрическая идентификация классической модели в исходных ошибках без побочной информации» . Рабочий документ .
- ^ Ньюи, Уитни К. (2001). «Гибкая моделируемая оценка модели нелинейных ошибок в модели в испачках». Обзор экономики и статистики . 83 (4): 616–627. doi : 10.1162/003465301753237704 . HDL : 1721.1/63613 . JSTOR 3211757 . S2CID 57566922 .
- ^ Ли, Тонг; Vuong, Quang (1998). «Непараметрическая оценка модели ошибки измерения с использованием нескольких индикаторов» . Журнал многомерного анализа . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
- ^ Ли, Тонг (2002). «Надежная и последовательная оценка нелинейных моделей ошибок». Журнал эконометрики . 110 (1): 1–26. doi : 10.1016/s0304-4076 (02) 00120-3 .
- ^ Шеннах, Сюзанна М. (2004). «Оценка нелинейных моделей с ошибкой измерения». Econcemetrica . 72 (1): 33–75. doi : 10.1111/j.1468-0262.2004.00477.x . JSTOR 3598849 .
- ^ Шеннах, Сюзанна М. (2004). «Непараметрическая регрессия в присутствии ошибки измерения». Эконометрическая теория . 20 (6): 1046–1093. doi : 10.1017/s0266466604206028 . S2CID 123036368 .
Дальнейшее чтение
[ редактировать ]- Догерти, Кристофер (2011). «Стохастические регрессоры и ошибки измерения» . Введение в эконометрику (четвертое изд.). Издательство Оксфордского университета. С. 300–330. ISBN 978-0-19-956708-9 .
- Kmenta, Jan (1986). «Оценка с дефицитными данными» . Элементы эконометрики (второе изд.). Нью -Йорк: Макмиллан. С. 346–391 . ISBN 978-0-02-365070-3 .
- Шеннах, Сюзанна (2013). «Ошибка измерения в нелинейных моделях - обзор». В Acemoglu, Дарон; Ареллано, Мануэль; Dekel, Eddie (Eds.). Достижения в области экономики и эконометрики . Издательство Кембриджского университета. С. 296–337. doi : 10.1017/cbo9781139060035.009 . HDL : 10419/79526 . ISBN 9781107017214 .