Гомоскедастичность и гетероскедастичность
В статистике последовательность , является случайных величин гомоскедастической ( / ˌ h oʊ m oʊ s k ə ˈ d æ s t ɪ k / ) если все ее случайные величины имеют одинаковую конечную дисперсию ; это также известно как однородность дисперсии . Дополнительное понятие называется гетероскедастичностью , также известной как гетерогенность дисперсии . варианты написания homos k edasticity и гетероs k edasticity Также часто используются . Скедастичность происходит от древнегреческого слова skedánnymi, что означает «рассеивать». [1] [2] [3] Предположение, что переменная гомоскедастична, тогда как на самом деле она гетероскедастична ( / ˌ h ɛ t ər oʊ s k ə ˈ d æ s t ɪ k / ) приводит к несмещенным, но неэффективным точечным оценкам и к смещенным оценкам стандартных ошибок , и может привести к переоценка степени соответствия , измеряемой коэффициентом Пирсона .
Существование гетероскедастичности является серьезной проблемой в регрессионном анализе и дисперсионном анализе , поскольку оно делает недействительными статистические тесты значимости , которые предполагают, что все ошибки моделирования имеют одинаковую дисперсию. Хотя обычная оценка методом наименьших квадратов по-прежнему несмещена при наличии гетероскедастичности, она неэффективна, а выводы, основанные на предположении о гомоскедастичности, вводят в заблуждение. В этом случае метод обобщенных наименьших квадратов (GLS). в прошлом часто использовался [4] [5] В настоящее время стандартной практикой в эконометрике является включение стандартных ошибок, согласованных с гетероскедастичностью , вместо использования GLS, поскольку GLS может демонстрировать сильную погрешность в небольших выборках, если фактическая скедастическая функция неизвестна. [6]
Поскольку гетероскедастичность касается ожиданий второго момента ошибки, ее наличие называется некорректной спецификацией второго порядка. [7]
Эконометрист при наличии гетероскедастичности, которые привели к Роберт Энгл был удостоен Нобелевской премии по экономике 2003 года за исследования регрессионного анализа формулировке метода моделирования авторегрессионной условной гетероскедастичности (ARCH). [8]
Определение [ править ]
Рассмотрим линейной регрессии уравнение где зависимая случайная величина равна детерминированной переменной коэффициент умножения плюс случайный член возмущения это означает ноль. Возмущения гомоскедастичны, если дисперсия является константой ; в противном случае они гетероскедастичны. В частности, возмущения гетероскедастичны, если дисперсия зависит от или от стоимости . Один из способов, которым они могут быть гетероскедастическими, заключается в том, что (пример скедастической функции ), поэтому дисперсия пропорциональна значению .
В более общем смысле, если дисперсионно-ковариационная матрица возмущения через имеет непостоянную диагональ, возмущение гетероскедастическое. [9] Приведенные ниже матрицы представляют собой ковариации, когда во времени имеется всего три наблюдения. Возмущение в матрице A гомоскедастично; это простой случай, когда OLS является лучшим линейным несмещенным оценщиком. Возмущения в матрицах B и C являются гетероскедастическими. В матрице B дисперсия меняется во времени и постоянно увеличивается во времени; в матрице C дисперсия зависит от значения . Нарушение в матрице D является гомоскедастическим, поскольку диагональные дисперсии постоянны, даже несмотря на то, что недиагональные ковариации отличны от нуля, а обычный метод наименьших квадратов неэффективен по другой причине: серийная корреляция.
Примеры [ править ]
Гетероскедастичность часто возникает, когда существует большая разница в размерах наблюдений.
Классическим примером гетероскедастичности является соотношение доходов и расходов на питание. Богатый человек может иногда есть недорогую еду, а иногда и дорогую. Бедный человек почти всегда будет есть недорогую еду. Таким образом, люди с более высокими доходами демонстрируют большую вариативность расходов на питание.
При запуске ракеты наблюдатель измеряет расстояние, пройденное ракетой, один раз в секунду. В первые пару секунд измерения могут быть точными до ближайшего сантиметра. Через пять минут точность измерений может быть хорошей только до 100 м из-за увеличения расстояния, атмосферных искажений и множества других факторов. Таким образом, измерения расстояний могут проявлять гетероскедастичность.
Последствия [ править ]
Одним из предположений классической модели линейной регрессии является отсутствие гетероскедастичности. Нарушение этого предположения означает, что теорема Гаусса-Маркова неприменима, а это означает, что оценщики OLS не являются лучшими линейными несмещенными оценщиками (СИНИЙ) , а их дисперсия не является самой низкой среди всех других несмещенных оценщиков.Гетероскедастичность не приводит к смещению оценок обычных коэффициентов наименьших квадратов, хотя она может привести к смещению обычных оценок дисперсии (и, следовательно, стандартных ошибок) коэффициентов по методу наименьших квадратов, возможно, выше или ниже истинной дисперсии генеральной совокупности. Таким образом, регрессионный анализ с использованием гетероскедастических данных по-прежнему обеспечит несмещенную оценку связи между переменной-предиктором и результатом, но стандартные ошибки и, следовательно, выводы, полученные в результате анализа данных, являются подозрительными. Смещенные стандартные ошибки приводят к смещенным выводам, поэтому результаты проверки гипотез могут быть неверными. Например, если МНК выполняется на гетероскедастическом наборе данных, что дает смещенную оценку стандартной ошибки, исследователь может не отклонить нулевую гипотезу при данном уровень значимости , когда эта нулевая гипотеза фактически не характерна для реальной популяции (совершая ошибку II рода ).
При определенных предположениях оценка OLS имеет нормальное асимптотическое распределение , если она правильно нормализована и центрирована (даже если данные не получены из нормального распределения ). Этот результат используется для обоснования использования нормального распределения или распределения хи-квадрат (в зависимости от того, как статистика теста рассчитывается ) при проведении проверки гипотезы . Это справедливо даже в условиях гетероскедастичности. Точнее, оценка OLS при наличии гетероскедастичности является асимптотически нормальной, если она правильно нормирована и центрирована, с дисперсионно-ковариационной матрицей , которая отличается от случая гомоскедастичности. В 1980 году Уайт предложил непротиворечивую оценку дисперсионно-ковариационной матрицы асимптотического распределения оценки OLS. [2] Это подтверждает использование проверки гипотез с использованием оценок OLS и оценки дисперсии-ковариации Уайта в условиях гетероскедастичности.
Гетероскедастичность также является важной практической проблемой, возникающей в задачах ANOVA . [10] все F-тест еще можно использовать в некоторых обстоятельствах. [11]
Однако было сказано, что студентам, изучающим эконометрику, не следует слишком остро реагировать на гетероскедастичность. [3] Один автор написал: «Неравную дисперсию ошибок стоит исправлять только тогда, когда проблема серьезна». [12] Кроме того, еще одно предостережение заключалось в следующем: «Гетероскедастичность никогда не была причиной отказа от хорошей в других отношениях модели». [3] [13] С появлением стандартных ошибок, совместимых с гетероскедастичностью, позволяющих делать выводы без указания условного второго момента ошибки, проверка условной гомоскедастичности не так важна, как в прошлом. [6]
Однако для любой нелинейной модели (например, моделей Logit и Probit ) гетероскедастичность имеет более серьезные последствия: оценки максимального правдоподобия (MLE) параметров обычно будут смещенными, а также противоречивыми (если функция правдоподобия не будет изменена на правильно учесть точную форму гетероскедастичности или распределение является членом линейного экспоненциального семейства и правильно задана условная функция ожидания). [14] [15] Тем не менее, в контексте моделей бинарного выбора ( Logit или Probit ) гетероскедастичность приведет только к положительному эффекту масштабирования на асимптотическом среднем неправильно заданном MLE (т. е. модели, которая игнорирует гетероскедастичность). [16] В результате прогнозы, основанные на неверно указанном MLE, останутся верными. Кроме того, неправильно заданные MLE Probit и Logit будут асимптотически нормально распределены, что позволяет выполнять обычные тесты значимости (с соответствующей дисперсионно-ковариационной матрицей). Однако, что касается проверки общей гипотезы, как отметил Грин , «простое вычисление устойчивой ковариационной матрицы для несовместимой в других отношениях оценки не дает ее оправдания. Следовательно, ценность устойчивой ковариационной матрицы в этой ситуации неясна». [17]
Исправление [ править ]
Существует несколько распространенных поправок на гетероскедастичность. Они есть:
- Стабилизирующее преобразование данных, например, логарифмизированных данных. Нелогарифмированные ряды, растущие экспоненциально, часто имеют увеличивающуюся изменчивость по мере увеличения ряда с течением времени. Однако изменчивость в процентном выражении может быть довольно стабильной.
- Используйте другую спецификацию модели (другие переменные X или, возможно, нелинейные преобразования переменных X ).
- Примените метод взвешенной оценки наименьших квадратов , в котором OLS применяется к преобразованным или взвешенным значениям X и Y . Веса варьируются в зависимости от наблюдений, обычно в зависимости от изменения дисперсии ошибок. В одном варианте веса напрямую связаны с величиной зависимой переменной, и это соответствует процентной регрессии по методу наименьших квадратов. [18]
- Стандартные ошибки, согласованные с гетероскедастичностью (HCSE), хотя и являются предвзятыми, улучшают оценки OLS. [2] HCSE — это последовательная оценка стандартных ошибок в регрессионных моделях с гетероскедастичностью. Этот метод корректирует гетероскедастичность без изменения значений коэффициентов. Этот метод может превосходить обычный МНК, поскольку, если присутствует гетероскедастичность, он ее корректирует, однако, если данные гомоскедастичны, стандартные ошибки эквивалентны обычным стандартным ошибкам, оцениваемым с помощью МНК. Несколько модификаций метода Уайта вычисления стандартных ошибок, совместимых с гетероскедастичностью, были предложены в качестве поправок с превосходными свойствами конечной выборки.
- Дикая загрузка может использоваться в качестве метода повторной выборки , который учитывает различия в условной дисперсии термина ошибки. Альтернативой является повторная выборка наблюдений вместо ошибок. Обратите внимание, что ошибки повторной выборки без учета связанных значений наблюдения приводят к гомоскедастичности и, таким образом, приводят к неверным выводам.
- Используйте MINQUE или даже обычные оценщики. (для независимые образцы с наблюдений каждое), потери эффективности которых не существенны при большом числе наблюдений на выборку ( ), особенно для небольшого количества независимых выборок. [19]
Тестирование [ править ]
Остатки можно проверить на гомоскедастичность с помощью теста Бреуша-Пэгана . [20] который выполняет вспомогательную регрессию квадратов остатков по независимым переменным. Из этой вспомогательной регрессии сохраняется объясненная сумма квадратов, деленная на два, а затем становится тестовой статистикой для распределения хи-квадрат со степенями свободы, равными числу независимых переменных. [21] Нулевой гипотезой этого теста хи-квадрат является гомоскедастичность, а альтернативная гипотеза будет указывать на гетероскедастичность. Поскольку критерий Бреуша-Пэгана чувствителен к отклонениям от нормальности или небольшому размеру выборки, вместо него обычно используется тест Кенкера-Бассетта или «обобщенный критерий Бреуша-Пэгана». [22] [ необходимы дополнительные ссылки ] Из вспомогательной регрессии оно сохраняет значение R-квадрата, которое затем умножается на размер выборки, а затем становится тестовой статистикой для распределения хи-квадрат (и использует те же степени свободы). Хотя это не является необходимым для теста Кенкера-Бассетта, тест Бреуша-Пэгана требует, чтобы квадраты остатков также были разделены на остаточную сумму квадратов, разделенную на размер выборки. [22] Проверка групповой гетероскедастичности может быть выполнена с помощью теста Гольдфельда-Квандта . [23]
Из-за стандартного использования стандартных ошибок, согласованных с гетероскедастичностью , и проблемы предварительного тестирования специалисты по эконометрике в настоящее время редко используют тесты на условную гетероскедастичность. [6]
Список тестов [ править ]
Хотя тесты на гетероскедастичность между группами формально можно рассматривать как частный случай тестирования в рамках регрессионных моделей, некоторые тесты имеют структуры, специфичные для этого случая.
- Тесты в регрессии
- Тесты для сгруппированных данных
Обобщения [ править ]
распределения Гомоскедастические
Два или более нормальных распределения , оба гомоскедастичны и не имеют серийной корреляции, если они имеют одни и те же диагонали в своей ковариационной матрице, и их недиагональные элементы равны нулю. Гомоскедастические распределения особенно полезны для построения алгоритмов статистического распознавания образов и машинного обучения . Одним из популярных примеров алгоритма, предполагающего гомоскедастичность, является линейный дискриминантный анализ Фишера .Понятие гомоскедастичности можно применить к распределениям по сферам. [27]
Многомерные данные [ править ]
Изучение домашней скедастичности и гетероскедастичности было обобщено на многомерный случай, который касается ковариаций векторных наблюдений вместо дисперсии скалярных наблюдений. Один из вариантов этого заключается в использовании ковариационных матриц в качестве многомерной меры дисперсии. Некоторые авторы рассматривали тесты в этом контексте как для ситуаций регрессии, так и для ситуаций с сгруппированными данными. [28] [29] Тест Бартлетта на гетероскедастичность между сгруппированными данными, чаще всего используемый в одномерном случае, также был расширен для многомерного случая, но приемлемое решение существует только для двух групп. [30] Аппроксимации существуют для более чем двух групп, и обе они называются М-тестом Бокса .
См. также [ править ]
Ссылки [ править ]
- ^ Греческую этимологию этого термина см. Маккалок, Дж. Хьюстон (1985). «О гетероэластичности». Эконометрика . 53 (2): 483. JSTOR 1911250 .
- ^ Jump up to: а б с д Уайт, Халберт (1980). «Согласованная с гетероскедастичностью ковариационная матрица оценки и прямой тест на гетероскедастичность». Эконометрика . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . дои : 10.2307/1912934 . JSTOR 1912934 .
- ^ Jump up to: а б с Гуджарати, DN; Портер, округ Колумбия (2009). Основная эконометрика (Пятое изд.). Бостон: МакГроу-Хилл Ирвин. п. 400. ИСБН 9780073375779 .
- ^ Гольдбергер, Артур С. (1964). Эконометрическая теория . Нью-Йорк: Джон Уайли и сыновья. стр. 238–243 . ISBN 9780471311010 .
- ^ Джонстон, Дж. (1972). Эконометрические методы . Нью-Йорк: МакГроу-Хилл. стр. 214–221.
- ^ Jump up to: а б с Ангрист, Джошуа Д.; Пишке, Йорн-Штеффен (31 декабря 2009 г.). В основном безобидная эконометрика: спутник эмпирика . Издательство Принстонского университета. дои : 10.1515/9781400829828 . ISBN 978-1-4008-2982-8 .
- ^ Лонг, Дж. Скотт ; Триведи, Правин К. (1993). «Некоторые тесты спецификации модели линейной регрессии». В Боллене, Кеннет А.; Лонг, Дж. Скотт (ред.). Тестирование моделей структурных уравнений . Лондон: Сейдж. стр. 66–110. ISBN 978-0-8039-4506-7 .
- ^ Энгл, Роберт Ф. (июль 1982 г.). «Авторегрессионная условная гетероскедастичность с оценками дисперсии инфляции Соединенного Королевства». Эконометрика . 50 (4): 987–1007. дои : 10.2307/1912773 . ISSN 0012-9682 . JSTOR 1912773 .
- ^ Питер Кеннеди, Руководство по эконометрике , 5-е издание, стр. 137.
- ^ Джинадаса, Гамаге; Вираханди, Сэм (1998). «Производительность некоторых тестов в односторонней дисперсии». Коммуникации в статистике — моделирование и вычисления . 27 (3): 625. дои : 10.1080/03610919808813500 .
- ^ Батке, А (2004). «Тест ANOVA F по-прежнему можно использовать в некоторых сбалансированных планах с неравными дисперсиями и ненормальными данными». Журнал статистического планирования и выводов . 126 (2): 413–422. дои : 10.1016/j.jspi.2003.09.010 .
- ^ Фокс, Дж. (1997). Прикладной регрессионный анализ, линейные модели и родственные методы . Калифорния: Публикации Sage. п. 306. (Цитируется по Гуджарати и др., 2009, стр. 400).
- ^ Мэнкью, Н.Г. (1990). «Курс быстрого повышения квалификации по макроэкономике» . Журнал экономической литературы . 28 (4): 1645–1660 [с. 1648]. дои : 10.3386/w3256 . JSTOR 2727441 .
- ^ Джайлз, Дэйв (8 мая 2013 г.). «Надежные стандартные ошибки для нелинейных моделей» . Эконометрический бит .
- ^ Гурьеро, К.; Монфорт, А.; Троньон, А. (1984). «Методы псевдомаксимального правдоподобия: теория» . Эконометрика . 52 (3): 681–700. дои : 10.2307/1913471 . ISSN 0012-9682 .
- ^ Джинкер, Т.; Либерман, О. (2017). «Устойчивость моделей бинарного выбора к условной гетероскедастичности». Письма по экономике . 150 : 130–134. дои : 10.1016/j.econlet.2016.11.024 .
- ^ Грин, Уильям Х. (2012). «Оценка и вывод в моделях двоичного выбора» . Эконометрический анализ (Седьмое изд.). Бостон: Pearson Education. стр. 730–755 [с. 733]. ISBN 978-0-273-75356-8 .
- ^ Тофаллис, К. (2008). «Процентная регрессия по методу наименьших квадратов» . Журнал современных прикладных статистических методов . 7 : 526–534. дои : 10.2139/ssrn.1406472 . ССНР 1406472 .
- ^ JNK Рао (март 1973 г.). «Об оценке гетероскедастических дисперсий». Биометрия . 29 (1): 11–24. дои : 10.2307/2529672 . JSTOR 2529672 .
- ^ Бреуш, Т.С.; Пэган, Арканзас (1979). «Простой тест на гетероскедастичность и случайное изменение коэффициентов» . Эконометрика . 47 (5): 1287–1294. дои : 10.2307/1911963 . ISSN 0012-9682 . JSTOR 1911963 .
- ^ Улла, Мухаммад Имдад (26 июля 2012 г.). «Языческий тест Бреуша на гетероскедастичность» . Базовая статистика и анализ данных . Проверено 28 ноября 2020 г.
- ^ Jump up to: а б Прайс, Гвилим. «Гетероскедастичность: тестирование и исправление в SPSS» (PDF) . стр. 12–18. Архивировано (PDF) из оригинала 27 марта 2017 г. Проверено 26 марта 2017 г.
- ^ Баум, Кристофер Ф. (2006). «Совет по статистике 38: проверка групповой гетероскедастичности» . Журнал Stata: Содействие распространению информации по статистике и статистическим данным . 6 (4): 590–592. дои : 10.1177/1536867X0600600412 . ISSN 1536-867X . S2CID 117349246 .
- ^ РЭ Парк (1966). «Оценка с использованием гетероскедастических ошибок». Эконометрика . 34 (4): 888. дои : 10.2307/1910108 . JSTOR 1910108 .
- ^ Глейзер, Х. (1969). «Новый тест на гетероскедастичность». Журнал Американской статистической ассоциации . 64 (325): 316–323. дои : 10.1080/01621459.1969.10500976 .
- ^ Мачадо, Хосе А.Ф.; Сильва, JMC Сантос (2000). «Повторный тест Глейзера». Журнал эконометрики . 97 (1): 189–202. дои : 10.1016/S0304-4076(00)00016-6 .
- ^ Хамшичи, Онур К.; Мартинес, Алей М. (2007) «Сферически-гомоскедастические распределения: эквивалентность сферического и нормального распределений в классификации» , Журнал исследований машинного обучения , 8, 1583-1623
- ^ Хольгерссон, HET; Шукур, Г. (2004). «Тестирование многомерной гетероскедастичности». Журнал статистических вычислений и моделирования . 74 (12): 879. дои : 10.1080/00949650410001646979 . hdl : 2077/24416 . S2CID 121576769 .
- ^ Гупта, АК; Тан, Дж. (1984). «Распределение статистики отношения правдоподобия для проверки равенства ковариационных матриц многомерных гауссовских моделей». Биометрика . 71 (3): 555–559. дои : 10.1093/biomet/71.3.555 . JSTOR 2336564 .
- ^ д'Агостино, РБ; Рассел, Гонконг (2005). «Многомерный тест Бартлетта». Энциклопедия биостатистики . дои : 10.1002/0470011815.b2a13048 . ISBN 978-0470849071 .
Дальнейшее чтение [ править ]
Большинство учебников по статистике будут включать по крайней мере некоторый материал по гомоскедастичности и гетероскедастичности. Некоторые примеры:
- Астериу, Димитрос; Холл, Стивен Г. (2011). Прикладная эконометрика (второе изд.). Пэлгрейв Макмиллан. стр. 109–147. ISBN 978-0-230-27182-1 .
- Дэвидсон, Рассел; Маккиннон, Джеймс Г. (1993). Оценка и вывод в эконометрике . Нью-Йорк: Издательство Оксфордского университета. стр. 547–582. ISBN 978-0-19-506011-9 .
- Догерти, Кристофер (2011). Введение в эконометрику . Нью-Йорк: Издательство Оксфордского университета. стр. 280–299. ISBN 978-0-19-956708-9 .
- Гуджарати, Дамодар Н .; Портер, Дон К. (2009). Основная эконометрика (Пятое изд.). Нью-Йорк: МакГроу-Хилл Ирвин. стр. 365–411. ISBN 978-0-07-337577-9 .
- Кмента, Ян (1986). Элементы эконометрики (второе изд.). Нью-Йорк: Макмиллан. стр. 269–298 . ISBN 978-0-02-365070-3 .
- Маддала, GS ; Лахири, Каджал (2009). Введение в эконометрику (Четвертое изд.). Нью-Йорк: Уайли. стр. 211–238. ISBN 978-0-470-01512-4 .
Внешние ссылки [ править ]
- по эконометрике (тема: гетероскедастичность) на YouTube Лекция Марка Тома