Коэффициент инфляции дисперсии
В статистике коэффициент инфляции дисперсии ( VIF ) — это отношение ( частное ) дисперсии оценки параметра при подборе полной модели, включающей другие параметры, к дисперсии оценки параметра, если модель подходит только с параметром на ее основе. собственный. [1] VIF предоставляет индекс, который измеряет, насколько дисперсия (квадрат стандартного отклонения оценки ) предполагаемого коэффициента регрессии увеличивается из-за коллинеарности.
Катберт Дэниэл утверждает, что изобрел концепцию коэффициента инфляции дисперсии, но не придумал названия. [2]
Определение
[ редактировать ]Рассмотрим следующую линейную модель с k независимыми переменными:
- Y знак равно β 0 + β 1 Икс 1 + β 2 Икс 2 + ... + β k Икс k + ε .
Стандартная ошибка оценки β j равна квадратному корню из j + 1 диагонального элемента s 2 ( Икс ′ Икс ) −1 , где s — среднеквадратическая ошибка (RMSE) (обратите внимание, что RMSE 2 является последовательной оценкой истинной дисперсии ошибки, ); X регрессии — матрица плана — матрица, такая, что X i , j +1 — значение j й независимая переменная для i й случай или наблюдение, и такой, что X i ,1 , вектор-предиктор, связанный с термином пересечения, равен 1 для всех i . Оказывается, квадрат этой стандартной ошибки, предполагаемой дисперсии оценки β j , может быть эквивалентно выражен как: [3] [4]
где R j 2 кратное R 2 для регрессии X j по другим ковариатам (регрессия, которая не включает переменную ответа Y ) и – оценки коэффициентов, то есть оценки . Это тождество разделяет влияние нескольких различных факторов на дисперсию оценки коэффициента:
- с 2 : больший разброс данных вокруг поверхности регрессии приводит к пропорционально большей дисперсии в оценках коэффициентов.
- n : больший размер выборки приводит к пропорционально меньшей дисперсии в оценках коэффициентов.
- : большая изменчивость в конкретной ковариате приводит к пропорционально меньшей дисперсии в соответствующей оценке коэффициента.
Оставшийся член, 1 / (1 − R j 2 ) — это ВИФ. Он отражает все остальные факторы, влияющие на неопределенность оценок коэффициентов. когда вектор X j ортогонален j каждому столбцу матрицы плана для регрессии X VIF равен 1 , по другим ковариатам. Напротив, VIF больше 1, когда вектор X j не ортогонален всем столбцам матрицы плана для регрессии X j по другим ковариатам. Наконец, обратите внимание, что VIF инвариантен к масштабированию переменных (то есть мы можем масштабировать каждую переменную X j на константу c j, не изменяя VIF).
Теперь позвольте и, не теряя общности, мы переупорядочиваем столбцы X , чтобы первый столбец был
- .
Используя дополнение Шура , элемент в первой строке и первом столбце является,
Тогда у нас есть,
Здесь коэффициент регрессии зависимой переменной более ковариата . — соответствующая остаточная сумма квадратов .
Расчет и анализ
[ редактировать ]Мы можем вычислить k различных VIF (по одному для каждого X i ) в три этапа:
Шаг первый
[ редактировать ]Сначала мы запускаем обычную регрессию наименьших квадратов, в которой X i является функцией всех других объясняющих переменных в первом уравнении.
если i Например, = 1, уравнение будет таким:
где является константой и это термин ошибки .
Шаг второй
[ редактировать ]Затем рассчитайте коэффициент VIF для по следующей формуле:
где Р 2 i - коэффициент детерминации уравнения регрессии на первом этапе, при этом с левой стороны, а все остальные переменные-предикторы (все остальные переменные X) — с правой стороны.
Шаг третий
[ редактировать ]Проанализируйте величину мультиколлинеарности , учитывая размер . Эмпирическое правило заключается в том, что если тогда мультиколлинеарность высока [5] (также часто используется пороговое значение 5) [6] ). Однако не существует значения VIF больше 1, при котором дисперсия наклонов предикторов не была бы завышена. В результате включение двух или более переменных в множественную регрессию, которые не являются ортогональными (т. е. имеют корреляцию = 0), приведет к изменению наклона друг друга, SE наклона и значения P, поскольку существует общая дисперсия между предикторами, которые нельзя однозначно отнести ни к одному из них.
Некоторые программы вместо этого рассчитывают допуск, который является обратной величиной VIF. Выбор того, что использовать, зависит от личных предпочтений.
Интерпретация
[ редактировать ]Квадратный корень из коэффициента инфляции дисперсии показывает, насколько больше увеличивается стандартная ошибка по сравнению с тем, если бы эта переменная имела нулевую корреляцию с другими переменными-предикторами в модели.
Пример
Если коэффициент инфляции дисперсии переменной-предиктора составлял 5,27 (√5,27 = 2,3), это означает, что стандартная ошибка для коэффициента этой переменной-предиктора в 2,3 раза больше, чем если бы эта переменная-предиктор имела нулевую корреляцию с другими переменными-предикторами.
Выполнение
[ редактировать ]vif
функция в автомобиля R пакетеols_vif_tol
функция в olsrr R пакетеPROC REG
САС в системеvariance_inflation_factor
функция в statsmodels Python пакетеestat vif
в Стате- Аддон r.vif для GRASS GIS
vif
(некатегоричный) иgvif
(категориальные данные) на StatsModels Julia языке программирования
Ссылки
[ редактировать ]- ^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2017). Введение в статистическое обучение (8-е изд.). Springer Science+Business Media, Нью-Йорк. ISBN 978-1-4614-7138-7 .
- ^ Сни, Рон (1981). Истоки фактора инфляции дисперсии, вспоминает Катберт Дэниел (технический отчет). Сни Ассошиэйтс.
- ^ Роулингс, Джон О.; Пантула, Састри Г.; Дики, Дэвид А. (1998). Прикладной регрессионный анализ: инструмент исследования (Второе изд.). Нью-Йорк: Спрингер. стр. 372 , 373. ISBN. 0387227539 . OCLC 54851769 .
- ^ Далеко, Джулиан Дж. (2002). Практическая регрессия и дисперсионный анализ с использованием R (PDF) . стр. 117, 118.
- ^ Катнер, Миннесота; Нахтсхайм, CJ; Нетер, Дж. (2004). Прикладные модели линейной регрессии (4-е изд.). МакГроу-Хилл Ирвин.
- ^ Шизер, Саймон (2009). Современный подход к регрессии с помощью R . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN 978-0-387-09607-0 .
Дальнейшее чтение
[ редактировать ]- Эллисон, PD (1999). Множественная регрессия: учебник для начинающих . Таузенд-Оукс, Калифорния: Pine Forge Press. п. 142.
- Волосы, JF; Андерсон, Р.; Татем, РЛ; Блэк, туалет (2006). Многомерный анализ данных . Река Аппер-Седл, Нью-Джерси: Прентис-Холл.
- Катнер, Миннесота; Нахтсхайм, CJ; Нетер, Дж. (2004). Прикладные модели линейной регрессии (4-е изд.). МакГроу-Хилл Ирвин.
- Лонгнекер, Монтана; Отт, Р.Л. (2004). Первый курс статистических методов . Томсон Брукс/Коул. п. 615.
- Марквардт, Д.В. (1970). «Обобщенные обратные операции, гребневая регрессия, смещенная линейная оценка и нелинейная оценка». Технометрика . 12 (3): 591–612 [стр. 605–7]. дои : 10.1080/00401706.1970.10488699 .
- Студенмунд, АХ (2006). Использование эконометрики: Практическое руководство (5-е изд.). Пирсон Интернешнл. стр. 258–259.
- Зуур, АФ; Иено, EN; Элфик, CS (2010). «Протокол исследования данных, позволяющий избежать распространенных статистических проблем» . Методы экологии и эволюции . 1 :3–14. дои : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132 .