Jump to content

Коэффициент инфляции дисперсии


В статистике коэффициент инфляции дисперсии ( VIF ) — это отношение ( частное ) дисперсии оценки параметра при подборе полной модели, включающей другие параметры, к дисперсии оценки параметра, если модель подходит только с параметром на ее основе. собственный. [1] VIF предоставляет индекс, который измеряет, насколько дисперсия (квадрат стандартного отклонения оценки ) предполагаемого коэффициента регрессии увеличивается из-за коллинеарности.

Катберт Дэниэл утверждает, что изобрел концепцию коэффициента инфляции дисперсии, но не придумал названия. [2]

Определение

[ редактировать ]

Рассмотрим следующую линейную модель с k независимыми переменными:

Y знак равно β 0 + β 1 Икс 1 + β 2 Икс 2 + ... + β k Икс k + ε .

Стандартная ошибка оценки β j равна квадратному корню из j + 1 диагонального элемента s 2 ( Икс Икс ) −1 , где s среднеквадратическая ошибка (RMSE) (обратите внимание, что RMSE 2 является последовательной оценкой истинной дисперсии ошибки, ); X регрессии — матрица плана — матрица, такая, что X i , j +1 — значение j й независимая переменная для i й случай или наблюдение, и такой, что X i ,1 , вектор-предиктор, связанный с термином пересечения, равен 1 для всех i . Оказывается, квадрат этой стандартной ошибки, предполагаемой дисперсии оценки β j , может быть эквивалентно выражен как: [3] [4]

где R j 2 кратное R 2 для регрессии X j по другим ковариатам (регрессия, которая не включает переменную ответа Y ) и – оценки коэффициентов, то есть оценки . Это тождество разделяет влияние нескольких различных факторов на дисперсию оценки коэффициента:

  • с 2 : больший разброс данных вокруг поверхности регрессии приводит к пропорционально большей дисперсии в оценках коэффициентов.
  • n : больший размер выборки приводит к пропорционально меньшей дисперсии в оценках коэффициентов.
  • : большая изменчивость в конкретной ковариате приводит к пропорционально меньшей дисперсии в соответствующей оценке коэффициента.

Оставшийся член, 1 / (1 − R j 2 ) — это ВИФ. Он отражает все остальные факторы, влияющие на неопределенность оценок коэффициентов. когда вектор X j ортогонален j каждому столбцу матрицы плана для регрессии X VIF равен 1 , по другим ковариатам. Напротив, VIF больше 1, когда вектор X j не ортогонален всем столбцам матрицы плана для регрессии X j по другим ковариатам. Наконец, обратите внимание, что VIF инвариантен к масштабированию переменных (то есть мы можем масштабировать каждую переменную X j на константу c j, не изменяя VIF).

Теперь позвольте и, не теряя общности, мы переупорядочиваем столбцы X , чтобы первый столбец был

.

Используя дополнение Шура , элемент в первой строке и первом столбце является,

Тогда у нас есть,

Здесь коэффициент регрессии зависимой переменной более ковариата . — соответствующая остаточная сумма квадратов .

Расчет и анализ

[ редактировать ]

Мы можем вычислить k различных VIF (по одному для каждого X i ) в три этапа:

Шаг первый

[ редактировать ]

Сначала мы запускаем обычную регрессию наименьших квадратов, в которой X i является функцией всех других объясняющих переменных в первом уравнении.
если i Например, = 1, уравнение будет таким:

где является константой и это термин ошибки .

Шаг второй

[ редактировать ]

Затем рассчитайте коэффициент VIF для по следующей формуле:

где Р 2 i - коэффициент детерминации уравнения регрессии на первом этапе, при этом с левой стороны, а все остальные переменные-предикторы (все остальные переменные X) — с правой стороны.

Шаг третий

[ редактировать ]

Проанализируйте величину мультиколлинеарности , учитывая размер . Эмпирическое правило заключается в том, что если тогда мультиколлинеарность высока [5] (также часто используется пороговое значение 5) [6] ). Однако не существует значения VIF больше 1, при котором дисперсия наклонов предикторов не была бы завышена. В результате включение двух или более переменных в множественную регрессию, которые не являются ортогональными (т. е. имеют корреляцию = 0), приведет к изменению наклона друг друга, SE наклона и значения P, поскольку существует общая дисперсия между предикторами, которые нельзя однозначно отнести ни к одному из них.

Некоторые программы вместо этого рассчитывают допуск, который является обратной величиной VIF. Выбор того, что использовать, зависит от личных предпочтений.

Интерпретация

[ редактировать ]

Квадратный корень из коэффициента инфляции дисперсии показывает, насколько больше увеличивается стандартная ошибка по сравнению с тем, если бы эта переменная имела нулевую корреляцию с другими переменными-предикторами в модели.

Пример
Если коэффициент инфляции дисперсии переменной-предиктора составлял 5,27 (√5,27 = 2,3), это означает, что стандартная ошибка для коэффициента этой переменной-предиктора в 2,3 раза больше, чем если бы эта переменная-предиктор имела нулевую корреляцию с другими переменными-предикторами.

Выполнение

[ редактировать ]
  1. ^ Джеймс, Гарет; Виттен, Даниэла; Хасти, Тревор; Тибширани, Роберт (2017). Введение в статистическое обучение (8-е изд.). Springer Science+Business Media, Нью-Йорк. ISBN  978-1-4614-7138-7 .
  2. ^ Сни, Рон (1981). Истоки фактора инфляции дисперсии, вспоминает Катберт Дэниел (технический отчет). Сни Ассошиэйтс.
  3. ^ Роулингс, Джон О.; Пантула, Састри Г.; Дики, Дэвид А. (1998). Прикладной регрессионный анализ: инструмент исследования (Второе изд.). Нью-Йорк: Спрингер. стр. 372 , 373. ISBN.  0387227539 . OCLC   54851769 .
  4. ^ Далеко, Джулиан Дж. (2002). Практическая регрессия и дисперсионный анализ с использованием R (PDF) . стр. 117, 118.
  5. ^ Катнер, Миннесота; Нахтсхайм, CJ; Нетер, Дж. (2004). Прикладные модели линейной регрессии (4-е изд.). МакГроу-Хилл Ирвин.
  6. ^ Шизер, Саймон (2009). Современный подход к регрессии с помощью R . Нью-Йорк, штат Нью-Йорк: Спрингер. ISBN  978-0-387-09607-0 .

Дальнейшее чтение

[ редактировать ]
  • Эллисон, PD (1999). Множественная регрессия: учебник для начинающих . Таузенд-Оукс, Калифорния: Pine Forge Press. п. 142.
  • Волосы, JF; Андерсон, Р.; Татем, РЛ; Блэк, туалет (2006). Многомерный анализ данных . Река Аппер-Седл, Нью-Джерси: Прентис-Холл.
  • Катнер, Миннесота; Нахтсхайм, CJ; Нетер, Дж. (2004). Прикладные модели линейной регрессии (4-е изд.). МакГроу-Хилл Ирвин.
  • Лонгнекер, Монтана; Отт, Р.Л. (2004). Первый курс статистических методов . Томсон Брукс/Коул. п. 615.
  • Марквардт, Д.В. (1970). «Обобщенные обратные операции, гребневая регрессия, смещенная линейная оценка и нелинейная оценка». Технометрика . 12 (3): 591–612 [стр. 605–7]. дои : 10.1080/00401706.1970.10488699 .
  • Студенмунд, АХ (2006). Использование эконометрики: Практическое руководство (5-е изд.). Пирсон Интернешнл. стр. 258–259.
  • Зуур, АФ; Иено, EN; Элфик, CS (2010). «Протокол исследования данных, позволяющий избежать распространенных статистических проблем» . Методы экологии и эволюции . 1 :3–14. дои : 10.1111/j.2041-210X.2009.00001.x . S2CID   18814132 .

См. также

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 7e016fb52804168bce550453e4fae2d1__1718872620
URL1:https://arc.ask3.ru/arc/aa/7e/d1/7e016fb52804168bce550453e4fae2d1.html
Заголовок, (Title) документа по адресу, URL1:
Variance inflation factor - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)