Jump to content

Мультиколлинеарность

В статистике мультиколлинеарность предикторы или коллинеарность — это ситуация, когда в регрессионной модели зависимы линейно .

Совершенная мультиколлинеарность относится к ситуации, когда прогнозные переменные имеют точную линейную зависимость. При полной коллинеарности матрица расчета меньше полного имеет ранг , и, следовательно, матрица моментов нельзя инвертировать . В этой ситуации оценки параметров регрессии не являются четко определенными, поскольку система уравнений имеет бесконечно много решений .

Несовершенная мультиколлинеарность относится к ситуации, когда прогностические переменные имеют почти точную линейную зависимость.

Вопреки распространенному мнению, ни теорема Гаусса-Маркова , ни более распространенное обоснование максимального правдоподобия для обычных наименьших квадратов не опирается на какую-либо корреляционную структуру между зависимыми предикторами. [1] [2] [3] (хотя идеальная коллинеарность может вызвать проблемы с некоторыми программами).

Нет оправдания практике удаления коллинеарных переменных в рамках регрессионного анализа. [1] [4] [5] [6] [7] и это может представлять собой научное нарушение . Включение коллинеарных переменных не снижает прогностическую силу или надежность модели в целом. [6] и не снижает точность оценок коэффициентов. [1]

Высокая коллинеарность указывает на то, что исключительно важно включать все коллинеарные переменные, поскольку исключение любой из них приведет к ухудшению оценок коэффициентов, сильному искажению и смещению оценок стандартных ошибок в сторону понижения . [2]

Совершенная мультиколлинеарность

[ редактировать ]
Изображение мультиколлинеарности.
В линейной регрессии истинные параметры: которые достоверно оцениваются в случае некоррелированных и (черный случай), но оцениваются недостоверно, когда и коррелируют (красный регистр).

Совершенная мультиколлинеарность относится к ситуации, когда предикторы линейно зависимы (один можно записать как точную линейную функцию других). Обычный метод наименьших квадратов требует обращения матрицы , где

это матрица, где количество наблюдений, - количество объясняющих переменных, а . Если между независимыми переменными существует точная линейная связь, то хотя бы один из столбцов является линейной комбинацией остальных, ранг поэтому (и, следовательно, из ) меньше, чем , и матрица не будет обратимым.

Разрешение

[ редактировать ]

Идеальная коллинеарность обычно возникает за счет включения в регрессию избыточных переменных. Например, набор данных может включать переменные для доходов, расходов и сбережений. Однако, поскольку доходы по определению равны расходам плюс сбережения, неправильно включать в регрессию все три переменные одновременно. Аналогично, включение фиктивной переменной для каждой категории (например, лето, осень, зима и весна), а также члена-члена приведет к идеальной коллинеарности. Это известно как ловушка фиктивной переменной. [8]

Другая распространенная причина идеальной коллинеарности — попытка использовать обычные методы наименьших квадратов при работе с очень широкими наборами данных (с большим количеством переменных, чем наблюдений). Для получения значимых результатов требуются более продвинутые методы анализа данных, такие как байесовское иерархическое моделирование . [ нужна ссылка ]

Численные проблемы

[ редактировать ]

Иногда переменные почти коллинеарны. В этом случае матрица имеет обратное, но оно плохо обусловлено . Компьютерный алгоритм может или не может вычислить приближенное обратное; даже если это возможно, полученное обратное значение может иметь большие ошибки округления .

Стандартной мерой плохого физического состояния в матрице является индекс состояния. Это определяет, является ли инверсия матрицы численно нестабильной с числами конечной точности, что указывает на потенциальную чувствительность вычисленного обратного преобразования к небольшим изменениям в исходной матрице. Число обусловленности вычисляется путем нахождения максимального сингулярного значения, деленного на минимальное сингулярное значение матрицы плана . [9] В контексте коллинеарных переменных коэффициент инфляции дисперсии представляет собой число обусловленности для конкретного коэффициента.

Численные проблемы оценки можно решить, применив стандартные методы линейной алгебры для более точной оценки уравнений:

  1. Стандартизация переменных-предикторов. Работа с полиномиальными членами (например, , ), включая условия взаимодействия (т. е. ) может вызвать мультиколлинеарность. Это особенно верно, когда рассматриваемая переменная имеет ограниченный диапазон. Стандартизация переменных-предикторов устранит этот особый вид мультиколлинеарности для полиномов до 3-го порядка. [10]
  2. Используйте ортогональное представление данных . [11] Плохо написанное статистическое программное обеспечение иногда не может привести к правильному представлению, когда переменные сильно коррелируют. Однако все еще можно переписать регрессию, чтобы использовать только некоррелированные переменные, выполнив замену базиса .
    • В частности, для полиномиальных членов можно переписать регрессию как функцию некоррелированных переменных, используя ортогональные полиномы .

Влияние на оценки коэффициентов

[ редактировать ]

Несовершенная коллинеарность не только вызывает численные проблемы, но и затрудняет точную оценку переменных. Другими словами, сильно коррелированные переменные приводят к плохим оценкам и большим стандартным ошибкам.

В качестве примера предположим, что мы замечаем, что Алиса носит ботинки всякий раз, когда идет дождь, а во время дождя остаются только лужи. Тогда мы не можем сказать, носит ли она ботинки, чтобы дождь не падал ей на ноги, или чтобы ноги оставались сухими, если она наступит в лужу.

Проблема с попыткой определить, насколько важна каждая из двух переменных, заключается в том, что они путаются друг с другом: наши наблюдения одинаково хорошо объясняются любой переменной, поэтому мы не знаем, какая из них вызывает наблюдаемые корреляции.

Есть два способа узнать эту информацию:

  1. Использование предварительной информации или теории. Например, если мы заметим, что Алиса никогда не ступает по лужам, мы можем обоснованно утверждать, что лужи не являются причиной того, что она носит ботинки, поскольку ей не нужны ботинки, чтобы избегать луж.
  2. Сбор большего количества данных. Если мы понаблюдаем за Алисой достаточное количество раз, мы в конечном итоге увидим ее в те дни, когда есть лужи, но нет дождя (например, потому что дождь прекращается еще до того, как она уходит из дома).

Это замешательство становится значительно хуже, когда исследователи пытаются игнорировать или подавлять его , исключая эти переменные из регрессии (см. #Misuse ). Исключение мультиколлинеарных переменных из регрессий сделает недействительными причинно-следственные выводы и даст худшие оценки за счет удаления важных искажающих факторов.

Средства правовой защиты

[ редактировать ]

Существует много способов предотвратить влияние мультиколлинеарности на результаты путем предварительного планирования. Однако эти методы требуют от исследователей принятия решения о процедуре и анализе до сбора данных (см. постфактум-анализ и #Misuse ).

Регуляризованные оценки

[ редактировать ]

Многие методы регрессии естественным образом «устойчивы» к мультиколлинеарности и обычно работают лучше, чем обычная регрессия наименьших квадратов , даже если переменные независимы. Методы регуляризованной регрессии , такие как гребневая регрессия , LASSO , эластичная сетчатая регрессия или регрессия шипов и плит, менее чувствительны к включению «бесполезных» предикторов, что является распространенной причиной коллинеарности. Эти методы могут автоматически обнаруживать и удалять эти предикторы, чтобы избежать проблем. Байесовские иерархические модели (обеспечиваемые таким программным обеспечением, как BRMS ) могут выполнять такую ​​регуляризацию автоматически, изучая информативные априорные данные на основе данных.

Часто проблемы, вызванные использованием частотной оценки, неправильно понимаются или ошибочно диагностируются как связанные с мультиколлинеарностью. [3] Исследователи часто разочаровываются не в мультиколлинеарности, а в своей неспособности включить соответствующую предварительную информацию в регрессии. Например, жалобы на то, что коэффициенты имеют «неправильные знаки» или доверительные интервалы, которые «включают нереалистичные значения», указывают на наличие важной предварительной информации, которая не включена в модель. Когда эта информация доступна, ее следует включить в предыдущую работу с использованием методов байесовской регрессии . [3]

Пошаговая регрессия (процедура исключения «коллинеарных» или «незначительных» переменных) особенно уязвима к мультиколлинеарности и является одной из немногих процедур, полностью ею признанных недействительными (при этом любая коллинеарность приводит к сильно смещенным оценкам и недействительным значениям p). [2]

Улучшенный экспериментальный дизайн

[ редактировать ]

При проведении экспериментов, в которых исследователи контролируют прогнозируемые переменные, исследователи часто могут избежать коллинеарности, выбрав оптимальную схему эксперимента после консультации со статистиком.

Принятие

[ редактировать ]

Хотя вышеуказанные стратегии работают в некоторых ситуациях, они обычно не дают существенного эффекта. Более продвинутые методы по-прежнему могут приводить к большим стандартным ошибкам. Таким образом, наиболее распространенной реакцией на мультиколлинеарность должно быть «ничего не делать». [1] Научный процесс часто предполагает нулевые или неубедительные результаты; не каждый эксперимент будет «успешным» в том смысле, что он обеспечит решающее подтверждение исходной гипотезы исследователя.

Эдвард Лимер отмечает: «Решением проблемы слабых доказательств является увеличение количества и качества данных. В пределах данного набора данных со слабыми доказательствами ничего нельзя поделать»; [3] Исследователи, которые считают, что существует проблема с результатами регрессии, должны смотреть на априорную вероятность , а не на функцию правдоподобия .

Дамодар Гуджарати пишет, что «мы должны справедливо признать, что [наши данные] иногда не очень информативны относительно интересующих параметров». [1] Оливье Бланшар шутит, что «мультиколлинеарность — это воля Божья, а не проблема МНК »; [7] другими словами, работая с данными наблюдений , исследователи не могут «зафиксировать» мультиколлинеарность, а лишь принять ее.

Неправильное использование

[ редактировать ]

Факторы увеличения дисперсии часто неправильно используются в качестве критериев в пошаговой регрессии (т. е. для включения/исключения переменных), такое использование «не имеет какой-либо логической основы, но также в корне вводит в заблуждение как практическое правило». [2]

Исключение коллинеарных переменных приводит к искусственно заниженным оценкам стандартных ошибок, но не уменьшает истинные (не оцененные) стандартные ошибки для коэффициентов регрессии. [1] Исключение переменных с высоким коэффициентом инфляции дисперсии также делает недействительными рассчитанные стандартные ошибки и значения p, превращая результаты регрессии в апостериорный анализ . [13]

Поскольку коллинеарность приводит к большим стандартным ошибкам и значениям p, что может затруднить публикацию статей, некоторые исследователи пытаются скрыть неудобные данные , удаляя сильно коррелированные переменные из своей регрессии. Эта процедура подпадает под более широкую категорию р-хакинга , извлечения данных и апостериорного анализа . Удаление (полезных) коллинеарных предикторов обычно ухудшает точность оценок модели и коэффициентов.

Аналогичным образом, попытка использования множества различных моделей или процедур оценки (например, обычного метода наименьших квадратов , гребневой регрессии и т. д.) до тех пор, пока не будет найдена та, которая сможет «справиться» с коллинеарностью, создает проблему разветвления путей . P-значения и доверительные интервалы, полученные в результате апостериорного анализа, становятся недействительными из-за игнорирования неопределенности в процедуре выбора модели.

Разумно исключить неважные предикторы, если заранее известно, что они мало или вообще не влияют на результат; например, местное производство сыра не следует использовать для прогнозирования высоты небоскребов. Однако это необходимо сделать при первом определении модели, до наблюдения каких-либо данных, и всегда следует включать потенциально информативные переменные.

См. также

[ редактировать ]
  1. Перейти обратно: Перейти обратно: а б с д и ж Гуджарати, Дамодар (2009). «Мультиколлинеарность: что произойдет, если регрессоры коррелируют?». Основная эконометрика (4-е изд.). МакГроу-Хилл. стр. 363 . ISBN  9780073375779 .
  2. Перейти обратно: Перейти обратно: а б с д Калниньш, Артурс; Прайтис Хилл, Кендалл (13 декабря 2023 г.). «Оценка VIF. Для чего она нужна? Абсолютно ничего» . Организационные методы исследования . дои : 10.1177/10944281231216381 . ISSN   1094-4281 .
  3. Перейти обратно: Перейти обратно: а б с д Лимер, Эдвард Э. (1973). «Мультиколлинеарность: байесовская интерпретация» . Обзор экономики и статистики . 55 (3): 371–380. дои : 10.2307/1927962 . ISSN   0034-6535 . JSTOR   1927962 .
  4. ^ Джайлз, Дэйв (15 сентября 2011 г.). «Удар эконометрики: Блог Дэйва Джайлза: микронумерация» . Эконометрический бит . Проверено 3 сентября 2023 г.
  5. ^ Гольдбергер (1964), А.С. (1964). Эконометрическая теория . Нью-Йорк: Уайли. {{cite book}}: CS1 maint: числовые имена: список авторов ( ссылка )
  6. Перейти обратно: Перейти обратно: а б Гольдбергер А.С. «Глава 23.3». Курс эконометрики . Кембридж, Массачусетс: Издательство Гарвардского университета.
  7. Перейти обратно: Перейти обратно: а б Бланшар, Оливье Жан (октябрь 1987 г.). «Комментарий» . Журнал деловой и экономической статистики . 5 (4): 449–451. дои : 10.1080/07350015.1987.10509611 . ISSN   0735-0015 .
  8. ^ Карабибер, Фатих. «Ловушка с фиктивной переменной. Что такое ловушка с фиктивной переменной?» . LearnDataSci (www.learndatasci.com) . Проверено 18 января 2024 г.
  9. ^ Белсли, Дэвид (1991). Диагностика обусловленности: коллинеарность и слабые данные в регрессии . Нью-Йорк: Уайли. ISBN  978-0-471-52889-0 .
  10. ^ «12.6 - Уменьшение структурной мультиколлинеарности | STAT 501» . newonlinecourses.science.psu.edu . Проверено 16 марта 2019 г.
  11. Перейти обратно: Перейти обратно: а б «Вычислительные трюки с Тьюрингом (нецентрированная параметризация и QR-разложение)» . storopoli.io . Проверено 3 сентября 2023 г.
  12. ^ Гельман, Эндрю; Имбенс, Гвидо (3 июля 2019 г.). «Почему полиномы высокого порядка не следует использовать в моделях регрессионного разрыва» . Журнал деловой и экономической статистики . 37 (3): 447–456. дои : 10.1080/07350015.2017.1366909 . ISSN   0735-0015 .
  13. ^ Гельман, Эндрю; Локен, Эрик (14 ноября 2013 г.). «Сад расходящихся тропинок» (PDF) . Неопубликовано - через Колумбию.


Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5a5398447eba4a0a35b285cc182bd12e__1719918960
URL1:https://arc.ask3.ru/arc/aa/5a/2e/5a5398447eba4a0a35b285cc182bd12e.html
Заголовок, (Title) документа по адресу, URL1:
Multicollinearity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)