Ложные отношения
В статистике или ложная связь ложная корреляция. [1] [2] — это математическая взаимосвязь , в которой два или более события или переменные связаны , но не связаны причинно-следственной связью либо из-за совпадения, либо из-за присутствия определенного третьего, невидимого фактора (называемого «общей переменной отклика», «смешивающим фактором» или « скрытая переменная »).
Примеры
[ редактировать ]Пример ложной зависимости можно найти в литературе по временным рядам , где ложная регрессия — это та, которая предоставляет вводящие в заблуждение статистические доказательства линейной связи между независимыми нестационарными переменными. Фактически, нестационарность может быть связана с наличием единичного корня в обеих переменных. [3] [4] В частности, любые две номинальные экономические переменные, вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на уровень цен , и общее присутствие уровня цен в двух ряды данных придают им корреляцию. (См. также ложную корреляцию отношений .)
Другой пример ложной связи можно увидеть, изучив продажи мороженого в городе . Продажи могут быть самыми высокими, когда уровень утопления в городских бассейнах самый высокий. Утверждать, что продажа мороженого приводит к утоплению или наоборот, означало бы предполагать ложную связь между ними. На самом деле, жара могла стать причиной того и другого. Волна тепла является примером скрытой или невидимой переменной, также известной как мешающая переменная .
Другим часто упоминаемым примером является серия голландских статистических данных, показывающих положительную корреляцию между количеством аистов, гнездящихся в ряде источников, и количеством человеческих младенцев, рожденных в это время. Конечно, причинно-следственной связи не было; они коррелировали друг с другом только потому, что коррелировали с погодой за девять месяцев до наблюдений. [5]
В редких случаях ложная связь может возникнуть между двумя совершенно несвязанными переменными без какой-либо мешающей переменной, как это было в случае между успехом профессиональной футбольной команды Washington Commanders в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента. на указанных выборах. На 16 выборах подряд в период с 1940 по 2000 год « Правило Краснокожих» правильно определяло, сохранит ли политическая партия действующего президента президентский пост или потеряет его. В конечном итоге это правило потерпело неудачу вскоре после того, как Спортивное бюро Элиаса обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты командной игры и выборов не совпадали. [6] [7] [8] В аналогичной ложной связи с Национальной футбольной лигой в 1970-х годах Леонард Коппетт отметил корреляцию между направлением фондового рынка и победной конференцией Суперкубка того года , индикатором Суперкубка ; отношения сохранялись на протяжении большей части 20-го века, прежде чем вернуться к более случайному поведению в 21-м веке. [9]
Проверка гипотез
[ редактировать ]Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее решают отклонить гипотезу, если корреляция, вычисленная на основе выборки данных, произошла бы менее чем (скажем) в 5% выборок данных, если бы нулевая гипотеза была верной. В то время как истинная нулевая гипотеза будет принята в 95% случаев, в остальных 5% случаев, когда имеется истинный ноль при отсутствии корреляции, нулевая корреляция будет ошибочно отвергнута, что приведет к принятию ложной корреляции (событие, известное как Тип ошибаюсь ). Здесь ложная корреляция в выборке возникла в результате случайного отбора выборки, которая не отражала истинные свойства основной совокупности.
Обнаружение ложных связей
[ редактировать ]Термин «ложная связь» обычно используется в статистике и, в частности, в методах экспериментальных исследований , которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает оба (W → X и W → Y). Опосредующие переменные (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без корректировки опосредующей переменной M. Из-за этого экспериментально выявленные корреляции не представляют собой причинно-следственные связи , если не могут быть исключены ложные связи.
Эксперименты
[ редактировать ]В экспериментах ложные связи часто можно выявить, контролируя другие факторы, в том числе те, которые теоретически были идентифицированы как возможные мешающие факторы. Например, представьте себе исследователя, пытающегося определить, убивает ли новый препарат бактерии; когда исследователь применяет препарат к бактериальной культуре, бактерии умирают. Но чтобы исключить присутствие мешающей переменной, другая культура подвергается воздействию условий, максимально близких к условиям первой упомянутой культуры, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что на основании результатов первой культуры нельзя сделать вывод об эффективности препарата. С другой стороны, если контрольная культура не погибнет, исследователь не сможет отвергнуть гипотезу о том, что препарат эффективен.
Неэкспериментальный статистический анализ
[ редактировать ]Дисциплины, данные которых в основном не являются экспериментальными, например экономика , обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой . Основным статистическим методом в эконометрике является многомерный регрессионный анализ . Обычно это линейная зависимость, такая как
предполагается, что - зависимая переменная (предположительно вызывающая переменная), для j = 1, ..., k — это j й независимая переменная (предположительно причинная переменная) и — это термин ошибки (содержащий совокупное влияние всех других причинных переменных, которые не должны быть коррелированы с включенными независимыми переменными). Если есть основания полагать, что ни один из s вызвано y , то оценки коэффициентов получаются. Если нулевая гипотеза о том, что отвергается, то альтернативная гипотеза о том, что и эквивалентно этому причины y не могут быть отвергнуты. С другой стороны, если нулевая гипотеза о том, что нельзя отвергнуть, то, что эквивалентно, гипотеза об отсутствии причинного эффекта по y не может быть отклонено. Здесь понятие причинности является одним из понятий содействующей причинности : если истинное значение , то изменение приведет к изменению y, если только какая-либо другая причинная переменная, включенная в регрессию или подразумеваемая в термине ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение в недостаточно , чтобы изменить y . Аналогично, изменение в нет необходимости изменять y , поскольку изменение y может быть вызвано чем-то неявным в термине ошибки (или какой-либо другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие соответствующие переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинно-следственной связи из-за присутствия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально вызванную переменную: ее влияние на потенциально вызванную переменную фиксируется путем непосредственного включения ее в регрессию, поэтому этот эффект не будет воспринят как ложный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем , x 1 (например, x 1 → x 2 → y ) является прямым эффектом ( x 1 → y ).
Точно так же, как экспериментатор должен быть осторожен при использовании плана эксперимента, учитывающего каждый мешающий фактор, так и пользователь множественной регрессии должен быть осторожным, чтобы контролировать все мешающие факторы, включая их в число регрессоров. Если искажающий фактор опущен в регрессии, его влияние по умолчанию отражается в термине ошибки, а если результирующий член ошибки коррелирует с одним (или несколькими) включенными регрессорами, то оцененная регрессия может быть смещенной или противоречивой ( см. смещение пропущенной переменной ).
В дополнение к регрессионному анализу данные можно изучить, чтобы определить, существует ли причинно-следственная связь по Грейнджеру . Присутствие причинности Грейнджера указывает как на то, что x предшествует y , так и на то, что x содержит уникальную информацию об y .
Другие отношения
[ редактировать ]Есть несколько других отношений, определяемых в статистическом анализе следующим образом.
- Прямые отношения
- Посреднические отношения
- Модерирование отношений
См. также
[ редактировать ]- Причинность
- Корреляция не подразумевает причинно-следственную связь
- Иллюзорная корреляция
- Спецификация модели
- Смещение пропущенной переменной
- Постфактум заблуждение
- Статистическая проверка модели
- Правило одного из десяти
Литература
[ редактировать ]- Дэвид А. Фридман (1983) Примечание об уравнениях экранирующей регрессии, Американский статистик, 37:2, 152-155, DOI: 10.1080/00031305.1983.10482729
Сноски
[ редактировать ]- ^ Бернс, Уильям К., « Ложные корреляции », 1997.
- ^ Перл, Иудея . «81-я серия лекций по исследованиям факультета Калифорнийского университета в Лос-Анджелесе» . Сингапур.cs.ucla.edu . Проверено 10 ноября 2019 г.
- ^ Юл, Г. Удный (1926-01-01). «Почему мы иногда получаем бессмысленные корреляции между временными рядами? Исследование выборки и природы временных рядов». Журнал Королевского статистического общества . 89 (1): 1–63. дои : 10.2307/2341482 . JSTOR 2341482 . S2CID 126346450 .
- ^ Грейнджер, Клайв У.Дж.; Гайселс, Эрик; Суонсон, Норман Р.; Уотсон, Марк В. (2001). Очерки по эконометрике: Сборник статей Клайва У. Дж. Грейнджера . Издательство Кембриджского университета. ISBN 978-0521796491 .
- ^ Сапсфорд, Роджер; Юпп, Виктор, ред. (2006). Сбор и анализ данных . Мудрец. ISBN 0-7619-4362-5 .
- ^ Хофхаймер, Билл (30 октября 2012 г.). « Правило краснокожих»: Хирдт из MNF на пересечении футбола и политики» . ЭСПН . Проверено 16 октября 2016 г.
- ^ Манкер, Роб (7 ноября 2012 г.). «Правило краснокожих: победа Барака Обамы над Миттом Ромни ставит перед президентским предсказателем первое поражение» . Чикаго Трибьюн . Проверено 8 ноября 2012 г.
- ^ Пол, Роберт С. (2013). Городские легенды и исторические знания Вашингтона . Историческая пресса. стр. 78–80. ISBN 978-1625846648 . [ постоянная мертвая ссылка ]
- ^ Дон Пепперс. «Большие данные. Суперкубок. Маленькие умы» . Проверено 31 декабря 2015 г.
Ссылки
[ редактировать ]- Гамбель, Э.Дж. (1926), «Ложная корреляция и ее значение для физиологии», Журнал Американской статистической ассоциации , 21 (154): 179–194, doi : 10.1080/01621459.1926.10502169
- Банерджи, А.; Доладо, Дж.; Гэлбрейт, Дж.В.; Хендри, Д.Ф. (1993). Совместная интеграция, коррекция ошибок и эконометрический анализ нестационарных данных . Издательство Оксфордского университета. стр. 70–81. ISBN 0-19-828810-7 .
- Перл, Иудея (2000). Причинность: модели, рассуждения и выводы . Издательство Кембриджского университета. ISBN 0521773628 .
Внешние ссылки
[ редактировать ]- https://www.tylervigen.com/spurious-correlations , веб-сайт, на котором перечислены примеры ложных корреляций.