Jump to content

Экологическая ошибка

( Экологическая ошибка также экологического вывода ). ошибка [1] или популяционная ошибка ) — формальная ошибка в интерпретации статистических данных, возникающая, когда выводы о природе индивидов выводятся из выводов о группе, к которой эти индивидуумы принадлежат. «Экологическая ошибка» — это термин, который иногда используется для описания ошибки разделения , которая не является статистической ошибкой. Четыре распространенные статистические экологические ошибки: путаница между экологическими корреляциями и индивидуальными корреляциями, путаница между средним значением группы и общим средним значением, парадокс Симпсона и путаница между более высоким средним значением и более высокой вероятностью. С статистической точки зрения эти идеи можно объединить, определив подходящие статистические модели для формальных выводов и используя агрегированные данные для установления ненаблюдаемых связей в данных индивидуального уровня. [2]

Среднее и медианное

[ редактировать ]

Примером экологической ошибки является предположение, что среднее значение популяции имеет простую интерпретацию при рассмотрении вероятностей для отдельного человека.

Например, если средний балл группы больше нуля, это не означает, что случайный человек из этой группы с большей вероятностью будет иметь положительный балл, чем отрицательный (при условии, что отрицательных оценок больше, чем положительных). человек с большей вероятностью будет иметь отрицательный балл). Аналогичным образом, если измерено, что определенная группа людей имеет более низкий средний IQ, чем население в целом, было бы ошибкой заключить, что случайно выбранный член группы, скорее всего, будет иметь более низкий IQ, чем средний IQ. населения в целом; также не обязательно, что случайно выбранный член группы с большей вероятностью будет иметь более низкий IQ, чем случайно выбранный член общей популяции. Математически это происходит из-за того, что распределение может иметь положительное среднее, но отрицательную медиану. Это свойство связано с асимметрией распределения.

Рассмотрим следующий числовой пример:

  • Группа А: 80% людей получили 40 баллов и 20% из них получили 95 баллов. Средний балл – 51 балл.
  • Группа Б: 50% людей получили 45 баллов и 50% получили 55 баллов. Средний балл – 50 баллов.
  • Если мы случайным образом выберем двух человек из числа А и Б, то возможны 4 исхода:
    • А – 40, Б – 45 (победа Б, вероятность 40% – 0,8×0,5)
    • А – 40, Б – 55 (победа Б, вероятность 40% – 0,8×0,5)
    • А – 95, Б – 45 (победа А, вероятность 10% – 0,2×0,5)
    • А – 95, Б – 55 (победа А, вероятность 10% – 0,2×0,5)
  • Хотя группа А имеет более высокий средний балл, в 80% случаев случайный индивидуум из А получит балл ниже, чем случайный индивидуум из Б.

Индивидуальные и совокупные корреляции

[ редактировать ]

Исследования Эмиля Дюркгейма показывают, что в преимущественно протестантских выше, населенных пунктах уровень самоубийств чем в преимущественно католических . [3] По словам Фридмана, [4] Идея о том, что открытия Дюркгейма связывают на индивидуальном уровне религию человека с его риском самоубийства, является примером экологической ошибки. Отношения на уровне группы не характеризуют автоматически отношения на уровне индивида.

Аналогичным образом, даже если на индивидуальном уровне благосостояние положительно коррелирует со склонностью голосовать за республиканцев в Соединенных Штатах , мы наблюдаем, что более богатые штаты склонны голосовать за демократов . Например, на президентских выборах в США в 2004 году кандидат от республиканской партии Джордж Буш одержал победу в пятнадцати беднейших штатах, а кандидат от Демократической партии Джон Керри одержал победу в 9 из 11 самых богатых штатов в Коллегии выборщиков . Тем не менее, 62% избирателей с годовым доходом более 200 000 долларов проголосовали за Буша, но только 36% избирателей с годовым доходом 15 000 долларов или меньше проголосовали за Буша. [5] Корреляция на совокупном уровне будет отличаться от корреляции на индивидуальном уровне, если на предпочтения избирателей влияет общее богатство государства даже после учета индивидуального богатства. Истинным движущим фактором избирательных предпочтений может быть относительное богатство, которое они сами воспринимают; возможно, те, кто считает себя более обеспеченными, чем их соседи, с большей вероятностью проголосуют за республиканцев. В этом случае человек с большей вероятностью проголосует за республиканца, если он станет богаче, но он с большей вероятностью проголосует за демократа, если богатство его соседа увеличится (что приведет к более богатому штату).

Однако наблюдаемая разница в избирательных привычках, основанная на богатстве на уровне штата и человека, также может быть объяснена общей путаницей между более высокими средними показателями и более высокой вероятностью, как обсуждалось выше. Штаты могут быть богаче не потому, что в них больше богатых людей (т.е. больше людей с годовым доходом более 200 000 долларов США), а скорее потому, что в них есть небольшое количество сверхбогатых людей; тогда экологическая ошибка возникает из-за неправильного предположения, что люди в более богатых штатах с большей вероятностью будут богатыми.

Множество примеров экологических заблуждений можно найти в исследованиях социальных сетей, которые часто сочетают анализ и выводы с разных уровней. Это было проиллюстрировано в научной статье о сетях фермеров на Суматре . [6]

Парадокс Робинсона

[ редактировать ]

В статье Уильяма С. Робинсона 1950 года подсчитан уровень неграмотности и доля населения, родившегося за пределами США, для каждого штата и округа Колумбия по данным переписи 1930 года . [7] Он показал, что эти две цифры связаны с отрицательной корреляцией -0,53; другими словами, чем больше доля иммигрантов в штате, тем ниже его средний уровень неграмотности (или, что то же самое, тем выше его средний уровень грамотности). Однако, если рассматривать отдельных людей, корреляция между неграмотностью и рождаемостью составила +0,12 (иммигранты в среднем были более неграмотными, чем коренные жители). Робинсон показал, что отрицательная корреляция на уровне населения штата объясняется тем, что иммигранты, как правило, селились в штатах, где коренное население было более грамотным. Он предостерег от вывода выводов об отдельных людях на основе популяционных или «экологических» данных. В 2011 году было обнаружено, что расчеты экологических корреляций Робинсона основаны на неверных данных на уровне штата. Упомянутая выше корреляция -0,53 на самом деле равна -0,46. [8] Статья Робинсона была плодотворной, но термин «экологическая ошибка» не был придуман Селвином до 1958 года. [9]

Формальная задача

[ редактировать ]

Корреляция совокупных величин (или экологическая корреляция ) не равна корреляции отдельных величин. Обозначим через X i , Y i две величины на индивидуальном уровне. Формула ковариации совокупных количеств в группах размера N :

Ковариация двух агрегированных переменных зависит не только от ковариации двух переменных внутри одних и тех же людей, но также от ковариации переменных между разными людьми. Другими словами, корреляция совокупных переменных учитывает перекрестные эффекты, которые не имеют значения на индивидуальном уровне.

Проблема корреляций естественным образом влечет за собой проблему регрессий по совокупным переменным: поэтому ошибка корреляции является важной проблемой для исследователя, который хочет измерить причинные воздействия. Начните с регрессионной модели, где результат на что влияет

Модель регрессии на совокупном уровне получается путем суммирования отдельных уравнений:

Ничто не мешает коррелировать регрессоры и ошибки на совокупном уровне. Поэтому, как правило, выполнение регрессии на совокупных данных не оценивает ту же модель, что и выполнение регрессии с отдельными данными.

Агрегатная модель корректна тогда и только тогда, когда

Это означает, что контроль за , не определяет .

Выбор между совокупным и индивидуальным выводом

[ редактировать ]

Нет ничего плохого в выполнении регрессий на совокупных данных, если вас интересует агрегатная модель. Например, для губернатора штата правильно провести регрессию между численностью полиции и уровнем преступности на уровне штата, если его интересуют политические последствия увеличения численности полиции. Однако произойдет экологическая ошибка, если городской совет выведет влияние увеличения численности полиции на уровень преступности на уровне города из корреляции на уровне штата.

Выбор использования агрегированной или индивидуальной регрессии для понимания совокупного воздействия на ту или иную политику зависит от следующего компромисса: агрегированные регрессии теряют данные индивидуального уровня, но отдельные регрессии добавляют сильные допущения моделирования. Некоторые исследователи предполагают, что экологическая корреляция дает лучшую картину результатов действий государственной политики, поэтому для этой цели они рекомендуют использовать экологическую корреляцию вместо корреляции индивидуального уровня (Lubinski & Humphreys, 1996). Другие исследователи с этим не согласны, особенно когда отношения между уровнями четко не моделируются. Чтобы предотвратить экологическую ошибку, исследователи, не имеющие индивидуальных данных, могут сначала смоделировать то, что происходит на индивидуальном уровне, затем смоделировать, как связаны между собой индивидуальный и групповой уровни, и, наконец, проверить, добавляет ли что-либо, происходящее на групповом уровне, к пониманию взаимоотношений. Например, при оценке воздействия государственной политики полезно знать, что влияние политики различается в разных штатах меньше, чем сама политика, что позволяет предположить, что различия в политике плохо преобразуются в результаты, несмотря на высокую экологическую корреляцию (Rose, 1973). ).

Групповые и общие средние значения

[ редактировать ]

Экологическая ошибка может также относиться к следующему заблуждению: среднее значение для группы аппроксимируется средним значением общей численности населения, деленным на размер группы. Предположим, вы знаете количество протестантов и уровень самоубийств в США, но у вас нет данных, связывающих религию и самоубийства на индивидуальном уровне. Если вас интересует уровень самоубийств среди протестантов, то было бы ошибкой оценивать его как общий уровень самоубийств, разделенный на число протестантов.Формально обозначим среднее значение группы, мы обычно имеем:

Однако закон полной вероятности дает

Поскольку мы знаем, что находится между 0 и 1, это уравнение дает оценку .

Парадокс Симпсона

[ редактировать ]

Ярким экологическим заблуждением является парадокс Симпсона : тот факт, что при сравнении двух популяций, разделенных на группы, среднее значение некоторой переменной в первой популяции может быть выше в каждой группе и все же ниже в общей популяции. Формально, когда каждое значение Z относится к отдельной группе, а X относится к некоторому лечению, может случиться так, что

Когда не зависит от , парадокс Симпсона - это в точности смещение пропущенной переменной для регрессии Y на X, где регрессор фиктивная переменная , а пропущенная переменная категориальная переменная, определяющая группы для каждого принимаемого значения. Приложение поражает тем, что смещение настолько велико, что параметры имеют противоположные знаки.

[ редактировать ]

Экологическая ошибка обсуждалась в судебном разбирательстве по поводу выборов губернатора Вашингтона в 2004 году, в ходе которых после выборов было выявлено несколько незаконных избирателей; их голоса были неизвестны, поскольку голосование проводилось тайным голосованием . Претенденты утверждали, что незаконные голоса, поданные на выборах, соответствовали бы схеме голосования на избирательных участках, на которых они были поданы, и поэтому необходимо внести соответствующие коррективы. [10] Свидетель-эксперт сказал, что этот подход подобен попытке вычислить средний балл Ичиро Судзуки , глядя на средний балл всей команды «Сиэтл Маринерс» , поскольку незаконные голоса были поданы нерепрезентативной выборкой избирателей каждого участка и могли быть такими: отличался от среднего избирателя на избирательном участке, как Ичиро отличался от остальной части своей команды. [11] Судья определил, что аргумент претендентов является экологической ошибкой, и отклонил его. [12]

См. также

[ редактировать ]
  1. ^ Чарльз Эсс; Фэй Судвикс (2001). Культура, технологии, коммуникация: на пути к межкультурной глобальной деревне . СУНИ Пресс. п. 90. ИСБН  978-0-7914-5015-4 . Проблема заключается в «экологической ошибке» (или ошибке разделения) — стремлении применять характеристики группы или социального уровня к индивидам внутри этой группы.
  2. ^ Кинг, Гэри (1997). Решение проблемы экологического вывода . Издательство Принстонского университета. ISBN  978-0-691-01240-7 . {{cite book}}: CS1 maint: дата и год ( ссылка )
  3. ^ Дюркгейм, (1951/1897). Самоубийство: исследование по социологии . Перевод Джона А. Сполдинга и Джорджа Симпсона. Нью-Йорк: Свободная пресса. ISBN   0-684-83632-7 .
  4. ^ Фридман, Д.А. (1999). Экологический вывод и экологическая ошибка. Международная энциклопедия социальных и поведенческих наук , Технический отчет № 549. https://web.stanford.edu/class/ed260/freedman549.pdf
  5. ^ Гельман, Эндрю ; Парк, Дэвид; Шор, Борис; Бафуми, Джозеф; Кортина, Джеронимо (2008). Красный штат, Синий штат, Богатый штат, Бедный штат . Издательство Принстонского университета . ISBN  978-0-691-13927-2 .
  6. ^ Матоус, Петр (2015). «Социальные сети и управление окружающей средой на разных уровнях: сохранение почв на Суматре» . Экология и общество . 20 (3): 37. doi : 10.5751/ES-07816-200337 . hdl : 10535/9990 .
  7. ^ Робинсон, WS (1950). «Экологические корреляции и поведение людей». Американский социологический обзор . 15 (3): 351–357. дои : 10.2307/2087176 . JSTOR   2087176 .
  8. Исследовательская заметка об этом любопытном сбое данных опубликована в Те Гротенхейс, Манфред; Эйсинга, Роб; Субраманян, С.В. (2011). «Экологические корреляции Робинсона и поведение людей : методологические поправки» . Int J Epidemiol . 40 (4): 1123–1125. дои : 10.1093/ije/dyr081 . hdl : 2066/99678 . ПМИД   21596762 . Данные, использованные Робинсоном, и поправки доступны по адресу http://www.ru.nl/mt/rob/downloads/.
  9. ^ Селвин, Ханан К. (1958). Дюркгейма « Самоубийство и проблемы эмпирических исследований». Американский журнал социологии . 63 (6): 607–619. дои : 10.1086/222356 . S2CID   143488519 .
  10. ^ Джордж Хауленд-младший (18 мая 2005 г.). «Процесс «обезьяньего ключа»: вызов Дино Росси на выборах 2004 года находится на шаткой юридической почве. Но если он победит, судебные разбирательства станут возможным вариантом в конкурентных гонках повсюду» . Сиэтлский еженедельник . Архивировано из оригинала 1 декабря 2008 года . Проверено 17 декабря 2008 г.
  11. Кристофер Адольф (12 мая 2005 г.). «Отчет о выборах губернатора в Вашингтоне в 2004 году» . Отчет свидетеля-эксперта Верховному суду округа Челан по делу Бордерс и др. против округа Кинг и др.
  12. ^ Бордерс и др. против округа Кинг и др. Архивировано 18 октября 2008 г. в Wayback Machine , стенограмма решения судьи Верховного суда округа Челан Джона Бриджеса от 6 июня 2005 г., опубликовано: 8 июня 2005 г.

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ad95ee2dd1a27201b565156db8f1ba6b__1718995560
URL1:https://arc.ask3.ru/arc/aa/ad/6b/ad95ee2dd1a27201b565156db8f1ba6b.html
Заголовок, (Title) документа по адресу, URL1:
Ecological fallacy - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)