Парадокс Берксона
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Март 2023 г. ) |

Предположим, что на рисунке 1 талант и привлекательность не коррелируют среди населения.
На рисунке 2 кто-то, производящий выборку населения с использованием знаменитостей, может ошибочно прийти к выводу, что талант отрицательно коррелирует с привлекательностью, поскольку люди, которые не являются ни талантливыми, ни привлекательными, обычно не становятся знаменитостями.
Парадокс Берксона , также известный как предвзятость Берксона , предвзятость коллайдера или ошибка Берксона , является результатом условной вероятности и статистики , которые часто оказываются нелогичными и, следовательно, являются достоверным парадоксом . Это усложняющий фактор, возникающий при статистических проверках пропорций. В частности, оно возникает, когда присутствует предвзятость в оценке в дизайне исследования . Эффект связан с объяснением явления в байесовских сетях и обусловливанием коллайдера в графических моделях .
Ее часто описывают в области медицинской статистики или биостатистики , как в оригинальном описании проблемы Джозефом Берксоном .
Примеры
[ редактировать ]Обзор
[ редактировать ]
Наиболее распространенным примером парадокса Берксона является ложное наблюдение отрицательной корреляции между двумя желательными чертами, т.е. члены популяции, у которых есть одна желательная черта, обычно лишены второй. Парадокс Берксона возникает, когда это наблюдение кажется верным, хотя на самом деле эти два свойства не связаны или даже положительно коррелируют, поскольку члены популяции, в которых отсутствуют оба свойства, наблюдаются неодинаково. Например, человек может по своему опыту заметить, что в ресторанах быстрого питания в его районе, где подают хорошие гамбургеры, обычно подают плохой картофель фри, и наоборот; но поскольку они, скорее всего, не стали бы есть там, где оба были плохими, они не учитывают большое количество ресторанов в этой категории, что могло бы ослабить или даже перевернуть корреляцию.
Оригинальная иллюстрация
[ редактировать ]Оригинальная иллюстрация Берксона включает ретроспективное исследование, изучающее фактор риска заболевания в статистической выборке стационарных больницы пациентов . Поскольку образцы берутся у стационарных пациентов больниц, а не у населения в целом, это может привести к ложной отрицательной связи между заболеванием и фактором риска. Например, если фактором риска является диабет, а заболеванием является холецистит , больной в больнице без диабета с большей вероятностью заболеет холециститом, чем представитель общей популяции, поскольку у пациента должны были быть некоторые заболевания, не связанные с диабетом (возможно, вызывающие холецистит). Причина обращения в больницу в первую очередь. Этот результат будет получен независимо от того, существует ли какая-либо связь между диабетом и холециститом в общей популяции.
Пример Элленберга
[ редактировать ]Пример, представленный Джорданом Элленбергом : Предположим, Алекс будет встречаться с мужчиной только в том случае, если его вежливость и красота превышают некоторый порог. Тогда более приятным мужчинам не обязательно быть такими красивыми, чтобы претендовать на место в пуле знакомств Алекса. Таким образом, среди мужчин, с которыми встречается Алекс , Алекс может заметить, что более приятные мужчины в среднем менее красивы (и наоборот), даже если эти черты не коррелируют в общей популяции. Обратите внимание, что это не означает, что мужчины в пуле знакомств отличаются от мужчин в популяции. Напротив, критерий отбора Алекса означает, что у Алекса высокие стандарты. Среднестатистический приятный мужчина, с которым встречается Алекс, на самом деле красивее, чем средний мужчина в популяции (поскольку даже среди хороших мужчин самая уродливая часть населения пропускается). Отрицательная корреляция Берксона — это эффект, который возникает в пуле знакомств: грубые мужчины, с которыми встречается Алекс, должны были быть еще красивее, чтобы соответствовать критериям.
Количественный пример
[ редактировать ]В качестве количественного примера предположим, что у коллекционера есть 1000 почтовых марок , из которых 300 красивых и 100 редких, причем 30 одновременно красивых и редких. 30% всех его марок красивые, а 10% его красивых марок редкие, поэтому красота ничего не говорит о редкости. Он выставляет на обозрение 370 марок, как красивых, так и редких. Чуть более 27% выставленных марок являются редкими (100/370), но все же только 10% (30/300) красивых марок являются редкими (и 100% из 70 некрасивых марок, представленных на выставке, являются редкими). Если наблюдатель рассматривает только выставленные марки, он увидит ложную отрицательную связь между красотой и редкостью в результате предвзятости отбора (т. е. некрасивость явно указывает на редкость на выставке, но не во всей коллекции).
Заявление
[ редактировать ]Два независимых события становятся условно зависимыми , если произошло хотя бы одно из них. Символически:
- Если и затем
Доказательство: Обратите внимание, что и который вместе с и (так ) подразумевает, что
В табличной форме это можно увидеть следующим образом: желтые области — это результаты, в которых происходит хотя бы одно событие (а ~A означает «не А »).
А | ~А | |
---|---|---|
Б | А и Б | ~А и Б |
~Б | А и ~Б | ~А и ~Б |
Например, если у вас есть образец и оба и происходят независимо в половине случаев ( ), получаем:
А | ~А | |
---|---|---|
Б | 25 | 25 |
~Б | 25 | 25 |
Итак, в результаты, либо или происходит, из них иметь происходит. Сравнивая условную вероятность к безусловной вероятности :
Мы видим, что вероятность выше ( ) в подмножестве результатов, где ( или ) встречается, чем в общей популяции ( ). С другой стороны, вероятность учитывая оба и ( или ) — это просто безусловная вероятность , , с не зависит от . В числовом примере мы поставили условие находиться в верхнем ряду:
А | ~А | |
---|---|---|
Б | 25 | 25 |
~Б | 25 | 25 |
Здесь вероятность является .
Парадокс Берксона возникает потому, что условная вероятность данный внутри подмножества из трех ячеек равна условной вероятности во всей популяции, но безусловная вероятность внутри подмножества завышена относительно безусловной вероятности во всей популяции, следовательно, внутри подмножества наличие уменьшает условную вероятность (возвращаясь к его общей безусловной вероятности):
Поскольку влияние обусловленности на зависит от относительного размера и эффект особенно велик, когда это редкость( ), но очень сильно коррелирует с ( ). Например, рассмотрим случай ниже, когда N очень велико:
А | ~А | |
---|---|---|
Б | 1 | 0 |
~Б | 0 | Н |
Для случая без кондиционирования у нас есть
Таким образом, А происходит редко, если только не присутствует Б, тогда как А происходит всегда. Таким образом, B резко увеличивает вероятность A.
Для случая с включенным кондиционированием у нас есть
Теперь А происходит всегда, независимо от того, присутствует Б или нет. Таким образом, B не влияет на вероятность A. Таким образом, мы Видите, что для сильно коррелированных данных огромная положительная корреляция B с A может быть эффективно устранена, если поставить условие .
См. также
[ редактировать ]Ссылки
[ редактировать ]- Берксон, Джозеф (июнь 1946 г.). «Ограничения применения четырехтабличного анализа к больничным данным». Биометрический бюллетень . 2 (3): 47–53. дои : 10.2307/3002000 . JSTOR 3002000 . ПМИД 21001024 . (Эту статью часто ошибочно цитируют как Berkson, J. (1949 ) Biological Bulletin 2 , 47–53.)
- Джордан Элленберг: « Почему красивые мужчины такие придурки? »