Смещение выборки
В статистике совокупности систематическая ошибка выборки — это систематическая ошибка , при которой выборка собирается таким образом, что некоторые члены целевой имеют более низкую или более высокую вероятность выборки , чем другие. Это приводит к смещенной выборке [1] популяции (или нечеловеческих факторов), в которой не все индивидуумы или экземпляры были выбраны с разной вероятностью. [2] Если это не учитывать, результаты могут быть ошибочно отнесены к изучаемому явлению, а не к методу отбора проб .
Медицинские источники иногда называют предвзятость выборки предвзятостью установления . [3] [4] Предвзятость установления имеет в основном то же определение: [5] [6] но все же иногда классифицируется как отдельный тип предвзятости. [5]
Отличие от систематической ошибки отбора
[ редактировать ]Смещение выборки обычно классифицируется как подтип смещения отбора . [7] иногда специально называют предвзятостью отбора выборки , [8] [9] [10] но некоторые классифицируют это как отдельный тип предвзятости. [11] Отличие, хотя и не общепринятое, систематической ошибки выборки состоит в том, что она подрывает внешнюю валидность теста (способность обобщать его результаты на всю совокупность), в то время как систематическая ошибка отбора в основном направлена на внутреннюю валидность различий или сходств, обнаруженных в образец под рукой. В этом смысле ошибки, возникающие в процессе формирования выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом последующем процессе вызывают смещение отбора.
Однако систематическая ошибка отбора и систематическая ошибка выборки часто используются как синонимы. [12]
Типы
[ редактировать ]- Выбор из конкретной реальной области . Например, опрос учащихся старших классов для измерения употребления запрещенных наркотиков подростками будет необъективной выборкой, поскольку в него не включены учащиеся, обучающиеся на дому, или бросившие школу. Выборка также является предвзятой, если некоторые члены населения недопредставлены или перепредставлены по сравнению с другими членами населения. Например, в интервью «человек с улицы», в ходе которого выбираются люди, проходящие мимо определенного места, будет слишком много здоровых людей, которые с большей вероятностью будут находиться вне дома, чем люди с хроническими заболеваниями. Это может быть крайней формой предвзятой выборки, поскольку некоторые члены совокупности полностью исключены из выборки (то есть вероятность их попадания в выборку равна нулю).
- Систематическая ошибка самоотбора (см. также Систематическая ошибка отсутствия ответа ), которая возможна всякий раз, когда группа изучаемых людей имеет какую-либо форму контроля над тем, участвовать ли в ней (поскольку текущие стандарты этики исследований с участием людей требуют, чтобы многие исследования в режиме реального времени и некоторые продольные формы обучения). Решение участников об участии может быть связано с характеристиками, влияющими на исследование, что делает участников нерепрезентативной выборкой. Например, люди, у которых есть твердое мнение или существенные знания, могут быть более склонны тратить время на ответы на вопросы опроса, чем те, у кого его нет. Другим примером являются онлайн-опросы и опросы по телефону , которые представляют собой предвзятую выборку, поскольку респонденты выбираются самостоятельно. Те люди, которые имеют высокую мотивацию к ответу, обычно люди с твердым мнением, перепредставлены, а люди, которые безразличны или апатичны, с меньшей вероятностью ответят. Это часто приводит к поляризации ответов, при этом крайним точкам зрения придается непропорциональный вес в резюме. В результате подобные опросы считаются ненаучными.
- Систематическая ошибка исключения возникает в результате исключения определенных групп из выборки, например, исключения субъектов, которые недавно мигрировали в область исследования (это может произойти, когда вновь прибывшие отсутствуют в регистре, используемом для определения исходной популяции). Исключение субъектов, покинувших территорию исследования во время последующего наблюдения, скорее эквивалентно исключению из исследования или отсутствию ответа, а это ошибка отбора , которая скорее влияет на внутреннюю валидность исследования.
- Предвзятость здоровых пользователей , когда исследуемая популяция, вероятно, более здорова, чем население в целом. Например, человек с плохим здоровьем вряд ли будет работать чернорабочим, поэтому, если исследование будет проводиться на чернорабочих, здоровье населения в целом, скорее всего, будет переоценено.
- Заблуждение Берксона , когда исследуемая популяция отбирается из больницы и поэтому менее здорова, чем население в целом. Это может привести к ложной отрицательной корреляции между заболеваниями: пациент больницы без диабета с большей вероятностью заболеет другим заболеванием, например холециститом , поскольку у него изначально должна была быть какая-то причина для госпитализации.
- Чрезмерное сопоставление , сопоставление очевидного искажающего фактора , который на самом деле является результатом воздействия. [ нужны разъяснения ] . Контрольная группа становится более похожей на случаи в отношении воздействия, чем население в целом.
- Предвзятость выжившего , при которой отбираются только «выжившие» субъекты, игнорируя тех, кто выпал из поля зрения. Например, использование информации о существующих компаниях в качестве индикатора делового климата или экономики игнорирует предприятия, которые потерпели неудачу и больше не существуют.
- Смещение Мальмквиста — эффект в наблюдательной астрономии, который приводит к преимущественному обнаружению изначально ярких объектов.
- Заблуждение внимания , некритическое предположение, что все члены или случаи определенного класса или типа подобны тем, которые получают наибольшее внимание или освещение в средствах массовой информации.
Выборка на основе симптомов
[ редактировать ]Изучение заболеваний начинается с отдельных сообщений. По своей природе такие отчеты включают только тех, кто направлен на диагностику и лечение. У ребенка, который не может учиться в школе, с большей вероятностью будет диагностирована дислексия , чем у ребенка, который борется, но сдается. Ребенок, обследованный на одно заболевание, с большей вероятностью будет проверен на наличие других заболеваний, что искажает статистику сопутствующих заболеваний . Поскольку определенные диагнозы становятся связанными с проблемами поведения или умственной отсталостью , родители стараются не допустить стигматизации своих детей из-за этих диагнозов, что приводит к еще большей предвзятости. Исследования, тщательно отобранные среди всего населения, показывают, что многие состояния встречаются гораздо чаще и обычно гораздо мягче, чем считалось ранее.
Усеченный отбор в племенных исследованиях
[ редактировать ]Генетики ограничены в том, как они могут получить данные о человеческих популяциях. В качестве примера рассмотрим человеческую характеристику. Нас интересует решение, наследуется ли данная характеристика как простой менделевский признак. Согласно законам менделевского наследования , если родители в семье не имеют признака, но несут его аллель, они являются носителями (например, неэкспрессивная гетерозигота ). В этом случае каждый из их детей будет иметь 25% шанс проявить эту характеристику. Проблема возникает потому, что мы не можем сказать, в каких семьях оба родителя являются носителями (гетерозиготы), если только у них нет ребенка, проявляющего данную характеристику. Описание соответствует учебнику Саттона. [13]
На рисунке показаны родословные всех возможных семей с двумя детьми, когда родители являются носителями (Аа).
- Необрезанный выбор . В идеальном мире мы должны быть в состоянии обнаружить все такие семьи с геном, включая те, которые являются просто носителями. В этой ситуации анализ будет свободен от предвзятости в установлении, и родословные будут находиться в режиме «неусеченного отбора». На практике большинство исследований идентифицируют и включают семьи в исследование на основе того, что они повлияли на людей.
- Обрезать выделение . Когда больные люди имеют равные шансы быть включенными в исследование, это называется усеченным отбором, что означает непреднамеренное исключение (усечение) семей, которые являются носителями гена. Поскольку отбор осуществляется на индивидуальном уровне, семьи с двумя или более затронутыми детьми имеют более высокую вероятность включения в исследование.
- Полный усеченный выбор — это особый случай, когда каждая семья , в которой есть больной ребенок, имеет равные шансы быть выбранной для исследования.
Вероятности каждой из выбранных семей приведены на рисунке, а также указана частота выборки затронутых детей. В этом простом случае исследователь будет искать частоту 4 ⁄ 7 или 5 ⁄ 8 для характеристики, в зависимости от типа используемого усеченного выбора.
Эффект пещерного человека
[ редактировать ]Пример систематической ошибки отбора называется «эффектом пещерного человека». Большая часть наших знаний о доисторических народах исходит из пещер, например, из наскальных рисунков, сделанных почти 40 000 лет назад. Если бы на деревьях, шкурах животных или склонах холмов были современные рисунки, их бы давно смыло. Точно так же следы ям для костра, кучи мусора , мест захоронений и т. д., скорее всего, останутся нетронутыми до современной эпохи в пещерах. Доисторические люди ассоциируются с пещерами, потому что именно там все еще существуют данные, а не обязательно потому, что большинство из них жили в пещерах большую часть своей жизни. [14]
Проблемы из-за систематической ошибки выборки
[ редактировать ]Смещение выборки является проблематичным, поскольку возможно, что статистика рассчитанная по выборке систематически ошибочна. Смещение выборки может привести к систематической переоценке или недооценке соответствующего параметра в совокупности. На практике возникает систематическая ошибка выборки, поскольку практически невозможно обеспечить полную случайность выборки. Если степень искажения невелика, то выборку можно рассматривать как разумное приближение к случайной выборке. Кроме того, если выборка заметно не отличается по измеряемой величине, то смещенная выборка все равно может быть разумной оценкой.
Слово предвзятость имеет сильный негативный оттенок. Действительно, предвзятость иногда возникает из-за преднамеренного намерения ввести в заблуждение или другого научного мошенничества . В статистическом использовании смещение представляет собой просто математическое свойство, независимо от того, является ли оно преднамеренным или неосознанным или вызвано несовершенством инструментов, используемых для наблюдения. Хотя некоторые люди могут намеренно использовать предвзятую выборку для получения вводящих в заблуждение результатов, чаще всего предвзятая выборка является лишь отражением сложности получения действительно репрезентативной выборки или незнания предвзятости в процессе измерения или анализа. Примером того, как может существовать незнание предвзятости, является широкое использование соотношения (так называемого кратного изменения ) в качестве меры различия в биологии. Поскольку легче добиться большого отношения с двумя маленькими числами с заданной разницей и относительно сложнее добиться большого отношения с двумя большими числами с большей разницей, большие значимые различия могут быть упущены при сравнении относительно больших числовых измерений. Некоторые называют это «предвзятостью демаркации», поскольку использование отношения (деление) вместо разницы (вычитание) выводит результаты анализа из науки в лженауку (см. Проблема демаркации ).
В некоторых выборках используется предвзятый статистический дизайн, который, тем не менее, позволяет оценивать параметры. США Например, Национальный центр статистики здравоохранения намеренно использует избыточную выборку из числа меньшинств во многих своих общенациональных исследованиях, чтобы получить достаточную точность оценок внутри этих групп. [15] Эти обследования требуют использования весов выборки (см. ниже) для получения правильных оценок по всем этническим группам. При соблюдении определенных условий (главным образом, правильности расчета и использования весов) эти выборки позволяют точно оценить параметры популяции.
Исторические примеры
[ редактировать ]Классический пример предвзятой выборки и вводящих в заблуждение результатов произошел в 1936 году. В первые дни опросов общественного мнения журнал American Literary Digest собрал более двух миллионов почтовых опросов и предсказал, что кандидат от республиканской партии на президентских выборах в США Альф Лэндон , опередит действующего президента Франклина Рузвельта с большим отрывом. Результат оказался прямо противоположным. Опрос «Литературный дайджест» представлял собой выборку, собранную среди читателей журнала, дополненную записями зарегистрированных владельцев автомобилей и пользователей телефонов. В этой выборке было слишком много богатых людей, которые как группа с большей вероятностью проголосовали за кандидата от республиканской партии. Напротив, опрос всего 50 тысяч граждан, выбранных организацией Джорджа Гэллапа, успешно предсказал результат, что привело к популярности опроса Gallup .
Другой классический пример произошел на президентских выборах 1948 года . В ночь выборов газета «Чикаго Трибьюн» напечатала заголовок «ДЬЮИ ПОБЕДАЕТ ТРУМЭНА» , который оказался ошибочным. Утром ухмыляющийся президент избранный Гарри С. Трумэн был сфотографирован с газетой с таким заголовком. Причина, по которой газета Tribune ошиблась, заключается в том, что ее редактор доверял результатам телефонного опроса . Опросные исследования тогда находились в зачаточном состоянии, и лишь немногие ученые осознавали, что выборка пользователей телефонов не является репрезентативной для населения в целом. Телефоны еще не были широко распространены, и те, у кого они были, как правило, были зажиточными и имели стабильные адреса. (Во многих городах Bell System телефонный справочник содержал те же названия, что и Social Register ). Кроме того, опрос Gallup, на котором Tribune основывает свой заголовок, на момент публикации был опубликован более двух недель назад. [17]
В данных о качестве воздуха загрязняющие вещества (такие как окись углерода , окись азота , диоксид азота или озон ) часто демонстрируют высокую корреляцию , поскольку они возникают в результате одного и того же химического процесса(ов). Эти корреляции зависят от пространства (т. е. местоположения) и времени (т. е. периода). Таким образом, распределение загрязняющих веществ не обязательно является репрезентативным для каждого места и каждого периода. Если недорогой измерительный прибор калибруется с использованием полевых данных многомерным способом, точнее, путем размещения рядом с эталонным прибором, взаимосвязи между различными соединениями включаются в модель калибровки. При перемещении измерительного прибора могут быть получены ошибочные результаты. [18]
Примером двадцать первого века является пандемия COVID-19 , где было показано, что различия в систематической ошибке выборки при тестировании на COVID-19 объясняют широкие различия как в показателях смертности , так и в возрастном распределении случаев заболевания по странам. [19] [20]
Статистические поправки для смещенной выборки
[ редактировать ]Если из выборки исключаются целые сегменты населения, то не существует корректировок, которые могли бы дать оценки, репрезентативные для всей совокупности. Но если некоторые группы недопредставлены и степень недопредставленности можно определить количественно, то веса выборки могут исправить смещение. Однако успех коррекции ограничивается выбранной моделью выбора. Если некоторые переменные отсутствуют, методы, используемые для исправления систематической ошибки, могут быть неточными. [21]
Например, гипотетическая популяция может включать 10 миллионов мужчин и 10 миллионов женщин. Предположим, что в необъективную выборку из 100 пациентов вошли 20 мужчин и 80 женщин. Исследователь мог бы исправить этот дисбаланс, присвоив вес 2,5 каждому мужчине и 0,625 — каждой женщине. Это позволит скорректировать любые оценки для достижения того же ожидаемого значения, что и выборка, включающая ровно 50 мужчин и 50 женщин, если только мужчины и женщины не различаются по вероятности участия в опросе. [ нужна ссылка ]
См. также
[ редактировать ]- Модель цензурированной регрессии
- Сбор вишни (заблуждение)
- Проблема с файловым ящиком
- Парадокс дружбы
- Предвзятость в отчетности
- Вероятность выборки
- Предвзятость выбора
- Общая предвзятость источника
- Смещение спектра
- Усеченная регрессионная модель
Ссылки
[ редактировать ]- ^ «Смещение выборки» . Медицинский словарь . Архивировано из оригинала 10 марта 2016 года . Проверено 23 сентября 2009 г.
- ^ «Смещенная выборка» . Бесплатный словарь . Проверено 23 сентября 2009 г.
Медицинский словарь Мосби, 8-е издание
- ^ Вейзинг К. (2005). ДНК-дактилоскопия растений: принципы, методы и приложения . Лондон: Группа Тейлора и Фрэнсиса. п. 180 . ISBN 978-0-8493-1488-9 .
- ^ Рамирес и Сориано А (29 ноября 2008 г.). Тесты на неравновесие отбора и сцепления в условиях сложной демографии и систематической ошибки (PDF) (кандидатская диссертация). Университет Помпеу Фабра. п. 34.
- ^ Перейти обратно: а б Паначек Э.А. (май 2009 г.). «Ошибка и предвзятость в клинических исследованиях» (PDF) . Ежегодное собрание SAEM . Новый Орлеан, Луизиана: Общество академической неотложной медицины . Архивировано из оригинала (PDF) 17 августа 2016 года . Проверено 14 ноября 2009 г.
- ^ «Предвзятость уверенности» . Медицинский словарь Medilexicon . Архивировано из оригинала 6 августа 2016 года . Проверено 14 ноября 2009 г.
- ^ «Предвзятость выбора» . Словарь терминов, посвященных раку . Архивировано из оригинала 9 июня 2009 года . Проверено 23 сентября 2009 г.
- ^ Ардс С., Чанг С., Майерс С.Л. (февраль 1998 г.). «Влияние предвзятости отбора выборки на расовые различия в сообщениях о жестоком обращении с детьми» . Жестокое обращение с детьми и пренебрежение ими . 22 (2): 103–15. дои : 10.1016/S0145-2134(97)00131-2 . ПМИД 9504213 .
- ^ Кортес С., Мори М., Райли М., Ростамизаде А. (2008). «Теория коррекции систематической ошибки при выборе выборки» (PDF) . Алгоритмическая теория обучения . Конспекты лекций по информатике. 5254 : 38–53. arXiv : 0805.2775 . CiteSeerX 10.1.1.144.4478 . дои : 10.1007/978-3-540-87987-9_8 . ISBN 978-3-540-87986-2 . S2CID 842488 .
- ^ Кортес С., Мори М. (2014). «Теория адаптации предметной области и коррекции систематической ошибки выборки и алгоритм регрессии» (PDF) . Теоретическая информатика . 519 : 103–126. CiteSeerX 10.1.1.367.6899 . дои : 10.1016/j.tcs.2013.09.027 .
- ^ Фадем Б (2009). Поведенческая наука . Липпинкотт Уильямс и Уилкинс. п. 262. ИСБН 978-0-7817-8257-9 .
- ^ Уоллес Р. (2007). Макси-Розенау-Ласт Общественное здравоохранение и профилактическая медицина (15-е изд.). МакГроу Хилл Профессионал. п. 21. ISBN 978-0-07-159318-2 .
- ^ Саттон Х.Э. (1988). Введение в генетику человека (4-е изд.). Харкорт Брейс Йованович. ISBN 978-0-15-540099-3 .
- ^ Берк Р.А. (июнь 1983 г.). «Введение в предвзятость отбора выборки в социологических данных». Американский социологический обзор . 48 (3): 386–398. дои : 10.2307/2095230 . JSTOR 2095230 .
- ^ «Здоровье меньшинств» . Национальный центр статистики здравоохранения. 2007.
- ^ «Статистика браузера» . Данные Рефснеса. Июнь 2008 года . Проверено 5 июля 2008 г.
- ^ Линхард Дж.Х. «Опрос Гэллапа» . Двигатели нашей изобретательности . Проверено 29 сентября 2007 г.
- ^ Танцев Г., Паскаль К. (октябрь 2020 г.). «Проблема перемещения недорогих сенсорных систем, откалиброванных в полевых условиях, для мониторинга качества воздуха: ошибка отбора проб» . Датчики . 20 (21): 6198. Бибкод : 2020Senso..20.6198T . дои : 10.3390/s20216198 . ПМЦ 7662848 . ПМИД 33143233 .
- ^ Палата D (20 апреля 2020 г.). Ошибка выборки: объяснение широких различий в уровне смертности от COVID-19. Препринт (Отчет). Берн, Швейцария. дои : 10.13140/RG.2.2.24953.62564/1 .
- ^ Бетчер Л., Д'Орсонья М.Р., Чоу Т. (май 2021 г.). «Использование статистики избыточной смертности и тестирования для определения смертности от COVID-19» . Европейский журнал эпидемиологии . 36 (5): 545–558. дои : 10.1007/s10654-021-00748-2 . ПМЦ 8127858 .
- ^ Каддбэк Г., Уилсон Э., Орм Дж.Г., Комбс-Орм Т. (2004). «Обнаружение и статистическая коррекция систематической ошибки отбора выборки». Журнал исследований социальных услуг . 30 (3): 19–33. дои : 10.1300/J079v30n03_02 . S2CID 11685550 .