Смещение (статистика)
Статистическая предвзятость в математической области статистики — это систематическая тенденция, при которой методы, используемые для сбора данных и создания статистики, представляют неточное, искаженное или предвзятое изображение реальности. Статистическая погрешность существует на многих этапах процесса сбора и анализа данных, включая: источник данных, методы, используемые для сбора данных, выбранный оценщик и методы, используемые для анализа данных. Аналитики данных могут принимать различные меры на каждом этапе процесса, чтобы уменьшить влияние статистической предвзятости в своей работе. Понимание источника статистической погрешности может помочь оценить, близки ли наблюдаемые результаты к реальности. Утверждалось, что проблемы статистической систематической ошибки тесно связаны с проблемами статистической достоверности . [1]
Статистическая погрешность может иметь серьезные последствия в реальном мире, поскольку данные используются для принятия решений в самых разных процессах в обществе. Данные используются для обоснования законотворчества, регулирования отрасли, тактики корпоративного маркетинга и распределения, а также институциональной политики в организациях и на рабочих местах. Таким образом, могут возникнуть серьезные последствия, если статистическая погрешность не будет учитываться и контролироваться. Например, если фармацевтическая компания желает изучить влияние лекарства на простуду, но выборка данных включает только мужчин, любые выводы, сделанные на основе этих данных, будут смещены в сторону того, как лекарство влияет на мужчин, а не на людей в целом. Это означает, что информация будет неполной и бесполезной для принятия решения о том, готово ли лекарство к выпуску среди широкой публики. В этом случае смещение можно устранить путем расширения выборки. Эта ошибка выборки — лишь один из способов искажения данных.
Смещение можно отличить от других статистических ошибок, таких как точность (неисправность/неадекватность инструмента), отсутствие данных или ошибки в транскрипции (опечатки). Систематическая ошибка подразумевает, что выбор данных мог быть искажен критериями сбора. При сборе данных возникают и другие формы предвзятости по вине человека, такие как предвзятость ответов , когда участники дают неточные ответы на вопрос. Предвзятость не исключает существования каких-либо других ошибок. Возможно наличие плохо спроектированного образца, неточного измерительного прибора и опечаток при одновременной записи данных. В идеале все факторы контролируются и учитываются.
Также полезно признать, что термин «ошибка» конкретно относится к результату, а не к процессу ( ошибкам отклонения или принятия проверяемой гипотезы ) или к явлению случайных ошибок . [2] термины «недостаток» или «ошибка», Рекомендуется использовать чтобы отличать процедурные ошибки от этих специально определенных терминов, основанных на результатах.
Смещение оценщика
[ редактировать ]Статистическая погрешность – это особенность статистического метода или его результатов, при которой значение результатов отличается от истинного основного количественного параметра оцениваемого ожидаемое . Смещение оценки параметра не следует путать со степенью точности, поскольку степень точности является мерой ошибки выборки. Смещение определяется следующим образом: пусть быть статистикой, используемой для оценки параметра , и пусть обозначают ожидаемое значение . Затем,
называется смещением статистики (по отношению к ). Если , затем называется несмещенной оценкой ; в противном случае говорят, что это смещенная оценка .
Смещение статистики всегда относительно параметра он используется для оценки, но параметр часто опускается, когда из контекста ясно, что именно оценивается.
Типы
[ редактировать ]Статистическая погрешность возникает на всех этапах анализа данных. Следующие источники систематической ошибки будут перечислены на каждом этапе отдельно.
Выбор данных
[ редактировать ]Систематическая ошибка отбора предполагает, что отдельные лица будут выбраны для исследования с большей вероятностью, чем другие, что приводит к смещению выборки . Это также можно назвать эффектом отбора, смещением выборки и смещением Берксона . [3]
- Смещение спектра возникает в результате оценки диагностических тестов на необъективных выборках пациентов, что приводит к переоценке чувствительности и специфичности теста. Например, высокая распространенность заболевания в исследуемой популяции увеличивает прогностическую ценность положительных результатов, что приводит к смещению между прогностическими значениями и реальными. [4]
- Предвзятость выбора наблюдателя возникает, когда представленные доказательства были предварительно отфильтрованы наблюдателями, что является так называемым антропным принципом . Собранные данные фильтруются не только по плану эксперимента, но и по необходимому предварительному условию, что кто-то должен проводить исследование. [5] Примером может служить воздействие Земли в прошлом. Событие удара могло привести к исчезновению разумных животных, или в то время разумных животных не существовало. Таким образом, некоторые ударные события не наблюдались, но они могли произойти в прошлом. [6]
- Предвзятость добровольцев возникает, когда добровольцы имеют характеристики, существенно отличающиеся от целевой группы исследования. [7] Исследования показали, что волонтеры, как правило, происходят из семей с более высоким социально-экономическим статусом. [8] Более того, другое исследование показывает, что женщины с большей вероятностью будут добровольно участвовать в учебе, чем мужчины. [9]
- Предвзятость финансирования может привести к выбору результатов, тестовых образцов или процедур тестирования в пользу финансового спонсора исследования. [10]
- Систематическая ошибка отсева возникает из-за потери участников, например, потери последующего наблюдения во время исследования. [11]
- Предвзятость воспоминаний возникает из-за различий в точности или полноте воспоминаний участников о прошлых событиях; например, пациенты не могут вспомнить, сколько именно сигарет они выкурили на прошлой неделе, что приводит к завышению или недооценке.
Проверка гипотез
[ редактировать ]Ошибки типа I и типа II при проверке статистических гипотез приводят к неверным результатам. [12] Ошибка I рода возникает, когда нулевая гипотеза верна, но отвергается. Например, предположим, что нулевая гипотеза состоит в том, что если средний предел скорости движения колеблется от 75 до 85 км/ч, это не считается превышением скорости. С другой стороны, если средняя скорость выходит за пределы этого диапазона, это считается превышением скорости. Если кто-то получает билет со средней скоростью движения 7 км/ч, лицо, принимающее решение, допустило ошибку I рода. Другими словами, средняя скорость движения соответствует нулевой гипотезе, но отвергается. Напротив, ошибка второго рода возникает, когда нулевая гипотеза неверна, но принимается.
Смещение при проверке гипотез возникает, когда степень (дополнение коэффициента ошибок типа II) при некоторой альтернативе ниже верхней границы коэффициента ошибок типа I (который обычно является уровнем значимости, ). Аналогично, если ни один процент отклонений ни для одной альтернативы не ниже, чем процент отклонений в любой точке набора нулевых гипотез, тест считается несмещенным. [13]
Выбор оценщика
[ редактировать ]Смещение оценщика — это разница между ожидаемым значением оценщика и истинным значением оцениваемого параметра. Хотя несмещенная оценка теоретически предпочтительнее, чем смещенная оценка, на практике часто используются смещенные оценки с небольшими смещениями. Смещенная оценка может быть более полезной по нескольким причинам. Во-первых, несмещенная оценка может не существовать без дополнительных предположений. Во-вторых, иногда трудно вычислить несмещенную оценку. В-третьих, смещенная оценка может иметь более низкое значение среднеквадратической ошибки.
- Смещенная оценка лучше, чем любая несмещенная оценка, возникающая из распределения Пуассона . [14] [15] Значение смещенной оценки всегда положительное, а ее среднеквадратическая ошибка меньше, чем у несмещенной, что делает смещенную оценку более точной.
- Смещение пропущенной переменной — это смещение, которое появляется в оценках параметров в регрессионном анализе, когда предполагаемая спецификация опускает независимую переменную, которая должна быть в модели.
Методы анализа
[ редактировать ]- Ошибка обнаружения возникает, когда явление с большей вероятностью будет наблюдаться для определенной группы субъектов исследования. Например, синдром, включающий ожирение и диабет, может означать, что врачи с большей вероятностью будут искать диабет у пациентов с ожирением, чем у худых пациентов, что приводит к росту заболеваемости диабетом среди пациентов с ожирением из-за неравномерных усилий по выявлению.
- В образовательных измерениях предвзятость определяется как «систематические ошибки в содержании теста, его проведении и/или процедурах выставления оценок, которые могут привести к тому, что некоторые участники теста получат более низкие или более высокие баллы, чем того заслуживают их истинные способности». [16] Источник систематической ошибки не имеет отношения к признаку, для измерения которого предназначен тест.
- Предвзятость наблюдателя возникает, когда исследователь подсознательно влияет на эксперимент из-за когнитивной предвзятости , когда суждение может повлиять на то, как проводится эксперимент / как записываются результаты.
Интерпретация
[ редактировать ]Систематическая ошибка в отчетности предполагает неравномерность доступности данных, в результате чего с большей вероятностью будут сообщаться о наблюдениях определенного типа.
Устранение статистической предвзятости
[ редактировать ]В зависимости от типа существующей систематической ошибки исследователи и аналитики могут предпринять различные шаги для уменьшения систематической ошибки в наборе данных. Для всех упомянутых выше типов предвзятости предусмотрены соответствующие меры, которые можно принять для уменьшения или устранения их воздействия.
Предвзятость следует учитывать на каждом этапе процесса сбора данных, начиная с четко определенных параметров исследования и рассмотрения команды, которая будет проводить исследование. [2] Предвзятость наблюдателя может быть уменьшена за счет применения слепого или двойного слепого метода. Предотвращение хакерских атак имеет важное значение для процесса сбора точных данных. Один из способов проверить наличие систематической ошибки в результатах — это повторный анализ с различными независимыми переменными, чтобы проверить, происходит ли данное явление в зависимых переменных. [17] Осторожное использование формулировок в отчетах может уменьшить количество вводящих в заблуждение фраз, таких как обсуждение результата, «приближающегося» к статистическому значению по сравнению с фактически достигнутым. [2]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Коул, Нэнси С. (октябрь 1981 г.). «Предвзятость в тестировании» . Американский психолог . 36 (10): 1067–1077. дои : 10.1037/0003-066X.36.10.1067 . ISSN 1935-990Х .
- ^ Перейти обратно: а б с Попович, Александр; Хюкер, Мартин Р. (23 июня 2023 г.). «Исследовательская предвзятость» . Стат Перлс . ПМИД 34662027 .
- ^ Ротман, Кеннет Дж .; Гренландия, Сандер ; Лэш, Тимоти Л. (2008). Современная эпидемиология . Липпинкотт Уильямс и Уилкинс . стр. 134–137.
- ^ Малхерин, Стефани А.; Миллер, Уильям К. (1 октября 2002 г.). «Смещение спектра или эффект спектра? Различия в подгруппах при оценке диагностических тестов» . Анналы внутренней медицины . 137 (7): 598–602. дои : 10.7326/0003-4819-137-7-200210010-00011 . ISSN 1539-3704 . ПМИД 12353947 . S2CID 35752032 .
- ^ Бостром, Ник (31 мая 2013 г.). Антропическая предвзятость: эффекты отбора наблюдений в науке и философии . Нью-Йорк: Рутледж. дои : 10.4324/9780203953464 . ISBN 978-0-203-95346-4 .
- ^ Чиркович, Милан М.; Сандберг, Андерс; Бостром, Ник (2010). «Антропная тень: эффекты отбора наблюдений и риски исчезновения человечества» . Анализ рисков . 30 (10): 1495–1506. дои : 10.1111/j.1539-6924.2010.01460.x . ISSN 1539-6924 . ПМИД 20626690 . S2CID 6485564 .
- ^ Трипепи, Джованни; Джагер, Китти Дж.; Деккер, Фридо В.; Зоккали, Кармин (2010). «Предвзятость выбора и предвзятость информации в клинических исследованиях» . Клиническая практика Нефрона . 115 (2): с94–с99. дои : 10.1159/000312871 . ISSN 1660-2110 . ПМИД 20407272 . S2CID 18856450 .
- ^ «Волонтерская предвзятость» . Каталог смещений . 17.11.2017 . Проверено 18 декабря 2021 г.
- ^ Алекс, Эванс (2020). «Почему женщины занимаются волонтерством чаще, чем мужчины?» . Проверено 22 декабря 2021 г.
- ^ Крымский, Шелдон (1 июля 2013 г.). «Спровоцируют ли исследования финансовых конфликтов интересов предвзятость?: Исследование гипотезы «эффекта финансирования»» . Наука, технологии и человеческие ценности . 38 (4): 566–587. дои : 10.1177/0162243912456271 . ISSN 0162-2439 . S2CID 42598982 .
- ^ Хиггинс, Джулиан П.Т .; Грин, Салли (март 2011 г.). «8. Введение в источники систематической ошибки в клинических исследованиях». Хиггинс, Джулиан П.Т.; и др. (ред.). Кокрейновское руководство по систематическим обзорам вмешательств (версия 5.1) . Кокрейновское сотрудничество.
- ^ Нейман, Ежи ; Пирсон, Эгон С. (1936). «Вклад в теорию проверки статистических гипотез» . Статистические исследования Мемуары . 1 :1–37.
- ^ Казелла, Джордж; Бергер, Роджер Л. (2002), Статистический вывод, 2-е изд., стр. 387.
- ^ Романо, Джозеф П.; Сигел, А.Ф. (1 июня 1986 г.). Контрпримеры в теории вероятности и статистике . ЦРК Пресс. стр. 194–196. ISBN 978-0-412-98901-8 .
- ^ Харди, Майкл (2003). «Ясный контрпример» . Американский математический ежемесячник . 110 (3): 234–238. дои : 10.2307/3647938 . ISSN 0002-9890 . JSTOR 3647938 .
- ^ Национальный совет по измерениям в образовании (NCME) . «Глоссарий оценок NCME» . Архивировано из оригинала 22 июля 2017 г.
- ^ «5 типов статистических ошибок, которых следует избегать в анализе» . Блог бизнес-аналитики . 13 июня 2017 г. Проверено 16 августа 2023 г.
Внешние ссылки
[ редактировать ]- «Каталог предвзятостей» — это проект Центра доказательной медицины, который каталогизирует предвзятости, влияющие на данные о здоровье.