Неправильное использование статистики
Эту статью может потребовать очистки Википедии , чтобы она соответствовала стандартам качества . Конкретная проблема в том, что эта статья написана плохо, часто неясно. ( Ноябрь 2014 г. ) |
Статистика , если ее использовать в заблуждении, может обмануть случайного наблюдателя, заставив его поверить во что-то иное, чем то, что показывают данные . То есть неправильное использование статистики имеет место, когдастатистический аргумент утверждает ложь . В некоторых случаях неправильное использование может быть случайным. В других случаях это целенаправленно и ради выгоды преступника. Когда статистическая причина ложна или неправильно использована, это представляет собой статистическую ошибку .
Последствия таких неправильных толкований могут быть весьма серьезными. Например, в медицинской науке исправление лжи может занять десятилетия и стоить жизни.
В злоупотребления легко попасть. Профессиональных ученых, математиков и даже профессиональных статистиков можно обмануть даже некоторыми простыми методами, даже если они тщательно все проверяют. Известно, что ученые обманывают себя статистикой из-за незнания теории вероятностей и отсутствия стандартизации своих тестов .
Определение, ограничения и контекст
[ редактировать ]Одно из возможных определений звучит так: «Неправильное использование статистики: использование цифр таким образом, что – либо намеренно, либо по незнанию или невнимательности – выводы оказываются неоправданными или неверными». [1] «Цифры» включают в себя вводящие в заблуждение графики, обсуждаемые в других источниках. Этот термин не часто встречается в текстах по статистике, и не существует единого авторитетного определения. Это обобщение лжи со статистикой , которая была подробно описана на примерах статистиков 60 лет назад.
Определение сталкивается с некоторыми проблемами (некоторые из них рассматриваются в источнике): [2]
- Статистика обычно дает вероятности; выводы носят предварительный характер
- Предварительные выводы содержат ошибки и процент ошибок. Обычно 5% предварительных выводов тестирования значимости ошибочны.
- Статистики не полностью согласны с идеальными методами.
- Статистические методы основаны на предположениях, которые редко полностью выполняются.
- Сбор данных обычно ограничен этическими, практическими и финансовыми ограничениями.
Книга «Как лгать со статистикой» признает, что статистика может на законных основаниях принимать разные формы. Независимо от цифр, можно спорить о том, показывает ли статистика, что продукт «легкий и экономичный» или «хлипкий и дешевый». Некоторые возражают против замены морального лидерства (например) статистической корректностью в качестве цели. Установить вину за злоупотребления часто бывает сложно, поскольку ученые, социологи, статистики и репортеры часто являются наемными работниками или консультантами.
Коварное злоупотребление статистикой совершается слушателем, наблюдателем, аудиторией или присяжным. Поставщик предоставляет «статистику» в виде цифр или графиков (или фотографий «до/после»), что позволяет потребителю сделать выводы, которые могут быть неоправданными или неверными. Низкий уровень статистической грамотности населения и нестатистический характер человеческой интуиции позволяют вводить в заблуждение, не делая явных ошибочных выводов. Определение является слабым в отношении ответственности потребителя статистики.
Историк перечислил более 100 заблуждений в дюжине категорий, включая обобщения и причинно-следственные связи. [3] Некоторые из ошибок являются явно или потенциально статистическими, включая выборку, статистическую бессмыслицу, статистическую вероятность, ложную экстраполяцию, ложную интерполяцию и коварное обобщение. Все технические/математические проблемы прикладной вероятности укладываются в одну ошибку статистической вероятности. Многие из ошибок могут быть связаны со статистическим анализом, что допускает возможность ложного вывода, вытекающего из статистически обоснованного анализа.
Примером использования статистики является анализ медицинских исследований. Процесс включает в себя [4] [5] планирование эксперимента, проведение эксперимента, анализ данных, составление логических выводов и презентация/отчетность. Отчет резюмируется популярной прессой и рекламодателями. Неправильное использование статистики может быть результатом проблем на любом этапе процесса. Статистические стандарты, в идеале предъявляемые к научному отчету, сильно отличаются от тех, которые применяются к популярной прессе и рекламодателям; однако существуют случаи, когда реклама замаскирована под науку . Определение злоупотребления статистикой является слабым с точки зрения требуемой полноты статистической отчетности. Высказано мнение, что газеты должны предоставить хотя бы источник публикуемой статистики.
Простые причины
[ редактировать ]Многие злоупотребления статистикой происходят потому, что
- Источником является предметный эксперт, а не эксперт по статистике. [6] Источник может неправильно использовать метод или интерпретировать результат.
- Источником является статистик, а не эксперт в данной области. [7] Эксперт должен знать, когда сравниваемые числа описывают разные вещи. Цифры меняются, в отличие от реальности, когда меняются юридические определения или политические границы.
- Изучаемый предмет не определен четко, [8] или некоторые из его аспектов легко поддаются количественной оценке, в то время как другие трудно поддаются количественной оценке, или не существует известного метода количественной оценки (см. заблуждение Макнамары ). Например:
- Хотя тесты IQ доступны и имеют числовые значения, трудно определить, что они измеряют, поскольку интеллект — это неуловимое понятие.
- Издательское «воздействие» имеет ту же проблему. [9] Научные статьи и научные журналы часто оцениваются по «влиянию», определяемому количеством цитирований в более поздних публикациях. Математики и статистики приходят к выводу, что влияние (хотя и относительно объективное) не является очень значимым показателем. «Исключительная опора на данные цитирования обеспечивает в лучшем случае неполное и часто поверхностное понимание исследования — понимание, которое действительно только тогда, когда оно подкреплено другими суждениями. Цифры по своей сути не превосходят здравые суждения».
- На простой, казалось бы, вопрос о количестве слов в английском языке сразу же наталкиваются вопросы об архаичных формах, учете префиксов и суффиксов, множественности определений слова, вариантах написания, диалектах, причудливых творениях (вроде эктопластики из эктоплазмы и статистики), [10] техническая лексика и так далее.
- Качество данных низкое. [11] Примером может служить одежда. Люди имеют широкий диапазон размеров и форм тела. Очевидно, что калибровка одежды должна быть многомерной. Вместо этого он сложен в неожиданном смысле. Некоторая одежда продается только по размеру (без явного учета формы тела), размеры различаются в зависимости от страны и производителя, а некоторые размеры намеренно вводят в заблуждение. Хотя размеры являются числовыми, с осторожностью можно использовать только самые грубые статистические анализы.
- Популярная пресса имеет ограниченный опыт и смешанные мотивы. [12] Если факты не «заслуживают освещения в прессе» (что может потребовать преувеличения), их нельзя публиковать. Мотивы рекламодателей еще более неоднозначны.
- «Политики используют статистику так же, как пьяный использует фонарные столбы – для поддержки, а не для освещения» – Эндрю Лэнг (WikiQuote) «Чему мы учимся из этих двух способов рассмотрения одних и тех же цифр? Мы узнаем, что умный пропагандист, Правые или левые почти всегда могут найти способ представить данные об экономическом росте, которые, кажется, подтверждают ее точку зрения. И поэтому мы также учимся принимать любой статистический анализ из сильно политического источника с пригоршней соли». [13] Термин «статистика» происходит от чисел, генерируемых и используемых государством. Хорошее правительство может потребовать точных цифр, но популярное правительство может потребовать подтверждающих цифр (не обязательно одинаковых). «Использование и неправильное использование статистики правительствами — древнее искусство». [14]
Виды злоупотреблений
[ редактировать ]Отбрасывание неблагоприятных наблюдений
[ редактировать ]Для продвижения нейтрального (бесполезного) продукта компания должна найти или провести, например, 40 исследований с уровнем достоверности 95%. Если продукт бесполезен, это приведет к тому, что одно исследование покажет, что продукт полезен, одно исследование покажет, что он вреден, и тридцать восемь исследований без окончательных результатов (38 — это 95% из 40). Эта тактика становится более эффективной, когда доступно больше исследований. Организации, которые не публикуют все проведенные ими исследования, например, табачные компании, отрицающие связь между курением и раком, группы по борьбе с курением и средства массовой информации, пытающиеся доказать связь между курением и различными заболеваниями, или продавцы чудодейственных таблеток, скорее всего, будут используйте эту тактику.
Рональд Фишер рассмотрел этот вопрос в своем примере эксперимента со знаменитой женщиной, дегустирующей чай (из его книги 1935 года «План экспериментов »). Что касается повторных экспериментов, он сказал: «Это было бы незаконно и лишило бы наши расчеты основы, если бы не все неудачные результаты были учтены».
Другой термин, связанный с этим понятием, — сбор вишни .
Игнорирование важных функций
[ редактировать ]Многопараметрические наборы данных имеют две или более характеристик/измерений . Если для анализа выбрано слишком мало этих признаков (например, если выбран только один признак и простая линейная регрессия выполняется вместо множественной линейной регрессии ), результаты могут ввести в заблуждение. Это делает аналитика уязвимым для любого из различных статистических парадоксов или, в некоторых (не во всех) случаях, ложной причинно-следственной связи, как показано ниже.
Загруженные вопросы
[ редактировать ]Ответами на опросы часто можно манипулировать, формулируя вопрос таким образом, чтобы вызвать у респондента предпочтение определенного ответа. Например, при опросе в поддержку войны вопросы:
- Поддерживаете ли вы попытку США принести свободу и демократию в другие места мира?
- Поддерживаете ли вы неспровоцированную военную акцию США?
скорее всего, это приведет к искажению данных в разные стороны, хотя оба опроса касаются поддержки войны. Лучше сформулировать вопрос так: «Поддерживаете ли вы нынешние военные действия США за рубежом?» Еще более нейтральный способ задать этот вопрос: «Каково ваше мнение о текущих военных действиях США за рубежом?» Суть должна заключаться в том, что человек, которого спрашивают, не имеет возможности догадаться по формулировке, что, возможно, хочет услышать спрашивающий.
Другой способ сделать это — предварить вопрос информацией, подтверждающей «желаемый» ответ. Например, больше людей, скорее всего, ответят «да» на вопрос «Учитывая растущее налоговое бремя на семьи среднего класса, поддерживаете ли вы снижение подоходного налога?» чем на вопрос: «Учитывая растущий дефицит федерального бюджета и острую потребность в увеличении доходов, поддерживаете ли вы снижение подоходного налога?»
Правильная формулировка вопросов может быть очень тонкой. Ответы на два вопроса могут существенно различаться в зависимости от порядка, в котором они задаются. [15] «Опрос, в котором задавался вопрос о «владении акциями», показал, что большинство техасских владельцев ранчо владеют акциями, хотя, вероятно, не такими, которые торгуются на Нью-Йоркской фондовой бирже». [16]
Чрезмерное обобщение
[ редактировать ]Чрезмерное обобщение — это ошибка, возникающая, когда утверждается, что статистика по конкретной популяции справедлива для членов группы, для которой исходная совокупность не является репрезентативной выборкой.
Например, предположим, что летом 100% яблок красные. Утверждение «Все яблоки красные» было бы примером чрезмерного обобщения, поскольку исходная статистика была верна только для определенной подгруппы яблок (летних), которая, как ожидается, не будет репрезентативной для популяции яблок в целом.
Реальный пример ошибки чрезмерного обобщения можно наблюдать как артефакт современных методов опроса, которые запрещают звонить на мобильные телефоны для проведения политических опросов по телефону. Поскольку молодые люди с большей вероятностью, чем другие демографические группы, не имеют обычного «стационарного» телефона, телефонный опрос, в котором опрашиваются исключительно те, кто отвечает на звонки на стационарные телефоны, может привести к тому, что результаты опроса будут занижать мнения молодых людей, если не будут приняты другие меры. чтобы учесть это искажение выборки. Таким образом, опрос, изучающий избирательные предпочтения молодых людей с использованием этого метода, не может быть совершенно точным представлением истинных избирательных предпочтений молодых людей в целом, если не будет чрезмерного обобщения, поскольку используемая выборка исключает молодых людей, которые носят только сотовые телефоны, которые могут или может не иметь избирательных предпочтений, отличных от предпочтений остального населения.
Чрезмерное обобщение часто происходит, когда информация передается через нетехнические источники, в частности средства массовой информации.
Предвзятые выборки
[ редактировать ]Учёные ценой больших усилий поняли, что собрать хорошие экспериментальные данные для статистического анализа сложно. Пример: Эффект плацебо (разум над телом) очень силен. У 100% испытуемых появилась сыпь при воздействии инертного вещества, которое ошибочно называли ядовитым плющом, в то время как у немногих сыпь появлялась на «безобидный» объект, который на самом деле был ядовитым плющом. [17] Исследователи борются с этим эффектом с помощью двойных слепых рандомизированных сравнительных экспериментов . Статистики обычно больше беспокоятся о достоверности данных, чем об их анализе. Это отражено в области исследований в статистике, известной как планирование экспериментов .
Социологи ценой больших усилий поняли, что собрать хорошие данные опросов для статистического анализа сложно. Избирательное влияние сотовых телефонов на сбор данных (обсуждаемое в разделе «Чрезмерное обобщение») является одним из потенциальных примеров; Если молодые люди с традиционными телефонами не являются репрезентативными, выборка может быть необъективной. Выборочные обследования имеют множество подводных камней и требуют большой осторожности при проведении. [18] Одна попытка потребовала почти 3000 телефонных звонков, чтобы получить 1000 ответов. Простая случайная выборка населения «непроста и не может быть случайной». [19]
Неверное сообщение или непонимание предполагаемой ошибки
[ редактировать ]Если исследовательская группа хочет знать, что думают 300 миллионов человек по определенной теме, было бы непрактично опрашивать их всех. Однако если команда выберет случайную выборку из примерно 1000 человек, они могут быть вполне уверены, что результаты, полученные этой группой, репрезентативны для того, что сказала бы большая группа, если бы их всех спросили.
Эту уверенность можно фактически оценить количественно с помощью центральной предельной теоремы и других математических результатов. Уверенность выражается как вероятность того, что истинный результат (для большей группы) находится в определенном диапазоне оценки (показатель для меньшей группы). Это цифра «плюс-минус», которую часто называют в статистических обследованиях. Вероятностная часть уровня достоверности обычно не упоминается; если да, то предполагается, что это стандартное число, например 95%.
Эти два числа связаны. Если опрос имеет оценочную ошибку ±5% при доверительной вероятности 95%, он также имеет расчетную ошибку ±6,6% при доверительной вероятности 99%. ± % при доверительной вероятности 95 % всегда составляет ± % при доверительной вероятности 99% для нормально распределенной популяции.
Чем меньше предполагаемая ошибка, тем больше требуемая выборка при данном уровне достоверности; например, при 95,4% доверии :
- Для ±1% потребуется 10 000 человек.
- Для ±2% потребуется 2500 человек.
- Для ±3% потребуется 1111 человек.
- Для ±4% потребуется 625 человек.
- Для ±5% потребуется 400 человек.
- Для ±10% потребуется 100 человек.
- Для ±20% потребуется 25 человек.
- Для ±25% потребуется 16 человек.
- Для ±50% потребуется 4 человека.
Люди могут предположить, что, поскольку показатель достоверности опущен, существует 100% уверенность в том, что истинный результат находится в пределах предполагаемой ошибки. Это математически неверно.
Многие люди могут не осознавать, что случайность выборки очень важна. На практике многие опросы общественного мнения проводятся по телефону, что искажает выборку несколькими способами, включая исключение людей, у которых нет телефонов, предпочтение включению людей, имеющих более одного телефона, предпочтение включению людей, которые готовы участвовать в телефонном опросе тех, кто отказывается и т. д. Неслучайная выборка делает оценку ошибки недостоверной.
С другой стороны, люди могут считать, что статистика по своей сути ненадежна, потому что не всех обзванивают или потому, что их самих никогда не опрашивают. Люди могут подумать, что невозможно получить данные о мнении десятков миллионов людей, просто опросив несколько тысяч. Это также неточно. [а] Опрос с идеальной объективной выборкой и правдивыми ответами имеет математически определенную погрешность , которая зависит только от количества опрошенных.
Однако часто в опросе указывается только одна погрешность. Когда результаты сообщаются для подгрупп населения, будет применяться большая погрешность, но это может быть не ясно. Например, опрос 1000 человек может включать 100 человек из определенной этнической или экономической группы. Результаты, ориентированные на эту группу, будут гораздо менее надежными, чем результаты для всей популяции. Если погрешность для всей выборки составляла, скажем, 4%, то погрешность для такой подгруппы могла бы составить около 13%.
Существует также множество других проблем измерения при опросах населения.
Упомянутые выше проблемы применимы ко всем статистическим экспериментам, а не только к опросам населения.
Ложная причинность
[ редактировать ]Когда статистический тест показывает корреляцию между A и B, обычно существует шесть возможностей:
- А вызывает Б.
- Б вызывает А.
- A и B частично являются причиной друг друга.
- И А, и В вызваны третьим фактором, С.
- B вызвано C, который коррелирует с A.
- Наблюдаемая корреляция была обусловлена чисто случайностью.
Шестую возможность можно количественно оценить с помощью статистических тестов, позволяющих рассчитать вероятность того, что наблюдаемая корреляция будет столь же большой, как и случайная, если на самом деле между переменными нет никакой связи. Однако даже если эта возможность имеет небольшую вероятность, есть еще пять других.
Если количество людей, покупающих мороженое на пляже, статистически связано с количеством людей, которые тонут на пляже, тогда никто не станет утверждать, что мороженое является причиной утопления, потому что очевидно, что это не так. (В данном случае и утопление, и покупка мороженого явно связаны с третьим фактором: количеством людей на пляже).
Это заблуждение можно использовать, например, для доказательства того, что воздействие химического вещества вызывает рак. Замените «количество людей, покупающих мороженое» на «количество людей, подвергшихся воздействию химического вещества X», а «количество людей, которые утонули» на «количество людей, заболевших раком», и многие люди вам поверят. В такой ситуации статистическая корреляция может иметь место, даже если реального эффекта нет. Например, если существует мнение, что химический объект «опасен» (даже если на самом деле это не так), стоимость недвижимости в этом районе снизится, что побудит больше семей с низкими доходами переехать в этот район. Если семьи с низким доходом более склонны заболеть раком, чем семьи с высоким доходом (например, из-за более плохого питания или меньшего доступа к медицинской помощи), то уровень заболеваемости раком будет расти, даже несмотря на то, что само по себе химическое вещество не опасно. Считается, что [22] что именно это произошло с некоторыми ранними исследованиями, показывающими связь между ЭМП ( электромагнитными полями ) от линий электропередач и раком . [23]
В хорошо спланированных исследованиях эффект ложной причинно-следственной связи можно устранить, наугад распределив некоторых людей в «терапевтическую группу», а некоторых — в «контрольную группу», при этом терапевтической группе будет предоставлено лечение, а контрольной группе не будет предоставлено лечение. уход. В приведенном выше примере исследователь может подвергнуть одну группу людей воздействию химического вещества X и оставить вторую группу незащищенной. Если в первой группе был более высокий уровень заболеваемости раком, исследователь знает, что не существует третьего фактора, влияющего на то, подвергся ли человек воздействию, потому что он контролировал, кто подвергся воздействию, а кто нет, и он случайным образом распределил людей по группам, подвергшимся воздействию, и не подвергшимся воздействию. Однако во многих случаях проведение такого эксперимента либо непомерно дорого, либо неосуществимо, неэтично, незаконно или совершенно невозможно. Например, крайне маловероятно, что IRB согласится на эксперимент, предполагающий намеренное воздействие на людей опасного вещества с целью проверки его токсичности. Очевидные этические последствия подобных экспериментов ограничивают возможности исследователей эмпирически проверять причинно-следственную связь.
Доказательство нулевой гипотезы
[ редактировать ]В статистическом тесте нулевая гипотеза ( ) считается действительным до тех пор, пока достаточно данных не докажет его ошибочность. Затем отвергается и альтернативная гипотеза ( ) считается доказанным. Случайно это может произойти, хотя верно, с вероятностью, обозначенной (уровень значимости). Это можно сравнить с судебным процессом, где обвиняемый считается невиновным ( ) пока вина не будет доказана ( ) вне разумного сомнения ( ).
Но если данные не дают нам достаточных доказательств, чтобы отвергнуть это , это не доказывает автоматически, что это правильно. Если, например, производитель табачных изделий хочет продемонстрировать, что его продукция безопасна, он может легко провести тестирование на небольшой выборке курильщиков и небольшой выборке некурящих. Маловероятно, что у кого-то из них разовьется рак легких (а даже если и разовьется, разница между группами должна быть очень большой, чтобы исключить ). Следовательно, вполне вероятно (даже если курение опасно), что наш тест не отклонит . Если принято, из этого не следует автоматически, что курение безвредно. Тест имеет недостаточную мощность, чтобы отклонить , поэтому тест бесполезен и ценность «доказательства» также является нулевым.
Это можно, используя приведенный выше судебный аналог, сравнить с действительно виновным подсудимым, которого освобождают только потому, что доказательств недостаточно для вынесения обвинительного приговора. Это не доказывает невиновность подсудимого, а лишь то, что доказательств недостаточно для вынесения обвинительного приговора.
«...нулевая гипотеза никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам возможность опровергнуть нулевую гипотезу». (Фишер в «Планировании экспериментов ») Существует множество причин для путаницы, включая использование двойной негативной логики и терминологии, возникшей в результате слияния «проверки значимости» Фишера (где нулевая гипотеза никогда не принимается) с «проверкой гипотезы» (когда некоторые гипотезы всегда принимается).
Путаница статистической значимости с практической значимостью
[ редактировать ]Статистическая значимость — это мера вероятности; Практическая значимость является мерой эффекта. [24] Лечение облысения статистически значимо, если редкий персиковый пушок обычно покрывает ранее обнаженную кожу головы. Лечение практически значимо, когда в холодную погоду шапка больше не нужна, и парикмахер спрашивает, сколько ее нужно снять. Лысые хотят лечения, которое было бы статистически и практически значимым; Вероятно, это сработает, а если и сработает, то это будет иметь большой эффект. Научная публикация часто требует только статистической значимости. Это привело к жалобам (за последние 50 лет) на то, что тестирование статистической значимости является неправильным использованием статистики. [25]
Извлечение данных
[ редактировать ]Извлечение данных – это злоупотребление интеллектуальным анализом данных . При дноуглублении данных исследуются большие массивы данных с целью обнаружения корреляции без какого-либо заранее определенного выбора гипотезы, подлежащей проверке. Поскольку требуемый доверительный интервал для установления связи между двумя параметрами обычно выбирается равным 95 % (это означает, что существует 95 % вероятность того, что наблюдаемая взаимосвязь не является случайной случайностью), таким образом, существует 5 % вероятность найти корреляция между любыми двумя наборами совершенно случайных величин. Учитывая, что усилия по сбору данных обычно исследуют большие наборы данных со многими переменными и, следовательно, еще большим количеством пар переменных, любое такое исследование почти наверняка приведет к получению ложных, но очевидно статистически значимых результатов.
Обратите внимание, что выемка данных — это действенный способ найти возможную гипотезу, но затем эта гипотеза должна быть проверена с использованием данных, которые не использовались в исходном выемке. Неправильное использование возникает, когда эта гипотеза утверждается как факт без дальнейшей проверки.
«Вы не можете законно проверить гипотезу на тех же данных, которые впервые выдвинули эту гипотезу. Решение очевидно. Как только у вас есть гипотеза, разработайте исследование для поиска именно того эффекта, который, по вашему мнению, существует. Если результат этого теста статистически значимы, у вас наконец-то есть реальные доказательства». [26]
Манипулирование данными
[ редактировать ]Эта практика, неофициально называемая «фальсификацией данных», включает в себя выборочную отчетность (см. также предвзятость публикации ) и даже просто создание ложных данных.
Примеров выборочной отчетности предостаточно. Самые простые и распространенные примеры включают выбор группы результатов, которые соответствуют шаблону, соответствующему предпочтительной гипотезе, при игнорировании других результатов или «прогонов данных», которые противоречат гипотезе.
Ученые, как правило, ставят под сомнение достоверность результатов исследований, которые не могут быть воспроизведены другими исследователями. Однако некоторые ученые отказываются публиковать свои данные и методы. [27]
Манипулирование данными является серьезной проблемой/соображением в самом честном статистическом анализе. Выбросы, отсутствующие данные и отклонения от нормы могут отрицательно повлиять на достоверность статистического анализа. Перед началом анализа целесообразно изучить данные и устранить реальные проблемы. «[В] любой диаграмме рассеяния будут некоторые точки, более или менее отделенные от основной части облака: эти точки следует отклонять только по причине». [28]
Другие заблуждения
[ редактировать ]Псевдорепликация — это техническая ошибка, связанная с дисперсионным анализом . За сложностью скрывается тот факт, что статистический анализ проводится на одной выборке (N=1). В этом вырожденном случае дисперсию невозможно вычислить (деление на ноль). (N=1) всегда даст исследователю самую высокую статистическую корреляцию между предвзятостью намерений и фактическими результатами.
предполагает Заблуждение игрока , что событие, вероятность которого в будущем может быть измерена, имеет такую же вероятность наступления, как только оно уже произошло. Таким образом, если кто-то уже подбросил 9 монет, и на каждой из них выпал орел, люди склонны предполагать, что вероятность того, что десятый бросок также окажется орлом, равна 1023 к 1 (что и было до того, как была подброшена первая монета), хотя на самом деле вероятность выпадения десятой орла составляет 50% (при условии, что монета не смещена).
прокурора Ошибка [29] предполагает, что вероятность того, что очевидно криминальное событие является случайным, равна вероятности того, что подозреваемый невиновен. Ярким примером в Великобритании является неправомерное осуждение Салли Кларк за убийство двух ее сыновей, которые, по-видимому, умерли от синдрома внезапной детской смерти (СВДС). В своих экспертных показаниях ныне дискредитированный профессор сэр Рой Медоу заявил, что из-за редкости СВДС вероятность невиновности Кларка составляет 1 к 73 миллионам. Позже это было подвергнуто сомнению Королевским статистическим обществом ; [30] Если предположить, что цифра Медоуза точна, нужно сопоставить все возможные объяснения друг с другом, чтобы сделать вывод, который, скорее всего, стал причиной необъяснимой смерти двух детей. Имеющиеся данные позволяют предположить, что вероятность двойного СВДС будет в девять раз выше, чем двойного убийства. [31] Цифра 1 на 73 миллиона также вводила в заблуждение, поскольку она была получена путем определения вероятности смерти ребенка из богатой, некурящей семьи от СВДС и возведения ее в квадрат : это ошибочно рассматривает каждую смерть как статистически независимую , предполагая, что не существует никакого фактора. , такие как генетика, повышают вероятность смерти двух братьев и сестер от СВДС. [32] [33] Это также пример экологической ошибки , поскольку предполагается, что вероятность СВДС в семье Кларка была такой же, как и в среднем для всех богатых, некурящих семей; Социальный класс — это очень сложное и многогранное понятие, включающее множество других переменных, таких как образование, род деятельности и многое другое. Предположение, что человек будет обладать теми же качествами, что и остальная часть данной группы, не учитывает влияние других переменных, которые, в свою очередь, могут вводить в заблуждение. [33] Приговор Салли Кларк в конечном итоге был отменен, а Медоу исключили из медицинского учета. [34]
Игровое заблуждение . Вероятности основаны на простых моделях, которые игнорируют реальные (хотя и отдаленные) возможности. Игроки в покер не учитывают, что оппонент может вытащить пистолет, а не карту. Страхователи (и правительства) предполагают, что страховщики останутся платежеспособными, но видят AIG и системный риск .
Другие виды злоупотреблений
[ редактировать ]Другие злоупотребления включают сравнение яблок и апельсинов , использование неправильного среднего значения, [35] регресс к среднему значению , [36] и общая фраза « мусор на входе, мусор на выходе ». [37] Некоторые статистические данные просто не имеют отношения к проблеме. [38]
Некоторые рекламные фразы, такие как «[м] более 99 из 100», могут быть ошибочно истолкованы как 100%. [39]
Квартет Анскомба — это вымышленный набор данных, который иллюстрирует недостатки простой описательной статистики (и ценность построения графиков данных перед численным анализом).
См. также
[ редактировать ]- Обман
- Экологическая ошибка
- Этика в математике
- Метанаука
- Неправильное использование p-значений
- Вводящий в заблуждение график
- Последующий анализ
- Парадокс Симпсона
- Статчек
Ссылки
[ редактировать ]Примечания
[ редактировать ]- ^ Доступны некоторые данные о точности опросов. Что касается одного важного опроса, проведенного правительством США: «Условно говоря, как ошибка выборки , так и ошибка [предвзятости], не связанная с выборкой, ничтожны». [20] Разницу между голосами, предсказанными одним частным опросом, и фактическим количеством голосов на президентских выборах в США можно сравнить в разделе «Президентские предпочтения года выборов: данные о точности опроса Gallup: 1936–2012» . Прогнозы обычно рассчитывались на основе менее 5000 мнений вероятных избирателей. [21]
Источники
[ редактировать ]- ^ Спирер, Спирер и Яффе 1998 , стр. 1.
- ^ Гарденье, Джон; Резник, Дэвид (2002). «Неправильное использование статистики: концепции, инструменты и программа исследований». Подотчетность в исследованиях: политика и обеспечение качества . 9 (2): 65–74. дои : 10.1080/08989620212968 . ПМИД 12625352 . S2CID 24167609 .
- ^ Фишер, Дэвид (1979). Заблуждения историков: к логике исторической мысли . Нью-Йорк: Харпер и Роу. стр. 337–338. ISBN 978-0060904982 .
- ^ Страсак, Александр М.; Камруз Заман; Карл П. Пфайффер; Георг Гебель; Ханно Ульмер (2007). «Статистические ошибки в медицинских исследованиях - обзор распространенных ошибок». Швейцарский медицинский еженедельник . 137 (3–4): 44–49. дои : 10.4414/smw.2007.11587 . ПМИД 17299669 . В этой статье все, что выходит за рамки наилучшей статистической практики, приравнивается к потенциальному неправильному использованию статистики. На нескольких страницах обсуждаются 47 потенциальных статистических ошибок; ошибки в дизайне исследования, анализе данных, документации, представлении и интерпретации. «[С]татистики должны участвовать в разработке исследования на ранних этапах, поскольку ошибки на этом этапе могут иметь серьезные последствия, негативно влияя на все последующие этапы медицинских исследований».
- ^ Индраян, Абхая (2007). «Статистические ошибки в ортопедических исследованиях» . Индийский журнал ортопедии . 41 (1): 37–46. doi : 10.4103/0019-5413.30524 (неактивен 24 апреля 2024 г.). ПМЦ 2981893 . ПМИД 21124681 .
{{cite journal}}
: CS1 maint: DOI неактивен по состоянию на апрель 2024 г. ( ссылка ) Содержит богатый список медицинских злоупотреблений статистикой всех типов. - ^ Спирер, Спирер и Яффе 1998 , главы 7 и 8.
- ^ Спирер, Спирер и Яффе 1998 , глава 3.
- ^ Спирер, Спирер и Яффе 1998 , глава 4.
- ^ Адлер, Роберт; Джон Юинг; Питер Тейлор (2009). «Статистика цитирования» . Статистическая наука . 24 (1): 1–14. дои : 10.1214/09-STS285 .
- ^ Spirer, Spirer & Jaffe 1998 , название главы.
- ^ Спирер, Спирер и Яффе 1998 , глава 5.
- ^ Уэзерберн, Дон (ноябрь 2011 г.), «Использование статистики преступности и злоупотребление ею» (PDF) , Бюллетень «Преступность и правосудие: современные проблемы преступности и правосудия» , 153 , Бюро криминальной статистики и исследований Нового Южного Уэльса, ISBN 9781921824357 , ISSN 1030-1046 , заархивировано из оригинала 21 июня 2014 г.
{{citation}}
: CS1 maint: unfit URL ( ссылка ) Этот австралийский отчет о статистике преступности содержит многочисленные примеры интерпретации и неправильного толкования данных. «Увеличение доступа СМИ к информации о преступности не сопровождалось повышением качества сообщений о преступности в СМИ. Неправильное использование СМИ статистики преступности препятствовало рациональным дебатам о законе и порядке». Среди предполагаемых злоупотреблений в СМИ: выборочное использование данных, выборочное освещение фактов, вводящие в заблуждение комментарии, искажение фактов и вводящие в заблуждение заголовки. Полиция и политики также злоупотребляли статистикой. - ^ Кругман, Пол (1994). Торговля процветанием: экономический смысл и нонсенс в эпоху заниженных ожиданий . Нью-Йорк: WW Нортон. п. 111 . ISBN 0-393-03602-2 .
- ^ Спирер, Спирер и Яффе 1998 .
- ^ Канеман 2013 , с. 102.
- ^ Мур и Нотц 2006 , с. 59.
- ^ Мур и Нотц 2006 , с. 97.
- ^ Мур и Маккейб 2003 , стр. 252–254.
- ^ Мур и Нотц 2006 , с. 53. Выборочные опросы в реальном мире.
- ^ Фридман, Пизани и Первес 1998 , глава 22: Измерение занятости и безработицы, стр. 405.
- ^ Фридман, Пизани и Первес 1998 , стр. 389–390.
- ^ Фарли, Джон В. (2003). Барретт, Стивен (ред.). «Линии электропередачи и рак: нечего бояться» . Шарлатанские часы.
- ^ Винс, Гайя (3 июня 2005 г.). «Большое исследование связывает линии электропередач с детским раком» . Новый учёный . Архивировано из оригинала 16 августа 2014 года.
{{cite news}}
: CS1 maint: unfit URL (link) Cites: Дрейпер, Г. (2005). «Рак у детей в зависимости от расстояния от линий электропередачи высокого напряжения в Англии и Уэльсе: исследование случай-контроль» . БМЖ . 330 (7503): 1290. doi : 10.1136/bmj.330.7503.1290 . ПМК 558197 . ПМИД 15933351 . - ^ Мур и Маккейб 2003 , стр. 463.
- ^ Розбум, Уильям В. (1960). «Ошибочность теста значимости нулевой гипотезы». Психологический вестник . 57 (5): 416–428. дои : 10.1037/h0042040 . ПМИД 13744252 .
- ^ Мур и Маккейб 2003 , с. 466.
- ^ Нейлон, К. (2009). «Ученые возглавляют усилия по открытому обмену данными» . Информация об исследованиях . 41 . Европа Наука: 22–23. ISSN 1744-8026 . Архивировано из оригинала 3 декабря 2013 года.
{{cite journal}}
: CS1 maint: неподходящий URL ( ссылка ) - ^ Фридман, Пизани и Первес 1998 , глава 9: Подробнее о корреляциях, §3: Некоторые исключительные случаи
- ^ Сейфе, Чарльз (2011). Доказательство: как вас обманывают цифры . Нью-Йорк: Пингвин. стр. 203–205 и Приложение C. ISBN. 9780143120070 . Обсуждается пресловутое британское дело.
- ^ Королевское статистическое общество (23 октября 2001 г.). " «Королевское статистическое общество обеспокоено проблемами, поднятыми по делу Салли Кларк» (PDF) . Архивировано из оригинала (PDF) 24 августа 2011 г. (28,0 КБ) »
- ^ Хилл, Р. (2004). «Множественные внезапные детские смерти – совпадение или не совпадение?». Детская и перинатальная эпидемиология . 18 (5): 320–6. дои : 10.1111/j.1365-3016.2004.00560.x . ПМИД 15367318 .
- ^ «Вне всякого разумного сомнения» . Плюс математика . Проверено 1 апреля 2022 г.
- ^ Jump up to: а б Уоткинс, Стивен Дж. (1 января 2000 г.). «Убеждение на основе математической ошибки?: Врачи и юристы должны правильно понять теорию вероятностей» . БМЖ . 320 (7226): 2–3. дои : 10.1136/bmj.320.7226.2 . ISSN 0959-8138 . ПМЦ 1117305 . ПМИД 10617504 .
- ^ Дайер, Клэр (21 июля 2005 г.). «Профессор Рой Медоу удален» . БМЖ . 331 (7510): 177. doi : 10.1136/bmj.331.7510.177 . ISSN 0959-8138 . ПМК 1179752 . ПМИД 16037430 .
- ^ Хафф 1954 , глава 2.
- ^ Канеман 2013 , глава 17.
- ^ Гук 1983 , §50.
- ^ Кэмпбелл 1974 , глава 3: Бессмысленная статистика .
- ^ Мазер, Роберт. «МАРКЕТИНГОВЫЕ МАТЕРИАЛЫ ЛАБОРАТОРИИ МОГУТ ПОДВЕРГАТЬСЯ ЮРИДИЧЕСКИМ ПРЕТЕНЗИЯМ» . ЛинкедИн . Проверено 10 апреля 2024 г.
Дальнейшее чтение
[ редактировать ]- Кэмпбелл, Стивен (1974). Ошибки и заблуждения статистического мышления . Прентис Холл. ISBN 0-486-43598-9 .
- Кристенсен, Р.; Райхерт, Т. (1976). «Нарушения единиц измерения при распознавании образов, неоднозначности и нерелевантности». Распознавание образов . 8 (4): 239–245. Бибкод : 1976PatRe...8..239C . дои : 10.1016/0031-3203(76)90044-3 .
- Эрджан И, Язычи Б, Ян Й, Озкая Г, Кангур С, Эдиз Б, Кан И (2007). «Неправильное использование статистики в медицинских исследованиях» (PDF) . Европейский журнал общей медицины . 4 (3): 127–133. дои : 10.29333/ejgm/82507 . Архивировано из оригинала 13 ноября 2014 года.
{{cite journal}}
: CS1 maint: неподходящий URL ( ссылка ) - Эрджан И, Язычи Б, Оджакоглу Г, Сигирли Д, Кан И (2007). «Обзор надежности и факторов, влияющих на надежность» (PDF) . ИнтерСтат . Архивировано из оригинала 28 августа 2013 года.
{{cite journal}}
: CS1 maint: неподходящий URL ( ссылка ) - Фридман, Дэвид; Пизани, Роберт; Первс, Роджер (1998). Статистика (3-е изд.). WW Нортон. ISBN 978-0-393-97083-8 .
- Гук, Роберт (1983). Как отличить лжецов от статистиков . Нью-Йорк: М. Деккер. ISBN 0-8247-1817-8 .
- Хафф, Даррелл (1954). Как лгать со статистикой . WW Нортон и компания. LCCN 53013322 . ОЛ 6138576М .
- Канеман, Дэниел (2013). Мышление то быстрое, то медленное . Нью-Йорк: Фаррар, Штраус и Жиру. ISBN 9780374533557 .
- Мур, Дэвид; Маккейб, Джордж П. (2003). Введение в практику статистики (4-е изд.). WH Freeman and Co. Нью-Йорк: ISBN 0716796570 .
- Мур, Дэвид; Нотц, Уильям И. (2006). Статистика: концепции и противоречия (6-е изд.). Нью-Йорк: WH Freeman. ISBN 9780716786368 .
- Спирер, Герберт; Спирер, Луиза; Яффе, Эй Джей (1998). Неправильно использованная статистика (переработанное и дополненное 2-е изд.). Нью-Йорк: М. Деккер. ISBN 978-0824702113 . Книга основана на нескольких сотнях примеров неправильного использования.
- Олдберг, Т. и Р. Кристенсен (1995) «Неустойчивая мера» в неразрушающем испытании для энергетической промышленности, 1995 , Американское общество инженеров-механиков. ISBN 0-7918-1298-7 (страницы 1–6). Опубликовано в Интернете на сайте ndt.net.
- Олдберг, Т. (2005) «Этическая проблема в статистике надежности испытаний на обнаружение дефектов», Выступление на отделении «Золотые ворота» Американского общества неразрушающего контроля . Опубликовано в сети ndt.net
- Стоун, М. (2009) Неспособность понять: дорогостоящее пренебрежение статистическими рассуждениями Уайтхолла , Civitas, Лондон. ISBN 1-906837-07-4
- Гэлбрейт, Дж.; Стоун, М. (2011). «Злоупотребление регрессией в формулах распределения ресурсов Национальной службы здравоохранения: ответ на «исследовательский документ по распределению ресурсов» Министерства здравоохранения 2007 года » . Журнал Королевского статистического общества, серия А. 174 (3): 517–528. дои : 10.1111/j.1467-985X.2010.00700.x . S2CID 118029429 .