Jump to content

Проблема множественных сравнений

(Перенаправлено из «Множественное тестирование »)
Пример совпадения, полученного в результате сбора данных (нескорректированные множественные сравнения), показывающий корреляцию между количеством букв в слове-победителе орфографической пчелы и количеством людей в Соединенных Штатах, убитых ядовитыми пауками. Учитывая достаточно большой пул переменных за один и тот же период времени, можно найти пару графиков, демонстрирующих ложную корреляцию .

В статистике проблема множественных сравнений , множественности или множественного тестирования рассматривается набор статистических выводов. возникает, когда одновременно [ 1 ] или оценивает подмножество параметров, выбранных на основе наблюдаемых значений. [ 2 ]

Чем больше количество сделанных выводов, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, например, путем установления более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. Методы определения частоты семейных ошибок дают вероятность ложноположительных результатов в результате проблемы множественных сравнений.

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. прошла первая международная конференция по процедурам множественного сравнения В 1996 году в Тель-Авиве . [ 3 ] Это активная область исследований, над которой работают, например, Эммануэль Кандес и Владимир Вовк .

Определение

[ редактировать ]
Получение небольшого значения p путем многократного тестирования.
Наблюдают 30 образцов по 10 точек случайного цвета (синего или красного). На каждой выборке выполняется двусторонний биномиальный тест нулевой гипотезы о том, что синий и красный цвета равновероятны. В первой строке показаны возможные значения p в зависимости от количества синих и красных точек в образце.
Хотя все 30 выборок были смоделированы с нулевым значением, одно из полученных значений p достаточно мало, чтобы привести к ложному отклонению на типичном уровне 0,05 при отсутствии коррекции.

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых потенциально может привести к «открытию». Установленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому отдельно, но часто желательно иметь уровень достоверности для всей группы одновременных тестов. [ 4 ] Неспособность компенсировать множественные сравнения может иметь важные последствия для реальной жизни, как иллюстрируют следующие примеры:

  • Предположим, что лечение — это новый способ обучения учащихся письму, а контроль — стандартный способ обучения письму. Учащихся двух групп можно сравнить по грамматике, правописанию, организации, содержанию и т. д. По мере сравнения большего количества атрибутов становится все более вероятным, что экспериментальная и контрольная группы будут отличаться по крайней мере по одному атрибуту только из-за ошибки случайной выборки .
  • Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из множества симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что препарат будет лучше существующих по крайней мере в отношении одного симптома.

В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному признаку. Наша уверенность в том, что результат будет обобщен на независимые данные, обычно должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, риск ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга (т.е. выполняются на независимых выборках), вероятность хотя бы одного неверного отбраковки составляет примерно 99,4%.

Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с уровнем вероятности покрытия 95 % будет содержать истинное значение параметра в 95 % выборок. Однако если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью покрытия 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр составляет 99,4%.

Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей отсутствия охвата, которые возникают при множественных статистических тестах.

Классификация множественных проверок гипотез

[ редактировать ]

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1 , H 2 , ..., H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H i дает следующие случайные величины:

Нулевая гипотеза верна (H 0 ) Альтернативная гипотеза верна ( HA ) Общий
Тест признан значимым V С Р
Тест признан незначимым В Т
Общий м

В m проверки гипотез, из которых являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .

Процедуры контроля

[ редактировать ]
Вероятность того, что хотя бы одна нулевая гипотеза будет ошибочно отвергнута, т. , как функция количества независимых испытаний .

Множественная коррекция тестирования

[ редактировать ]

Коррекция множественного тестирования означает, что статистические тесты становятся более строгими, чтобы решить проблему множественного тестирования. Наиболее известной такой корректировкой является поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты семейных ошибок или частоты ложных обнаружений .

Если m выполняется независимых сравнений, коэффициент ошибок для семейства (FWER) определяется выражением

Следовательно, если только тесты не являются совершенно положительно зависимыми (т. е. идентичными), увеличивается по мере увеличения количества сравнений. Если не предполагать, что сравнения независимы, то все равно можно сказать:

что следует из неравенства Буля . Пример:

Существуют разные способы гарантировать, что частота семейных ошибок не превышает . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони. . Чуть менее консервативная поправка может быть получена путем решения уравнения для коэффициента ошибок для семейства: независимые сравнения для . Это дает , которая известна как поправка Шидака . Другой процедурой является метод Холма-Бонферрони , который равномерно обеспечивает большую мощность, чем простая коррекция Бонферрони, путем проверки только самого низкого значения p ( ) по самому строгому критерию и более высоким значениям p ( ) по все менее строгим критериям. [ 5 ] .

Для непрерывных задач можно использовать байесовскую логику для вычисления от соотношения объемов перед и зад. Непрерывные обобщения поправок Бонферрони и Шидака представлены в . [ 6 ]

Масштабное множественное тестирование

[ редактировать ]

Традиционные методы корректировки множественных сравнений направлены на корректировку небольшого количества сравнений, часто при дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», при котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации — результат был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия проведения множественных сравнений. [ 7 ] Утверждалось, что достижения в области измерений и информационных технологий значительно облегчили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительного основания ожидать, что многие из гипотез верны. В этой ситуации очень высокий уровень ложноположительных результатов, ожидается если не будут сделаны корректировки при множественных сравнениях.

Для крупномасштабных задач тестирования, целью которых является получение окончательных результатов, коэффициент семейных ошибок остается наиболее приемлемым параметром для присвоения уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно проверены в независимом исследовании, контроль частоты ложных открытий (FDR) [ 8 ] [ 9 ] [ 10 ] часто является предпочтительным. FDR, грубо определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям определить набор «кандидатов на положительные результаты», которые можно более тщательно оценить в последующем исследовании. [ 11 ]

Практика проведения множества нескорректированных сравнений в надежде найти значимое — это известная проблема, независимо от того, применяется ли она непреднамеренно или намеренно, иногда ее называют « p-хакингом ». [ 12 ] [ 13 ]

Оценка того, верны ли какие-либо альтернативные гипотезы

[ редактировать ]
Обычный квантильный график для смоделированного набора тестовых статистических данных, которые были стандартизированы как Z-показатели при нулевой гипотезе. Отклонение верхнего хвоста распределения от ожидаемого тренда по диагонали обусловлено наличием существенно более крупных значений тестовой статистики, чем можно было бы ожидать, если бы все нулевые гипотезы были верны. Красная точка соответствует четвертому по величине наблюдаемому показателю теста, который составляет 3,13 против ожидаемого значения 2,06. Синяя точка соответствует пятому наименьшему показателю теста, который составляет -1,75 по сравнению с ожидаемым значением -1,96. График показывает, что маловероятно, что все нулевые гипотезы верны и что большинство или все случаи истинной альтернативной гипотезы являются результатом отклонений в положительном направлении.

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, существуют ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, — это использовать распределение Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые будут обнаружены, когда все нулевые гипотезы верны. истинный. [ нужна ссылка ] Если наблюдаемое количество положительных результатов существенно превышает ожидаемое, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинные положительные результаты.

Например, если выполнено 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдет, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого теста составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых справедлива альтернативная гипотеза. Недостаток этого подхода заключается в том, что он преувеличивает доказательства того, что некоторые альтернативные гипотезы верны, когда статистика испытаний положительно коррелирует, что обычно происходит на практике. [ нужна ссылка ] . С другой стороны, этот подход остается действительным даже при наличии корреляции между статистикой испытаний, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных часто встречающихся наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить ФДР на заранее заданном уровне. [ 14 ]

Другой распространенный подход, который можно использовать в ситуациях, когда статистика теста может быть стандартизирована до Z-показателей, заключается в построении обычного квантильного графика статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. [ нужна ссылка ]

См. также

[ редактировать ]
Ключевые понятия
Общие методы альфа-корректировки для множественных сравнений
Связанные понятия
  1. ^ Миллер, Р.Г. (1981). Одновременный статистический вывод, 2-е изд . Спрингер Верлаг Нью-Йорк. ISBN  978-0-387-90548-8 .
  2. ^ Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. дои : 10.1002/bimj.200900299 . ПМИД   21154895 . S2CID   8806192 .
  3. ^ "Дом" . mcp-conference.org .
  4. ^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . МакГроу-Хилл Ирвин. стр. 744–745 . ISBN  9780072386882 .
  5. ^ Эйкин, М; Генслер, Х. (май 1996 г.). «Поправка на множественное тестирование при сообщении о результатах исследований: методы Бонферрони и Холма» . Am J Общественное здравоохранение . 86 (5): 726–728. дои : 10.2105/ajph.86.5.726 . ПМК   1380484 . ПМИД   8629727 .
  6. ^ Байер, Адриан Э.; Селяк, Урош (2020). «Эффект поиска в другом месте с единой байесовской и частотной точек зрения» . Журнал космологии и физики астрочастиц . 2020 (10): 009. arXiv : 2007.13821 . Бибкод : 2020JCAP...10..009B . дои : 10.1088/1475-7516/2020/10/009 . S2CID   220830693 .
  7. ^ Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронакос, Константин (01 октября 2010 г.). «Статистическая значимость в исследованиях генетических ассоциаций» . Клиническая и исследовательская медицина . 33 (5): Е266–Е270. ISSN   0147-958X . ПМК   3270946 . ПМИД   20926032 .
  8. ^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль количества ложных обнаружений: практичный и мощный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 125–133. JSTOR   2346101 .
  9. ^ Стори, Джей Ди; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . ПНАС . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S . дои : 10.1073/pnas.1530509100 . JSTOR   3144228 . ПМК   170937 . ПМИД   12883005 .
  10. ^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д.; Ташер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. дои : 10.1198/016214501753382129 . JSTOR   3085878 . S2CID   9076863 .
  11. ^ Ноубл, Уильям С. (1 декабря 2009 г.). «Как работает коррекция множественного тестирования?» . Природная биотехнология . 27 (12): 1135–1137. дои : 10.1038/nbt1209-1135 . ISSN   1087-0156 . ПМЦ   2907892 . ПМИД   20010596 .
  12. ^ Янг, С.С., Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Смит, Г.Д., Шах, Э. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ   1124898 . ПМИД   12493654 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Кирш, А; Митценмахер, М ; Пьетракаприна, А; Пуччи, Дж; Упфал, Э ; Вандин, Ф. (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал АКМ . 59 (3): 12:1–12:22. arXiv : 1002.1104 . дои : 10.1145/2220357.2220359 .

Дальнейшее чтение

[ редактировать ]
  • Ф. Бретц, Т. Хоторн, П. Вестфолл (2010), Множественные сравнения с использованием R , CRC Press
  • С. Дюдуа и М.Дж. ван дер Лаан (2008), Множественные процедуры тестирования с применением к геномике , Springer
  • Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез с особым вниманием к доле ложных открытий». Статистические методы в медицинских исследованиях . 17 (4): 347–388. дои : 10.1177/0962280206079046 . hdl : 11573/142139 . ПМИД   17698936 . S2CID   12777404 .
  • Фипсон, Б.; Смит, ГК (2010). «P-значения перестановок никогда не должны быть нулевыми: расчет точных P-значений при случайном рисовании перестановок». Статистические приложения в генетике и молекулярной биологии . 9 : Статья 39. arXiv : 1603.05766 . дои : 10.2202/1544-6115.1585 . ПМИД   21044043 . S2CID   10735784 .
  • П.Х. Вестфолл и С.С. Янг (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
  • П. Вестфолл, Р. Тобиас, Р. Вулфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
  • Галерея примеров неправдоподобных корреляций, полученных в результате сбора данных
  • [1] Комикс xkcd о проблеме множественных сравнений на примере мармеладок и прыщей.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6d181cc6938cd968dc93f660ad4d2ee8__1719817440
URL1:https://arc.ask3.ru/arc/aa/6d/e8/6d181cc6938cd968dc93f660ad4d2ee8.html
Заголовок, (Title) документа по адресу, URL1:
Multiple comparisons problem - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)