Проблема множественных сравнений

В статистике проблема множественных сравнений , множественности или множественного тестирования рассматривается набор статистических выводов. возникает, когда одновременно ^{[ 1 ]} или оценивает подмножество параметров, выбранных на основе наблюдаемых значений. ^{[ 2 ]}

Чем больше количество сделанных выводов, тем больше вероятность ошибочных выводов. Для решения этой проблемы было разработано несколько статистических методов, например, путем установления более строгого порога значимости для индивидуальных сравнений, чтобы компенсировать количество сделанных выводов. Методы определения частоты семейных ошибок дают вероятность ложноположительных результатов в результате проблемы множественных сравнений.

История

Проблема множественных сравнений привлекла повышенное внимание в 1950-х годах благодаря работам таких статистиков, как Тьюки и Шеффе . В последующие десятилетия было разработано множество процедур для решения этой проблемы. прошла первая международная конференция по процедурам множественного сравнения В 1996 году в Тель-Авиве . ^{[ 3 ]} Это активная область исследований, над которой работают, например, Эммануэль Кандес и Владимир Вовк .

Определение

Множественные сравнения возникают, когда статистический анализ включает в себя несколько одновременных статистических тестов, каждый из которых потенциально может привести к «открытию». Установленный уровень достоверности обычно применяется только к каждому тесту, рассматриваемому отдельно, но часто желательно иметь уровень достоверности для всей группы одновременных тестов. ^{[ 4 ]} Неспособность компенсировать множественные сравнения может иметь важные последствия для реальной жизни, как иллюстрируют следующие примеры:

Предположим, что лечение — это новый способ обучения учащихся письму, а контроль — стандартный способ обучения письму. Учащихся двух групп можно сравнить по грамматике, правописанию, организации, содержанию и т. д. По мере сравнения большего количества атрибутов становится все более вероятным, что экспериментальная и контрольная группы будут отличаться по крайней мере по одному атрибуту только из-за ошибки случайной выборки .
Предположим, мы рассматриваем эффективность лекарства с точки зрения уменьшения любого из множества симптомов заболевания. По мере рассмотрения большего количества симптомов становится все более вероятным, что препарат будет лучше существующих по крайней мере в отношении одного симптома.

В обоих примерах по мере увеличения количества сравнений становится более вероятным, что сравниваемые группы будут отличаться по крайней мере по одному признаку. Наша уверенность в том, что результат будет обобщен на независимые данные, обычно должна быть слабее, если он наблюдается как часть анализа, включающего множественные сравнения, а не анализа, включающего только одно сравнение.

Например, если один тест выполняется на уровне 5% и соответствующая нулевая гипотеза верна, риск ошибочного отклонения нулевой гипотезы составляет всего 5%. Однако если каждый из 100 тестов проводится на уровне 5% и все соответствующие нулевые гипотезы верны, ожидаемое количество неправильных отклонений (также известных как ложноположительные результаты или ошибки типа I ) равно 5. Если тесты статистически независимы друг от друга (т.е. выполняются на независимых выборках), вероятность хотя бы одного неверного отбраковки составляет примерно 99,4%.

Проблема множественных сравнений также применима к доверительным интервалам . Один доверительный интервал с уровнем вероятности покрытия 95 % будет содержать истинное значение параметра в 95 % выборок. Однако если одновременно рассматривать 100 доверительных интервалов, каждый с вероятностью покрытия 95%, ожидаемое количество непокрывающих интервалов равно 5. Если интервалы статистически независимы друг от друга, вероятность того, что хотя бы один интервал не содержит совокупность параметр составляет 99,4%.

Были разработаны методы для предотвращения увеличения количества ложноположительных результатов и показателей отсутствия охвата, которые возникают при множественных статистических тестах.

Классификация множественных проверок гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: $H 1, H 2, ..., H m .$ Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим. Суммирование каждого типа результата по всем H _i дает следующие случайные величины:

	Нулевая гипотеза верна (H ₀ )	Альтернативная гипотеза верна ( _HA )	Общий
Тест признан значимым	$V$	$С$	$Р$
Тест признан незначимым	$В$	$Т$	$m-R$
Общий	$m_{0}$	$m-m_{0}$	$м$

$m$ — общее количество проверенных гипотез.
$m_{0}$ — количество истинных нулевых гипотез , неизвестный параметр
$m-m_{0}$ количество истинных альтернативных гипотез
$V$ — количество ложных срабатываний (ошибка I рода) (также называемых «ложными открытиями»).
$S$ — количество истинных положительных результатов (также называемых «истинными открытиями»).
$T$ — количество ложноотрицательных результатов (ошибка II рода)
$U$ - количество истинных негативов
$R=V+S$ количество отвергнутых нулевых гипотез (также называемых «открытиями», истинными или ложными)

В $m$ проверки гипотез, из которых $m_{0}$ являются истинными нулевыми гипотезами, $R$ — наблюдаемая случайная величина, а $S$ , $T$ , $U$ и $V$ — ненаблюдаемые случайные величины .

Процедуры контроля

Вероятность того, что хотя бы одна нулевая гипотеза будет ошибочно отвергнута, т.

\alpha _{\text{per comparison}}=0.05

, как функция количества независимых испытаний

m

.

Множественная коррекция тестирования

Коррекция множественного тестирования означает, что статистические тесты становятся более строгими, чтобы решить проблему множественного тестирования. Наиболее известной такой корректировкой является поправка Бонферрони , но были разработаны и другие методы. Такие методы обычно предназначены для контроля частоты семейных ошибок или частоты ложных обнаружений .

Если m выполняется независимых сравнений, коэффициент ошибок для семейства (FWER) определяется выражением

{\bar {\alpha }}=1-\left(1-\alpha _{\{{\text{per comparison}}\}}\right)^{m}.

Следовательно, если только тесты не являются совершенно положительно зависимыми (т. е. идентичными), ${\bar {\alpha }}$ увеличивается по мере увеличения количества сравнений. Если не предполагать, что сравнения независимы, то все равно можно сказать:

{\bar {\alpha }}\leq m\cdot \alpha _{\{{\text{per comparison}}\}},

что следует из неравенства Буля . Пример: $0.2649=1-(1-.05)^{6}\leq .05\times 6=0.3$

Существуют разные способы гарантировать, что частота семейных ошибок не превышает $\alpha$ . Наиболее консервативным методом, свободным от зависимостей и предположений о распределении, является поправка Бонферрони. $\alpha _{\mathrm {\{per\ comparison\}} }={\alpha }/m$ . Чуть менее консервативная поправка может быть получена путем решения уравнения для коэффициента ошибок для семейства: $m$ независимые сравнения для $\alpha _{\mathrm {\{per\ comparison\}} }$ . Это дает $\alpha _{\{{\text{per comparison}}\}}=1-{(1-{\alpha })}^{1/m}$ , которая известна как поправка Шидака . Другой процедурой является метод Холма-Бонферрони , который равномерно обеспечивает большую мощность, чем простая коррекция Бонферрони, путем проверки только самого низкого значения p ( $i=1$ ) по самому строгому критерию и более высоким значениям p ( $i>1$ ) по все менее строгим критериям. ^{[ 5 ]} $\alpha _{\mathrm {\{per\ comparison\}} }={\alpha }/(m-i+1)$ .

Для непрерывных задач можно использовать байесовскую логику для вычисления $m$ от соотношения объемов перед и зад. Непрерывные обобщения поправок Бонферрони и Шидака представлены в . ^{[ 6 ]}

Масштабное множественное тестирование

Традиционные методы корректировки множественных сравнений направлены на корректировку небольшого количества сравнений, часто при дисперсионном анализе . Другой набор методов был разработан для «крупномасштабного множественного тестирования», при котором выполняются тысячи или даже большее количество тестов. Например, в геномике при использовании таких технологий, как микрочипы , можно измерить уровни экспрессии десятков тысяч генов, а также измерить генотипы миллионов генетических маркеров. В частности, в области исследований генетических ассоциаций возникла серьезная проблема с отсутствием репликации — результат был статистически значимым в одном исследовании, но не был воспроизведен в последующем исследовании. Такое отсутствие репликации может иметь множество причин, но широко распространено мнение, что одной из причин является неспособность полностью учесть последствия проведения множественных сравнений. ^{[ 7 ]} Утверждалось, что достижения в области измерений и информационных технологий значительно облегчили создание больших наборов данных для исследовательского анализа , что часто приводит к проверке большого количества гипотез без предварительного основания ожидать, что многие из гипотез верны. В этой ситуации очень высокий уровень ложноположительных результатов, ожидается если не будут сделаны корректировки при множественных сравнениях.

Для крупномасштабных задач тестирования, целью которых является получение окончательных результатов, коэффициент семейных ошибок остается наиболее приемлемым параметром для присвоения уровней значимости статистическим тестам. В качестве альтернативы, если исследование рассматривается как исследовательское или если значительные результаты могут быть легко повторно проверены в независимом исследовании, контроль частоты ложных открытий (FDR) ^{[ 8 ]}^{[ 9 ]}^{[ 10 ]} часто является предпочтительным. FDR, грубо определяемый как ожидаемая доля ложноположительных результатов среди всех значимых тестов, позволяет исследователям определить набор «кандидатов на положительные результаты», которые можно более тщательно оценить в последующем исследовании. ^{[ 11 ]}

Практика проведения множества нескорректированных сравнений в надежде найти значимое — это известная проблема, независимо от того, применяется ли она непреднамеренно или намеренно, иногда ее называют « p-хакингом ». ^{[ 12 ]}^{[ 13 ]}

Оценка того, верны ли какие-либо альтернативные гипотезы

Основной вопрос, который возникает в начале анализа большого набора результатов тестирования, заключается в том, существуют ли доказательства того, что какая-либо из альтернативных гипотез верна. Один простой мета-тест, который можно применить, когда предполагается, что тесты независимы друг от друга, — это использовать распределение Пуассона в качестве модели для количества значимых результатов на заданном уровне α, которые будут обнаружены, когда все нулевые гипотезы верны. истинный. ^{[ нужна ссылка ]} Если наблюдаемое количество положительных результатов существенно превышает ожидаемое, это говорит о том, что среди значимых результатов, вероятно, есть некоторые истинные положительные результаты.

Например, если выполнено 1000 независимых тестов, каждый на уровне α = 0,05, мы ожидаем, что 0,05 × 1000 = 50 значимых тестов произойдет, когда все нулевые гипотезы верны. На основе распределения Пуассона со средним значением 50 вероятность наблюдения более 61 значимого теста составляет менее 0,05, поэтому, если наблюдается более 61 значимого результата, весьма вероятно, что некоторые из них соответствуют ситуациям, в которых справедлива альтернативная гипотеза. Недостаток этого подхода заключается в том, что он преувеличивает доказательства того, что некоторые альтернативные гипотезы верны, когда статистика испытаний положительно коррелирует, что обычно происходит на практике. ^{[ нужна ссылка ]}. С другой стороны, этот подход остается действительным даже при наличии корреляции между статистикой испытаний, пока можно показать, что распределение Пуассона обеспечивает хорошее приближение количества значимых результатов. Этот сценарий возникает, например, при извлечении значительных часто встречающихся наборов элементов из наборов транзакционных данных. Более того, тщательный двухэтапный анализ может ограничить ФДР на заранее заданном уровне. ^{[ 14 ]}

Другой распространенный подход, который можно использовать в ситуациях, когда статистика теста может быть стандартизирована до Z-показателей, заключается в построении обычного квантильного графика статистики теста. Если наблюдаемые квантили заметно более разбросаны, чем нормальные квантили, это говорит о том, что некоторые из значимых результатов могут быть истинно положительными. ^{[ нужна ссылка ]}

См. также

q -значение

Ключевые понятия

Общие методы альфа-корректировки для множественных сравнений

Связанные понятия

Ссылки

^ Миллер, Р.Г. (1981). Одновременный статистический вывод, 2-е изд . Спрингер Верлаг Нью-Йорк. ISBN 978-0-387-90548-8 .
^ Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. дои : 10.1002/bimj.200900299 . ПМИД 21154895 . S2CID 8806192 .
^ "Дом" . mcp-conference.org .
^ Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . МакГроу-Хилл Ирвин. стр. 744–745 . ISBN 9780072386882 .
^ Эйкин, М; Генслер, Х. (май 1996 г.). «Поправка на множественное тестирование при сообщении о результатах исследований: методы Бонферрони и Холма» . Am J Общественное здравоохранение . 86 (5): 726–728. дои : 10.2105/ajph.86.5.726 . ПМК 1380484 . ПМИД 8629727 .
^ Байер, Адриан Э.; Селяк, Урош (2020). «Эффект поиска в другом месте с единой байесовской и частотной точек зрения» . Журнал космологии и физики астрочастиц . 2020 (10): 009. arXiv : 2007.13821 . Бибкод : 2020JCAP...10..009B . дои : 10.1088/1475-7516/2020/10/009 . S2CID 220830693 .
^ Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронакос, Константин (01 октября 2010 г.). «Статистическая значимость в исследованиях генетических ассоциаций» . Клиническая и исследовательская медицина . 33 (5): Е266–Е270. ISSN 0147-958X . ПМК 3270946 . ПМИД 20926032 .
^ Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль количества ложных обнаружений: практичный и мощный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 125–133. JSTOR 2346101 .
^ Стори, Джей Ди; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . ПНАС . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S . дои : 10.1073/pnas.1530509100 . JSTOR 3144228 . ПМК 170937 . ПМИД 12883005 .
^ Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д.; Ташер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. дои : 10.1198/016214501753382129 . JSTOR 3085878 . S2CID 9076863 .
^ Ноубл, Уильям С. (1 декабря 2009 г.). «Как работает коррекция множественного тестирования?» . Природная биотехнология . 27 (12): 1135–1137. дои : 10.1038/nbt1209-1135 . ISSN 1087-0156 . ПМЦ 2907892 . ПМИД 20010596 .
^ Янг, С.С., Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Смит, Г.Д., Шах, Э. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ 1124898 . ПМИД 12493654 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ Кирш, А; Митценмахер, М ; Пьетракаприна, А; Пуччи, Дж; Упфал, Э ; Вандин, Ф. (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал АКМ . 59 (3): 12:1–12:22. arXiv : 1002.1104 . дои : 10.1145/2220357.2220359 .

Дальнейшее чтение

Ф. Бретц, Т. Хоторн, П. Вестфолл (2010), Множественные сравнения с использованием R , CRC Press
С. Дюдуа и М.Дж. ван дер Лаан (2008), Множественные процедуры тестирования с применением к геномике , Springer
Фаркомени, А. (2008). «Обзор современной проверки множественных гипотез с особым вниманием к доле ложных открытий». Статистические методы в медицинских исследованиях . 17 (4): 347–388. дои : 10.1177/0962280206079046 . hdl : 11573/142139 . ПМИД 17698936 . S2CID 12777404 .
Фипсон, Б.; Смит, ГК (2010). «P-значения перестановок никогда не должны быть нулевыми: расчет точных P-значений при случайном рисовании перестановок». Статистические приложения в генетике и молекулярной биологии . 9 : Статья 39. arXiv : 1603.05766 . дои : 10.2202/1544-6115.1585 . ПМИД 21044043 . S2CID 10735784 .
П.Х. Вестфолл и С.С. Янг (1993), Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения , Wiley
П. Вестфолл, Р. Тобиас, Р. Вулфингер (2011) Множественные сравнения и множественное тестирование с использованием SAS , 2-е изд., Институт SAS
Галерея примеров неправдоподобных корреляций, полученных в результате сбора данных
[1] Комикс xkcd о проблеме множественных сравнений на примере мармеладок и прыщей.

[1] Миллер, Р.Г. (1981). Одновременный статистический вывод, 2-е изд . Спрингер Верлаг Нью-Йорк. ISBN 978-0-387-90548-8 .

[2] Бенджамини, Ю. (2010). «Одновременный и выборочный вывод: текущие успехи и будущие проблемы». Биометрический журнал . 52 (6): 708–721. дои : 10.1002/bimj.200900299 . ПМИД 21154895 . S2CID 8806192 .

[3] "Дом" . mcp-conference.org .

[4] Катнер, Майкл; Нахтсхайм, Кристофер; Нетер, Джон ; Ли, Уильям (2005). Прикладные линейные статистические модели . МакГроу-Хилл Ирвин. стр. 744–745 . ISBN 9780072386882 .

[5] Эйкин, М; Генслер, Х. (май 1996 г.). «Поправка на множественное тестирование при сообщении о результатах исследований: методы Бонферрони и Холма» . Am J Общественное здравоохранение . 86 (5): 726–728. дои : 10.2105/ajph.86.5.726 . ПМК 1380484 . ПМИД 8629727 .

[Bayer2020-6] Байер, Адриан Э.; Селяк, Урош (2020). «Эффект поиска в другом месте с единой байесовской и частотной точек зрения» . Журнал космологии и физики астрочастиц . 2020 (10): 009. arXiv : 2007.13821 . Бибкод : 2020JCAP...10..009B . дои : 10.1088/1475-7516/2020/10/009 . S2CID 220830693 .

[7] Цюй, Хуэй-Ци; Тьен, Мэтью; Полихронакос, Константин (01 октября 2010 г.). «Статистическая значимость в исследованиях генетических ассоциаций» . Клиническая и исследовательская медицина . 33 (5): Е266–Е270. ISSN 0147-958X . ПМК 3270946 . ПМИД 20926032 .

[8] Бенджамини, Йоав; Хохберг, Йосеф (1995). «Контроль количества ложных обнаружений: практичный и мощный подход к множественному тестированию». Журнал Королевского статистического общества, серия B. 57 (1): 125–133. JSTOR 2346101 .

[9] Стори, Джей Ди; Тибширани, Роберт (2003). «Статистическая значимость для полногеномных исследований» . ПНАС . 100 (16): 9440–9445. Бибкод : 2003PNAS..100.9440S . дои : 10.1073/pnas.1530509100 . JSTOR 3144228 . ПМК 170937 . ПМИД 12883005 .

[10] Эфрон, Брэдли; Тибширани, Роберт; Стори, Джон Д.; Ташер, Вирджиния (2001). «Эмпирический байесовский анализ эксперимента с микрочипами». Журнал Американской статистической ассоциации . 96 (456): 1151–1160. дои : 10.1198/016214501753382129 . JSTOR 3085878 . S2CID 9076863 .

[11] Ноубл, Уильям С. (1 декабря 2009 г.). «Как работает коррекция множественного тестирования?» . Природная биотехнология . 27 (12): 1135–1137. дои : 10.1038/nbt1209-1135 . ISSN 1087-0156 . ПМЦ 2907892 . ПМИД 20010596 .

[Deming-12] Янг, С.С., Карр, А. (2011). «Деминг, данные и наблюдательные исследования» (PDF) . Значение . 8 (3): 116–120. дои : 10.1111/j.1740-9713.2011.00506.x . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[bmj02-13] Смит, Г.Д., Шах, Э. (2002). «Извлечение данных, предвзятость или путаница» . БМЖ . 325 (7378): 1437–1438. дои : 10.1136/bmj.325.7378.1437 . ПМЦ 1124898 . ПМИД 12493654 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )

[14] Кирш, А; Митценмахер, М ; Пьетракаприна, А; Пуччи, Дж; Упфал, Э ; Вандин, Ф. (июнь 2012 г.). «Эффективный строгий подход к выявлению статистически значимых часто встречающихся наборов элементов». Журнал АКМ . 59 (3): 12:1–12:22. arXiv : 1002.1104 . дои : 10.1145/2220357.2220359 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

v т и Планирование экспериментов
Scientific method	Scientific experiment Statistical design Control Internal and external validity Experimental unit Blinding Optimal design: Bayesian Random assignment Randomization Restricted randomization Replication versus subsampling Sample size
Treatment and blocking	Treatment Effect size Contrast Interaction Confounding Orthogonality Blocking Covariate Nuisance variable
Models and inference	Linear regression Ordinary least squares Bayesian Random effect Mixed model Hierarchical model: Bayesian Analysis of variance (Anova) Cochran's theorem Manova (multivariate) Ancova (covariance) Compare means Multiple comparison
Designs Completely randomized	Factorial Fractional factorial Plackett–Burman Taguchi Response surface methodology Polynomial and rational modeling Box–Behnken Central composite Block Generalized randomized block design (GRBD) Latin square Graeco-Latin square Orthogonal array Latin hypercube Repeated measures design Crossover study Randomized controlled trial Sequential analysis Sequential probability ratio test
Glossary Category Mathematics portal Statistical outline Statistical topics