Уровень семейных ошибок
Эта статья нуждается в дополнительных цитатах для проверки . ( июнь 2016 г. ) |
В статистике коэффициент семейных ошибок ( FWER ) — это вероятность сделать одно или несколько ложных открытий или ошибок типа I при выполнении нескольких проверок гипотез .
Частота ошибок в семейном и экспериментальном масштабах
[ редактировать ]Джон Тьюки разработал в 1953 году концепцию семейной частоты ошибок как вероятность совершения ошибки I рода среди определенной группы или «семейства» тестов. [1] Райан (1959) предложил родственную концепцию экспериментальной частоты ошибок , которая представляет собой вероятность совершения ошибки первого рода в данном эксперименте. [2] Следовательно, коэффициент ошибок в эксперименте — это коэффициент ошибок в масштабах всей семьи, где семейство включает в себя все тесты, проводимые в рамках эксперимента.
Как объяснил Райан (1959, сноска 3), эксперимент может содержать два или более семейства множественных сравнений, каждое из которых относится к определенному статистическому выводу и каждое из которых имеет свой собственный коэффициент ошибок для каждого семейства. [2] Следовательно, коэффициенты семейных ошибок обычно основаны на теоретически информативном наборе множественных сравнений. Напротив, экспериментальная частота ошибок может быть основана на совокупности одновременных сравнений, которые относятся к разнообразному диапазону отдельных выводов. Некоторые утверждают, что в таких случаях может быть бесполезно контролировать частоту ошибок эксперимента. [3] Действительно, Тьюки предположил, что в таких случаях предпочтительнее семейный контроль (Tukey, 1956, личное сообщение, у Ryan, 1962, стр. 302). [4]
Фон
[ редактировать ]В статистической базе существует несколько определений термина «семья»:
- Хохберг и Тамхане (1987) определили «семью» как «любую совокупность выводов, для которых имеет смысл принять во внимание некоторую совокупную меру ошибки». [3]
- По мнению Кокса (1982), совокупность выводов следует рассматривать как семью: [ нужна ссылка ]
- Учесть эффект селекции за счет выемки данных
- Обеспечить одновременную правильность набора выводов, чтобы гарантировать правильное общее решение.
Подводя итог, можно сказать, что семью лучше всего можно определить с помощью потенциального избирательного вывода , с которым приходится иметь дело: Семья — это наименьший набор элементов вывода в анализе, взаимозаменяемых по своему значению для цели исследования, из которого выбираются результаты для действия , можно сделать презентацию или выделить ( Йоав Бенджамини ). [ нужна ссылка ]
Классификация множественных проверок гипотез
[ редактировать ]В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1 , H 2 , ..., H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим.Суммирование результатов каждого типа по всем H i дает следующие случайные величины:
Нулевая гипотеза верна (H 0 ) | Альтернативная гипотеза верна ( HA ) | Общий | |
---|---|---|---|
Тест признан значимым | V | С | Р |
Тест признан незначимым | В | Т | |
Общий | м |
- m — общее количество проверенных гипотез.
- — количество истинных нулевых гипотез , неизвестный параметр
- количество истинных альтернативных гипотез
- V — количество ложных срабатываний (ошибка I рода) (также называемых «ложными открытиями»).
- S — количество истинных положительных результатов (также называемых «истинными открытиями»).
- T — количество ложноотрицательных результатов (ошибка II рода)
- U - количество истинных негативов
- количество отвергнутых нулевых гипотез (также называемых «открытиями», истинными или ложными)
В m проверки гипотез, из которых являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .
Определение
[ редактировать ]FWER — это вероятность совершить хотя бы одну ошибку I рода в семействе.
или эквивалентно,
Таким образом, гарантируя , вероятность совершения одной или нескольких ошибок I рода в семействе контролируется на уровне .
Процедура управляет FWER в слабом смысле , если FWER контролируется на уровне гарантировано только тогда, когда все нулевые гипотезы верны (т.е. когда , что означает, что «глобальная нулевая гипотеза» верна). [5]
Процедура контролирует FWER в строгом смысле , если FWER контролируется на уровне гарантировано для любой конфигурации истинных и неверных нулевых гипотез (независимо от того, верна глобальная нулевая гипотеза или нет). [6]
Процедуры контроля
[ редактировать ]Некоторые классические решения, обеспечивающие высокий уровень FWER и существуют некоторые новые решения.
Процедура Бонферрони
[ редактировать ]- Обозначим через значение p для тестирования
- отклонять если
Процедура Шидака
[ редактировать ]- Проверка каждой гипотезы на уровне это процедура многократного тестирования Сидака.
- Эта процедура более эффективна, чем процедура Бонферрони, но выигрыш невелик.
- Эта процедура может не контролировать FWER, если тесты имеют отрицательную зависимость.
Процедура Тьюки
[ редактировать ]- Процедура Тьюки применима только для парных сравнений.
- Он предполагает независимость проверяемых наблюдений, а также равные вариации между наблюдениями ( гомоскедастичность ).
- Процедура вычисляет для каждой пары статистику стьюдентизированного диапазона : где является большим из двух сравниваемых средних значений, является меньшим, и — стандартная ошибка рассматриваемых данных. [ нужна ссылка ]
- Тест Тьюки, по сути, представляет собой t-критерий Стьюдента , за исключением того, что он корректирует частоту семейных ошибок . [ нужна ссылка ]
Процедура увольнения Холма (1979)
[ редактировать ]- Начните с упорядочивания значений p (от наименьшего к наибольшему). и пусть соответствующие гипотезы будут
- Позволять — минимальный индекс такой, что
- Отклонить нулевые гипотезы . Если то ни одна из гипотез не отвергается. [ нужна ссылка ]
Эта процедура более эффективна, чем процедура Бонферрони. [7] Причина, по которой эта процедура контролирует частоту семейных ошибок для всех m гипотез на уровне α в строгом смысле, заключается в том, что это закрытая процедура тестирования . Таким образом, каждое пересечение проверяется с помощью простого теста Бонферрони. [ нужна ссылка ]
Процедура повышения Хохберга
[ редактировать ]Процедура повышения Хохберга (1988) выполняется с использованием следующих шагов: [8]
- Начните с упорядочивания значений p (от наименьшего к наибольшему). и пусть соответствующие гипотезы будут
- Для данного , позволять быть самым большим такой, что
- Отклонить нулевые гипотезы
Процедура Хохберга более эффективна, чем процедура Холма. Тем не менее, хотя процедура Холма является закрытой процедурой тестирования (и, таким образом, как и Бонферрони, не имеет ограничений на совместное распределение статистики теста), процедура Хохберга основана на тесте Саймса, поэтому она справедлива только при неотрицательной зависимости. [ нужна ссылка ] Тест Саймса получен на основе независимых тестов; [9] он консервативен для тестов, которые в определенном смысле положительно зависимы [10] [11] и является антиконсервативным в некоторых случаях негативной зависимости. [12] [13] Однако было высказано предположение, что модифицированная версия процедуры Хохберга остается справедливой и при общей отрицательной зависимости. [14]
Поправка Даннета
[ редактировать ]Чарльз Даннетт (1955, 1966) описал альтернативную корректировку альфа-ошибки, когда k групп сравнивают с одной и той же контрольной группой. Этот метод, известный теперь как критерий Даннета, менее консервативен, чем корректировка Бонферрони. [ нужна ссылка ]
Метод Шеффе
[ редактировать ]Этот раздел пуст. Вы можете помочь, добавив к нему . ( февраль 2013 г. ) |
Процедуры повторной выборки
[ редактировать ]Процедуры Бонферрони и Холма управляют FWER при любой структуре зависимости p -значений (или, что то же самое, индивидуальной статистики теста). По сути, это достигается за счет использования структуры зависимости «наихудшего случая» (которая для большинства практических целей близка к независимости). Но такой подход является консервативным, если зависимость действительно положительна. Крайний пример: при идеальной положительной зависимости фактически существует только один тест, и, следовательно, FWER не завышен.
Учет структуры зависимости p -значений (или статистики отдельных тестов) позволяет получить более мощные процедуры. Этого можно достичь, применяя методы повторной выборки, такие как методы начальной загрузки и перестановки. Процедура Вестфолла и Янга (1993) требует определенного условия, которое не всегда соблюдается на практике (а именно, принципиальности подмножества). [15] Процедуры Романо и Вольфа (2005a,b) обходятся без этого условия и, таким образом, более применимы в целом. [16] [17]
среднего гармонического p -значения Процедура
[ редактировать ]Процедура среднего гармонического p -значения (HMP) [18] [19] предоставляет многоуровневый тест, который повышает эффективность коррекции Бонферрони за счет оценки значимости групп гипотез, одновременно контролируя частоту серьезных семейных ошибок. Значение любого подмножества принадлежащий тестов оценивается путем расчета HMP для подмножества, где являются весами, сумма которых равна единице (т.е. ). Приблизительная процедура, которая контролирует частоту сильных ошибок по семейству на уровне примерно отвергает нулевую гипотезу о том, что ни одно из p -значений в подмножестве значимы, когда [20] (где ). Такое приближение приемлемо для небольших (например ) и становится сколь угодно хорошим, если приближается к нулю. Также доступен асимптотически точный тест (см. основную статью ).
Альтернативные подходы
[ редактировать ]Контроль FWER обеспечивает более строгий контроль над ложным обнаружением по сравнению с процедурами уровня ложного обнаружения (FDR). Контроль FWER ограничивает вероятность хотя бы одного ложного открытия, тогда как контроль FDR ограничивает (в широком смысле) ожидаемую долю ложных открытий. Таким образом, процедуры FDR обладают большей эффективностью за счет увеличения количества ошибок типа I , т. е. отклонения нулевых гипотез, которые на самом деле верны. [21]
С другой стороны, контроль FWER менее строгий, чем контроль частоты ошибок для каждого семейства, что ограничивает ожидаемое количество ошибок на семейство. Поскольку контроль FWER связан как минимум с одним ложным обнаружением, в отличие от контроля частоты ошибок для каждого семейства, он не рассматривает несколько одновременных ложных обнаружений как нечто худшее, чем одно ложное открытие. Поправка Бонферрони часто рассматривается как просто контролирующая FWER, но на самом деле она также контролирует частоту ошибок для каждого семейства. [22]
Ссылки
[ редактировать ]- ^ Тьюки, JW (1953). Проблема множественных сравнений . По данным Тьюки (1953),
- ^ Jump up to: а б Райан, Томас А. (1959). «Множественное сравнение в психологических исследованиях». Психологический вестник . 56 (1). Американская психологическая ассоциация (APA): 26–47. дои : 10.1037/h0042478 . ISSN 1939-1455 .
- ^ Jump up to: а б Хохберг, Ю.; Тамхане, AC (1987). Множественные процедуры сравнения . Нью-Йорк: Уайли. п. 5 . ISBN 978-0-471-82222-6 .
- ^ Райан, Т. А. (1962). «Эксперимент как единица расчета частоты ошибок». Психологический вестник . 59 (4): 301–305. дои : 10.1037/h0040562 . ПМИД 14495585 .
- ^ Дмитриенко, Алекс; Тамхане, Аджит; Бретц, Фрэнк (2009). Множественные задачи тестирования в фармацевтической статистике (1-е изд.). ЦРК Пресс. п. 37. ИСБН 9781584889847 .
- ^ Дмитриенко, Алекс; Тамхане, Аджит; Бретц, Фрэнк (2009). Множественные задачи тестирования в фармацевтической статистике (1-е изд.). ЦРК Пресс. п. 37. ИСБН 9781584889847 .
- ^ Эйкин, М; Генслер, Х. (1996). «Поправка на множественное тестирование при сообщении о результатах исследований: методы Бонферрони и Холма» . Американский журнал общественного здравоохранения . 86 (5): 726–728. дои : 10.2105/ajph.86.5.726 . ПМК 1380484 . ПМИД 8629727 .
- ^ Хохберг, Йосеф (1988). «Более точная процедура Бонферрони для множественных тестов значимости» (PDF) . Биометрика . 75 (4): 800–802. дои : 10.1093/biomet/75.4.800 .
- ^ Саймс, Р.Дж. (1986). «Улучшенная процедура Бонферрони для множественных тестов значимости». Биометрика . 73 (3): 751–754. дои : 10.1093/biomet/73.3.751 .
- ^ Саркар, Санат К.; Чанг, Чунг-Куэй (1997). «Метод Саймса для проверки множественных гипотез с положительно зависимой статистикой испытаний». Журнал Американской статистической ассоциации . 92 (440): 1601–1608. дои : 10.1080/01621459.1997.10473682 .
- ^ Саркар, Санат К. (1998). «Некоторые вероятностные неравенства для упорядоченных случайных величин MTP2: доказательство гипотезы Саймса». Анналы статистики . 26 (2): 494–504.
- ^ Сэмюэл-Кан, Эстер (1996). «Является ли улучшенная процедура Саймса Бонферрони консервативной?». Биометрика . 83 (4): 928–933. дои : 10.1093/биомет/83.4.928 .
- ^ Блок, Генри В.; Савитс, Томас Х.; Ван, Цзе (2008). «Отрицательная зависимость и неравенство Саймса». Журнал статистического планирования и выводов . 138 (12): 4107–4110. дои : 10.1016/j.jspi.2008.03.026 .
- ^ Гоу, Цзянтао; Тамхане, Аджит К. (2018). «Процедура Хохберга при отрицательной зависимости» (PDF) . Статистика Синица . 28 : 339–362. дои : 10.5705/сс.202016.0306 .
- ^ Вестфолл, штат Пенсильвания; Янг, СС (1993). Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения . Нью-Йорк: Джон Уайли. ISBN 978-0-471-55761-6 .
- ^ Романо, Япония; Вольф, М. (2005a). «Точные и приближенные методы понижения для проверки множественных гипотез». Журнал Американской статистической ассоциации . 100 (469): 94–108. дои : 10.1198/016214504000000539 . HDL : 10230/576 . S2CID 219594470 .
- ^ Романо, Япония; Вольф, М. (2005b). «Пошаговое множественное тестирование как формализованное отслеживание данных». Эконометрика . 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473 . дои : 10.1111/j.1468-0262.2005.00615.x .
- ^ Хорошо, Эй Джей (1958). «Испытания значимости параллельно и последовательно». Журнал Американской статистической ассоциации . 53 (284): 799–813. дои : 10.1080/01621459.1958.10501480 . JSTOR 2281953 .
- ^ Уилсон, диджей (2019). «Гармоническое среднее значение p для объединения зависимых тестов» . Труды Национальной академии наук США . 116 (4): 1195–1200. дои : 10.1073/pnas.1814092116 . ПМК 6347718 . ПМИД 30610179 .
- ^ наук, Национальная академия (22 октября 2019 г.). «Поправка Уилсона, среднее гармоническое значение p для объединения зависимых тестов» . Труды Национальной академии наук . 116 (43): 21948. doi : 10.1073/pnas.1914128116 . ПМК 6815184 . ПМИД 31591234 .
- ^ Шаффер, JP (1995). «Множественная проверка гипотез». Ежегодный обзор психологии . 46 : 561–584. дои : 10.1146/annurev.ps.46.020195.003021 . hdl : 10338.dmlcz/142950 .
- ^ Фране, Эндрю (2015). «Имеет ли значение уровень ошибок типа I в расчете на семью в социальных и поведенческих науках?» . Журнал современных прикладных статистических методов . 14 (1): 12–23. дои : 10.22237/jmasm/1430453040 .
Внешние ссылки
[ редактировать ]- Понимание частоты семейных ошибок - сообщение в блоге, включающее его полезность в отношении уровня ложного обнаружения