Ложный уровень покрытия
В статистике коэффициент ложного покрытия (FCR) — это средний уровень ложного покрытия , т.е. не охватывающего истинные параметры, среди выбранных интервалов.
FCR дает одновременный охват на уровне (1 − α )×100% для всех параметров, рассматриваемых в задаче. FCR тесно связан с уровнем ложных обнаружений (FDR). Оба метода решают проблему множественных сравнений : FCR на основе доверительных интервалов (CI) и FDR с точки зрения P-значения.
FCR был необходим из-за опасностей, вызванных избирательным выводом. Исследователи и ученые склонны сообщать или выделять только ту часть данных, которая считается значимой, без четкого указания различных гипотез, которые рассматривались. Поэтому необходимо понимать, каким образом данные ложно покрываются. Существует множество процедур FCR, которые можно использовать в зависимости от длины CI – выбрано Бонферрони – скорректировано Бонферрони, [ нужна ссылка ] Скорректированные КИ, выбранные BH (Benjamini and Yekutieli, 2005). [1] ). Стимулом выбора одной процедуры перед другой является обеспечение как можно более узкого CI и сохранение FCR. Для экспериментов на микрочипах и других современных приложений существует огромное количество параметров , часто десятки тысяч и более, и очень важно выбрать наиболее мощную процедуру.
FCR был впервые представлен Даниэлем Екутиэли в его докторской диссертации в 2001 году. [2]
Определения
[ редактировать ]Не сохранять FCR означает когда , где - количество истинных нулевых гипотез, - количество отвергнутых гипотез, количество ложных срабатываний, и это уровень значимости. Интервалы с вероятностью одновременного покрытия может контролировать FCR, который будет ограничен .
Классификация множественных проверок гипотез
[ редактировать ]В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть количество m нулевых гипотез, обозначенных: H 1 , H 2 , ..., H m . Используя статистический тест , мы отвергаем нулевую гипотезу, если тест признан значимым. Мы не отвергаем нулевую гипотезу, если тест незначим.Суммирование результатов каждого типа по всем H i дает следующие случайные величины:
Нулевая гипотеза верна (H 0 ) | Альтернативная гипотеза верна ( HA ) | Общий | |
---|---|---|---|
Тест признан значимым | V | С | Р |
Тест признан незначимым | В | Т | |
Общий | м |
- m — общее количество проверенных гипотез.
- — количество истинных нулевых гипотез , неизвестный параметр
- количество истинных альтернативных гипотез
- V — количество ложных срабатываний (ошибка I рода) (также называемых «ложными открытиями»).
- S — количество истинных положительных результатов (также называемых «истинными открытиями»).
- T — количество ложноотрицательных результатов (ошибка II рода)
- U - количество истинных негативов
- количество отвергнутых нулевых гипотез (также называемых «открытиями», истинными или ложными)
В m проверки гипотез, из которых являются истинными нулевыми гипотезами, R — наблюдаемая случайная величина, а S , T , U и V — ненаблюдаемые случайные величины .
Проблемы, решаемые FCR
[ редактировать ]Выбор
[ редактировать ]Отбор приводит к снижению среднего охвата. Выбор может быть представлен как обусловление события, определенного данными, и может повлиять на вероятность покрытия ЭК для одного параметра . Аналогично, проблема выбора меняет основной смысл P-значений . Процедуры FCR считают, что невозможно достичь цели условного покрытия по любому правилу выбора для любого набора (неизвестных) значений параметров. Более слабое свойство, когда речь идет о выборочных CI, возможно и позволит избежать ложных заявлений о покрытии. FCR — это мера покрытия интервала после выбора. Таким образом, даже несмотря на то, что CI 1 − α не обеспечивает выборочного ( условного ) покрытия, вероятность построения CI без покрытия не превышает α , где
Выбор и множественность
[ редактировать ]При столкновении как с множественностью (вывод о множественных параметрах), так и с выбором , ожидаемая доля охвата выбранных параметров при 1-α не только не эквивалентна ожидаемой доле отсутствия охвата при α, но и последнее больше не может быть обеспечено путем построение маргинальных ДИ для каждого выбранного параметра. Процедуры FCR решают эту проблему, беря ожидаемую долю параметров, не охваченных их ЭК, среди выбранных параметров, где доля равна 0, если ни один параметр не выбран. Эта частота ложных заявлений о покрытии (FCR) является свойством любой процедуры, которое определяется способом выбора параметров и способом построения нескольких интервалов.
Процедуры контроля
[ редактировать ]Процедура Бонферрони (выбранная Бонферрони – скорректированная Бонферрони) для одновременного КИ
[ редактировать ]Одновременные КИ с процедурой Бонферрони, когда у нас есть m параметров, каждый маргинальный КИ построен на уровне 1 - α/m. Без отбора эти CI обеспечивают одновременное покрытие в том смысле, что вероятность того, что все CI охватывают соответствующие параметры, равна как минимум 1 − α. к сожалению, даже такое сильное свойство не обеспечивает свойство условной достоверности после выбора.
FCR для одновременного CI, выбранного Бонферрони и скорректированного Бонферрони
[ редактировать ]Процедура Бонферрони-Бонферрони не может обеспечить условное покрытие, однако она контролирует FCR при <α. На самом деле она делает это слишком хорошо в том смысле, что FCR слишком близок к 0 для больших значений θ. Выбор интервалов основан на тестировании Бонферрони, после чего строятся ДИ Бонферрони. FCR оценивается как доля интервалов, не охватывающих соответствующие параметры, среди построенных CI (устанавливая пропорцию на 0, если ни один не выбран). Где отбор основан на нескорректированном индивидуальном тестировании и построены нескорректированные ДИ.
CI, скорректированные по FCR и выбранные BH
[ редактировать ]В процедуре BH для FDR после сортировки p значений P (1) ≤ • • • ≤ P ( m ) и вычисления R = max { j : P ( j ) ≤ j • q / m }, R нулевых гипотез, для которых P ( i ) ≤ R • q / m отклоняются. Если тестирование проводится с использованием процедуры Бонферрони, то нижняя граница FCR может упасть значительно ниже желаемого уровня q , подразумевая, что интервалы слишком длинные. Напротив, применение следующей процедуры, которая сочетает в себе общую процедуру с FDR, контролирующим тестирование в процедуре BH, также дает нижнюю границу для FCR, q /2 ≤ FCR. Эта процедура является точной в том смысле, что для некоторых конфигураций FCR приближается к q .
1. Отсортируйте значения p, используемые для проверки m гипотез относительно параметров, P (1) ≤ • • • ≤ P ( m ).
2. Вычислите R = max{ i : P ( i ) ≤ i • q / m }.
3. Выбрать R- параметры, для которых P ( i ) ≤ R • q / m , соответствующие отвергнутым гипотезам.
4. Постройте CI 1 − R • q / m для каждого выбранного параметра.
См. также
[ редактировать ]Ссылки
[ редактировать ]Сноски
- ^ Бенджамини, Йоав; Екутиэли, Дэниел (март 2005 г.). «Скорость ложного обнаружения – скорректированные множественные доверительные интервалы для выбранных параметров» (pdf) . Журнал Американской статистической ассоциации . 100 (469): 71–93. дои : 10.1198/016214504000001907 .
- ^ Теоретические результаты, необходимые для применения коэффициента ложного открытия в статистических задачах . Апрель 2001 г. (раздел 3.2, стр. 51)
Другие источники
- Чжао, Чжиген; Хван, Джей Ти Джин (2012). «Эмпирический коэффициент байесовского ложного покрытия, контролирующий доверительные интервалы» (pdf) . Журнал Королевского статистического общества, серия B. дои : 10.1111/j.1467-9868.2012.01033.x . [ постоянная мертвая ссылка ]