Подделки (статистика)
В статистике . фильтр подделок или просто подделок представляет собой основу для переменных выбора Первоначально он был представлен для линейной регрессии Риной Барбер и Эммануэлем Кандес . [ 1 ] и позже обобщены на другие модели регрессии в условиях случайного дизайна. [ 2 ] Подделки нашли применение во многих практических областях, особенно в полногеномных исследованиях ассоциаций . [ 2 ] [ 3 ]
Подделки с фиксированным X
[ редактировать ]Рассмотрим модель линейной регрессии с вектором ответа и функций матрица , который рассматривается как детерминированный . Матрица говорят, что это подделки если это не зависит от и удовлетворяет для . Барбер и Кандес показали, что, оснащенные подходящей статистикой важности функций, подделки с фиксированным X можно использовать для выбора переменных, одновременно контролируя частоту ложных обнаружений (FDR).
Подделки Model-X
[ редактировать ]Рассмотрим общую регрессионную модель с вектором отклика и матрица случайных признаков . Матрица говорят, что это подделки если оно условно независимо от данный и удовлетворяет тонкому условию попарной перестановки: для любого , совместное распределение случайной матрицы не изменится, если й и столбцы меняются местами, где это количество функций. Хотя менее ясно, как создавать подделки модели X по сравнению с их аналогом с фиксированным X, различные алгоритмы . для создания подделок были предложены [ 2 ] [ 3 ] [ 4 ] [ 5 ] После создания подделки модели X можно использовать для выбора переменных, следуя той же процедуре, что и подделки фиксированной X, и управлять FDR.
Характеристики
[ редактировать ]Подделки можно понимать как отрицательный контроль. Неформально говоря, подделки обладают тем свойством, что ни один метод не может статистически отличить исходную матрицу от ее подделок, не принимая во внимание . Математически условия заменяемости переводятся в симметрию, которая позволяет оценить ошибку типа I (например, если кто-то хочет выбрать FDR в качестве частоты ошибок типа I, оценивается доля ложных открытий), что затем приводит к точному типу I. контроль ошибок.
Подделки Model-X обеспечивают действительный контроль ошибок типа I независимо от неизвестного условного распределения данный , и он может работать со статистикой важности переменных черного ящика, в том числе полученной с помощью сложных методов машинного обучения . Наиболее серьезной проблемой реализации подделок модели X является то, что для этого требуются нетривиальные знания о распределении , который обычно является многомерным. Эти знания можно получить с помощью немаркированных данных. [ 2 ]
Ссылки
[ редактировать ]- ^ Барбер, Рина Фойгель; Кандес, Эммануэль Дж. (2015). «Контроль количества ложных обнаружений с помощью подделок». Анналы статистики . 43 (5): 2055–2085.
- ^ Jump up to: а б с д Кандес, Эммануэль; Фань, Иньин; Янсон, Лукас; Льв, Джинчи (2018). «Промывание золота: подделки модели X для многомерного выбора контролируемых переменных». Журнал Королевского статистического общества . Серия Б (методическая). 80 (3). Интернет-библиотека Wiley: 551–577. arXiv : 1610.02351 .
- ^ Jump up to: а б Сесия, Маттео; Сабатти, Кьяра ; Кандес, Эммануэль (2019). «Охота на гены со скрытыми подделками моделей Маркова». Биометрика . 106 (1): 1–18.
- ^ Бейтс, Стивен; Кандес, Эммануэль; Янсон, Лукас; Ван, Вэньшо (2020). «Метрополизированная выборка подделок». Журнал Американской статистической ассоциации .
- ^ Хуан, Дунмин; Янсон, Лукас (2020). «Ослабление предположений о подделках путем кондиционирования». Анналы статистики .