Подделки (статистика)

В статистике . фильтр подделок или просто подделок представляет собой основу для переменных выбора Первоначально он был представлен для линейной регрессии Риной Барбер и Эммануэлем Кандес . ^{[ 1 ]} и позже обобщены на другие модели регрессии в условиях случайного дизайна. ^{[ 2 ]} Подделки нашли применение во многих практических областях, особенно в полногеномных исследованиях ассоциаций . ^{[ 2 ]}^{[ 3 ]}

Подделки с фиксированным X

Рассмотрим модель линейной регрессии с вектором ответа $\mathbf {y}$ и функций матрица $\mathbf {X}$ , который рассматривается как детерминированный . Матрица ${\tilde {\mathbf {X} }}$ говорят, что это подделки $\mathbf {X}$ если это не зависит от $\mathbf {y}$ и удовлетворяет $\mathbf {X} _{i}^{\top }\mathbf {X} _{j}=\mathbf {X} _{i}^{\top }{\tilde {\mathbf {X} }}_{j}={\tilde {\mathbf {X} }}_{i}^{\top }\mathbf {X} _{j}={\tilde {\mathbf {X} }}_{i}^{\top }{\tilde {\mathbf {X} }}_{j}$ для $i\neq j$ . Барбер и Кандес показали, что, оснащенные подходящей статистикой важности функций, подделки с фиксированным X можно использовать для выбора переменных, одновременно контролируя частоту ложных обнаружений (FDR).

Подделки Model-X

Рассмотрим общую регрессионную модель с вектором отклика $\mathbf {y}$ и матрица случайных признаков $\mathbf {X}$ . Матрица ${\tilde {\mathbf {X} }}$ говорят, что это подделки $\mathbf {X}$ если оно условно независимо от $\mathbf {y}$ данный $\mathbf {X}$ и удовлетворяет тонкому условию попарной перестановки: для любого $j$ , совместное распределение случайной матрицы $[\mathbf {X} ,{\tilde {\mathbf {X} }}]$ не изменится, если $j$ й и $(j+p)$ столбцы меняются местами, где $p$ это количество функций. Хотя менее ясно, как создавать подделки модели X по сравнению с их аналогом с фиксированным X, различные алгоритмы . для создания подделок были предложены ^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}^{[ 5 ]} После создания подделки модели X можно использовать для выбора переменных, следуя той же процедуре, что и подделки фиксированной X, и управлять FDR.

Характеристики

Подделки ${\tilde {\mathbf {X} }}$ можно понимать как отрицательный контроль. Неформально говоря, подделки обладают тем свойством, что ни один метод не может статистически отличить исходную матрицу от ее подделок, не принимая во внимание $\mathbf {y}$ . Математически условия заменяемости переводятся в симметрию, которая позволяет оценить ошибку типа I (например, если кто-то хочет выбрать FDR в качестве частоты ошибок типа I, оценивается доля ложных открытий), что затем приводит к точному типу I. контроль ошибок.

Подделки Model-X обеспечивают действительный контроль ошибок типа I независимо от неизвестного условного распределения $\mathbf {y}$ данный $\mathbf {X}$ , и он может работать со статистикой важности переменных черного ящика, в том числе полученной с помощью сложных методов машинного обучения . Наиболее серьезной проблемой реализации подделок модели X является то, что для этого требуются нетривиальные знания о распределении $\mathbf {X}$ , который обычно является многомерным. Эти знания можно получить с помощью немаркированных данных. ^{[ 2 ]}

Ссылки

^ Барбер, Рина Фойгель; Кандес, Эммануэль Дж. (2015). «Контроль количества ложных обнаружений с помощью подделок». Анналы статистики . 43 (5): 2055–2085.
^ Jump up to: ^а ^б ^с ^д Кандес, Эммануэль; Фань, Иньин; Янсон, Лукас; Льв, Джинчи (2018). «Промывание золота: подделки модели X для многомерного выбора контролируемых переменных». Журнал Королевского статистического общества . Серия Б (методическая). 80 (3). Интернет-библиотека Wiley: 551–577. arXiv : 1610.02351 .
^ Jump up to: ^а ^б Сесия, Маттео; Сабатти, Кьяра ; Кандес, Эммануэль (2019). «Охота на гены со скрытыми подделками моделей Маркова». Биометрика . 106 (1): 1–18.
^ Бейтс, Стивен; Кандес, Эммануэль; Янсон, Лукас; Ван, Вэньшо (2020). «Метрополизированная выборка подделок». Журнал Американской статистической ассоциации .
^ Хуан, Дунмин; Янсон, Лукас (2020). «Ослабление предположений о подделках путем кондиционирования». Анналы статистики .

Внешние ссылки

Официальный сайт

[Barber_2015-1] Барбер, Рина Фойгель; Кандес, Эммануэль Дж. (2015). «Контроль количества ложных обнаружений с помощью подделок». Анналы статистики . 43 (5): 2055–2085.

[:0-2] Jump up to: ^а ^б ^с ^д Кандес, Эммануэль; Фань, Иньин; Янсон, Лукас; Льв, Джинчи (2018). «Промывание золота: подделки модели X для многомерного выбора контролируемых переменных». Журнал Королевского статистического общества . Серия Б (методическая). 80 (3). Интернет-библиотека Wiley: 551–577. arXiv : 1610.02351 .

[:1-3] Jump up to: ^а ^б Сесия, Маттео; Сабатти, Кьяра ; Кандес, Эммануэль (2019). «Охота на гены со скрытыми подделками моделей Маркова». Биометрика . 106 (1): 1–18.

[4] Бейтс, Стивен; Кандес, Эммануэль; Янсон, Лукас; Ван, Вэньшо (2020). «Метрополизированная выборка подделок». Журнал Американской статистической ассоциации .

[5] Хуан, Дунмин; Янсон, Лукас (2020). «Ослабление предположений о подделках путем кондиционирования». Анналы статистики .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]