Jump to content

Подделки (статистика)

В статистике . фильтр подделок или просто подделок представляет собой основу для переменных выбора Первоначально он был представлен для линейной регрессии Риной Барбер и Эммануэлем Кандес . [ 1 ] и позже обобщены на другие модели регрессии в условиях случайного дизайна. [ 2 ] Подделки нашли применение во многих практических областях, особенно в полногеномных исследованиях ассоциаций . [ 2 ] [ 3 ]

Подделки с фиксированным X

[ редактировать ]

Рассмотрим модель линейной регрессии с вектором ответа и функций матрица , который рассматривается как детерминированный . Матрица говорят, что это подделки если это не зависит от и удовлетворяет для . Барбер и Кандес показали, что, оснащенные подходящей статистикой важности функций, подделки с фиксированным X можно использовать для выбора переменных, одновременно контролируя частоту ложных обнаружений (FDR).

Подделки Model-X

[ редактировать ]

Рассмотрим общую регрессионную модель с вектором отклика и матрица случайных признаков . Матрица говорят, что это подделки если оно условно независимо от данный и удовлетворяет тонкому условию попарной перестановки: для любого , совместное распределение случайной матрицы не изменится, если й и столбцы меняются местами, где это количество функций. Хотя менее ясно, как создавать подделки модели X по сравнению с их аналогом с фиксированным X, различные алгоритмы . для создания подделок были предложены [ 2 ] [ 3 ] [ 4 ] [ 5 ] После создания подделки модели X можно использовать для выбора переменных, следуя той же процедуре, что и подделки фиксированной X, и управлять FDR.

Характеристики

[ редактировать ]

Подделки можно понимать как отрицательный контроль. Неформально говоря, подделки обладают тем свойством, что ни один метод не может статистически отличить исходную матрицу от ее подделок, не принимая во внимание . Математически условия заменяемости переводятся в симметрию, которая позволяет оценить ошибку типа I (например, если кто-то хочет выбрать FDR в качестве частоты ошибок типа I, оценивается доля ложных открытий), что затем приводит к точному типу I. контроль ошибок.

Подделки Model-X обеспечивают действительный контроль ошибок типа I независимо от неизвестного условного распределения данный , и он может работать со статистикой важности переменных черного ящика, в том числе полученной с помощью сложных методов машинного обучения . Наиболее серьезной проблемой реализации подделок модели X является то, что для этого требуются нетривиальные знания о распределении , который обычно является многомерным. Эти знания можно получить с помощью немаркированных данных. [ 2 ]

  1. ^ Барбер, Рина Фойгель; Кандес, Эммануэль Дж. (2015). «Контроль количества ложных обнаружений с помощью подделок». Анналы статистики . 43 (5): 2055–2085.
  2. ^ Jump up to: а б с д Кандес, Эммануэль; Фань, Иньин; Янсон, Лукас; Льв, Джинчи (2018). «Промывание золота: подделки модели X для многомерного выбора контролируемых переменных». Журнал Королевского статистического общества . Серия Б (методическая). 80 (3). Интернет-библиотека Wiley: 551–577. arXiv : 1610.02351 .
  3. ^ Jump up to: а б Сесия, Маттео; Сабатти, Кьяра ; Кандес, Эммануэль (2019). «Охота на гены со скрытыми подделками моделей Маркова». Биометрика . 106 (1): 1–18.
  4. ^ Бейтс, Стивен; Кандес, Эммануэль; Янсон, Лукас; Ван, Вэньшо (2020). «Метрополизированная выборка подделок». Журнал Американской статистической ассоциации .
  5. ^ Хуан, Дунмин; Янсон, Лукас (2020). «Ослабление предположений о подделках путем кондиционирования». Анналы статистики .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: ef88c1547212dede39df6befb027306b__1652135040
URL1:https://arc.ask3.ru/arc/aa/ef/6b/ef88c1547212dede39df6befb027306b.html
Заголовок, (Title) документа по адресу, URL1:
Knockoffs (statistics) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)