Местная выборка случай-контроль

В машинном обучении локальная выборка случай-контроль. ^[1] — это алгоритм, используемый для уменьшения сложности обучения классификатора логистической регрессии . Алгоритм снижает сложность обучения, выбирая для обучения небольшую подвыборку исходного набора данных. Он предполагает наличие (ненадежной) пилотной оценки параметров. Затем он выполняет один проход по всему набору данных, используя пилотную оценку, чтобы выявить наиболее «неожиданные» образцы. На практике пилотный проект может основываться на предварительных знаниях или обучении с использованием подвыборки набора данных. Алгоритм наиболее эффективен, когда базовый набор данных несбалансирован. Он использует структуры условно несбалансированных наборов данных более эффективно, чем альтернативные методы, такие как контрольная выборка и взвешенная контрольная выборка.

Несбалансированные наборы данных

В классификации набор данных представляет собой набор из N точек данных. $(x_{i},y_{i})_{i=1}^{N}$ , где $x_{i}\in \mathbb {R} ^{d}$ вектор признаков, $y_{i}\in \{0,1\}$ это этикетка. Интуитивно понятно, что набор данных несбалансирован, когда определенные важные статистические закономерности встречаются редко. Отсутствие наблюдений за определенными закономерностями не всегда означает их неуместность. Например, при медицинских исследованиях редких заболеваний небольшое количество инфицированных пациентов (случаев) дает наиболее ценную информацию для диагностики и лечения.

Формально несбалансированный набор данных обладает одним или несколькими из следующих свойств:

Маржинальный дисбаланс . Набор данных незначительно несбалансирован, если один класс редок по сравнению с другим классом. Другими словами, $\mathbb {P} (Y=1)\approx 0$ .
Условный дисбаланс . Набор данных является условно несбалансированным, если в большинстве случаев легко предсказать правильные метки. Например, если $X\in \{0,1\}$ , набор данных является условно несбалансированным, если $\mathbb {P} (Y=1\mid X=0)\approx 0$ и $\mathbb {P} (Y=1\mid X=1)\approx 1$ .

Схема алгоритма

В логистической регрессии, учитывая модель $\theta =(\alpha ,\beta )$ , прогноз делается согласно $\mathbb {P} (Y=1\mid X;\theta )={\tilde {p}}_{\theta }(x)={\frac {\exp(\alpha +\beta ^{T}x)}{1+\exp(\alpha +\beta ^{T}x)}}$ . Алгоритм контрольной выборки на местном уровне предполагает наличие пилотной модели. ${\tilde {\theta }}=({\tilde {\alpha }},{\tilde {\beta }})$ . Учитывая пилотную модель, алгоритм выполняет один проход по всему набору данных, чтобы выбрать подмножество образцов для включения в обучение модели логистической регрессии. Для образца $(x,y)$ , определим вероятность принятия как $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ . Алгоритм действует следующим образом:

Создать независимый $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ для $i\in \{1,\ldots ,N\}$ .
Подберите модель логистической регрессии к подвыборке $S=\{(x_{i},y_{i}):z_{i}=1\}$ , получив нескорректированные оценки ${\hat {\theta }}_{S}=({\hat {\alpha }}_{S},{\hat {\beta }}_{S})$ .
Выходная модель ${\hat {\theta }}=({\hat {\alpha }},{\hat {\beta }})$ , где ${\hat {\alpha }}\leftarrow {\hat {\alpha }}_{S}+{\tilde {\alpha }}$ и ${\hat {\beta }}\leftarrow {\hat {\beta }}_{S}+{\tilde {\beta }}$ .

Алгоритм можно понимать как выбор образцов, которые удивляют пилотную модель. Интуитивно понятно, что эти выборки находятся ближе к границе решения классификатора и, следовательно, более информативны.

Получение пилотной модели

На практике в случаях, когда пилотная модель естественно доступна, алгоритм можно применять напрямую, чтобы уменьшить сложность обучения. В тех случаях, когда естественный пилотный вариант не существует, вместо него можно использовать оценку с использованием подвыборки, отобранной с помощью другого метода выборки. В оригинальной статье, описывающей алгоритм, авторы предлагают использовать взвешенную выборку случай-контроль с половиной назначенного бюджета выборки. Например, если цель состоит в том, чтобы использовать подвыборку размером $N=1000$ , сначала оцените модель ${\tilde {\theta }}$ с использованием $N_{h}=500$ образцы из взвешенной контрольной выборки, затем собрать еще одну $N_{h}=500$ образцы с использованием местной выборки случай-контроль.

Больший или меньший размер выборки

Размер выборки можно контролировать, умножив вероятность принятия на константу. $c$ . Для большего размера выборки выберите $c>1$ и скорректировать вероятность принятия так, чтобы $\min(ca(x_{i},y_{i}),1)$ . Для меньшего размера выборки применяется та же стратегия. В тех случаях, когда желаемое количество выборок является точным, удобным альтернативным методом является равномерное понижение выборки из более крупной подвыборки, отобранной путем локальной выборки случай-контроль.

Характеристики

Алгоритм обладает следующими свойствами. Когда пилотный проект последователен , оценки с использованием выборок из местной выборки «случай-контроль» являются последовательными даже при неправильной спецификации модели . Если модель верна, то асимптотическая дисперсия алгоритма ровно в два раза превышает логистическую регрессию на полном наборе данных. Для большего размера выборки с $c>1$ , коэффициент 2 улучшается до $1+{\frac {1}{c}}$ .

Ссылки

^ Фитиан, Уильям; Хасти, Тревор (2014). «Локальная выборка случай-контроль: эффективная подвыборка в несбалансированных наборах данных» . Анналы статистики . 42 (5): 1693–1724. arXiv : 1306.3706 . дои : 10.1214/14-aos1220 . ПМЦ 4258397 . ПМИД 25492979 .

[LCC-1] Фитиан, Уильям; Хасти, Тревор (2014). «Локальная выборка случай-контроль: эффективная подвыборка в несбалансированных наборах данных» . Анналы статистики . 42 (5): 1693–1724. arXiv : 1306.3706 . дои : 10.1214/14-aos1220 . ПМЦ 4258397 . ПМИД 25492979 .

[1]