Биномиальная регрессия

В статистике биномиальная регрессия — это метод регрессионного анализа , в котором ответ (часто называемый Y ) имеет биномиальное распределение : это количество успехов в серии $n$ независимые испытания Бернулли , где каждое испытание имеет вероятность успеха $p$ . ^[1] В биномиальной регрессии вероятность успеха связана с объясняющими переменными : соответствующая концепция в обычной регрессии заключается в том, чтобы связать среднее значение ненаблюдаемого ответа с объясняющими переменными.

Биномиальная регрессия тесно связана с бинарной регрессией : бинарную регрессию можно считать биномиальной регрессией с $n=1$ , или регрессия на несгруппированных двоичных данных, тогда как биномиальную регрессию можно считать регрессией на сгруппированных двоичных данных (см. сравнение ). ^[2] Модели биномиальной регрессии по сути такие же, как модели бинарного выбора , один из типов моделей дискретного выбора : основное отличие заключается в теоретической мотивации (см. сравнение ). В машинном обучении биномиальная регрессия считается частным случаем вероятностной классификации и, следовательно, обобщением бинарной классификации .

Пример приложения [ править ]

В одном опубликованном примере применения биномиальной регрессии ^[3] подробности были следующими. Наблюдаемой переменной результата было то, произошла ли неисправность в промышленном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор с двумя случаями, показывающий, использовалась или нет модифицированная версия процесса, а вторая представляла собой обычную количественную переменную, измеряющую чистоту материала, подаваемого для процесса.

Спецификация модели [ править ]

распределение в Предполагается, что переменная отклика Y имеет зависимости от объясняющих переменных X. биномиальное Число попыток n известно, а вероятность успеха для каждой попытки p задана как функция θ(X) . Это означает, что условное ожидание и условная дисперсия наблюдаемой доли успехов Y/n равны

E(Y/n\mid X)=\theta (X)

\operatorname {Var} (Y/n\mid X)=\theta (X)(1-\theta (X))/n

Цель биномиальной регрессии — оценить функцию θ(X) . Обычно статистики исходят из того, что $\theta (X)=m(\beta ^{\mathrm {T} }X)$ , для известной функции m и оценки β . Обычный выбор для m включает логистическую функцию . ^[1]

Данные часто представляют собой обобщенную линейную модель , в которой прогнозируемые значения μ представляют собой вероятность того, что любое отдельное событие приведет к успеху. Тогда вероятность выражением предсказаний определяется

L({\boldsymbol {\mu }}\mid Y)=\prod _{i=1}^{n}\left(1_{y_{i}=1}(\mu _{i})+1_{y_{i}=0}(1-\mu _{i})\right),\,\!

где 1 _A — индикаторная функция , которая принимает значение единицы, когда событие A происходит, и нулевое в противном случае: в этой формулировке для любого данного наблюдения y _i вносит вклад только один из двух членов внутри произведения, в зависимости от того, является ли y _i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ _i как параметризованных функций объясняющих переменных: это определяет правдоподобие с точки зрения значительно уменьшенного числа параметров. Подбор модели обычно достигается за счет использования метода максимального правдоподобия для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться определенными алгоритмическими идеями, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.

Модели, используемые в биномиальной регрессии, часто можно расширить до полиномиальных данных.

Существует множество методов систематического генерирования значений μ , которые позволяют интерпретировать модель; они обсуждаются ниже.

Функции ссылок [ править ]

Существует требование, чтобы моделирование, связывающее вероятности μ с объясняющими переменными, имело форму, которая дает значения только в диапазоне от 0 до 1. Многие модели можно подогнать к форме

{\boldsymbol {\mu }}=g({\boldsymbol {\eta }})\,.

Здесь η — промежуточная переменная, представляющая собой линейную комбинацию объясняющих переменных, содержащую параметры регрессии. Функция g — кумулятивная функция распределения (cdf) некоторого распределения вероятностей . Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.

В случае логистической регрессии функция связи представляет собой журнал отношения шансов или логистическую функцию . В случае пробита ссылка представляет собой CDF нормального распределения . Модель линейной вероятности не является подходящей спецификацией биномиальной регрессии, поскольку прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; иногда он используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает опыта, чтобы подобрать или рассчитать приблизительные линеаризации вероятностей для интерпретации.

Сравнение с бинарной регрессией [ править ]

Биномиальная регрессия тесно связана с бинарной регрессией. Если ответом является двоичная переменная (два возможных результата), то эти альтернативы можно закодировать как 0 или 1, рассматривая один из результатов как «успех», а другой как «неуспех» и рассматривая их как данные подсчета : «успех». — это 1 успех из 1 попытки, а «неудача» — 0 успехов из 1 попытки. Теперь это можно рассматривать как биномиальное распределение с $n=1$ испытание, поэтому бинарная регрессия является частным случаем биномиальной регрессии. Если эти данные сгруппированы (путем добавления счетчиков), они больше не являются двоичными данными, а являются данными счетчиков для каждой группы и все равно могут быть смоделированы с помощью биномиальной регрессии; отдельные бинарные результаты тогда называются «несгруппированными данными». Преимущество работы с сгруппированными данными состоит в том, что можно проверить соответствие модели; ^[2] например, сгруппированные данные могут иметь чрезмерную дисперсию по сравнению с дисперсией, оцененной на основе несгруппированных данных.

с моделями выбора Сравнение бинарного

Модель бинарного выбора предполагает скрытую переменную Un _— полезность (или чистую выгоду), которую человек n получает от совершения действия (в отличие от несовершения действия). Полезность, которую человек получает от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:

U_{n}={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} +\varepsilon _{n}

где ${\boldsymbol {\beta }}$ представляет собой набор коэффициентов регрессии и $\mathbf {s_{n}}$ представляет собой набор независимых переменных (также известных как «особенности»), описывающих человека n , которые могут быть либо дискретными « фиктивными переменными », либо обычными непрерывными переменными. $\varepsilon _{n}$ — это случайная величина, определяющая «шум» или «ошибку» в прогнозе, которая, как предполагается, распределяется в соответствии с некоторым распределением. Обычно, если в распределении есть параметр среднего или дисперсии, его невозможно идентифицировать , поэтому для параметров устанавливаются удобные значения — по соглашению обычно означают 0, дисперсия 1.

Человек совершает действие y _n = 1 , если Un _n член ε _{ненаблюдаемый} > 0. Предполагается, что имеет логистическое распределение .

Спецификация кратко записана так:

- U _n = βs _n + ε _n
- $Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\0,&{\text{if }}U_{n}\leq 0\end{cases}}$
- ε ∼ логистический , стандартный нормальный и т. д.

Напишем немного по-другому:

- U _n = βs _n - е _n
- $Y_{n}={\begin{cases}1,&{\text{if }}U_{n}>0,\\0,&{\text{if }}U_{n}\leq 0\end{cases}}$
- e ∼ логистический , стандартный нормальный и т. д.

Здесь мы сделали замену e _n = − ε _n . Это изменяет случайную величину на немного другую, определенную в отрицательной области. Как это бывает, распределения ошибок, которые мы обычно рассматриваем (например, логистическое распределение , стандартное нормальное распределение , стандартное t-распределение Стьюдента распределение по en _{и т. д.), симметричны относительно 0, и, следовательно ,} идентично распределению по ε _n .

Обозначим кумулятивную функцию распределения (CDF) $e$ как $F_{e},$ и функция квантиля (обратная CDF) $e$ как $F_{e}^{-1}.$

Обратите внимание, что

{\begin{aligned}\Pr(Y_{n}=1)&=\Pr(U_{n}>0)\\[6pt]&=\Pr({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} -e_{n}>0)\\[6pt]&=\Pr(-e_{n}>-{\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\[6pt]&=\Pr(e_{n}\leq {\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\\[6pt]&=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )\end{aligned}}

С $Y_{n}$ представляет собой процесс Бернулли , где $\mathbb {E} [Y_{n}]=\Pr(Y_{n}=1),$ у нас есть

\mathbb {E} [Y_{n}]=F_{e}({\boldsymbol {\beta }}\cdot \mathbf {s_{n}} )

или эквивалентно

F_{e}^{-1}(\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}} .

Обратите внимание, что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели .

Если $e_{n}\sim {\mathcal {N}}(0,1),$ т.е. распределено как стандартное нормальное распределение , тогда

\Phi ^{-1}(\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}

это именно пробит-модель .

Если $e_{n}\sim \operatorname {Logistic} (0,1),$ т.е. распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, тогда соответствующей функцией квантиля является логит-функция , и

\operatorname {logit} (\mathbb {E} [Y_{n}])={\boldsymbol {\beta }}\cdot \mathbf {s_{n}}

это именно логит-модель .

Обратите внимание, что два разных формализма — обобщенные линейные модели (GLM) и модели дискретного выбора — эквивалентны в случае простых моделей бинарного выбора, но могут быть расширены разными способами:

GLM могут легко обрабатывать произвольно распределенные переменные ответа ( зависимые переменные ), а не только категориальные переменные или порядковые переменные , которыми модели дискретного выбора ограничены по своей природе. GLM также не ограничиваются функциями связи, которые являются квантильными функциями некоторого распределения, в отличие от использования переменной ошибки , которая по предположению должна иметь распределение вероятностей .
С другой стороны, поскольку модели дискретного выбора описываются как типы генеративных моделей , концептуально легче распространить их на сложные ситуации с множественными, возможно, коррелирующими вариантами выбора для каждого человека или другими вариациями.

Интерпретация/вывод скрытой переменной [ править ]

Модель скрытой переменной, включающая биномиальную наблюдаемую переменную Y, может быть построена так, что Y связана со скрытой переменной Y* через

Y={\begin{cases}0,&{\mbox{if }}Y^{*}>0\\1,&{\mbox{if }}Y^{*}<0.\end{cases}}

Скрытая переменная Y* затем связана с набором переменных регрессии X с помощью модели

Y^{*}=X\beta +\epsilon \ .

В результате получается модель биномиальной регрессии.

Дисперсию ϵ невозможно определить, и когда она не представляет интереса, ее часто принимают равной единице. Если ϵ имеет нормальное распределение, то подходящей моделью является пробит, а если ϵ имеет логарифмическое распределение Вейбулла, то подходящей моделью является логит. Если ϵ распределено равномерно, то подходит линейная вероятностная модель.

См. также [ править ]

Примечания [ править ]

^ Jump up to: ^а ^б Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия . Вайли-IEEE. стр. 253–254 . ISBN 0-471-66379-4 .
^ Jump up to: ^а ^б Родригес 2007 , Глава 3, с. 5.
^ Кокс и Снелл (1981), Пример H, стр. 91

Ссылки [ править ]

Кокс, Др. ; Снелл, Э.Дж. (1981). Прикладная статистика: принципы и примеры . Чепмен и Холл. ISBN 0-412-16570-8 .
Родригес, Герман (2007). «Конспекты лекций по обобщенным линейным моделям» .

Дальнейшее чтение [ править ]

Дин, CB (1992). «Тестирование чрезмерной дисперсии в моделях Пуассона и биномиальной регрессии». Журнал Американской статистической ассоциации . 87 (418). Информа UK Limited: 451–457. дои : 10.1080/01621459.1992.10475225 . ISSN 0162-1459 . JSTOR 2290276 .

[Weisberg-1] Jump up to: ^а ^б Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия . Вайли-IEEE. стр. 253–254 . ISBN 0-471-66379-4 .

[FOOTNOTERodríguez2007Chapter_3,_p._5-2] Jump up to: ^а ^б Родригес 2007 , Глава 3, с. 5.

[3] Кокс и Снелл (1981), Пример H, стр. 91

[1]

[2]

[3]