Биномиальная регрессия

В статистике биномиальная регрессия — это метод регрессионного анализа , в котором ответ (часто называемый Y ) имеет биномиальное распределение : это количество успехов в серии независимые испытания Бернулли , где каждое испытание имеет вероятность успеха . [1] В биномиальной регрессии вероятность успеха связана с объясняющими переменными : соответствующая концепция в обычной регрессии заключается в том, чтобы связать среднее значение ненаблюдаемого ответа с объясняющими переменными.

Биномиальная регрессия тесно связана с бинарной регрессией : бинарную регрессию можно считать биномиальной регрессией с , или регрессия на несгруппированных двоичных данных, тогда как биномиальную регрессию можно считать регрессией на сгруппированных двоичных данных (см. сравнение ). [2] Модели биномиальной регрессии по сути такие же, как модели бинарного выбора , один из типов моделей дискретного выбора : основное отличие заключается в теоретической мотивации (см. сравнение ). В машинном обучении биномиальная регрессия считается частным случаем вероятностной классификации и, следовательно, обобщением бинарной классификации .

Пример приложения [ править ]

В одном опубликованном примере применения биномиальной регрессии [3] подробности были следующими. Наблюдаемой переменной результата было то, произошла ли неисправность в промышленном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор с двумя случаями, показывающий, использовалась или нет модифицированная версия процесса, а вторая представляла собой обычную количественную переменную, измеряющую чистоту материала, подаваемого для процесса.

Спецификация модели [ править ]

распределение в Предполагается, что переменная отклика Y имеет зависимости от объясняющих переменных X. биномиальное Число попыток n известно, а вероятность успеха для каждой попытки p задана как функция θ(X) . Это означает, что условное ожидание и условная дисперсия наблюдаемой доли успехов Y/n равны

Цель биномиальной регрессии — оценить функцию θ(X) . Обычно статистики исходят из того, что , для известной функции m и оценки β . Обычный выбор для m включает логистическую функцию . [1]

Данные часто представляют собой обобщенную линейную модель , в которой прогнозируемые значения μ представляют собой вероятность того, что любое отдельное событие приведет к успеху. Тогда вероятность выражением предсказаний определяется

где 1 A индикаторная функция , которая принимает значение единицы, когда событие A происходит, и нулевое в противном случае: в этой формулировке для любого данного наблюдения y i вносит вклад только один из двух членов внутри произведения, в зависимости от того, является ли y i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ i как параметризованных функций объясняющих переменных: это определяет правдоподобие с точки зрения значительно уменьшенного числа параметров. Подбор модели обычно достигается за счет использования метода максимального правдоподобия для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться определенными алгоритмическими идеями, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.

Модели, используемые в биномиальной регрессии, часто можно расширить до полиномиальных данных.

Существует множество методов систематического генерирования значений μ , которые позволяют интерпретировать модель; они обсуждаются ниже.

Функции ссылок [ править ]

Существует требование, чтобы моделирование, связывающее вероятности μ с объясняющими переменными, имело форму, которая дает значения только в диапазоне от 0 до 1. Многие модели можно подогнать к форме

Здесь η — промежуточная переменная, представляющая собой линейную комбинацию объясняющих переменных, содержащую параметры регрессии. Функция g кумулятивная функция распределения (cdf) некоторого распределения вероятностей . Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.

В случае логистической регрессии функция связи представляет собой журнал отношения шансов или логистическую функцию . В случае пробита ссылка представляет собой CDF нормального распределения . Модель линейной вероятности не является подходящей спецификацией биномиальной регрессии, поскольку прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; иногда он используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает опыта, чтобы подобрать или рассчитать приблизительные линеаризации вероятностей для интерпретации.

Сравнение с бинарной регрессией [ править ]

Биномиальная регрессия тесно связана с бинарной регрессией. Если ответом является двоичная переменная (два возможных результата), то эти альтернативы можно закодировать как 0 или 1, рассматривая один из результатов как «успех», а другой как «неуспех» и рассматривая их как данные подсчета : «успех». — это 1 успех из 1 попытки, а «неудача» — 0 успехов из 1 попытки. Теперь это можно рассматривать как биномиальное распределение с испытание, поэтому бинарная регрессия является частным случаем биномиальной регрессии. Если эти данные сгруппированы (путем добавления счетчиков), они больше не являются двоичными данными, а являются данными счетчиков для каждой группы и все равно могут быть смоделированы с помощью биномиальной регрессии; отдельные бинарные результаты тогда называются «несгруппированными данными». Преимущество работы с сгруппированными данными состоит в том, что можно проверить соответствие модели; [2] например, сгруппированные данные могут иметь чрезмерную дисперсию по сравнению с дисперсией, оцененной на основе несгруппированных данных.

с моделями выбора Сравнение бинарного

Модель бинарного выбора предполагает скрытую переменную Un полезность (или чистую выгоду), которую человек n получает от совершения действия (в отличие от несовершения действия). Полезность, которую человек получает от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:

где представляет собой набор коэффициентов регрессии и представляет собой набор независимых переменных (также известных как «особенности»), описывающих человека n , которые могут быть либо дискретными « фиктивными переменными », либо обычными непрерывными переменными. — это случайная величина, определяющая «шум» или «ошибку» в прогнозе, которая, как предполагается, распределяется в соответствии с некоторым распределением. Обычно, если в распределении есть параметр среднего или дисперсии, его невозможно идентифицировать , поэтому для параметров устанавливаются удобные значения — по соглашению обычно означают 0, дисперсия 1.

Человек совершает действие y n = 1 , если Un n член ε ненаблюдаемый > 0. Предполагается, что имеет логистическое распределение .

Спецификация кратко записана так:

Напишем немного по-другому:

Здесь мы сделали замену e n = − ε n . Это изменяет случайную величину на немного другую, определенную в отрицательной области. Как это бывает, распределения ошибок, которые мы обычно рассматриваем (например, логистическое распределение , стандартное нормальное распределение , стандартное t-распределение Стьюдента распределение по en и т. д.), симметричны относительно 0, и, следовательно , идентично распределению по ε n .

Обозначим кумулятивную функцию распределения (CDF) как и функция квантиля (обратная CDF) как

Обратите внимание, что

С представляет собой процесс Бернулли , где у нас есть

или эквивалентно

Обратите внимание, что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели .

Если т.е. распределено как стандартное нормальное распределение , тогда

это именно пробит-модель .

Если т.е. распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, тогда соответствующей функцией квантиля является логит-функция , и

это именно логит-модель .

Обратите внимание, что два разных формализма — обобщенные линейные модели (GLM) и модели дискретного выбора — эквивалентны в случае простых моделей бинарного выбора, но могут быть расширены разными способами:

Интерпретация/вывод скрытой переменной [ править ]

Модель скрытой переменной, включающая биномиальную наблюдаемую переменную Y, может быть построена так, что Y связана со скрытой переменной Y* через

Скрытая переменная Y* затем связана с набором переменных регрессии X с помощью модели

В результате получается модель биномиальной регрессии.

Дисперсию ϵ невозможно определить, и когда она не представляет интереса, ее часто принимают равной единице. Если ϵ имеет нормальное распределение, то подходящей моделью является пробит, а если ϵ имеет логарифмическое распределение Вейбулла, то подходящей моделью является логит. Если ϵ распределено равномерно, то подходит линейная вероятностная модель.

См. также [ править ]

Примечания [ править ]

  1. ^ Jump up to: а б Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия . Вайли-IEEE. стр. 253–254 . ISBN  0-471-66379-4 .
  2. ^ Jump up to: а б Родригес 2007 , Глава 3, с. 5.
  3. ^ Кокс и Снелл (1981), Пример H, стр. 91

Ссылки [ править ]

Дальнейшее чтение [ править ]

  • Дин, CB (1992). «Тестирование чрезмерной дисперсии в моделях Пуассона и биномиальной регрессии». Журнал Американской статистической ассоциации . 87 (418). Информа UK Limited: 451–457. дои : 10.1080/01621459.1992.10475225 . ISSN   0162-1459 . JSTOR   2290276 .