Биномиальная регрессия
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике биномиальная регрессия — это метод регрессионного анализа , в котором ответ (часто называемый Y ) имеет биномиальное распределение : это количество успехов в серии независимые испытания Бернулли , где каждое испытание имеет вероятность успеха . [1] В биномиальной регрессии вероятность успеха связана с объясняющими переменными : соответствующая концепция в обычной регрессии заключается в том, чтобы связать среднее значение ненаблюдаемого ответа с объясняющими переменными.
Биномиальная регрессия тесно связана с бинарной регрессией : бинарную регрессию можно считать биномиальной регрессией с , или регрессия на несгруппированных двоичных данных, тогда как биномиальную регрессию можно считать регрессией на сгруппированных двоичных данных (см. сравнение ). [2] Модели биномиальной регрессии по сути такие же, как модели бинарного выбора , один из типов моделей дискретного выбора : основное отличие заключается в теоретической мотивации (см. сравнение ). В машинном обучении биномиальная регрессия считается частным случаем вероятностной классификации и, следовательно, обобщением бинарной классификации .
Пример приложения [ править ]
В одном опубликованном примере применения биномиальной регрессии [3] подробности были следующими. Наблюдаемой переменной результата было то, произошла ли неисправность в промышленном процессе. Существовали две объясняющие переменные: первая представляла собой простой фактор с двумя случаями, показывающий, использовалась или нет модифицированная версия процесса, а вторая представляла собой обычную количественную переменную, измеряющую чистоту материала, подаваемого для процесса.
Спецификация модели [ править ]
распределение в Предполагается, что переменная отклика Y имеет зависимости от объясняющих переменных X. биномиальное Число попыток n известно, а вероятность успеха для каждой попытки p задана как функция θ(X) . Это означает, что условное ожидание и условная дисперсия наблюдаемой доли успехов Y/n равны
Цель биномиальной регрессии — оценить функцию θ(X) . Обычно статистики исходят из того, что , для известной функции m и оценки β . Обычный выбор для m включает логистическую функцию . [1]
Данные часто представляют собой обобщенную линейную модель , в которой прогнозируемые значения μ представляют собой вероятность того, что любое отдельное событие приведет к успеху. Тогда вероятность выражением предсказаний определяется
где 1 A — индикаторная функция , которая принимает значение единицы, когда событие A происходит, и нулевое в противном случае: в этой формулировке для любого данного наблюдения y i вносит вклад только один из двух членов внутри произведения, в зависимости от того, является ли y i = 0 или 1. Функция правдоподобия более полно определяется путем определения формальных параметров μ i как параметризованных функций объясняющих переменных: это определяет правдоподобие с точки зрения значительно уменьшенного числа параметров. Подбор модели обычно достигается за счет использования метода максимального правдоподобия для определения этих параметров. На практике использование формулировки в качестве обобщенной линейной модели позволяет воспользоваться определенными алгоритмическими идеями, которые применимы ко всему классу более общих моделей, но не применимы ко всем задачам максимального правдоподобия.
Модели, используемые в биномиальной регрессии, часто можно расширить до полиномиальных данных.
Существует множество методов систематического генерирования значений μ , которые позволяют интерпретировать модель; они обсуждаются ниже.
Функции ссылок [ править ]
Существует требование, чтобы моделирование, связывающее вероятности μ с объясняющими переменными, имело форму, которая дает значения только в диапазоне от 0 до 1. Многие модели можно подогнать к форме
Здесь η — промежуточная переменная, представляющая собой линейную комбинацию объясняющих переменных, содержащую параметры регрессии. Функция g — кумулятивная функция распределения (cdf) некоторого распределения вероятностей . Обычно это распределение вероятностей имеет поддержку от минус бесконечности до плюс бесконечности, так что любое конечное значение η преобразуется функцией g в значение в диапазоне от 0 до 1.
В случае логистической регрессии функция связи представляет собой журнал отношения шансов или логистическую функцию . В случае пробита ссылка представляет собой CDF нормального распределения . Модель линейной вероятности не является подходящей спецификацией биномиальной регрессии, поскольку прогнозы не обязательно должны находиться в диапазоне от нуля до единицы; иногда он используется для этого типа данных, когда интерпретация происходит в вероятностном пространстве или когда аналитику не хватает опыта, чтобы подобрать или рассчитать приблизительные линеаризации вероятностей для интерпретации.
Сравнение с бинарной регрессией [ править ]
Биномиальная регрессия тесно связана с бинарной регрессией. Если ответом является двоичная переменная (два возможных результата), то эти альтернативы можно закодировать как 0 или 1, рассматривая один из результатов как «успех», а другой как «неуспех» и рассматривая их как данные подсчета : «успех». — это 1 успех из 1 попытки, а «неудача» — 0 успехов из 1 попытки. Теперь это можно рассматривать как биномиальное распределение с испытание, поэтому бинарная регрессия является частным случаем биномиальной регрессии. Если эти данные сгруппированы (путем добавления счетчиков), они больше не являются двоичными данными, а являются данными счетчиков для каждой группы и все равно могут быть смоделированы с помощью биномиальной регрессии; отдельные бинарные результаты тогда называются «несгруппированными данными». Преимущество работы с сгруппированными данными состоит в том, что можно проверить соответствие модели; [2] например, сгруппированные данные могут иметь чрезмерную дисперсию по сравнению с дисперсией, оцененной на основе несгруппированных данных.
с моделями выбора Сравнение бинарного
Модель бинарного выбора предполагает скрытую переменную Un — полезность (или чистую выгоду), которую человек n получает от совершения действия (в отличие от несовершения действия). Полезность, которую человек получает от совершения действия, зависит от характеристик человека, некоторые из которых наблюдаются исследователем, а некоторые нет:
где представляет собой набор коэффициентов регрессии и представляет собой набор независимых переменных (также известных как «особенности»), описывающих человека n , которые могут быть либо дискретными « фиктивными переменными », либо обычными непрерывными переменными. — это случайная величина, определяющая «шум» или «ошибку» в прогнозе, которая, как предполагается, распределяется в соответствии с некоторым распределением. Обычно, если в распределении есть параметр среднего или дисперсии, его невозможно идентифицировать , поэтому для параметров устанавливаются удобные значения — по соглашению обычно означают 0, дисперсия 1.
Человек совершает действие y n = 1 , если Un n член ε ненаблюдаемый > 0. Предполагается, что имеет логистическое распределение .
Спецификация кратко записана так:
- U n = βs n + ε n
- ε ∼ логистический , стандартный нормальный и т. д.
Напишем немного по-другому:
- U n = βs n - е n
- e ∼ логистический , стандартный нормальный и т. д.
Здесь мы сделали замену e n = − ε n . Это изменяет случайную величину на немного другую, определенную в отрицательной области. Как это бывает, распределения ошибок, которые мы обычно рассматриваем (например, логистическое распределение , стандартное нормальное распределение , стандартное t-распределение Стьюдента распределение по en и т. д.), симметричны относительно 0, и, следовательно , идентично распределению по ε n .
Обозначим кумулятивную функцию распределения (CDF) как и функция квантиля (обратная CDF) как
Обратите внимание, что
С представляет собой процесс Бернулли , где у нас есть
или эквивалентно
Обратите внимание, что это в точности эквивалентно модели биномиальной регрессии, выраженной в формализме обобщенной линейной модели .
Если т.е. распределено как стандартное нормальное распределение , тогда
это именно пробит-модель .
Если т.е. распределено как стандартное логистическое распределение со средним значением 0 и параметром масштаба 1, тогда соответствующей функцией квантиля является логит-функция , и
это именно логит-модель .
Обратите внимание, что два разных формализма — обобщенные линейные модели (GLM) и модели дискретного выбора — эквивалентны в случае простых моделей бинарного выбора, но могут быть расширены разными способами:
- GLM могут легко обрабатывать произвольно распределенные переменные ответа ( зависимые переменные ), а не только категориальные переменные или порядковые переменные , которыми модели дискретного выбора ограничены по своей природе. GLM также не ограничиваются функциями связи, которые являются квантильными функциями некоторого распределения, в отличие от использования переменной ошибки , которая по предположению должна иметь распределение вероятностей .
- С другой стороны, поскольку модели дискретного выбора описываются как типы генеративных моделей , концептуально легче распространить их на сложные ситуации с множественными, возможно, коррелирующими вариантами выбора для каждого человека или другими вариациями.
Интерпретация/вывод скрытой переменной [ править ]
Модель скрытой переменной, включающая биномиальную наблюдаемую переменную Y, может быть построена так, что Y связана со скрытой переменной Y* через
Скрытая переменная Y* затем связана с набором переменных регрессии X с помощью модели
В результате получается модель биномиальной регрессии.
Дисперсию ϵ невозможно определить, и когда она не представляет интереса, ее часто принимают равной единице. Если ϵ имеет нормальное распределение, то подходящей моделью является пробит, а если ϵ имеет логарифмическое распределение Вейбулла, то подходящей моделью является логит. Если ϵ распределено равномерно, то подходит линейная вероятностная модель.
См. также [ править ]
Примечания [ править ]
- ^ Jump up to: а б Сэнфорд Вайсберг (2005). «Биномиальная регрессия». Прикладная линейная регрессия . Вайли-IEEE. стр. 253–254 . ISBN 0-471-66379-4 .
- ^ Jump up to: а б Родригес 2007 , Глава 3, с. 5.
- ^ Кокс и Снелл (1981), Пример H, стр. 91
Ссылки [ править ]
- Кокс, Др. ; Снелл, Э.Дж. (1981). Прикладная статистика: принципы и примеры . Чепмен и Холл. ISBN 0-412-16570-8 .
- Родригес, Герман (2007). «Конспекты лекций по обобщенным линейным моделям» .
Дальнейшее чтение [ править ]
- Дин, CB (1992). «Тестирование чрезмерной дисперсии в моделях Пуассона и биномиальной регрессии». Журнал Американской статистической ассоциации . 87 (418). Информа UK Limited: 451–457. дои : 10.1080/01621459.1992.10475225 . ISSN 0162-1459 . JSTOR 2290276 .