Регрессия Пуассона

В статистике используемую регрессия Пуассона представляет собой обобщенную линейную модельную форму регрессионного анализа, для моделирования данных подсчета и таблиц непредвиденных обстоятельств . [1] Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют лог-линейной моделью , особенно когда она используется для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия — популярное обобщение регрессии Пуассона, поскольку оно ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии основана на распределении смеси Пуассона-гамма. Эта модель популярна, поскольку она моделирует пуассоновскую неоднородность с гамма-распределением.

Модели регрессии Пуассона представляют собой обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемого распределения вероятностей ответа.

Регрессионные модели [ править ]

Если — вектор независимых переменных , то модель принимает вид

где и . Иногда это записывают более компактно как

где теперь является ( n + 1)-мерным вектором, состоящим из n независимых переменных, объединенных с числом один. Здесь это просто объединено с .

Таким образом, при использовании модели регрессии Пуассона и входной вектор , предсказанное среднее значение соответствующего распределения Пуассона определяется выражением

Если являются независимыми наблюдениями с соответствующими значениями переменных-предикторов, то можно оценить по методу максимального правдоподобия . Оценки максимального правдоподобия не имеют выражения в замкнутой форме и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона с максимальным правдоподобием всегда вогнута, что делает методы Ньютона-Рафсона или другие методы, основанные на градиенте, подходящими методами оценки.

Интерпретация коэффициентов [ править ]

Предположим, у нас есть модель с одним предиктором, то есть :

Предположим, мы вычисляем прогнозируемые значения в точке и :

Вычитая первое из второго:

Предположим теперь, что . Мы получаем:

Таким образом, коэффициент модели следует интерпретировать как увеличение логарифма счета результирующей переменной, когда независимая переменная увеличивается на 1.

Применяя правила логарифмов:

То есть, когда независимая переменная увеличивается на 1, результирующая переменная умножается на возведенный в степень коэффициент.

Возведенный в степень коэффициент также называют коэффициентом заболеваемости .

Средний частичный эффект [ править ]

Часто объектом интереса является средний частичный эффект или средний предельный эффект. , что интерпретируется как изменение результата при изменении независимой переменной на одну единицу . Средний частичный эффект в модели Пуассона для непрерывного можно показать как: [2]

Это можно оценить, используя оценки коэффициентов из модели Пуассона. с наблюдаемыми значениями .

основе максимального на правдоподобия Оценка параметра

Учитывая набор параметров θ и входной вектор x , среднее значение предсказанного распределения Пуассона , как указано выше, определяется выражением

распределения Пуассона и, таким образом, функция массы вероятности определяется выражением

Теперь предположим, что нам дан набор данных, состоящий из m векторов. , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением

Методом максимального правдоподобия мы хотим найти набор параметров θ , который делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия через θ :

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифмическое правдоподобие :

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена суммирования. Следовательно, учитывая, что нас интересует только поиск наилучшего значения θ, мы можем отказаться от y i ! и просто напиши

Чтобы найти максимум, нам нужно решить уравнение которая не имеет решения в замкнутой форме. Однако отрицательная логарифмическая вероятность, , является выпуклой функцией, поэтому можно применять стандартные методы выпуклой оптимизации, такие как градиентный спуск для нахождения оптимального значения θ .

на практике Регрессия Пуассона

Регрессия Пуассона может быть уместна, когда зависимой переменной является количество, например, таких событий , как поступление телефонного звонка в колл-центр. [3] События должны быть независимыми в том смысле, что поступление одного вызова не будет повышать или уменьшать вероятность другого, но предполагается, что вероятность событий в единицу времени связана с такими ковариатами, как время суток.

«Экспозиция» и смещение [ править ]

Регрессия Пуассона также может быть применима для данных о частоте, где частота представляет собой количество событий, разделенное на некоторую меру воздействия этой единицы (конкретной единицы наблюдения). [4] Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, воздействием будет единица площади, а нормой будет количество видов на единицу площади. Демографы могут моделировать уровень смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частоту событий можно рассчитать как количество событий в единицу времени, что позволяет варьировать окно наблюдения для каждой единицы. В этих примерах воздействие выражается соответственно в единицах площади, человеко-летах и ​​единицах времени. В регрессии Пуассона это рассматривается как смещение . Если коэффициент равен количеству/экспозиции, то умножение обеих частей уравнения на экспозицию перемещает ее в правую часть уравнения. Когда обе части уравнения затем регистрируются, окончательная модель содержит log (воздействие) в качестве термина, который добавляется к коэффициентам регрессии. Эта регистрируемая переменная log(exposure) называется переменной смещения и входит в правую часть уравнения с оценкой параметра (для log(exposure)) ограниченной 1.

что подразумевает

Смещение в случае GLM в R может быть достигнуто с помощью offset() функция:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

дисперсия и нулевая Чрезмерная инфляция

Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. При определенных обстоятельствах окажется, что наблюдаемая дисперсия превышает среднее значение; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является пропуск соответствующих объясняющих переменных или зависимых наблюдений. В некоторых случаях проблему чрезмерной дисперсии можно решить, используя вместо этого оценку квазиправдоподобия или отрицательное биномиальное распределение . [5] [6]

Вер Хуф и Бовенг описали разницу между квазипуассоновой моделью (также называемой сверхдисперсией с квазиправдоподобием) и отрицательным биномом (эквивалентной гамма-пуассону) следующим образом: если E ( Y ) = μ , квазипуассоновская модель предполагает var( Y ) = θμ , в то время как гамма-пуассон предполагает var( Y ) = μ (1 + κμ ), где θ — параметр квазипуассоновой сверхдисперсии, а κ — параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием итеративно перевзвешенного метода наименьших квадратов . Для квазипуассона веса равны µ / θ . Для отрицательного бинома веса равны µ /(1 + κµ ). При больших значениях µ и существенной внепуассоновской вариации отрицательные биномиальные веса ограничиваются значением 1/ κ . Вер Хоф и Бовенг обсудили пример, в котором они выбрали один из них, построив график среднеквадратичных остатков в зависимости от среднего значения. [7]

Другая распространенная проблема с регрессией Пуассона — это избыточные нули: если работают два процесса: один определяет, есть ли нулевые события или вообще какие-либо события, и процесс Пуассона, определяющий количество событий, будет больше нулей, чем было бы в регрессии Пуассона. предсказывать. Примером может служить распределение сигарет, выкуренных за час, среди членов группы, некоторые из которых не курят.

Другие обобщенные линейные модели, такие как модель отрицательного бинома или модель с нулевым завышением, могут работать лучше в этих случаях.

Напротив, недостаточная дисперсия может создать проблему для оценки параметров. [8]

в выживания Использование анализе

Регрессия Пуассона создает модели пропорциональных рисков, один из классов анализа выживания : пропорциональных рисков описания моделей Кокса см. в моделях .

Расширения [ править ]

Пуассона Регуляризованная регрессия

При оценке параметров регрессии Пуассона обычно пытаются найти значения θ , которые максимизируют вероятность выражения вида

где m — количество примеров в наборе данных, а - это функция массы вероятности распределения Пуассона со средним значением, равным . К этой задаче оптимизации можно добавить регуляризацию, вместо этого максимизируя [9]

для некоторой положительной константы . Этот метод, аналогичный гребневой регрессии , может уменьшить переобучение .

См. также [ править ]

Ссылки [ править ]

  1. ^ Нелдер, Дж. А. (1974). «Лог-линейные модели для таблиц непредвиденных обстоятельств: обобщение классического метода наименьших квадратов» . Журнал Королевского статистического общества, серия C (прикладная статистика) . 23 (3): стр. 323–329. дои : 10.2307/2347125 . JSTOR   2347125 .
  2. ^ Вулдридж, Джеффри (2010). Эконометрический анализ перекрестных и панельных данных (2-е изд.). Кембридж, Массачусетс: MIT Press. п. 726.
  3. ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. стр. 740–752 . ISBN  978-0130661890 .
  4. ^ Фром, Эдвард Л. (1983). «Анализ ставок с использованием моделей регрессии Пуассона» . Биометрия . 39 (3): стр. 665–674. дои : 10.2307/2531094 . JSTOR   2531094 .
  5. ^ Патерностер Р., Брэйм Р. (1997). «Множественные пути к правонарушениям? Проверка развития и общих теорий преступности» . Криминология . 35 : 45–84. дои : 10.1111/j.1745-9125.1997.tb00870.x .
  6. ^ Берк Р., Макдональд Дж (2008). «Сверхдисперсия и регрессия Пуассона». Журнал количественной криминологии . 24 (3): 269–284. дои : 10.1007/s10940-008-9048-4 . S2CID   121273486 .
  7. ^ Вер Хоф, Джей М.; Бовенг, Питер Л. (1 января 2007 г.). «Квази-Пуассон против отрицательной биномиальной регрессии: как нам следует моделировать данные чрезмерного подсчета?» . Экология . 88 (11): 2766–2772. Бибкод : 2007Экол...88.2766В . дои : 10.1890/07-0043.1 . ПМИД   18051645 . Проверено 1 сентября 2016 г.
  8. ^ Шварценеггер, Рафаэль; Куигли, Джон; Уоллс, Лесли (23 ноября 2021 г.). «Стоит ли выявление зависимости затраченных усилий? Исследование многомерной вероятностной модели Пуассона-Гамма» . Труды Института инженеров-механиков, Часть O: Журнал риска и надежности . 237 (5): 5. дои : 10.1177/1748006X211059417 .
  9. ^ Перпероглу, Арис (8 сентября 2011 г.). «Подбор данных о выживании с помощью штрафной регрессии Пуассона». Статистические методы и приложения . 20 (4). Спрингер Природа: 451–462. дои : 10.1007/s10260-011-0172-1 . ISSN   1618-2510 . S2CID   10883925 .

Дальнейшее чтение [ править ]