Jump to content

Регрессия Пуассона

В статистике используемую регрессия Пуассона представляет собой обобщенную линейную модельную форму регрессионного анализа, для моделирования данных подсчета и таблиц непредвиденных обстоятельств . [1] Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют лог-линейной моделью , особенно когда она используется для моделирования таблиц непредвиденных обстоятельств.

Отрицательная биномиальная регрессия — популярное обобщение регрессии Пуассона, поскольку оно ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии основана на распределении смеси Пуассона-гамма. Эта модель популярна, поскольку она моделирует пуассоновскую неоднородность с гамма-распределением.

Модели регрессии Пуассона представляют собой обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемого распределения вероятностей ответа.

Регрессионные модели

[ редактировать ]

Если — вектор независимых переменных , то модель принимает вид

где и . Иногда это записывают более компактно как

где теперь является ( n + 1)-мерным вектором, состоящим из n независимых переменных, объединенных с числом один. Здесь это просто объединено с .

Таким образом, при использовании модели регрессии Пуассона и входной вектор , предсказанное среднее значение соответствующего распределения Пуассона определяется выражением

Если являются независимыми наблюдениями с соответствующими значениями переменных-предикторов, то можно оценить по методу максимального правдоподобия . Оценки максимального правдоподобия не имеют выражения в замкнутой форме и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона с максимальным правдоподобием всегда вогнута, что делает методы Ньютона-Рафсона или другие методы, основанные на градиенте, подходящими методами оценки.

Интерпретация коэффициентов

[ редактировать ]

Предположим, у нас есть модель с одним предиктором, то есть :

Предположим, мы вычисляем прогнозируемые значения в точке и :

Вычитая первое из второго:

Предположим теперь, что . Мы получаем:

Таким образом, коэффициент модели следует интерпретировать как увеличение логарифма счета результирующей переменной, когда независимая переменная увеличивается на 1.

Применяя правила логарифмов:

То есть, когда независимая переменная увеличивается на 1, результирующая переменная умножается на возведенный в степень коэффициент.

Возведенный в степень коэффициент также называют коэффициентом заболеваемости .

Средний частичный эффект

[ редактировать ]

Часто объектом интереса является средний частичный эффект или средний предельный эффект. , что интерпретируется как изменение результата при изменении независимой переменной на одну единицу . Средний частичный эффект в модели Пуассона для непрерывного можно показать как: [2]

Это можно оценить, используя оценки коэффициентов из модели Пуассона. с наблюдаемыми значениями .

Оценка параметров на основе максимального правдоподобия

[ редактировать ]

Учитывая набор параметров θ и входной вектор x , среднее значение прогнозируемого распределения Пуассона , как указано выше, определяется выражением

распределения Пуассона и, таким образом, функция массы вероятности определяется выражением

Теперь предположим, что нам дан набор данных, состоящий из m векторов. , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением

Методом максимального правдоподобия мы хотим найти набор параметров θ , который делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия через θ :

Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифмическое правдоподобие :

Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена суммирования. Следовательно, учитывая, что нас интересует только поиск наилучшего значения θ, мы можем отказаться от y i ! и просто напиши

Чтобы найти максимум, нам нужно решить уравнение которая не имеет решения в замкнутой форме. Однако отрицательная логарифмическая вероятность, , является выпуклой функцией, поэтому можно применять стандартные методы выпуклой оптимизации, такие как градиентный спуск для нахождения оптимального значения θ .

Регрессия Пуассона на практике

[ редактировать ]

Регрессия Пуассона может быть уместна, когда зависимой переменной является количество, например, таких событий , как поступление телефонного звонка в колл-центр. [3] События должны быть независимыми в том смысле, что поступление одного вызова не будет повышать или уменьшать вероятность другого, но предполагается, что вероятность событий в единицу времени связана с такими ковариатами, как время суток.

«Экспозиция» и офсет

[ редактировать ]

Регрессия Пуассона также может быть применима для данных о частоте, где частота представляет собой количество событий, разделенное на некоторую меру воздействия этой единицы (конкретной единицы наблюдения). [4] Например, биологи могут подсчитать количество видов деревьев в лесу: события — это наблюдения за деревьями, воздействие — это единица площади, а показатель — это количество видов на единицу площади. Демографы могут моделировать уровень смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частоту событий можно рассчитать как количество событий в единицу времени, что позволяет варьировать окно наблюдения для каждой единицы. В этих примерах воздействие выражается соответственно в единицах площади, человеко-летах и ​​единицах времени. В регрессии Пуассона это рассматривается как смещение . Если коэффициент равен количеству/экспозиции, умножение обеих частей уравнения на экспозицию перемещает ее в правую часть уравнения. Когда обе части уравнения затем регистрируются, окончательная модель содержит log (воздействие) в качестве термина, который добавляется к коэффициентам регрессии. Эта регистрируемая переменная log(exposure) называется переменной смещения и входит в правую часть уравнения с оценкой параметра (для log(exposure)) ограниченной 1.

что подразумевает

Смещение в случае GLM в R может быть достигнуто с помощью offset() функция:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Чрезмерная дисперсия и нулевая инфляция

[ редактировать ]

Характеристика распределения Пуассона состоит в том, что его среднее значение равно его дисперсии. При определенных обстоятельствах окажется, что наблюдаемая дисперсия превышает среднее значение; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является пропуск соответствующих объясняющих переменных или зависимых наблюдений. В некоторых случаях проблему чрезмерной дисперсии можно решить, используя вместо этого оценку квазиправдоподобия или отрицательное биномиальное распределение . [5] [6]

Вер Хоеф и Бовенг описали разницу между квазипуассоновской моделью (также называемой сверхдисперсией с квазиправдоподобием) и отрицательным биномом (эквивалентной гамма-пуассону) следующим образом: Если E ( Y ) = μ , квазипуассоновская модель предполагает var( Y ) = θμ , в то время как гамма-пуассон предполагает var( Y ) = μ (1 + κμ ), где θ — параметр квазипуассоновой сверхдисперсии, а κ — параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием итеративно перевзвешенного метода наименьших квадратов . Для квазипуассона веса равны µ / θ . Для отрицательного бинома веса равны µ /(1 + κµ ). При больших значениях µ и существенной внепуассоновской вариации отрицательные биномиальные веса ограничиваются значением 1/ κ . Вер Хоф и Бовенг обсудили пример, в котором они выбрали один из них, построив график среднеквадратичных остатков в зависимости от среднего значения. [7]

Другая распространенная проблема с регрессией Пуассона — это избыточные нули: если работают два процесса: один определяет, есть ли нулевые события или вообще какие-либо события, и процесс Пуассона, определяющий количество событий, будет больше нулей, чем было бы в регрессии Пуассона. предсказывать. Примером может служить распределение сигарет, выкуренных за час, среди членов группы, некоторые из которых не курят.

Другие обобщенные линейные модели, такие как модель отрицательного бинома или модель с нулевым завышением, могут работать лучше в этих случаях.

Напротив, недостаточная дисперсия может создать проблему для оценки параметров. [8]

Использование в анализе выживания

[ редактировать ]

Регрессия Пуассона создает модели пропорциональных рисков, один из классов анализа выживания : пропорциональных рисков описания моделей Кокса см. в моделях .

Расширения

[ редактировать ]

Регуляризованная регрессия Пуассона

[ редактировать ]

При оценке параметров регрессии Пуассона обычно пытаются найти значения θ , которые максимизируют вероятность выражения вида

где m — количество примеров в наборе данных, а - это функция массы вероятности распределения Пуассона со средним значением, равным . К этой задаче оптимизации можно добавить регуляризацию, вместо этого максимизируя [9]

для некоторой положительной константы . Этот метод, аналогичный гребневой регрессии , может уменьшить переобучение .

См. также

[ редактировать ]
  1. ^ Нелдер, Дж. А. (1974). «Лог-линейные модели для таблиц непредвиденных обстоятельств: обобщение классического метода наименьших квадратов» . Журнал Королевского статистического общества, серия C (прикладная статистика) . 23 (3): стр. 323–329. дои : 10.2307/2347125 . JSTOR   2347125 .
  2. ^ Вулдридж, Джеффри (2010). Эконометрический анализ перекрестных и панельных данных (2-е изд.). Кембридж, Массачусетс: MIT Press. п. 726.
  3. ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. стр. 740–752 . ISBN  978-0130661890 .
  4. ^ Фром, Эдвард Л. (1983). «Анализ ставок с использованием моделей регрессии Пуассона» . Биометрия . 39 (3): стр. 665–674. дои : 10.2307/2531094 . JSTOR   2531094 .
  5. ^ Патерностер Р., Брэйм Р. (1997). «Множественные пути к правонарушениям? Проверка развития и общих теорий преступности» . Криминология . 35 : 45–84. дои : 10.1111/j.1745-9125.1997.tb00870.x .
  6. ^ Берк Р., Макдональд Дж (2008). «Сверхдисперсия и регрессия Пуассона». Журнал количественной криминологии . 24 (3): 269–284. дои : 10.1007/s10940-008-9048-4 . S2CID   121273486 .
  7. ^ Вер Хоф, Джей М.; Бовенг, Питер Л. (1 января 2007 г.). «Квази-Пуассон против отрицательной биномиальной регрессии: как нам следует моделировать данные чрезмерного подсчета?» . Экология . 88 (11): 2766–2772. Бибкод : 2007Экол...88.2766В . дои : 10.1890/07-0043.1 . ПМИД   18051645 . Проверено 1 сентября 2016 г.
  8. ^ Шварценеггер, Рафаэль; Куигли, Джон; Уоллс, Лесли (23 ноября 2021 г.). «Стоит ли выявление зависимости затраченных усилий? Исследование многомерной вероятностной модели Пуассона-Гамма» . Труды Института инженеров-механиков, Часть O: Журнал риска и надежности . 237 (5): 5. дои : 10.1177/1748006X211059417 .
  9. ^ Перпероглу, Арис (8 сентября 2011 г.). «Подбор данных о выживании с помощью штрафной регрессии Пуассона». Статистические методы и приложения . 20 (4). Спрингер Природа: 451–462. дои : 10.1007/s10260-011-0172-1 . ISSN   1618-2510 . S2CID   10883925 .

Дальнейшее чтение

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: be3e153139e169f4e2c19bdc1e60d50c__1719725820
URL1:https://arc.ask3.ru/arc/aa/be/0c/be3e153139e169f4e2c19bdc1e60d50c.html
Заголовок, (Title) документа по адресу, URL1:
Poisson regression - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)