Регрессия Пуассона
Часть серии о |
Регрессионный анализ |
---|
Модели |
Оценка |
Фон |
В статистике используемую регрессия Пуассона представляет собой обобщенную линейную модельную форму регрессионного анализа, для моделирования данных подсчета и таблиц непредвиденных обстоятельств . [1] Регрессия Пуассона предполагает, что переменная отклика Y имеет распределение Пуассона , и предполагает, что логарифм ее ожидаемого значения может быть смоделирован линейной комбинацией неизвестных параметров . Модель регрессии Пуассона иногда называют лог-линейной моделью , особенно когда она используется для моделирования таблиц непредвиденных обстоятельств.
Отрицательная биномиальная регрессия — популярное обобщение регрессии Пуассона, поскольку оно ослабляет строго ограничительное предположение о том, что дисперсия равна среднему значению, сделанному моделью Пуассона. Традиционная модель отрицательной биномиальной регрессии основана на распределении смеси Пуассона-гамма. Эта модель популярна, поскольку она моделирует пуассоновскую неоднородность с гамма-распределением.
Модели регрессии Пуассона представляют собой обобщенные линейные модели с логарифмом в качестве (канонической) функции связи и функцией распределения Пуассона в качестве предполагаемого распределения вероятностей ответа.
Регрессионные модели [ править ]
Если — вектор независимых переменных , то модель принимает вид
где и . Иногда это записывают более компактно как
где теперь является ( n + 1)-мерным вектором, состоящим из n независимых переменных, объединенных с числом один. Здесь это просто объединено с .
Таким образом, при использовании модели регрессии Пуассона и входной вектор , предсказанное среднее значение соответствующего распределения Пуассона определяется выражением
Если являются независимыми наблюдениями с соответствующими значениями переменных-предикторов, то можно оценить по методу максимального правдоподобия . Оценки максимального правдоподобия не имеют выражения в замкнутой форме и должны быть найдены численными методами. Поверхность вероятности для регрессии Пуассона с максимальным правдоподобием всегда вогнута, что делает методы Ньютона-Рафсона или другие методы, основанные на градиенте, подходящими методами оценки.
Интерпретация коэффициентов [ править ]
Предположим, у нас есть модель с одним предиктором, то есть :
Предположим, мы вычисляем прогнозируемые значения в точке и :
Вычитая первое из второго:
Предположим теперь, что . Мы получаем:
Таким образом, коэффициент модели следует интерпретировать как увеличение логарифма счета результирующей переменной, когда независимая переменная увеличивается на 1.
Применяя правила логарифмов:
То есть, когда независимая переменная увеличивается на 1, результирующая переменная умножается на возведенный в степень коэффициент.
Возведенный в степень коэффициент также называют коэффициентом заболеваемости .
Средний частичный эффект [ править ]
Часто объектом интереса является средний частичный эффект или средний предельный эффект. , что интерпретируется как изменение результата при изменении независимой переменной на одну единицу . Средний частичный эффект в модели Пуассона для непрерывного можно показать как: [2]
Это можно оценить, используя оценки коэффициентов из модели Пуассона. с наблюдаемыми значениями .
основе максимального на правдоподобия Оценка параметра
Учитывая набор параметров θ и входной вектор x , среднее значение предсказанного распределения Пуассона , как указано выше, определяется выражением
распределения Пуассона и, таким образом, функция массы вероятности определяется выражением
Теперь предположим, что нам дан набор данных, состоящий из m векторов. , а также набор из m значений . Тогда для данного набора параметров θ вероятность получения этого конкретного набора данных определяется выражением
Методом максимального правдоподобия мы хотим найти набор параметров θ , который делает эту вероятность как можно большей. Для этого уравнение сначала переписывается как функция правдоподобия через θ :
Обратите внимание, что выражение в правой части фактически не изменилось. С формулой в такой форме обычно сложно работать; вместо этого используется логарифмическое правдоподобие :
Обратите внимание, что параметры θ появляются только в первых двух членах каждого члена суммирования. Следовательно, учитывая, что нас интересует только поиск наилучшего значения θ, мы можем отказаться от y i ! и просто напиши
Чтобы найти максимум, нам нужно решить уравнение которая не имеет решения в замкнутой форме. Однако отрицательная логарифмическая вероятность, , является выпуклой функцией, поэтому можно применять стандартные методы выпуклой оптимизации, такие как градиентный спуск для нахождения оптимального значения θ .
на практике Регрессия Пуассона
Регрессия Пуассона может быть уместна, когда зависимой переменной является количество, например, таких событий , как поступление телефонного звонка в колл-центр. [3] События должны быть независимыми в том смысле, что поступление одного вызова не будет повышать или уменьшать вероятность другого, но предполагается, что вероятность событий в единицу времени связана с такими ковариатами, как время суток.
«Экспозиция» и смещение [ править ]
Регрессия Пуассона также может быть применима для данных о частоте, где частота представляет собой количество событий, разделенное на некоторую меру воздействия этой единицы (конкретной единицы наблюдения). [4] Например, биологи могут подсчитать количество видов деревьев в лесу: событиями будут наблюдения за деревьями, воздействием будет единица площади, а нормой будет количество видов на единицу площади. Демографы могут моделировать уровень смертности в географических регионах как количество смертей, разделенное на человеко-годы. В более общем смысле, частоту событий можно рассчитать как количество событий в единицу времени, что позволяет варьировать окно наблюдения для каждой единицы. В этих примерах воздействие выражается соответственно в единицах площади, человеко-летах и единицах времени. В регрессии Пуассона это рассматривается как смещение . Если коэффициент равен количеству/экспозиции, то умножение обеих частей уравнения на экспозицию перемещает ее в правую часть уравнения. Когда обе части уравнения затем регистрируются, окончательная модель содержит log (воздействие) в качестве термина, который добавляется к коэффициентам регрессии. Эта регистрируемая переменная log(exposure) называется переменной смещения и входит в правую часть уравнения с оценкой параметра (для log(exposure)) ограниченной 1.
что подразумевает
Смещение в случае GLM в R может быть достигнуто с помощью offset()
функция:
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
дисперсия и нулевая Чрезмерная инфляция
Характерной чертой распределения Пуассона является то, что его среднее значение равно его дисперсии. При определенных обстоятельствах окажется, что наблюдаемая дисперсия превышает среднее значение; это известно как чрезмерная дисперсия и указывает на то, что модель не подходит. Распространенной причиной является пропуск соответствующих объясняющих переменных или зависимых наблюдений. В некоторых случаях проблему чрезмерной дисперсии можно решить, используя вместо этого оценку квазиправдоподобия или отрицательное биномиальное распределение . [5] [6]
Вер Хуф и Бовенг описали разницу между квазипуассоновой моделью (также называемой сверхдисперсией с квазиправдоподобием) и отрицательным биномом (эквивалентной гамма-пуассону) следующим образом: если E ( Y ) = μ , квазипуассоновская модель предполагает var( Y ) = θμ , в то время как гамма-пуассон предполагает var( Y ) = μ (1 + κμ ), где θ — параметр квазипуассоновой сверхдисперсии, а κ — параметр формы отрицательного биномиального распределения . Для обеих моделей параметры оцениваются с использованием итеративно перевзвешенного метода наименьших квадратов . Для квазипуассона веса равны µ / θ . Для отрицательного бинома веса равны µ /(1 + κµ ). При больших значениях µ и существенной внепуассоновской вариации отрицательные биномиальные веса ограничиваются значением 1/ κ . Вер Хоф и Бовенг обсудили пример, в котором они выбрали один из них, построив график среднеквадратичных остатков в зависимости от среднего значения. [7]
Другая распространенная проблема с регрессией Пуассона — это избыточные нули: если работают два процесса: один определяет, есть ли нулевые события или вообще какие-либо события, и процесс Пуассона, определяющий количество событий, будет больше нулей, чем было бы в регрессии Пуассона. предсказывать. Примером может служить распределение сигарет, выкуренных за час, среди членов группы, некоторые из которых не курят.
Другие обобщенные линейные модели, такие как модель отрицательного бинома или модель с нулевым завышением, могут работать лучше в этих случаях.
Напротив, недостаточная дисперсия может создать проблему для оценки параметров. [8]
в выживания Использование анализе
Регрессия Пуассона создает модели пропорциональных рисков, один из классов анализа выживания : пропорциональных рисков описания моделей Кокса см. в моделях .
Расширения [ править ]
Пуассона Регуляризованная регрессия
При оценке параметров регрессии Пуассона обычно пытаются найти значения θ , которые максимизируют вероятность выражения вида
где m — количество примеров в наборе данных, а - это функция массы вероятности распределения Пуассона со средним значением, равным . К этой задаче оптимизации можно добавить регуляризацию, вместо этого максимизируя [9]
для некоторой положительной константы . Этот метод, аналогичный гребневой регрессии , может уменьшить переобучение .
См. также [ править ]
- Модель с нулевым завышением
- Распределение Пуассона
- Модель Пуассона с фиксированным эффектом
- Методы частичного правдоподобия для панельных данных § Объединенный QMLE для моделей Пуассона
- Функция управления (эконометрика) § Эндогенность в регрессии Пуассона
Ссылки [ править ]
- ^ Нелдер, Дж. А. (1974). «Лог-линейные модели для таблиц непредвиденных обстоятельств: обобщение классического метода наименьших квадратов» . Журнал Королевского статистического общества, серия C (прикладная статистика) . 23 (3): стр. 323–329. дои : 10.2307/2347125 . JSTOR 2347125 .
- ^ Вулдридж, Джеффри (2010). Эконометрический анализ перекрестных и панельных данных (2-е изд.). Кембридж, Массачусетс: MIT Press. п. 726.
- ^ Грин, Уильям Х. (2003). Эконометрический анализ (Пятое изд.). Прентис-Холл. стр. 740–752 . ISBN 978-0130661890 .
- ^ Фром, Эдвард Л. (1983). «Анализ ставок с использованием моделей регрессии Пуассона» . Биометрия . 39 (3): стр. 665–674. дои : 10.2307/2531094 . JSTOR 2531094 .
- ^ Патерностер Р., Брэйм Р. (1997). «Множественные пути к правонарушениям? Проверка развития и общих теорий преступности» . Криминология . 35 : 45–84. дои : 10.1111/j.1745-9125.1997.tb00870.x .
- ^ Берк Р., Макдональд Дж (2008). «Сверхдисперсия и регрессия Пуассона». Журнал количественной криминологии . 24 (3): 269–284. дои : 10.1007/s10940-008-9048-4 . S2CID 121273486 .
- ^ Вер Хоф, Джей М.; Бовенг, Питер Л. (1 января 2007 г.). «Квази-Пуассон против отрицательной биномиальной регрессии: как нам следует моделировать данные чрезмерного подсчета?» . Экология . 88 (11): 2766–2772. Бибкод : 2007Экол...88.2766В . дои : 10.1890/07-0043.1 . ПМИД 18051645 . Проверено 1 сентября 2016 г.
- ^ Шварценеггер, Рафаэль; Куигли, Джон; Уоллс, Лесли (23 ноября 2021 г.). «Стоит ли выявление зависимости затраченных усилий? Исследование многомерной вероятностной модели Пуассона-Гамма» . Труды Института инженеров-механиков, Часть O: Журнал риска и надежности . 237 (5): 5. дои : 10.1177/1748006X211059417 .
- ^ Перпероглу, Арис (8 сентября 2011 г.). «Подбор данных о выживании с помощью штрафной регрессии Пуассона». Статистические методы и приложения . 20 (4). Спрингер Природа: 451–462. дои : 10.1007/s10260-011-0172-1 . ISSN 1618-2510 . S2CID 10883925 .
Дальнейшее чтение [ править ]
- Кэмерон, AC; Триведи, ПК (1998). Регрессионный анализ данных подсчета . Издательство Кембриджского университета. ISBN 978-0-521-63201-0 .
- Кристенсен, Рональд (1997). Лог-линейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. ISBN 978-0-387-98247-2 . МР 1633357 .
- Гурьеру, Кристиан (2000). «Эконометрика дискретных положительных переменных: модель Пуассона» . Эконометрика качественных зависимых переменных . Нью-Йорк: Издательство Кембриджского университета. стр. 270–83. ISBN 978-0-521-58985-7 .
- Грин, Уильям Х. (2008). «Модели количества и продолжительности событий». Эконометрический анализ (8-е изд.). Река Аппер-Седл: Прентис-Холл. стр. 906–944 . ISBN 978-0-13-600383-0 .
- Хильбе, Дж. М. (2007). Отрицательная биномиальная регрессия . Издательство Кембриджского университета. ISBN 978-0-521-85772-7 .
- Джонс, Эндрю М.; и др. (2013). «Модели для подсчета данных». Прикладная экономика здравоохранения . Лондон: Рутледж. стр. 295–341. ISBN 978-0-415-67682-3 .
- Майерс, Рэймонд Х.; и др. (2010). «Модели логистической и пуассоновской регрессии». Обобщенные линейные модели с приложениями в технике и науке (второе изд.). Нью-Джерси: Уайли. стр. 176–183. ISBN 978-0-470-45463-3 .