Модель с нулевым завышением

В статистике модель с нулевым завышением — это статистическая модель с нулевым значением , основанная на распределении вероятностей , то есть распределении, которое допускает частые наблюдения с нулевым значением.

Введение в модели с нулевым завышением

Модели с нулевым завышением обычно используются при анализе данных подсчета, таких как количество посещений пациентом отделения неотложной помощи за один год или количество рыбы, пойманной за один день в одном озере. ^[1] Данные счетчика могут принимать значения 0, 1, 2, … (неотрицательные целые значения). ^[2] Другими примерами данных подсчета являются количество попаданий, зафиксированное счетчиком Гейгера за одну минуту, дни пребывания в больнице, голы, забитые в футбольном матче, ^[3] и количество эпизодов гипогликемии в год у больного сахарным диабетом. ^[4]

Для статистического анализа распределение подсчетов часто представляется с использованием распределения Пуассона или отрицательного биномиального распределения . Хильбе ^[3] отмечает, что «регрессия Пуассона традиционно рассматривается как базовая модель подсчета, на которой основано множество других моделей подсчета». В модели Пуассона «… случайная величина $y$ это ответ и параметр счетчика $\lambda$ (лямбда) — среднее значение. Часто, $\lambda$ еще называют параметром скорости или интенсивности… В статистической литературе $\lambda$ также выражается как $\mu$ (му), когда речь идет о Пуассоне и традиционных отрицательных биномиальных моделях».

В некоторых данных количество нулей больше, чем можно было бы ожидать при использовании распределения Пуассона или отрицательного биномиального распределения . Данные с таким избытком нулевых значений называются нулевыми. ^[4]

Примеры гистограмм распределений Пуассона с нулевым расширением со средним значением $\mu$ 5 или 10 и доля нулевой инфляции $\pi$ Ниже показаны значения 0,2 или 0,5 на основе программы R ZeroInflPoiDistPlots.R от Bilder and Laughlin. ^[1]

Примеры данных подсчета с нулевым завышением

Подсчет рыбы ^[1] «…предположим, мы зафиксировали количество рыбы, пойманной на различных озерах во время 4-часовых рыбалок в Миннесоте. Некоторые озера в Миннесоте слишком мелкие, чтобы рыба могла пережить зиму, поэтому рыбалка в этих озерах не принесет никакого улова. С другой стороны, , даже на озере, где много рыбы, мы можем или не можем поймать какую-либо рыбу в зависимости от условий или нашей собственной компетентности. Таким образом, количество пойманной рыбы будет равно нулю, если в озере нет рыбы, и будет равно нулю, единице. или больше, если это так».
Количество удаленных зубов мудрости. ^[5] Количество зубов мудрости, которые удалил человек, может варьироваться от 0 до 4. У некоторых людей, около трети населения, зубы мудрости отсутствуют. Для этих людей количество удаленных зубов мудрости всегда будет равно нулю. Для других людей число удаленных зубов будет от 0 до 4, где 0 означает, что у субъекта еще не было и, возможно, никогда не было удалено ни одного из четырех зубов мудрости.
Публикации докторантов. ^[6] Лонг изучил количество публикаций 915 докторантов по биохимии за последние три года их учебы в аспирантуре. Доля кандидатов с нулевыми публикациями превысила число, предсказанное моделью Пуассона. "Длинный ^[6] утверждал, что кандидаты PhD можно разделить на две отдельные группы: «издатели» (возможно, стремящиеся к академической карьере) и «не издатели» (ищущие другие карьерные пути). Одна из разумных форм объяснения заключается в том, что наблюдаемое нулевое количество отражает смесь двух скрытых классов – тех, кто просто еще не опубликовал, и тех, кто, скорее всего, никогда не опубликует». ^[7]

Данные с нулевым завышением как смесь двух распределений

Как показывают приведенные выше примеры, данные с нулевым завышением могут возникнуть как смесь двух распределений. Первое распределение генерирует нули. Второе распределение, которое может быть распределением Пуассона , отрицательным биномиальным распределением или другим распределением счетчиков, генерирует счетчики, некоторые из которых могут быть нулями. ^[7]

В статистической литературе разные авторы могут использовать разные названия, чтобы отличить нули от двух распределений. Некоторые авторы описывают нули, генерируемые первым (двоичным) распределением, как «структурные», а нули, генерируемые вторым (счетным) распределением, как «случайные». ^[7] Другие авторы используют терминологию «иммунитет» и «восприимчивость» для двоичных нулей и нулей счета соответственно. ^[1]

Пуассон с нулевым завышением

Гистограмма распределения Пуассона с нулевым расширением

Одной из хорошо известных моделей с нулевым расширением является модель Пуассона с нулевым расширением Дайаны Ламберт , которая касается случайного события, содержащего избыточные данные с нулевым счетчиком в единицу времени. ^[8] Например, количество страховых случаев среди населения по определенному типу риска будет равно нулю за счет тех людей, которые не застраховались от риска и, следовательно, не могут подать заявку. Модель Пуассона с нулевым расширением (ZIP) смешивает два процесса генерации нуля. Первый процесс генерирует нули. Второй процесс управляется распределением Пуассона , которое генерирует счетчики, некоторые из которых могут быть равны нулю. Распределение смеси описывается следующим образом:

\Pr(Y=0)=\pi +(1-\pi )e^{-\lambda }

\Pr(Y=y_{i})=(1-\pi ){\frac {\lambda ^{y_{i}}e^{-\lambda }}{y_{i}!}},\qquad y_{i}=1,2,3,...

где результирующая переменная $y_{i}$ имеет любое неотрицательное целое значение, $\lambda$ ожидаемое число Пуассона для $i$ й человек; $\pi$ — вероятность появления лишних нулей.

Среднее значение $(1-\pi )\lambda$ и дисперсия $\lambda (1-\pi )(1+\pi \lambda )$ .

Оценщики параметров ZIP

Метод оценок моментов имеет вид ^[9]

{\hat {\lambda }}_{mo}={\frac {s^{2}+m^{2}}{m}}-1,

{\hat {\pi }}_{mo}={\frac {s^{2}-m}{s^{2}+m^{2}-m}},

где $m$ это выборочное среднее и $s^{2}$ — выборочная дисперсия.

Оценка максимального правдоподобия ^[10] можно найти, решив следующее уравнение

m(1-e^{-{\hat {\lambda }}_{ml}})={\hat {\lambda }}_{ml}\left(1-{\frac {n_{0}}{n}}\right).

где ${\frac {n_{0}}{n}}$ – наблюдаемая доля нулей.

Решение этого уравнения в замкнутой форме имеет вид ^[11]

{\hat {\lambda }}_{ml}=W_{0}(-se^{-s})+s

с $W_{0}$ являясь основной ветвью W-функции Ламберта ^[12] и

s={\frac {m}{1-{\frac {n_{0}}{n}}}}

.

Альтернативно уравнение можно решить итерацией. ^[13]

Оценка максимального правдоподобия для $\pi$ дается

{\hat {\pi }}_{ml}=1-{\frac {m}{{\hat {\lambda }}_{ml}}}.

Дискретная псевдосложная модель Пуассона

Если данные подсчета $Y$ такова, что вероятность нуля больше вероятности ненулевого значения, а именно

\Pr(Y=0)>0.5

тогда дискретные данные $Y$ подчиняются дискретному псевдосложному распределению Пуассона . ^[16]

В самом деле, пусть $G(z)=\sum \limits _{n=0}^{\infty }P(Y=n)z^{n}$ быть производящей функцией вероятности $y_{i}$ . Если $p_{0}=\Pr(Y=0)>0.5$ , затем $|G(z)|\geqslant p_{0}-\sum \limits _{i=1}^{\infty }p_{i}=2p_{0}-1>0$ . Тогда по теореме Винера– Леви ^[17] $G(z)$ имеет производящую функцию вероятности дискретного псевдосоставного распределения Пуассона .

Мы говорим, что дискретная случайная величина $Y$ удовлетворяющая производящей функции вероятности характеристике

G_{Y}(z)=\sum \limits _{n=0}^{\infty }P(Y=n)z^{n}=\exp \left(\sum _{k=1}^{\infty }\alpha _{k}\lambda (z^{k}-1)\right),\quad (|z|\leq 1)

имеет дискретное псевдосложное распределение Пуассона с параметрами

(\lambda _{1},\lambda _{2},\ldots )=(\alpha _{1}\lambda ,\alpha _{2}\lambda ,\ldots )\in \mathbb {R} ^{\infty }\left(\sum _{k=1}^{\infty }\alpha _{k}=1,\sum \limits _{k=1}^{\infty }|\alpha _{k}|<\infty ,\alpha _{k}\in \mathbb {R} ,\lambda >0\right).

Когда все $\alpha _{k}$ неотрицательны, это дискретное составное распределение Пуассона (непуассоновский случай) со сверхдисперсии свойством .

См. также

Программное обеспечение

pscl , glmmTMB и brms R пакеты

Ссылки

^ Jump up to: ^а ^б ^с ^д Билдер, Кристофер; Лафхин, Томас (2015), Анализ категориальных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1439855676
^ Хильбе, Джозеф М. (2014), Моделирование подсчета данных (первое издание), Cambridge University Press, ISBN 978-1107611252
^ Jump up to: ^а ^б Хильбе, Джозеф М. (2007), Отрицательная биномиальная регрессия (второе изд.), Cambridge University Press, ISBN 978-0521198158
^ Jump up to: ^а ^б Лачин, Джон М. (2011), Биостатистические методы: оценка относительных рисков (второе изд.), Wiley, ISBN 978-0470508220
^ «Биостатистика II. 1.3 – Модели с нулевой инфляцией» . Ютуб . Проверено 1 июля 2022 г.
^ Jump up to: ^а ^б Лонг, Дж. Скотт (1997), Модели регрессии для категориальных и ограниченно зависимых переменных (первое издание), Sage Publications, ISBN 978-0803973749
^ Jump up to: ^а ^б ^с Дружелюбный, Майкл; Дэвид, Томас (2016), Анализ дискретных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1498725835
^ Ламберт, Дайан (1992). «Регрессия Пуассона с нулевым завышением и применение к дефектам в производстве». Технометрика . 34 (1): 1–14. дои : 10.2307/1269547 . JSTOR 1269547 .
^ Беккет, Сэди; Джи, Джошуа; Нкубе, Талепо; Вашингтон, Квинтел; Сингх, Аншуман; Пал, Набенду (2014). «Распределение Пуассона с нулевым завышением (ZIP): оценка параметров и приложения для моделирования данных о стихийных бедствиях» . Вовлекать . 7 (6): 751–767. дои : 10.2140/involve.2014.7.751 .
^ Джонсон, Норман Л.; Коц, Сэмюэл; Кемп, Эдриенн В. (1992). Одномерные дискретные распределения (2-е изд.). Уайли. стр. 312–314. ISBN 978-0-471-54897-3 .
^ Денкс, Стефани; Пипенброк, Мэрион; Шмитц, Георг (2020). «Оценка реконструкции сосудов в ультразвуковой локализационной микроскопии путем оценки максимального правдоподобия модели Пуассона с нулевым завышением» . Транзакции IEEE по ультразвуку, сегнетоэлектрике и контролю частоты . дои : 10.1109/TUFFC.2020.2980063 .
^ Корлесс, Р.М.; Гонне, GH; Заяц, ДЭГ; Джеффри, диджей; Кнут, DE (1996). «О функции Ламберта W». Достижения в области вычислительной математики . 5 (1): 329–359. arXiv : 1809.07369 . дои : 10.1007/BF02124750 .
^ Бёнинг, Данкмар; Дитц, Эккехарт; Шлаттманн, Питер; Мендонка, Лизетт; Киршнер, Урсула (1999). «Модель Пуассона с нулевым завышением и индекс разрушенных, отсутствующих и запломбированных зубов в стоматологической эпидемиологии». Журнал Королевского статистического общества, серия A. 162 (2): 195–209. дои : 10.1111/1467-985x.00130 .
^ Грин, Уильям Х. (1994). «Некоторый учет лишних нулей и отбора выборки в моделях Пуассона и отрицательной биномиальной регрессии». Рабочий документ EC-94-10: Факультет экономики Нью-Йоркского университета . ССНР 1293115 .
^ Холл, Дэниел Б. (2000). «Пуассон с нулевым завышением и биномиальная регрессия со случайными эффектами: практический пример». Биометрия . 56 (4): 1030–1039. дои : 10.1111/j.0006-341X.2000.01030.x .
^ Хуэймин, Чжан; Юньсяо Лю; Бо Ли (2014). «Заметки о дискретной составной модели Пуассона с приложениями к теории риска». Страхование: Математика и Экономика . 59 : 325–336. doi : 10.1016/j.insmatheco.2014.09.012 .
^ Зигмунд, А. (2002). Тригонометрический ряд . Кембридж: Издательство Кембриджского университета. п. 245.

[BilderLoughin2015-1] Jump up to: ^а ^б ^с ^д Билдер, Кристофер; Лафхин, Томас (2015), Анализ категориальных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1439855676

[HilbeNBR2014-2] Хильбе, Джозеф М. (2014), Моделирование подсчета данных (первое издание), Cambridge University Press, ISBN 978-1107611252

[HilbeNBR2007-3] Jump up to: ^а ^б Хильбе, Джозеф М. (2007), Отрицательная биномиальная регрессия (второе изд.), Cambridge University Press, ISBN 978-0521198158

[Lachin2011-4] Jump up to: ^а ^б Лачин, Джон М. (2011), Биостатистические методы: оценка относительных рисков (второе изд.), Wiley, ISBN 978-0470508220

[ChernyavskiyMcmurry-5] «Биостатистика II. 1.3 – Модели с нулевой инфляцией» . Ютуб . Проверено 1 июля 2022 г.

[Long1997-6] Jump up to: ^а ^б Лонг, Дж. Скотт (1997), Модели регрессии для категориальных и ограниченно зависимых переменных (первое издание), Sage Publications, ISBN 978-0803973749

[FriendlyMeyer2016-7] Jump up to: ^а ^б ^с Дружелюбный, Майкл; Дэвид, Томас (2016), Анализ дискретных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1498725835

[8] Ламберт, Дайан (1992). «Регрессия Пуассона с нулевым завышением и применение к дефектам в производстве». Технометрика . 34 (1): 1–14. дои : 10.2307/1269547 . JSTOR 1269547 .

[9] Беккет, Сэди; Джи, Джошуа; Нкубе, Талепо; Вашингтон, Квинтел; Сингх, Аншуман; Пал, Набенду (2014). «Распределение Пуассона с нулевым завышением (ZIP): оценка параметров и приложения для моделирования данных о стихийных бедствиях» . Вовлекать . 7 (6): 751–767. дои : 10.2140/involve.2014.7.751 .

[10] Джонсон, Норман Л.; Коц, Сэмюэл; Кемп, Эдриенн В. (1992). Одномерные дискретные распределения (2-е изд.). Уайли. стр. 312–314. ISBN 978-0-471-54897-3 .

[11] Денкс, Стефани; Пипенброк, Мэрион; Шмитц, Георг (2020). «Оценка реконструкции сосудов в ультразвуковой локализационной микроскопии путем оценки максимального правдоподобия модели Пуассона с нулевым завышением» . Транзакции IEEE по ультразвуку, сегнетоэлектрике и контролю частоты . дои : 10.1109/TUFFC.2020.2980063 .

[12] Корлесс, Р.М.; Гонне, GH; Заяц, ДЭГ; Джеффри, диджей; Кнут, DE (1996). «О функции Ламберта W». Достижения в области вычислительной математики . 5 (1): 329–359. arXiv : 1809.07369 . дои : 10.1007/BF02124750 .

[13] Бёнинг, Данкмар; Дитц, Эккехарт; Шлаттманн, Питер; Мендонка, Лизетт; Киршнер, Урсула (1999). «Модель Пуассона с нулевым завышением и индекс разрушенных, отсутствующих и запломбированных зубов в стоматологической эпидемиологии». Журнал Королевского статистического общества, серия A. 162 (2): 195–209. дои : 10.1111/1467-985x.00130 .

[14] Грин, Уильям Х. (1994). «Некоторый учет лишних нулей и отбора выборки в моделях Пуассона и отрицательной биномиальной регрессии». Рабочий документ EC-94-10: Факультет экономики Нью-Йоркского университета . ССНР 1293115 .

[15] Холл, Дэниел Б. (2000). «Пуассон с нулевым завышением и биномиальная регрессия со случайными эффектами: практический пример». Биометрия . 56 (4): 1030–1039. дои : 10.1111/j.0006-341X.2000.01030.x .

[16] Хуэймин, Чжан; Юньсяо Лю; Бо Ли (2014). «Заметки о дискретной составной модели Пуассона с приложениями к теории риска». Страхование: Математика и Экономика . 59 : 325–336. doi : 10.1016/j.insmatheco.2014.09.012 .

[17] Зигмунд, А. (2002). Тригонометрический ряд . Кембридж: Издательство Кембриджского университета. п. 245.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]