Модель с нулевым завышением
В статистике модель с нулевым завышением — это статистическая модель с нулевым значением , основанная на распределении вероятностей , то есть распределении, которое допускает частые наблюдения с нулевым значением.
Введение в модели с нулевым завышением
[ редактировать ]Модели с нулевым завышением обычно используются при анализе данных подсчета, таких как количество посещений пациентом отделения неотложной помощи за один год или количество рыбы, пойманной за один день в одном озере. [1] Данные счетчика могут принимать значения 0, 1, 2, … (неотрицательные целые значения). [2] Другими примерами данных подсчета являются количество попаданий, зафиксированное счетчиком Гейгера за одну минуту, дни пребывания в больнице, голы, забитые в футбольном матче, [3] и количество эпизодов гипогликемии в год у больного сахарным диабетом. [4]
Для статистического анализа распределение подсчетов часто представляется с использованием распределения Пуассона или отрицательного биномиального распределения . Хильбе [3] отмечает, что «регрессия Пуассона традиционно рассматривается как базовая модель подсчета, на которой основано множество других моделей подсчета». В модели Пуассона «… случайная величина это ответ и параметр счетчика (лямбда) — среднее значение. Часто, еще называют параметром скорости или интенсивности… В статистической литературе также выражается как (му), когда речь идет о Пуассоне и традиционных отрицательных биномиальных моделях».
В некоторых данных количество нулей больше, чем можно было бы ожидать при использовании распределения Пуассона или отрицательного биномиального распределения . Данные с таким избытком нулевых значений называются нулевыми. [4]
Примеры гистограмм распределений Пуассона с нулевым расширением со средним значением 5 или 10 и доля нулевой инфляции Ниже показаны значения 0,2 или 0,5 на основе программы R ZeroInflPoiDistPlots.R от Bilder and Laughlin. [1]
Примеры данных подсчета с нулевым завышением
[ редактировать ]- Подсчет рыбы [1] «…предположим, мы зафиксировали количество рыбы, пойманной на различных озерах во время 4-часовых рыбалок в Миннесоте. Некоторые озера в Миннесоте слишком мелкие, чтобы рыба могла пережить зиму, поэтому рыбалка в этих озерах не принесет никакого улова. С другой стороны, , даже на озере, где много рыбы, мы можем или не можем поймать какую-либо рыбу в зависимости от условий или нашей собственной компетентности. Таким образом, количество пойманной рыбы будет равно нулю, если в озере нет рыбы, и будет равно нулю, единице. или больше, если это так».
- Количество удаленных зубов мудрости. [5] Количество зубов мудрости, которые удалил человек, может варьироваться от 0 до 4. У некоторых людей, около трети населения, зубы мудрости отсутствуют. Для этих людей количество удаленных зубов мудрости всегда будет равно нулю. Для других людей число удаленных зубов будет от 0 до 4, где 0 означает, что у субъекта еще не было и, возможно, никогда не было удалено ни одного из четырех зубов мудрости.
- Публикации докторантов. [6] Лонг изучил количество публикаций 915 докторантов по биохимии за последние три года их учебы в аспирантуре. Доля кандидатов с нулевыми публикациями превысила число, предсказанное моделью Пуассона. "Длинный [6] утверждал, что кандидаты PhD можно разделить на две отдельные группы: «издатели» (возможно, стремящиеся к академической карьере) и «не издатели» (ищущие другие карьерные пути). Одна из разумных форм объяснения заключается в том, что наблюдаемое нулевое количество отражает смесь двух скрытых классов – тех, кто просто еще не опубликовал, и тех, кто, скорее всего, никогда не опубликует». [7]
Данные с нулевым завышением как смесь двух распределений
[ редактировать ]Как показывают приведенные выше примеры, данные с нулевым завышением могут возникнуть как смесь двух распределений. Первое распределение генерирует нули. Второе распределение, которое может быть распределением Пуассона , отрицательным биномиальным распределением или другим распределением счетчиков, генерирует счетчики, некоторые из которых могут быть нулями. [7]
В статистической литературе разные авторы могут использовать разные названия, чтобы отличить нули от двух распределений. Некоторые авторы описывают нули, генерируемые первым (двоичным) распределением, как «структурные», а нули, генерируемые вторым (счетным) распределением, как «случайные». [7] Другие авторы используют терминологию «иммунитет» и «восприимчивость» для двоичных нулей и нулей счета соответственно. [1]
Пуассон с нулевым завышением
[ редактировать ]
Одной из хорошо известных моделей с нулевым расширением является модель Пуассона с нулевым расширением Дайаны Ламберт , которая касается случайного события, содержащего избыточные данные с нулевым счетчиком в единицу времени. [8] Например, количество страховых случаев среди населения по определенному типу риска будет равно нулю за счет тех людей, которые не застраховались от риска и, следовательно, не могут подать заявку. Модель Пуассона с нулевым расширением (ZIP) смешивает два процесса генерации нуля. Первый процесс генерирует нули. Второй процесс управляется распределением Пуассона , которое генерирует счетчики, некоторые из которых могут быть равны нулю. Распределение смеси описывается следующим образом:
где результирующая переменная имеет любое неотрицательное целое значение, ожидаемое число Пуассона для й человек; — вероятность появления лишних нулей.
Среднее значение и дисперсия .
Оценщики параметров ZIP
[ редактировать ]Метод оценок моментов имеет вид [9]
где это выборочное среднее и — выборочная дисперсия.
Оценка максимального правдоподобия [10] можно найти, решив следующее уравнение
где – наблюдаемая доля нулей.
Решение этого уравнения в замкнутой форме имеет вид [11]
с являясь основной ветвью W-функции Ламберта [12] и
- .
Альтернативно уравнение можно решить итерацией. [13]
Оценка максимального правдоподобия для дается
Похожие модели
[ редактировать ]с нулевым расширением В 1994 году Грин рассмотрел модель отрицательного бинома (ZINB). [14] Дэниел Б. Холл адаптировал методологию Ламберта к ситуации с ограничением сверху, получив тем самым биномиальную модель с нулевым расширением (ZIB). [15]
Дискретная псевдосложная модель Пуассона
[ редактировать ]Если данные подсчета такова, что вероятность нуля больше вероятности ненулевого значения, а именно
тогда дискретные данные подчиняются дискретному псевдосложному распределению Пуассона . [16]
В самом деле, пусть быть производящей функцией вероятности . Если , затем . Тогда по теореме Винера– Леви [17] имеет производящую функцию вероятности дискретного псевдосоставного распределения Пуассона .
Мы говорим, что дискретная случайная величина удовлетворяющая производящей функции вероятности характеристике
имеет дискретное псевдосложное распределение Пуассона с параметрами
Когда все неотрицательны, это дискретное составное распределение Пуассона (непуассоновский случай) со сверхдисперсии свойством .
См. также
[ редактировать ]- Распределение Пуассона
- Распределение Пуассона с нулевым усечением
- Составное распределение Пуассона
- Разреженное приближение
- Модель препятствий
Программное обеспечение
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д Билдер, Кристофер; Лафхин, Томас (2015), Анализ категориальных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1439855676
- ^ Хильбе, Джозеф М. (2014), Моделирование подсчета данных (первое издание), Cambridge University Press, ISBN 978-1107611252
- ^ Jump up to: а б Хильбе, Джозеф М. (2007), Отрицательная биномиальная регрессия (второе изд.), Cambridge University Press, ISBN 978-0521198158
- ^ Jump up to: а б Лачин, Джон М. (2011), Биостатистические методы: оценка относительных рисков (второе изд.), Wiley, ISBN 978-0470508220
- ^ «Биостатистика II. 1.3 – Модели с нулевой инфляцией» . Ютуб . Проверено 1 июля 2022 г.
- ^ Jump up to: а б Лонг, Дж. Скотт (1997), Модели регрессии для категориальных и ограниченно зависимых переменных (первое издание), Sage Publications, ISBN 978-0803973749
- ^ Jump up to: а б с Дружелюбный, Майкл; Дэвид, Томас (2016), Анализ дискретных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN 978-1498725835
- ^ Ламберт, Дайан (1992). «Регрессия Пуассона с нулевым завышением и применение к дефектам в производстве». Технометрика . 34 (1): 1–14. дои : 10.2307/1269547 . JSTOR 1269547 .
- ^ Беккет, Сэди; Джи, Джошуа; Нкубе, Талепо; Вашингтон, Квинтел; Сингх, Аншуман; Пал, Набенду (2014). «Распределение Пуассона с нулевым завышением (ZIP): оценка параметров и приложения для моделирования данных о стихийных бедствиях» . Вовлекать . 7 (6): 751–767. дои : 10.2140/involve.2014.7.751 .
- ^ Джонсон, Норман Л.; Коц, Сэмюэл; Кемп, Эдриенн В. (1992). Одномерные дискретные распределения (2-е изд.). Уайли. стр. 312–314. ISBN 978-0-471-54897-3 .
- ^ Денкс, Стефани; Пипенброк, Мэрион; Шмитц, Георг (2020). «Оценка реконструкции сосудов в ультразвуковой локализационной микроскопии путем оценки максимального правдоподобия модели Пуассона с нулевым завышением» . Транзакции IEEE по ультразвуку, сегнетоэлектрике и контролю частоты . дои : 10.1109/TUFFC.2020.2980063 .
- ^ Корлесс, Р.М.; Гонне, GH; Заяц, ДЭГ; Джеффри, диджей; Кнут, DE (1996). «О функции Ламберта W». Достижения в области вычислительной математики . 5 (1): 329–359. arXiv : 1809.07369 . дои : 10.1007/BF02124750 .
- ^ Бёнинг, Данкмар; Дитц, Эккехарт; Шлаттманн, Питер; Мендонка, Лизетт; Киршнер, Урсула (1999). «Модель Пуассона с нулевым завышением и индекс разрушенных, отсутствующих и запломбированных зубов в стоматологической эпидемиологии». Журнал Королевского статистического общества, серия A. 162 (2): 195–209. дои : 10.1111/1467-985x.00130 .
- ^ Грин, Уильям Х. (1994). «Некоторый учет лишних нулей и отбора выборки в моделях Пуассона и отрицательной биномиальной регрессии». Рабочий документ EC-94-10: Факультет экономики Нью-Йоркского университета . ССНР 1293115 .
- ^ Холл, Дэниел Б. (2000). «Пуассон с нулевым завышением и биномиальная регрессия со случайными эффектами: практический пример». Биометрия . 56 (4): 1030–1039. дои : 10.1111/j.0006-341X.2000.01030.x .
- ^ Хуэймин, Чжан; Юньсяо Лю; Бо Ли (2014). «Заметки о дискретной составной модели Пуассона с приложениями к теории риска». Страхование: Математика и Экономика . 59 : 325–336. doi : 10.1016/j.insmatheco.2014.09.012 .
- ^ Зигмунд, А. (2002). Тригонометрический ряд . Кембридж: Издательство Кембриджского университета. п. 245.