Jump to content

Модель с нулевым завышением

В статистике модель с нулевым завышением — это статистическая модель с нулевым значением , основанная на распределении вероятностей , то есть распределении, которое допускает частые наблюдения с нулевым значением.

Введение в модели с нулевым завышением

[ редактировать ]

Модели с нулевым завышением обычно используются при анализе данных подсчета, таких как количество посещений пациентом отделения неотложной помощи за один год или количество рыбы, пойманной за один день в одном озере. [1] Данные счетчика могут принимать значения 0, 1, 2, … (неотрицательные целые значения). [2] Другими примерами данных подсчета являются количество попаданий, зафиксированное счетчиком Гейгера за одну минуту, дни пребывания в больнице, голы, забитые в футбольном матче, [3] и количество эпизодов гипогликемии в год у больного сахарным диабетом. [4]

Для статистического анализа распределение подсчетов часто представляется с использованием распределения Пуассона или отрицательного биномиального распределения . Хильбе [3] отмечает, что «регрессия Пуассона традиционно рассматривается как базовая модель подсчета, на которой основано множество других моделей подсчета». В модели Пуассона «… случайная величина это ответ и параметр счетчика (лямбда) — среднее значение. Часто, еще называют параметром скорости или интенсивности… В статистической литературе также выражается как (му), когда речь идет о Пуассоне и традиционных отрицательных биномиальных моделях».

В некоторых данных количество нулей больше, чем можно было бы ожидать при использовании распределения Пуассона или отрицательного биномиального распределения . Данные с таким избытком нулевых значений называются нулевыми. [4]

Примеры гистограмм распределений Пуассона с нулевым расширением со средним значением 5 или 10 и доля нулевой инфляции Ниже показаны значения 0,2 или 0,5 на основе программы R ZeroInflPoiDistPlots.R от Bilder and Laughlin. [1]

Гистограммы ZIP-распределений

Примеры данных подсчета с нулевым завышением

[ редактировать ]
  • Подсчет рыбы [1] «…предположим, мы зафиксировали количество рыбы, пойманной на различных озерах во время 4-часовых рыбалок в Миннесоте. Некоторые озера в Миннесоте слишком мелкие, чтобы рыба могла пережить зиму, поэтому рыбалка в этих озерах не принесет никакого улова. С другой стороны, , даже на озере, где много рыбы, мы можем или не можем поймать какую-либо рыбу в зависимости от условий или нашей собственной компетентности. Таким образом, количество пойманной рыбы будет равно нулю, если в озере нет рыбы, и будет равно нулю, единице. или больше, если это так».
  • Количество удаленных зубов мудрости. [5] Количество зубов мудрости, которые удалил человек, может варьироваться от 0 до 4. У некоторых людей, около трети населения, зубы мудрости отсутствуют. Для этих людей количество удаленных зубов мудрости всегда будет равно нулю. Для других людей число удаленных зубов будет от 0 до 4, где 0 означает, что у субъекта еще не было и, возможно, никогда не было удалено ни одного из четырех зубов мудрости.
  • Публикации докторантов. [6] Лонг изучил количество публикаций 915 докторантов по биохимии за последние три года их учебы в аспирантуре. Доля кандидатов с нулевыми публикациями превысила число, предсказанное моделью Пуассона. "Длинный [6] утверждал, что кандидаты PhD можно разделить на две отдельные группы: «издатели» (возможно, стремящиеся к академической карьере) и «не издатели» (ищущие другие карьерные пути). Одна из разумных форм объяснения заключается в том, что наблюдаемое нулевое количество отражает смесь двух скрытых классов – тех, кто просто еще не опубликовал, и тех, кто, скорее всего, никогда не опубликует». [7]

Данные с нулевым завышением как смесь двух распределений

[ редактировать ]

Как показывают приведенные выше примеры, данные с нулевым завышением могут возникнуть как смесь двух распределений. Первое распределение генерирует нули. Второе распределение, которое может быть распределением Пуассона , отрицательным биномиальным распределением или другим распределением счетчиков, генерирует счетчики, некоторые из которых могут быть нулями. [7]

В статистической литературе разные авторы могут использовать разные названия, чтобы отличить нули от двух распределений. Некоторые авторы описывают нули, генерируемые первым (двоичным) распределением, как «структурные», а нули, генерируемые вторым (счетным) распределением, как «случайные». [7] Другие авторы используют терминологию «иммунитет» и «восприимчивость» для двоичных нулей и нулей счета соответственно. [1]

Пуассон с нулевым завышением

[ редактировать ]
Гистограмма распределения Пуассона с нулевым расширением

Одной из хорошо известных моделей с нулевым расширением является модель Пуассона с нулевым расширением Дайаны Ламберт , которая касается случайного события, содержащего избыточные данные с нулевым счетчиком в единицу времени. [8] Например, количество страховых случаев среди населения по определенному типу риска будет равно нулю за счет тех людей, которые не застраховались от риска и, следовательно, не могут подать заявку. Модель Пуассона с нулевым расширением (ZIP) смешивает два процесса генерации нуля. Первый процесс генерирует нули. Второй процесс управляется распределением Пуассона , которое генерирует счетчики, некоторые из которых могут быть равны нулю. Распределение смеси описывается следующим образом:

где результирующая переменная имеет любое неотрицательное целое значение, ожидаемое число Пуассона для й человек; — вероятность появления лишних нулей.

Среднее значение и дисперсия .

Оценщики параметров ZIP

[ редактировать ]

Метод оценок моментов имеет вид [9]

где это выборочное среднее и — выборочная дисперсия.

Оценка максимального правдоподобия [10] можно найти, решив следующее уравнение

где – наблюдаемая доля нулей.

Решение этого уравнения в замкнутой форме имеет вид [11]

с являясь основной ветвью W-функции Ламберта [12] и

.

Альтернативно уравнение можно решить итерацией. [13]

Оценка максимального правдоподобия для дается

[ редактировать ]

с нулевым расширением В 1994 году Грин рассмотрел модель отрицательного бинома (ZINB). [14] Дэниел Б. Холл адаптировал методологию Ламберта к ситуации с ограничением сверху, получив тем самым биномиальную модель с нулевым расширением (ZIB). [15]

Дискретная псевдосложная модель Пуассона

[ редактировать ]

Если данные подсчета такова, что вероятность нуля больше вероятности ненулевого значения, а именно

тогда дискретные данные подчиняются дискретному псевдосложному распределению Пуассона . [16]

В самом деле, пусть быть производящей функцией вероятности . Если , затем . Тогда по теореме Винера– Леви [17] имеет производящую функцию вероятности дискретного псевдосоставного распределения Пуассона .

Мы говорим, что дискретная случайная величина удовлетворяющая производящей функции вероятности характеристике

имеет дискретное псевдосложное распределение Пуассона с параметрами

Когда все неотрицательны, это дискретное составное распределение Пуассона (непуассоновский случай) со сверхдисперсии свойством .

См. также

[ редактировать ]

Программное обеспечение

[ редактировать ]
  1. ^ Jump up to: а б с д Билдер, Кристофер; Лафхин, Томас (2015), Анализ категориальных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN  978-1439855676
  2. ^ Хильбе, Джозеф М. (2014), Моделирование подсчета данных (первое издание), Cambridge University Press, ISBN  978-1107611252
  3. ^ Jump up to: а б Хильбе, Джозеф М. (2007), Отрицательная биномиальная регрессия (второе изд.), Cambridge University Press, ISBN  978-0521198158
  4. ^ Jump up to: а б Лачин, Джон М. (2011), Биостатистические методы: оценка относительных рисков (второе изд.), Wiley, ISBN  978-0470508220
  5. ^ «Биостатистика II. 1.3 – Модели с нулевой инфляцией» . Ютуб . Проверено 1 июля 2022 г.
  6. ^ Jump up to: а б Лонг, Дж. Скотт (1997), Модели регрессии для категориальных и ограниченно зависимых переменных (первое издание), Sage Publications, ISBN  978-0803973749
  7. ^ Jump up to: а б с Дружелюбный, Майкл; Дэвид, Томас (2016), Анализ дискретных данных с помощью R (первое издание), CRC Press / Chapman & Hall, ISBN  978-1498725835
  8. ^ Ламберт, Дайан (1992). «Регрессия Пуассона с нулевым завышением и применение к дефектам в производстве». Технометрика . 34 (1): 1–14. дои : 10.2307/1269547 . JSTOR   1269547 .
  9. ^ Беккет, Сэди; Джи, Джошуа; Нкубе, Талепо; Вашингтон, Квинтел; Сингх, Аншуман; Пал, Набенду (2014). «Распределение Пуассона с нулевым завышением (ZIP): оценка параметров и приложения для моделирования данных о стихийных бедствиях» . Вовлекать . 7 (6): 751–767. дои : 10.2140/involve.2014.7.751 .
  10. ^ Джонсон, Норман Л.; Коц, Сэмюэл; Кемп, Эдриенн В. (1992). Одномерные дискретные распределения (2-е изд.). Уайли. стр. 312–314. ISBN  978-0-471-54897-3 .
  11. ^ Денкс, Стефани; Пипенброк, Мэрион; Шмитц, Георг (2020). «Оценка реконструкции сосудов в ультразвуковой локализационной микроскопии путем оценки максимального правдоподобия модели Пуассона с нулевым завышением» . Транзакции IEEE по ультразвуку, сегнетоэлектрике и контролю частоты . дои : 10.1109/TUFFC.2020.2980063 .
  12. ^ Корлесс, Р.М.; Гонне, GH; Заяц, ДЭГ; Джеффри, диджей; Кнут, DE (1996). «О функции Ламберта W». Достижения в области вычислительной математики . 5 (1): 329–359. arXiv : 1809.07369 . дои : 10.1007/BF02124750 .
  13. ^ Бёнинг, Данкмар; Дитц, Эккехарт; Шлаттманн, Питер; Мендонка, Лизетт; Киршнер, Урсула (1999). «Модель Пуассона с нулевым завышением и индекс разрушенных, отсутствующих и запломбированных зубов в стоматологической эпидемиологии». Журнал Королевского статистического общества, серия A. 162 (2): 195–209. дои : 10.1111/1467-985x.00130 .
  14. ^ Грин, Уильям Х. (1994). «Некоторый учет лишних нулей и отбора выборки в моделях Пуассона и отрицательной биномиальной регрессии». Рабочий документ EC-94-10: Факультет экономики Нью-Йоркского университета . ССНР   1293115 .
  15. ^ Холл, Дэниел Б. (2000). «Пуассон с нулевым завышением и биномиальная регрессия со случайными эффектами: практический пример». Биометрия . 56 (4): 1030–1039. дои : 10.1111/j.0006-341X.2000.01030.x .
  16. ^ Хуэймин, Чжан; Юньсяо Лю; Бо Ли (2014). «Заметки о дискретной составной модели Пуассона с приложениями к теории риска». Страхование: Математика и Экономика . 59 : 325–336. doi : 10.1016/j.insmatheco.2014.09.012 .
  17. ^ Зигмунд, А. (2002). Тригонометрический ряд . Кембридж: Издательство Кембриджского университета. п. 245.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 532a2ed46a312460eae54f78b73c5919__1713331440
URL1:https://arc.ask3.ru/arc/aa/53/19/532a2ed46a312460eae54f78b73c5919.html
Заголовок, (Title) документа по адресу, URL1:
Zero-inflated model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)