Отрицательное биномиальное распределение
В разных текстах (и даже в разных частях этой статьи) используются несколько разные определения отрицательного биномиального распределения. Их можно отличить по тому, начинается ли поддержка при k = 0 или при k = r , обозначает ли p вероятность успеха или неудачи и представляет ли r успех или неудачу. [1] поэтому определение конкретной используемой параметризации имеет решающее значение в любом тексте. | |||
Функция массы вероятности ![]() Оранжевая линия представляет собой среднее значение, равное 10 на каждом из этих графиков; зеленая линия показывает стандартное отклонение. | |||
Обозначения | |||
---|---|---|---|
Параметры | r > 0 — количество успехов до остановки эксперимента ( целое число , но определение можно распространить и на вещественные числа ) p ∈ [0,1] — вероятность успеха в каждом эксперименте (реальная) | ||
Поддерживать | k ∈ { 0, 1, 2, 3, … } — количество отказов | ||
ПМФ | с использованием биномиального коэффициента | ||
CDF | регуляризованная неполная бета-функция | ||
Иметь в виду | |||
Режим | |||
Дисперсия | |||
асимметрия | |||
Избыточный эксцесс | |||
МГФ | |||
CF | |||
ПГФ | |||
Информация о Фишере | |||
Метод моментов | |
В теории вероятностей и статистике отрицательное биномиальное распределение — это дискретное распределение вероятностей , которое моделирует количество неудач в последовательности независимых и одинаково распределенных испытаний Бернулли до определенного (неслучайного) числа успехов (обозначаемого ) происходит. [2] Например, мы можем определить выпадение 6 на некоторых кубиках как успех, а любое другое число как неудачу и спросить, сколько неудачных бросков произойдет, прежде чем мы увидим третий успех ( ). В таком случае распределение вероятностей числа возникающих отказов будет отрицательным биномиальным распределением.
Альтернативная формулировка — моделировать общее количество испытаний (вместо количества неудач). Фактически, для заданного (неслучайного) числа успехов ( r ) количество неудач ( n − r ) является случайным, поскольку общее количество испытаний ( n ) является случайным. Например, мы могли бы использовать отрицательное биномиальное распределение для моделирования количества дней n (случайных), в течение которых определенная машина работает (заданная r ), прежде чем она выйдет из строя.
Распределение Паскаля (по Блезу Паскалю ) и распределение Полиа (по Джорджу Полиа ) являются частными случаями отрицательного биномиального распределения. Среди инженеров, климатологов и других специалистов принято использовать «отрицательный бином» или «Паскаль» для случая целочисленного параметра времени остановки ( ) и используйте «Polya» для действительного случая.
Для возникновения связанных дискретных событий, таких как вспышки торнадо, распределения Полиа можно использовать для создания более точных моделей, чем распределение Пуассона, поскольку в отличие от распределения Пуассона среднее значение и дисперсия могут быть разными. Отрицательное биномиальное распределение имеет дисперсию , причем распределение становится идентичным пуассоновскому в пределе для заданного среднего (т.е. когда сбои становятся все более редкими). Это может сделать распределение полезной сверхдисперсной альтернативой распределению Пуассона, например, для надежной модификации регрессии Пуассона . В эпидемиологии он использовался для моделирования передачи инфекционных заболеваний, где вероятное количество дальнейших инфекций может значительно варьироваться от человека к человеку и от ситуации к ситуации. [3] В более общем смысле, это может быть уместно, когда события имеют положительно коррелированные события, вызывающие большую дисперсию , чем если бы события были независимыми, из-за положительного ковариационного члена.
Термин «отрицательный бином», вероятно, связан с тем, что определенный биномиальный коэффициент , который появляется в формуле функции вероятности распределения, можно проще записать отрицательными числами. [4]
Определения
[ редактировать ]Представьте себе последовательность независимых испытаний Бернулли : каждое испытание имеет два потенциальных результата, называемых «успехом» и «неудачей». В каждом испытании вероятность успеха равна и неудачи . Соблюдаем эту последовательность до тех пор, пока не наступит заданное число успехов происходит. Тогда случайное число наблюдаемых отказов, , соответствует отрицательному биномиальному распределению (или распределению Паскаля ):
Функция массы вероятности
[ редактировать ]Функция массы вероятности отрицательного биномиального распределения равна
где r — количество успехов, k — количество неудач, а p — вероятность успеха в каждом испытании.
Здесь величина в скобках представляет собой биномиальный коэффициент и равна
Обратите внимание, что Γ(r) — это гамма-функция .
− 1 попыток выбрано k Из k + r неудач , а не k + r, поскольку последняя из k + r попыток по определению является успешной.
Альтернативно эту величину можно записать следующим образом, что объясняет название «отрицательный бином»:
Обратите внимание, что согласно последнему выражению и биномиальному ряду для каждого 0 ≤ p < 1 и ,
следовательно, члены функции массы вероятности действительно составляют единицу, как показано ниже.
Чтобы понять приведенное выше определение функции массы вероятности, обратите внимание, что вероятность для каждой конкретной последовательности из r успехов и k неудач равна p р (1 - п ) к , потому что результаты испытаний k + r должны происходить независимо . Поскольку r − 1 попыток остается выбрать k -й успех всегда приходит последним, из оставшихся k + r неудачных попыток . Приведенный выше биномиальный коэффициент благодаря своей комбинаторной интерпретации дает в точности количество всех этих последовательностей длины k + r - 1.
Кумулятивная функция распределения
[ редактировать ]Кумулятивную функцию распределения можно выразить через регуляризованную неполную бета-функцию : [2] [5]
(В этой формуле используется та же параметризация, что и в таблице статьи, где r — количество успехов, а с среднее.)
Это также можно выразить через кумулятивную функцию распределения биномиального распределения : [6]
Альтернативные составы
[ редактировать ]Некоторые источники могут определять отрицательное биномиальное распределение несколько иначе, чем первичное здесь. Наиболее распространены варианты, когда случайная величина X подсчитывает разные вещи. Эти варианты можно увидеть в таблице здесь:
Х считает... | Функция массы вероятности | Формула | Альтернативная формула (с использованием эквивалентного бинома) | Альтернативная формула (упрощенно с использованием: ) | Поддерживать | |
---|---|---|---|---|---|---|
1 | k неудач при r успехах | [7] [5] [8] | [2] | |||
2 | n испытаний при r успехов | [5] [11] [12] [13] [14] | ||||
3 | n испытаний при r неудач | |||||
4 | k успехов при r неудач | |||||
- | k успехов при n испытаниях | Это биномиальное распределение, а не отрицательный бином: |
Каждое из четырех определений отрицательного биномиального распределения можно выразить немного разными, но эквивалентными способами. Первая альтернативная формулировка представляет собой просто эквивалентную форму биномиального коэффициента, то есть: . Вторая альтернативная формулировка несколько упрощает выражение, признавая, что общее количество попыток — это просто количество успехов и неудач, то есть: . Эти вторые формулировки могут быть более интуитивными для понимания, однако они, возможно, менее практичны, поскольку содержат больше терминов.
- Определение, где X — это количество n попыток , которые происходят при заданном числе r успехов, аналогично основному определению, за исключением того, что вместо количества неудач указывается количество попыток. Это добавляет r к значению случайной величины, меняя ее поддержку и среднее значение.
- Определение, где X — количество k успехов (или n попыток ), которые происходят для заданного числа r неудач , аналогично основному определению, используемому в этой статье, за исключением того, что числа неудач и успехов меняются местами при рассмотрении того, что подсчитывается. и что дано. Однако обратите внимание, что p по-прежнему относится к вероятности «успеха».
- Определение отрицательного биномиального распределения можно распространить на случай, когда параметр r может принимать положительное действительное значение. Хотя невозможно визуализировать нецелое число «неудач», мы все же можем формально определить распределение через функцию массы вероятности. Проблема расширения определения до вещественного (положительного) r сводится к расширению биномиального коэффициента до его действительнозначного аналога на основе гамма-функции :
- Подставив это выражение в исходное определение, мы говорим, что X имеет отрицательное биномиальное (или полиа ) распределение, если оно имеет функцию массы вероятности :
- Здесь r — действительное положительное число.
В отрицательной биномиальной регрессии [15] распределение определяется с точки зрения его среднего значения, , которая затем связана с объясняющими переменными, как в линейной регрессии или других обобщенных линейных моделях . Из выражения для среднего m можно получить и . Затем подстановка этих выражений в выражение для функции массы вероятности, когда r имеет действительное значение , дает следующую параметризацию функции массы вероятности в терминах m :
Тогда дисперсию можно записать как . Некоторые авторы предпочитают ставить и выразим дисперсию как . В этом контексте и в зависимости от автора либо параметр r, либо обратный ему α называется «параметром дисперсии», «параметром формы» или «коэффициентом кластеризации». [16] или «неоднородность» [15] или параметр «агрегирования». [10] Термин «агрегация» особенно используется в экологии при описании количества отдельных организмов. Уменьшение параметра агрегации r до нуля соответствует увеличению агрегации организмов; Увеличение r до бесконечности соответствует отсутствию агрегации, что можно описать регрессией Пуассона .
Альтернативные параметризации
[ редактировать ]Иногда распределение параметризуется с точки зрения его среднего значения µ и дисперсии σ. 2 :
Другая популярная параметризация использует r неудачи и вероятность β :
Примеры
[ редактировать ]Продолжительность пребывания в больнице
[ редактировать ]в больнице Продолжительность пребывания является примером реальных данных, которые можно хорошо смоделировать с помощью отрицательного биномиального распределения с помощью отрицательной биномиальной регрессии . [17] [18]
Продажа конфет
[ редактировать ]Пэт Коллис должен продавать шоколадные батончики, чтобы собрать деньги на экскурсию для 6-го класса. Пэт (несколько резко) не должен возвращаться домой, пока не будут проданы пять шоколадных батончиков. Итак, ребенок ходит от двери к двери, продавая шоколадные батончики. В каждом доме существует вероятность 0,6 продать один шоколадный батончик и вероятность 0,4 ничего не продать.
Какова вероятность продать последнюю шоколадку в n -м доме?
Успешная продажа конфет достаточное количество раз — это то, что определяет наш критерий остановки (в отличие от неудачной продажи), поэтому в данном случае k представляет собой количество неудач, а r — количество успехов. Напомним, что распределение NegBin( r , p ) описывает вероятность k неудач и r успехов в k + r испытаниях Бернулли( p ) с успехом в последнем испытании. Продать пять шоколадных батончиков – значит получить пять успехов. Следовательно, количество испытаний (т. е. домов) для этого равно k + 5 = n . Интересующая нас случайная величина — это количество домов, поэтому мы подставляем k = n − 5 в функцию масс NegBin(5, 0,4) и получаем следующую массовую функцию распределения домов (для n ≥ 5):
Какова вероятность того, что Пэт закончит в десятом доме?
Какова вероятность того, что Пэт закончит работу не раньше, чем достигнет восьмого дома?
Чтобы финишировать в восьмом доме или раньше, Пэт должен финишировать в пятом, шестом, седьмом или восьмом доме. Суммируем эти вероятности:
Какова вероятность того, что Пэт опустошит все 30 домов, стоящих по соседству?
Это можно выразить как вероятность того, что Пэт не закончит в домах с пятого по тридцатый:
Из-за довольно высокой вероятности того, что Пэт продаст недвижимость каждому дому (60 процентов), вероятность того, что она НЕ выполнит свое задание, исчезающе мала.
Характеристики
[ редактировать ]Ожидание
[ редактировать ]Ожидаемое общее количество испытаний, необходимое для достижения r успеха, равно . Таким образом, ожидаемое количество неудач будет равно этому значению за вычетом успехов:
Ожидание успехов
[ редактировать ]Ожидаемое общее количество отказов в отрицательном биномиальном распределении с параметрами ( r , p ) равно r (1 − p )/ p . Чтобы убедиться в этом, представьте, что эксперимент, моделирующий отрицательный бином, проводится много раз. То есть выполняется серия испытаний до тех пор, пока не будет получено r успехов, затем еще одна серия испытаний, затем еще одна и т. д. Запишите количество попыток, выполненных в каждом эксперименте: a , b , c ,... и поставьте a + б + с + ... = Н . Теперь мы ожидаем примерно успехов Np в целом. Допустим, эксперимент был проведен n раз. Тогда всего успехов nr . Итак, мы ожидаем, что nr = Np , поэтому N / n = r / p . Обратите внимание, что N / n — это просто среднее количество попыток за эксперимент. Вот что мы подразумеваем под «ожиданием». Среднее количество неудач за эксперимент составляет N / n - r = r / p - r = r (1 - p )/ p . Это соответствует среднему значению, указанному в поле в правой части этой страницы.
Строгий вывод можно сделать, представляя отрицательное биномиальное распределение как сумму времен ожидания. Позволять с конвенцией представляет собой количество отказов, наблюдавшихся до успехи с вероятностью успеха . И пусть где представляет количество неудач до достижения успеха. Мы можем подумать о как время ожидания (количество отказов) между й и й успех. Таким образом
Среднее значение
что следует из того факта .
Дисперсия
[ редактировать ]При подсчете количества неудач до r -го успеха дисперсия равна r (1 − p )/ p 2 . При подсчете количества успехов до r -й неудачи, как в альтернативной формулировке (3) выше, дисперсия равна rp /(1 - p ) 2 .
Связь с биномиальной теоремой
[ редактировать ]Предположим, Y — случайная величина с биномиальным распределением с параметрами n и p . Предположим, что p + q = 1, при этом p , q ≥ 0, тогда
Используя биномиальную теорему Ньютона , это также можно записать как:
в котором верхняя граница суммирования бесконечна. В этом случае биномиальный коэффициент
определяется, когда n является действительным числом, а не просто положительным целым числом. Но в нашем случае биномиального распределения оно равно нулю, когда k > n . Тогда мы можем сказать, например,
Теперь предположим, что r > 0, и мы используем отрицательный показатель степени:
Тогда все члены положительны, и член
— это просто вероятность того, что количество неудач до r- го успеха будет равно k , при условии, что r — целое число. (Если r — отрицательное нецелое число, так что показатель степени является положительным нецелым числом, то некоторые члены в сумме выше отрицательны, поэтому у нас нет распределения вероятностей на множестве всех неотрицательных целых чисел.)
Теперь мы также допускаем нецелые значения r . Тогда мы имеем правильное отрицательное биномиальное распределение, которое является обобщением распределения Паскаля, которое совпадает с распределением Паскаля, когда r оказывается положительным целым числом.
Напомним выше, что
- Сумма независимых отрицательно-биномиально распределенных случайных величин r 1 и r 2 с одинаковым значением параметра p является отрицательно-биномиально распределенной с тем же самым p, но с r -значением r 1 + r 2 .
Это свойство сохраняется, когда определение таким образом обобщается, и позволяет быстро увидеть, что отрицательное биномиальное распределение бесконечно делится .
Рекуррентные отношения
[ редактировать ]Имеют место следующие рекуррентные соотношения :
Для функции вероятностной массы
Для моментов
Для кумулянтов
Связанные дистрибутивы
[ редактировать ]- Геометрическое распределение (на {0, 1, 2, 3, ...}) является частным случаем отрицательного биномиального распределения с
- Отрицательное биномиальное распределение является частным случаем распределения дискретного фазового типа .
- Отрицательное биномиальное распределение является частным случаем дискретного составного распределения Пуассона .
Распределение Пуассона
[ редактировать ]Рассмотрим последовательность отрицательных биномиальных случайных величин, в которой параметр остановки r стремится к бесконечности, а вероятность p успеха в каждом испытании стремится к единице, таким образом, чтобы сохранить среднее значение распределения (т. е. ожидаемое количество неудач). постоянный. Обозначая это среднее значение как λ , параметр p будет равен p = r /( r + λ )
При этой параметризации функция массы вероятности будет равна
Теперь если рассматривать предел при r → ∞, то второй множитель будет сходиться к единице, а третий – к показательной функции:
которая является функцией масс случайной величины , распределенной по Пуассону, с ожидаемым значением λ .
Другими словами, альтернативно параметризованное отрицательное биномиальное распределение сходится к распределению Пуассона, а r контролирует отклонение от Пуассона. Это делает отрицательное биномиальное распределение подходящим в качестве надежной альтернативы Пуассону, которое приближается к Пуассону для больших r , но имеет большую дисперсию, чем Пуассон для малых r .
Гамма-пуассоновская смесь
[ редактировать ]Отрицательное биномиальное распределение также возникает как непрерывная смесь распределений Пуассона (т.е. сложное распределение вероятностей ), где смешанное распределение скорости Пуассона является гамма-распределением . То есть мы можем рассматривать отрицательный бином как Пуассона ( λ ) распределение , где λ сама по себе является случайной величиной, распределенной как гамма-распределение с формой r и масштабом θ = (1 − p )/ p или, соответственно, скоростью β = p /(1 - п ) .
Чтобы продемонстрировать интуицию этого утверждения, рассмотрим два независимых процесса Пуассона, «Успех» и «Неудача», с интенсивностями p и 1 − p . Вместе процессы Успеха и Неудачи эквивалентны одному процессу Пуассона с интенсивностью 1, где возникновение процесса считается успешным, если при соответствующем независимом подбрасывании монеты выпадает решка с вероятностью p ; в противном случае это провал. Если r — счетное число, подбрасывание монеты показывает, что количество успехов до r- й неудачи подчиняется отрицательному биномиальному распределению с параметрами r и p . Однако этот счетчик также является счетчиком процесса Пуассона «Успех» в случайный момент времени T -го r события в процессе Пуассона «Неудача». Подсчет успехов соответствует распределению Пуассона со средним значением pT , где T - время ожидания r вхождений в пуассоновском процессе интенсивности 1 - p , т. е. T является гамма-распределенным с параметром формы r и интенсивностью 1 - p . Таким образом, отрицательное биномиальное распределение эквивалентно распределению Пуассона со средним значением pT , где случайная величина T гамма-распределена с параметром формы r и интенсивностью (1 - p ) . Предыдущий абзац следует, потому что λ = pT является гамма-распределенным с параметром формы r и интенсивностью (1 - p )/ p .
Следующий формальный вывод (который не зависит от того, является ли r счетным числом) подтверждает интуицию.
Из-за этого отрицательное биномиальное распределение также известно как распределение гамма-Пуассона (смеси) . Отрицательное биномиальное распределение изначально было получено как предельный случай гамма-распределения Пуассона. [19]
Распределение суммы геометрически распределенных случайных величин
[ редактировать ]Если Y r — случайная величина, следующая отрицательному биномиальному распределению с параметрами r и p и поддерживающая {0, 1, 2, ...}, то Y r — сумма r независимых переменных, следующих геометрическому распределению (на {0 , 1, 2, ...}) с параметром p . в результате центральной предельной теоремы Таким образом , Y r (правильно масштабированный и сдвинутый) является приблизительно нормальным для достаточно большого r .
Более того, если B s + r — случайная величина, имеющая биномиальное распределение с параметрами s + r и p , то
В этом смысле отрицательное биномиальное распределение является «обратным» биномиальному распределению.
Сумма независимых отрицательно-биномиально распределенных случайных величин r 1 и r 2 с одинаковым значением параметра p является отрицательно-биномиально распределенной с тем же самым p, но с r -значением r 1 + r 2 .
Отрицательное биномиальное распределение бесконечно делится , т. е. если Y имеет отрицательное биномиальное распределение, то для любого положительного целого числа n существуют независимые одинаково распределенные случайные величины Y 1 , ..., Y n, сумма которых имеет то же распределение, что Y. и .
Представление в виде составного распределения Пуассона
[ редактировать ]Отрицательное биномиальное распределение NB( r , p ) можно представить как составное распределение Пуассона : Пусть обозначают последовательность независимых и одинаково распределенных случайных величин , каждая из которых имеет распределение логарифмического ряда Log( p ), с функцией массы вероятности
Пусть N — случайная величина, независимая от последовательности, и предположим, что N имеет распределение Пуассона со средним значением λ = - r ln(1 - p ) . Тогда случайная сумма
является NB( r , p )-распределенным. Чтобы доказать это, мы вычисляем производящую функцию G X для X , которая представляет собой композицию производящих функций G N и G Y 1 . С использованием
и
мы получаем
которая является производящей функцией вероятности распределения NB( r , p ).
В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:
С заменами | Нет замен | |
---|---|---|
Указанное количество розыгрышей | биномиальное распределение | гипергеометрическое распределение |
Заданное количество отказов | отрицательное биномиальное распределение | отрицательное гипергеометрическое распределение |
( a , b ,0) класс распределений
[ редактировать ]Отрицательное биномиальное распределение, наряду с распределениями Пуассона и биномиальным, является членом класса ( a , b распределений ,0) . Все три этих распределения являются частными случаями распределения Панджера . Они также являются членами естественного экспоненциального семейства .
Статистический вывод
[ редактировать ]Оценка параметров
[ редактировать ]МВУЭ для п
[ редактировать ]Предположим, что p неизвестно и проводится эксперимент, в котором заранее решено, что выборка будет продолжаться до тех пор, пока не будет найдено r успехов. Достаточной статистикой для эксперимента является k — количество неудач.
При оценке p несмещенная оценка минимальной дисперсии равна
Оценка максимального правдоподобия
[ редактировать ]Когда r известен, максимального правдоподобия оценка p равна
но это предвзятая оценка . Однако его обратная ( r + k )/ r является несмещенной оценкой 1/ p . [20]
Когда r неизвестен, оценка максимального правдоподобия для p и r вместе существует только для выборок, для которых выборочная дисперсия больше выборочного среднего значения. [21] Функция правдоподобия для N iid наблюдений ( k 1 , ..., k N ) равна
из которого мы вычисляем функцию логарифмического правдоподобия
Чтобы найти максимум, мы берем частные производные по r и p и приравниваем их к нулю:
- и
где
- это дигамма-функция .
Решение первого уравнения для p дает:
Подставив это во второе уравнение, получим:
Это уравнение не может быть решено относительно r в замкнутой форме . Если требуется численное решение, итерационный метод, такой как метод Ньютона можно использовать . Альтернативно алгоритм ожидания-максимизации . можно использовать [21]
Возникновение и применение
[ редактировать ]Время ожидания в процессе Бернулли
[ редактировать ]Для особого случая, когда r является целым числом, отрицательное биномиальное распределение известно как распределение Паскаля . Это распределение вероятностей определенного числа неудач и успехов в серии независимых и одинаково распределенных испытаний Бернулли. Для k + r испытаний Бернулли с вероятностью успеха p отрицательный бином дает вероятность k успехов и r неудач с неудачей в последнем испытании. Другими словами, отрицательное биномиальное распределение — это распределение вероятностей числа успехов перед r -й неудачей в процессе Бернулли с вероятностью p успехов в каждом испытании. Процесс Бернулли — это процесс с дискретным временем, поэтому количество попыток, неудач и успехов является целым числом.
Рассмотрим следующий пример. Предположим, мы неоднократно бросаем кубик и считаем 1 неудачей. Вероятность успеха в каждом испытании равна 5/6. Число успехов до третьей неудачи принадлежит бесконечному множеству { 0, 1, 2, 3, ... }. Это количество успехов является случайной величиной с отрицательным биномиальным распределением.
Когда r = 1, мы получаем вероятностное распределение числа успехов до первой неудачи (т. е. вероятность того, что первая неудача произойдет в ( k + 1)-м испытании), которое представляет собой геометрическое распределение :
Недавние результаты показывают, что время ожидания в процессе Бернулли тесно связано с фракталами и функцией Дирихле.Распределения вероятностей с фрактальными свойствами, связанными с функцией Дирихле, могут быть получены из рекуррентных процессов, порождаемых равномерными дискретными распределениями. Такими равномерными дискретными распределениями могут быть числа «пи», броски игральных костей или вращения в живом казино. Рассмотрим следующее время ожидания в процессе Бернулли: Случайная величинаC i многократно выбирается N раз из дискретного равномерного распределения, где i находится в диапазоне от 1 до N. Например, рассмотрим целые значения в диапазоне от 1 до 10. Моменты появления, T k ,обозначают повторение событий C i , определяемых как C i = C i-1 или C i = C i-2 , где k варьируется от 1 до M, при этом M меньше N. Впоследствии определите S j как интервал между последовательными T k , представляющий время ожидания возникновения события. Наконец, введите Z l как ln(S j ) – ln(S j-1 ), где l варьируется от 1 до U-1. Случайная величина Z демонстрирует фрактальные свойства, напоминающие распределение форм, подобное функции Томаэ или Дирихле. [22]

Передисперсный Пуассон
[ редактировать ]Отрицательное биномиальное распределение, особенно в его альтернативной параметризации, описанной выше, можно использовать в качестве альтернативы распределению Пуассона. Это особенно полезно для дискретных данных в неограниченном положительном диапазоне, дисперсия выборки выборки которых превышает среднее значение . В таких случаях наблюдения чрезмерно разбросаны по отношению к распределению Пуассона, для которого среднее значение равно дисперсии. Следовательно, распределение Пуассона не является подходящей моделью. Поскольку отрицательное биномиальное распределение имеет на один параметр больше, чем распределение Пуассона, второй параметр можно использовать для корректировки дисперсии независимо от среднего значения. См. Кумулянты некоторых дискретных распределений вероятностей .
Это применимо к ежегодным подсчетам тропических циклонов в Северной Атлантике или к ежемесячным или шестимесячным подсчетам зимних внетропических циклонов над Европой, для которых дисперсия превышает среднее значение. [23] [24] [25] В случае умеренной сверхдисперсии это может дать результаты, по существу аналогичные сверхдисперсному распределению Пуассона. [26] [27]
Отрицательное биномиальное моделирование широко используется в исследованиях экологии и биоразнообразия для анализа данных подсчета, где очень распространено чрезмерное рассеивание. Это связано с тем, что чрезмерная дисперсия указывает на биологическую агрегацию, например, когда виды или сообщества образуют кластеры. Игнорирование чрезмерной дисперсии может привести к значительному завышению параметров модели, что приведет к ошибочным статистическим выводам. Отрицательное биномиальное распределение эффективно устраняет чрезмерную дисперсию, позволяя дисперсии изменяться квадратично со средним значением. Дополнительный параметр дисперсии управляет наклоном квадратичного члена, определяя степень избыточной дисперсии. Квадратичная зависимость средней дисперсии модели оказывается реалистичным подходом к решению проблемы чрезмерной дисперсии, что подтверждается эмпирическими данными многих исследований. В целом, модель NB предлагает две привлекательные особенности: (1) удобную интерпретацию параметра дисперсии как индекса кластеризации или агрегации и (2) ее понятную форму, имеющую замкнутое выражение для функции массы вероятности. [28]
В генетике отрицательное биномиальное распределение обычно используется для моделирования данных в виде количества считываний дискретных последовательностей из экспериментов по высокопроизводительному секвенированию РНК и ДНК. [29] [30] [31] [32]
В эпидемиологии инфекционных заболеваний отрицательный бином используется как лучший вариант, чем распределение Пуассона, для моделирования чрезмерного количества вторичных инфекций от одного инфицированного случая (события сверхраспространения). [33]
Наблюдения за множественностью (физика)
[ редактировать ]Отрицательное биномиальное распределение было наиболее эффективной статистической моделью для широкого диапазона наблюдений множественности в экспериментах по столкновению частиц , например, [34] [35] [36] [37] [38] (Видеть [39] для обзора) и считается масштабно-инвариантным свойством материи, [40] [41] обеспечивает наилучшее соответствие астрономическим наблюдениям, где он предсказывает количество галактик в определенной области космоса. [42] [43] [44] [45] Феноменологическое обоснование эффективности отрицательного биномиального распределения в этих контекстах оставалось неизвестным в течение пятидесяти лет, с момента их первого наблюдения в 1973 году. [46] В 2023 году доказательство из первых принципов было в конечном итоге продемонстрировано Скоттом В. Тезлафом, где было показано, что отрицательное биномиальное распределение возникает из-за симметрии в динамических уравнениях канонического ансамбля частиц в пространстве Минковского . [47] Грубо говоря, учитывая ожидаемое количество испытаний и ожидаемое количество успехов , где
изоморфную систему уравнений можно отождествить с параметрами релятивистской плотности тока канонического ансамбля массивных частиц через
где покоя - плотность , - релятивистская среднеквадратическая плотность, - релятивистская среднеквадратическая плотность тока, а , где - среднеквадратическая скорость ансамбля частиц и — это скорость света , такая, что можно установить следующее биективное отображение :
Строгое альтернативное доказательство вышеуказанного соответствия также было продемонстрировано с помощью квантовой механики Фейнмана с помощью интеграла по путям . [47]
История
[ редактировать ]Это распределение было впервые изучено в 1713 году Пьером Ремоном де Монмором в его «Эссе d'analyse sur les jeux de Risk» как распределение числа попыток, необходимых в эксперименте для получения заданного числа успехов. [48] Ранее об этом упоминал Паскаль . [49]
См. также
[ редактировать ]- Проблема коллекционера купонов
- Бета-отрицательное биномиальное распределение
- Расширенное отрицательное биномиальное распределение
- Отрицательное полиномиальное распределение
- Биномиальное распределение
- Распределение Пуассона
- Составное распределение Пуассона
- Экспоненциальное семейство
- Отрицательная биномиальная регрессия
- Векторная обобщенная линейная модель
Ссылки
[ редактировать ]- ^ ДеГрут, Моррис Х. (1986). Вероятность и статистика (второе изд.). Аддисон-Уэсли. стр. 258–259. ISBN 0-201-11366-Х . LCCN 84006269 . ОСЛК 10605205 .
- ^ Jump up to: а б с Вайсштейн, Эрик. «Отрицательное биномиальное распределение» . Вольфрам Математический мир . Вольфрам Исследования . Проверено 11 октября 2020 г.
- ^ например Ллойд-Смит, Джо; Шрайбер, С.Дж.; Копп, ЧП; Гетц, WM (2005). «Суперраспространение и влияние индивидуальных вариаций на возникновение болезней» . Природа . 438 (7066): 355–359. Бибкод : 2005Natur.438..355L . дои : 10.1038/nature04153 . ПМК 7094981 . ПМИД 16292310 .
Параметр передисперсии обычно обозначается буквой в эпидемиологии, а не как здесь. - ^ Казелла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод (2-е изд.). Томсон Обучение. п. 95 . ISBN 0-534-24312-6 .
- ^ Jump up to: а б с Кук, Джон Д. «Заметки об отрицательном биномиальном распределении» (PDF) .
- ^ Моррис К.В. (1963), Примечание о прямом и обратном отборе проб, Биометрика, 50, 544–545.
- ^ «Математика: отрицательное биномиальное распределение» .
- ^ Саха, Абхишек. «Введение в вероятность / Основы вероятности: лекция 14» (PDF) .
- ^ Институт SAS , « Отрицательное биномиальное распределение », SAS (R) 9.4 Функции и процедуры CALL: Справочник, четвертое издание , Институт SAS, Кэри, Северная Каролина, 2016.
- ^ Jump up to: а б Кроули, Майкл Дж. (2012). Книга Р. Уайли. ISBN 978-1-118-44896-0 .
- ^ Jump up to: а б «Теория множеств: Раздел 3.2.5 – Отрицательное биномиальное распределение» (PDF) .
- ^ «Randomservices.org, Глава 10: Испытания Бернулли, Раздел 4: Отрицательное биномиальное распределение» .
- ^ «Stat Trek: отрицательное биномиальное распределение» .
- ^ Роутон, Жаклин. «Различие между биномиальным, гипергеометрическим и отрицательным биномиальным распределениями» (PDF) .
- ^ Jump up to: а б Хильбе, Джозеф М. (2011). Отрицательная биномиальная регрессия (второе изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-19815-8 .
- ^ Ллойд-Смит, Джо (2007). «Оценка максимального правдоподобия параметра отрицательной биномиальной дисперсии для сильно разбросанных данных с применением к инфекционным заболеваниям» . ПЛОС ОДИН . 2 (2): е180. Бибкод : 2007PLoSO...2..180L . дои : 10.1371/journal.pone.0000180 . ПМК 1791715 . ПМИД 17299582 .
- ^ Картер, Э.М., Поттс, HWW (4 апреля 2014 г.). «Прогнозирование продолжительности пребывания на основании электронной системы записи пациентов: пример первичной полной замены коленного сустава» . BMC Медицинская информатика и принятие решений . 14:26 . дои : 10.1186/1472-6947-14-26 . ПМЦ 3992140 . ПМИД 24708853 .
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Ороджи, Арезу; Назар, Эйса; Садеги, Масуме; Моради, Али; Джафари, Захра; Исмаили, Хабиболла (30 апреля 2021 г.). «Факторы, связанные с продолжительностью пребывания в больнице пожилых пациентов с использованием моделей регрессии счета» . Медицинский журнал Исламской Республики Иран . 35 :5. дои : 10.47176/mjiri.35.5 . ПМЦ 8111647 . ПМИД 33996656 .
- ^ Гринвуд, М.; Юл, ГУ (1920). «Исследование природы частотных распределений, отражающих множественные события, с особым упором на множественные приступы болезней или повторяющиеся несчастные случаи» . JR Stat Soc . 83 (2): 255–279. дои : 10.2307/2341080 . JSTOR 2341080 .
- ^ Холдейн, JBS (1945). «Об одном методе оценки частот». Биометрика . 33 (3): 222–225. дои : 10.1093/biomet/33.3.222 . hdl : 10338.dmlcz/102575 . JSTOR 2332299 . ПМИД 21006837 .
- ^ Jump up to: а б Арамидис, К. (1999). «ЭМ-алгоритм для оценки отрицательных биномиальных параметров» . Статистический журнал Австралии и Новой Зеландии . 41 (2): 213–221. дои : 10.1111/1467-842X.00075 . S2CID 118758171 .
- ^ Эндрит Дескали. Генерация рекуррентного фрактального процесса с использованием дискретных равномерных распределений, 26 февраля 2024 г., ПРЕДПРИНТ (Версия 1) доступен на Research Square [1]
- ^ Вилларини, Дж.; Векки, Джорджия; Смит, Дж. А. (2010). «Моделирование зависимости количества тропических штормов в Североатлантическом бассейне от климатических показателей» . Ежемесячный обзор погоды . 138 (7): 2681–2705. Бибкод : 2010MWRv..138.2681V . дои : 10.1175/2010MWR3315.1 .
- ^ Майлиер, Пи Джей; Стивенсон, Д.Б.; Ферро, КОТ; Ходжес, К.И. (2006). «Серийное скопление внетропических циклонов» . Ежемесячный обзор погоды . 134 (8): 2224–2240. Бибкод : 2006MWRv..134.2224M . дои : 10.1175/MWR3160.1 .
- ^ Витоло, Р.; Стивенсон, Д.Б.; Кук, Ян М.; Митчелл-Уоллес, К. (2009). «Серийное скопление сильных европейских штормов». Метеорологическая газета . 18 (4): 411–424. Бибкод : 2009МетЗе..18..411В . дои : 10.1127/0941-2948/2009/0393 . S2CID 67845213 .
- ^ МакКаллах, Питер ; Нелдер, Джон (1989). Обобщенные линейные модели (второе изд.). Бока-Ратон: Чепмен и Холл/CRC. ISBN 978-0-412-31760-6 .
- ^ Кэмерон, Адриан К.; Триведи, Правин К. (1998). Регрессионный анализ данных подсчета . Издательство Кембриджского университета. ISBN 978-0-521-63567-7 .
- ^ Стоклоса, Дж.; Блейки, Р.В.; Хуэй, FKC (2022). «Обзор современных применений отрицательного биномиального моделирования в экологии и биоразнообразии» . Разнообразие . 14 (5): 320. дои : 10.3390/d14050320 .
- ^ Робинсон, доктор медицины; Смит, ГК (2007). «Модерируемые статистические тесты для оценки различий в численности меток» . Биоинформатика . 23 (21): 2881–2887. doi : 10.1093/биоинформатика/btm453 . ПМИД 17881408 .
- ^ «Дифференциальный анализ данных подсчета –» (PDF) .
- ^ Айрольди, ЕМ; Коэн, WW; Финберг, SE (июнь 2005 г.). «Байесовские модели для часто встречающихся терминов в тексте». Труды Классификационного общества Северной Америки и ежегодных собраний INTERFACE . Том. 990. Сент-Луис, Миссури, США. п. 991.
- ^ Чен, Юньшунь; Дэвис, Маккарти (25 сентября 2014 г.). «edgeR: анализ дифференциальной экспрессии цифровых данных об экспрессии генов» (PDF) . Проверено 14 октября 2014 г.
- ^ Ллойд-Смит, Джо; Шрайбер, С.Дж.; Копп, ЧП; Гетц, WM (2005). «Суперраспространение и влияние индивидуальных вариаций на возникновение болезней» . Природа . 438 (7066): 355–359. Бибкод : 2005Natur.438..355L . дои : 10.1038/nature04153 . ПМК 7094981 . ПМИД 16292310 .
- ^ Гросс-Этрингхаус, Ян Фите; Рейгерс, Клаус (01 августа 2010 г.). «Множественность заряженных частиц в протон-протонных столкновениях» . Журнал физики G: Ядерная физика и физика элементарных частиц . 37 (8): 083001. arXiv : 0912.0023 . дои : 10.1088/0954-3899/37/8/083001 . ISSN 0954-3899 . S2CID 119233810 .
- ^ Рыбчинский, Мацей; Вилк, Гжегож; Влодарчик, Збигнев (31 мая 2019 г.). «Интригующие свойства распределений множественности» . Физический обзор D . 99 (9): 094045. arXiv : 1811.07197 . Бибкод : 2019PhRvD..99i4045R . дои : 10.1103/PhysRevD.99.094045 . ISSN 2470-0010 .
- ^ Тарновски, Теренс Дж.; Вестфолл, Гэри Д. (9 июля 2013 г.). «Первое исследование отрицательного биномиального распределения применительно к более высоким моментам распределений чистого заряда и чистой множественности протонов» . Буквы по физике Б. 724 (1): 51–55. arXiv : 1210.8102 . Бибкод : 2013PhLB..724...51T . дои : 10.1016/j.physletb.2013.05.064 . ISSN 0370-2693 .
- ^ Деррик, М.; Ган, КК; Койджман, П.; Лоос, Дж.С.; Масгрейв, Б.; Цена, LE; Репонд, Дж.; Шлерет, Дж.; Сугано, К.; Вайс, Дж. М.; Вуд, Делавэр; Баранко, Г.; Блокус, Д.; Брабсон, Б.; Бром, Дж. М. (1 декабря 1986 г.). "Исследование фрагментации кварков при ${e}^{+}$${e}^{\mathrm{\ensuremath{-}}}$-аннигиляции при энергии 29 ГэВ: множественность заряженных частиц и одночастичные распределения по быстроте" . Физический обзор D . 34 (11): 3304–3320. дои : 10.1103/PhysRevD.34.3304 . hdl : 1808/15222 . ПМИД 9957066 .
- ^ Зборовский, И. (10 октября 2018 г.). «Трехкомпонентное распределение по множественности, колебание комбинантов и свойства кланов в pp-столкновениях на БАКе» . Европейский физический журнал C . 78 (10): 816. arXiv : 1811.11230 . Бибкод : 2018EPJC...78..816Z . doi : 10.1140/epjc/s10052-018-6287-x . ISSN 1434-6052 .
- ^ Киттель, Вольфрам; Де Вольф, Эдди А. (2005). Мягкая мультихардонная динамика . Всемирная научная.
- ^ Шеффер, Р. (1984). «Определение N-точечной корреляционной функции галактики». Астрономия и астрофизика . 134 (2): Л15. Бибкод : 1984A&A...134L..15S .
- ^ Шеффер, Р. (1985). «Функция генерации вероятности кластеризации галактик». Астрономия и астрофизика . 144 (1): Л1–Л4. Бибкод : 1985A&A...144L...1S .
- ^ Перес, Люсия А.; Малхотра, Сангита; Роудс, Джеймс Э.; Тилви, Виталь (07 января 2021 г.). «Функция вероятности пустоты при моделировании исследований излучателей Ly α с высоким красным смещением» . Астрофизический журнал . 906 (1): 58. arXiv : 2011.03556 . Бибкод : 2021ApJ...906...58P . дои : 10.3847/1538-4357/abc88b . ISSN 1538-4357 .
- ^ Уртадо-Хиль, Луи; Мартинес, Висент Дж.; Арналте-Мур, Пабло; Понс-Бордерия, Мария-Иисус; Пареха-Флорес, Кристобаль; Паредес, Сильвестр (01 мая 2017 г.). «Наилучшее соответствие наблюдаемой функции распределения числа галактик в ячейках» . Астрономия и астрофизика . 601 : А40. arXiv : 1703.01087 . Бибкод : 2017A&A...601A..40H . дои : 10.1051/0004-6361/201629097 . ISSN 0004-6361 .
- ^ Элизальде, Э.; Газтанага, Э. (январь 1992 г.). «Вероятность пустоты как функция формы пустоты и моделей, инвариантных к масштабу» . Ежемесячные уведомления Королевского астрономического общества . 254 (2): 247–256. дои : 10.1093/mnras/254.2.247 . hdl : 2060/19910019799 . ISSN 0035-8711 .
- ^ Хамида, М; Пластино, Анджело; Рокка, MC (01 марта 2021 г.). «Обобщенные распределения Пуассона для систем с двухчастичным взаимодействием» . Научные заметки IOP . 2 (1): 015003. Цифровой код : 2021IOPSN...2a5003H . дои : 10.1088/2633-1357/abec9f . hdl : 11336/181371 . ISSN 2633-1357 .
- ^ Джованнини, А. (июнь 1973 г.). « Тепловой хаос» и «когерентность» в распределениях множественности при высоких энергиях» . Иль Нуово Чименто А. 15 (3): 543–551. Бибкод : 1973NCimA..15..543G . дои : 10.1007/bf02734689 . ISSN 0369-3546 . S2CID 118805136 .
- ^ Jump up to: а б Тезлаф, Скотт В. (29 сентября 2023 г.). «Значение отрицательного биномиального распределения в явлениях множественности» . Физика Скрипта . 98 (11). arXiv : 2310.03776 . Бибкод : 2023PhyS...98k5310T . doi : 10.1088/1402-4896/acfead . ISSN 0031-8949 . S2CID 263300385 .
- ^ Montmort PR (1713 г.) Аналитическое эссе об азартных играх. 2-е изд. Кийо, Париж
- ^ Паскаль Б. (1679) Различные математические работы. Д. Петри де Ферма Тулуза