Нецентральное гипергеометрическое распределение Валлениуса

м 1 = 80, м 2 = 60, n = 100, ω = 0,1...20
В теории вероятностей статистике нецентральное и гипергеометрическое распределение Валлениуса (названное в честь Кеннета Теда Валлениуса) представляет собой обобщение гипергеометрического распределения , при котором элементы выбираются со смещением .
Это распределение можно проиллюстрировать в виде модели урны со смещением. Предположим, например, что в урне находится m 1 красных шаров и m 2 белых шаров, всего N = m 1 + m 2 шаров. Каждый красный шар имеет вес ω 1 , а каждый белый шар — вес ω 2 . Будем говорить, что отношение шансов равно ω = ω 1 / ω 2 . Теперь мы берем по одному n шаров таким образом, чтобы вероятность взятия определенного шара при конкретном розыгрыше была равна его доле от общего веса всех шаров, лежащих в урне в этот момент. Количество красных шаров x 1 , которое мы получаем в этом эксперименте, является случайной величиной с нецентральным гипергеометрическим распределением Валлениуса.
Дело осложняется тем, что существует более одного нецентрального гипергеометрического распределения. Нецентральное гипергеометрическое распределение Валлениуса получается, если шары отбираются один за другим таким образом, что существует конкуренция между шарами . Нецентральное гипергеометрическое распределение Фишера получается, если шары отбираются одновременно или независимо друг от друга. К сожалению, оба распределения известны в литературе как «нецентральное гипергеометрическое распределение». При использовании этого имени важно уточнить, какой дистрибутив имеется в виду.
Оба распределения равны (центральному) гипергеометрическому распределению , когда отношение шансов равно 1.
Разница между этими двумя распределениями вероятностей невелика. см. в статье Википедии о нецентральных гипергеометрических распределениях Более подробное объяснение .
Одномерное распределение
[ редактировать ]Параметры |
| ||
---|---|---|---|
Поддерживать |
| ||
ПМФ |
где | ||
Иметь в виду |
Аппроксимировано решением к | ||
Дисперсия |
, где |

Распределение Валлениуса особенно сложно, поскольку вероятность взятия каждого шара зависит не только от его веса, но и от общего веса его конкурентов. А вес конкурирующих шаров зависит от результатов всех предыдущих розыгрышей.
Эта рекурсивная зависимость приводит к разностному уравнению , решение которого в открытом виде дается интегралом в выражении функции массы вероятности в таблице выше.
Выражения в замкнутой форме для функции массы вероятности существуют (Lyons, 1980), но они не очень полезны для практических расчетов из-за крайней численной нестабильности , за исключением вырожденных случаев.
Используются несколько других методов расчета, включая рекурсию , расширение Тейлора и численное интегрирование (Fog, 2007, 2008).
Самый надежный метод расчета — рекурсивное вычисление f( x , n ) из f( x , n -1) и f( x -1, n -1) с использованием рекурсивной формулы, приведенной ниже в разделе свойств. Вероятности всех комбинаций ( x , n ) на всех возможных траекториях, ведущих к желаемой точке, вычисляются, начиная с f(0,0) = 1, как показано на рисунке справа. Общее количество вероятностей для расчета равно n ( x +1)- x 2 . Другие методы расчета необходимо использовать, когда n и x настолько велики, что этот метод слишком неэффективен.
Вероятность того, что все шары будут одного цвета, вычислить проще. См. формулу ниже в разделе многомерного распределения.
Точная формула для среднего значения неизвестна (если не считать полного перечисления всех вероятностей). Приведенное выше уравнение достаточно точное. Это уравнение можно решить относительно μ с помощью итерации Ньютона-Рафсона . То же уравнение можно использовать для оценки шансов на основе экспериментально полученного значения среднего.
Свойства одномерного распределения
[ редактировать ]Распределение Валлениуса имеет меньше отношений симметрии, чем нецентральное гипергеометрическое распределение Фишера . Единственная симметрия связана с заменой цветов:
В отличие от распределения Фишера, распределение Валлениуса не имеет симметрии относительно количества не взятых шаров.
Следующая формула рекурсии полезна для расчета вероятностей:
Известна также другая формула рекурсии:
Вероятность ограничена
где подчеркнутый верхний индекс указывает на падающий факториал .
Многомерное распределение
[ редактировать ]Распределение можно расширить до любого количества цветов шаров в урне. Многомерное распределение используется, когда цветов больше двух.
Параметры |
| ||
---|---|---|---|
Поддерживать | |||
ПМФ |
где | ||
Иметь в виду |
Аппроксимировано решением к | ||
Дисперсия | Аппроксимировано дисперсией нецентрального гипергеометрического распределения Фишера с тем же средним значением. |
Функция массы вероятности может быть рассчитана с помощью различных методов разложения Тейлора или путем численного интегрирования (Fog, 2008).
Вероятность того, что все шары будут одного цвета j , можно рассчитать как:
для x j = n ≤ m j , где подчеркнутый верхний индекс обозначает падающий факториал .
Достаточно хорошее приближение к среднему значению можно рассчитать с помощью приведенного выше уравнения. Уравнение можно решить, определив θ так, чтобы
и решение
для θ с помощью итерации Ньютона-Рафсона .
Уравнение среднего значения также полезно для оценки шансов на основе экспериментально полученных значений среднего значения.
Хороший способ расчета дисперсии неизвестен. Самый известный метод - аппроксимировать многомерное распределение Валлениуса многомерным нецентральным гипергеометрическим распределением Фишера с тем же средним значением и вставить среднее значение, рассчитанное выше, в приближенную формулу для дисперсии последнего распределения.
Свойства многомерного распределения
[ редактировать ]Порядок цветов произвольный, поэтому любые цвета можно менять местами.
Веса могут быть произвольно масштабированы:
- для всех .
Цвета с нулевым номером ( m i = 0) или нулевым весом (ω i = 0) могут быть исключены из уравнений.
Цвета одинакового веса можно объединять:
где — (одномерная, центральная) вероятность гипергеометрического распределения.
Дополнительное нецентральное гипергеометрическое распределение Валлениуса
[ редактировать ]
м 1 = 80, м 2 = 60, n = 40, ω = 0,05...10
Шары, не взятые в эксперимент с урной, имеют распределение, отличное от нецентрального гипергеометрического распределения Валлениуса из-за отсутствия симметрии. Распределение не взятых шаров можно назвать дополнительным нецентральным гипергеометрическим распределением Валлениуса .
Вероятности в дополнительном распределении рассчитываются на основе распределения Валлениуса путем замены n на N - n , xi на ω m i - x i и ω i на 1/ i .
Доступное программное обеспечение
[ редактировать ]- Валлениус «Гипергеометрическое распределение» в системе Mathematica .
- Реализация языка программирования R доступна в виде пакета BiasedUrn . Включает одномерные и многомерные массовые функции вероятности, функции распределения, квантили , производящие функции случайных величин , среднее значение и дисперсию.
- Реализация на C++ доступна на сайте www.agner.org .
См. также
[ редактировать ]- Нецентральные гипергеометрические распределения
- Нецентральное гипергеометрическое распределение Фишера
- Смещенная выборка
- Предвзятость
- Популяционная генетика
- Точный тест Фишера
Ссылки
[ редактировать ]- Чессон, Дж. (1976). «Нецентральное многомерное гипергеометрическое распределение, возникающее в результате смещенной выборки с применением к выборочному хищничеству». Журнал прикладной вероятности . Том. 13, нет. 4. Прикладное вероятностное доверие. стр. 795–797. дои : 10.2307/3212535 . JSTOR 3212535 .
- Туман, А. (2007). «Теория случайных чисел» .
- Туман, А. (2008). «Методы расчета нецентрального гипергеометрического распределения Валлениуса». Коммуникации в статике, моделировании и вычислениях . 37 (2): 258–273. дои : 10.1080/03610910701790269 . S2CID 9040568 .
- Джонсон, Нидерланды; Кемп, AW; Коц, С. (2005). Одномерные дискретные распределения . Хобокен, Нью-Джерси: Уайли и сыновья.
- Лайонс, Нью-Йорк (1980). «Замкнутые выражения для нецентральных гипергеометрических вероятностей». Коммуникации в статистике – моделирование и вычисления . Том. 9, нет. 3. С. 313–314. дои : 10.1080/03610918008812156 .
- Мэнли, BFJ (1974). «Модель для некоторых видов селекционных экспериментов». Биометрия . Том. 30, нет. 2. Международное биометрическое общество. стр. 281–294. дои : 10.2307/2529649 . JSTOR 2529649 .
- Валлениус, КТ (1963). Смещенная выборка: нецентральное гипергеометрическое распределение вероятностей. доктор философии Диссертация (Диссертация). Стэнфордский университет, факультет статистики.