Нецентральное гипергеометрическое распределение Фишера

м 1 = 80, м 2 = 60, n = 100, ω = 0,01, ..., 1000
В теории вероятностей и статистике , нецентральное гипергеометрическое распределение Фишера представляет собой обобщение гипергеометрического распределения в котором вероятности выборки изменяются с помощью весовых коэффициентов. Его также можно определить как условное распределение двух или более биномиально распределенных переменных, зависящих от их фиксированной суммы.
Распределение можно проиллюстрировать следующей моделью урны . Предположим, например, что в урне находится m 1 красных шаров и m 2 белых шаров, всего N = m 1 + m 2 шаров. Каждый красный шар имеет вес ω 1 , а каждый белый шар — вес ω 2 . Будем говорить, что отношение шансов равно ω = ω 1 / ω 2 . Теперь мы берем шары случайным образом таким образом, чтобы вероятность взятия того или иного шара была пропорциональна его весу, но не зависела от того, что происходит с другими шарами. Количество взятых шаров определенного цвета подчиняется биномиальному распределению . Если известно общее количество взятых шаров n , то условное распределение количества взятых красных шаров при заданном n представляет собой нецентральное гипергеометрическое распределение Фишера. Чтобы экспериментально сгенерировать это распределение, нам придется повторять эксперимент до тех пор, пока не будет получено n шаров.
Если мы хотим зафиксировать значение n до начала эксперимента, нам придется брать шары один за другим, пока у нас не будет n шаров. Таким образом, шары больше не являются независимыми. Это дает немного другое распределение, известное как нецентральное гипергеометрическое распределение Валлениуса . Далеко не очевидно, почему эти два распределения различны. См. статью о нецентральных гипергеометрических распределениях , где объясняется разница между этими двумя распределениями и обсуждается, какое распределение использовать в различных ситуациях.
Оба распределения равны (центральному) гипергеометрическому распределению , когда отношение шансов равно 1.
К сожалению, оба распределения известны в литературе как «нецентральное гипергеометрическое распределение». При использовании этого имени важно уточнить, какой дистрибутив имеется в виду.
Нецентральному гипергеометрическому распределению Фишера впервые было дано название расширенного гипергеометрического распределения (Harkness, 1965), и некоторые авторы до сих пор используют это название.
Одномерное распределение
[ редактировать ]Параметры |
| ||
---|---|---|---|
Поддерживать |
| ||
ПМФ |
где | ||
Иметь в виду | , где | ||
Режим | , где , , . | ||
Дисперсия | , где P k указано выше. |
Функция вероятности, среднее значение и дисперсия приведены в соседней таблице.
Альтернативное выражение распределения включает в себя как количество взятых шаров каждого цвета, так и количество не взятых шаров в качестве случайных величин, в результате чего выражение для вероятности становится симметричным.
Время расчета функции вероятности может быть большим, если сумма в P 0 имеет много членов. Время расчета можно сократить, вычисляя члены суммы рекурсивно относительно члена для y = x и игнорируя незначительные члены в хвостах (Liao and Rosen, 2001).
Среднее значение можно аппроксимировать следующим образом:
- ,
где , , .
Дисперсия может быть аппроксимирована следующим образом:
- .
Лучшие приближения к среднему значению и дисперсии даны Левином (1984, 1990), МакКаллахом и Нелдером (1989), Ляо (1992), а также Эйсингой и Пельцером (2011). Методы перевала для аппроксимации среднего значения и дисперсии, предложенные Эйсингой и Пельцером (2011), дают чрезвычайно точные результаты.
Характеристики
[ редактировать ]Применяются следующие соотношения симметрии:
Рекуррентное соотношение:
Дистрибутив ласково называют «finchy-pig», основываясь на приведенном выше соглашении об сокращениях.
Вывод
[ редактировать ]Одномерное нецентральное гипергеометрическое распределение может быть получено альтернативно как условное распределение в контексте двух биномиально распределенных случайных величин, например, при рассмотрении ответа на конкретное лечение в двух разных группах пациентов, участвующих в клиническом исследовании. Важным применением нецентрального гипергеометрического распределения в этом контексте является вычисление точных доверительных интервалов для отношения шансов при сравнении ответа на лечение между двумя группами.
Предположим, X и Y — случайные величины с биномиальным распределением, подсчитывающие количество респондентов в двух соответствующих группах размером m X и m Y соответственно,
- .
Их отношение шансов определяется как
- .
Распространенность респондентов полностью определяется с точки зрения шансов , , которые соответствуют смещению выборки в приведенной выше схеме урны, т.е.
- .
Испытание можно обобщить и проанализировать с помощью следующей таблицы непредвиденных обстоятельств.
Уход Группа |
ответчик | не ответивший | Общий |
---|---|---|---|
Х | х | . | м Х |
И | и | . | мой |
Общий | н | . | Н |
В таблице, соответствует общему количеству респондентов в группах, а N — общему количеству пациентов, включенных в исследование. Точки обозначают соответствующие значения частоты, не имеющие дальнейшего значения.
Выборочное распределение респондентов в группе X зависит от результатов исследования и распространенности, , является нецентрально гипергеометрическим:
Обратите внимание, что знаменатель — это, по сути, просто числитель, суммированный по всем событиям общего пространства выборок. для чего он считает, что . Члены, независимые от X, можно вынести из суммы и сократить с помощью числителя.
Многомерное распределение
[ редактировать ]Параметры |
| ||
---|---|---|---|
Поддерживать | |||
ПМФ |
где | ||
Иметь в виду |
Среднее значение µ x i можно i аппроксимировать формулой где r — единственное положительное решение задачи . |
Распределение можно расширить до любого количества цветов шаров в урне. Многомерное распределение используется, когда цветов более двух.
Справа показаны функция вероятности и простое приближение к среднему значению. Лучшие приближения к среднему значению и дисперсии даны МакКаллахом и Нелдером (1989).
Характеристики
[ редактировать ]Порядок цветов произвольный, поэтому любые цвета можно менять местами.
Веса могут быть произвольно масштабированы:
- для всех
Цвета с нулевым номером ( m i = 0) или нулевым весом (ω i = 0) могут быть исключены из уравнений.
Цвета одинакового веса можно объединять:
где — (одномерная, центральная) вероятность гипергеометрического распределения.
Приложения
[ редактировать ]Нецентральное гипергеометрическое распределение Фишера полезно для моделей смещенной выборки или смещенного отбора, когда отдельные элементы отбираются независимо друг от друга и без конкуренции. Смещение или шансы можно оценить на основе экспериментального значения среднего. Вместо этого используйте нецентральное гипергеометрическое распределение Валлениуса , если элементы отбираются один за другим с конкуренцией.
Нецентральное гипергеометрическое распределение Фишера используется в основном для тестов в таблицах непредвиденных обстоятельств , где желательно условное распределение для фиксированных полей. Это может быть полезно, например, для тестирования или измерения эффекта лекарства. См. МакКаллах и Нелдер (1989).
Доступное программное обеспечение
[ редактировать ]- Гипергеометрическое распределение Фишера в системе Mathematica .
- Реализация языка программирования R доступна в виде пакета BiasedUrn . Включает одномерные и многомерные массовые функции вероятности, функции распределения, квантили , производящие функции случайных величин , среднее значение и дисперсию.
- Пакет R . MCMCpack включает в себя одномерную функцию массы вероятности и функцию генерации случайной величины
- Система SAS включает одномерную функцию вероятности и функцию распределения.
- Реализация на C++ доступна на сайте www.agner.org .
- Методы расчета описаны Ляо и Розеном (2001) и Фогом (2008).
См. также
[ редактировать ]- Нецентральные гипергеометрические распределения
- Нецентральное гипергеометрическое распределение Валлениуса
- Гипергеометрическое распределение
- Модели урн
- Смещенная выборка
- Предвзятость
- Таблица непредвиденных обстоятельств
- Точный тест Фишера
Ссылки
[ редактировать ]Бреслоу, штат Небраска; Дэй, штат Нью-Йорк (1980), Статистические методы исследования рака , Лион: Международное агентство по исследованию рака .
Эйсинга, Р.; Пельцер, Б. (2011), «Аппроксимации перевала для среднего и дисперсии расширенного гипергеометрического распределения» (PDF) , Statistica Neerlandica , vol. 65, нет. 1, стр. 22–31, doi : 10.1111/j.1467-9574.2010.00468.x .
Фог, А. (2007), Теория случайных чисел .
Фог, А. (2008), «Методы выборки для нецентральных гипергеометрических распределений Валлениуса и Фишера», Communications in Statictics, Simulation and Computing , vol. 37, нет. 2, стр. 241–257, doi : 10.1080/03610910701790236 , S2CID 14904723 .
Джонсон, Нидерланды; Кемп, AW; Коц, С. (2005), Одномерные дискретные распределения , Хобокен, Нью-Джерси: Wiley and Sons .
Левин, Б. (1984), «Простые улучшения аппроксимации Корнфилда к среднему значению нецентральной гипергеометрической случайной величины», Biometrika , vol. 71, нет. 3, стр. 630–632, doi : 10.1093/biomet/71.3.630 .
Левин, Б. (1990), «Поправка седловой точки в анализе условного логистического правдоподобия», Biometrika , vol. 77, нет. 2, [Oxford University Press, Biometrika Trust], стр. 275–285, doi : 10.1093/biomet/77.2.275 , JSTOR 2336805 .
Ляо, Дж. (1992), «Алгоритм определения среднего и дисперсии нецентрального гипергеометрического распределения», Biometrics , vol. 48, нет. 3, [Wiley, Международное биометрическое общество], стр. 889–892, doi : 10.2307/2532354 , JSTOR 2532354 .
Ляо, JG; Розен, О. (2001), «Быстрые и стабильные алгоритмы вычислений и выборки на основе нецентрального гипергеометрического распределения», The American Statistician , vol. 55, нет. 4, стр. 366–369, doi : 10.1198/000313001753272547 , S2CID 121279235 .
МакКаллах, П.; Нелдер, Дж. А. (1989), Обобщенные линейные модели, 2-е изд. , Лондон: Чепмен и Холл .