Нецентральные гипергеометрические распределения
![]() | Эта статья включает список литературы , связанную литературу или внешние ссылки , но ее источники остаются неясными, поскольку в ней отсутствуют встроенные цитаты . ( Август 2020 г. ) |
В статистике гипергеометрическое распределение — это дискретное распределение вероятностей, генерируемое случайным выбором цветных шаров из урны без замены.
Существуют различные обобщения этого распределения для случаев, когда выбор цветных шаров предвзят , так что шары одного цвета выбираются с большей вероятностью, чем шары другого цвета.
Это можно проиллюстрировать следующим примером. Предположим, что опрос общественного мнения проводится путем звонка на случайные телефонные номера. Безработные с большей вероятностью будут находиться дома и отвечать на телефонные звонки, чем работающие люди. Таким образом, безработные респонденты, вероятно, будут перепредставлены в выборке . Распределение вероятностей занятых и безработных респондентов в выборке из n респондентов можно описать как нецентральное гипергеометрическое распределение.
Описание смещенных моделей урн осложняется тем фактом, что существует более одного нецентрального гипергеометрического распределения. Какое распределение будет получено, зависит от того, отбираются ли предметы (например, цветные шары) один за другим таким образом, что существует конкуренция между предметами, или они отбираются независимо друг от друга. название «нецентральное гипергеометрическое распределение» В обоих случаях использовалось . Использование одного и того же названия для двух разных распределений произошло потому, что они изучались двумя разными группами ученых, практически не контактировавшими друг с другом.
Агнер Фог (2007, 2008) предположил, что лучший способ избежать путаницы — это использовать нецентральное гипергеометрическое распределение имени Валлениуса для распределения смещенной модели урны, в которой заранее определенное количество предметов вытягивается один за другим в соревновательной манере и использовать название «нецентральное гипергеометрическое распределение Фишера» для обозначения распределения, в котором предметы рисуются независимо друг от друга, так что общее количество нарисованных предметов становится известным только после эксперимента. Имена относятся к Кеннету Теду Валлениусу и Р.А. Фишеру , которые первыми описали соответствующие распределения.
Нецентральному гипергеометрическому распределению Фишера ранее было дано название расширенного гипергеометрического распределения , но это название редко используется в научной литературе, за исключением справочников, в которых необходимо различать два распределения.
Нецентральное гипергеометрическое распределение Валлениуса
[ редактировать ]Распределение Валлениуса можно объяснить следующим образом. Предположим, что в урне находится красные шары и белые шары, всего шарики. шары извлекаются из урны случайным образом по одному без возвращения. Каждый красный шар имеет вес , и каждый белый шар имеет вес . Мы предполагаем, что вероятность взятия конкретного шара пропорциональна его весу. Физическим свойством, определяющим шансы, удобно использовать слово « вес может быть нечто иное, чем вес, например, размер, скользкость или какой-либо другой фактор, но для параметра шансов ».
Вероятность того, что первый выбранный шар окажется красным, равна весовой доле красных шаров:
Вероятность того, что второй выбранный шар окажется красным, зависит от того, был ли первый шар красным или белым. Если первый шар был красным, то приведенная выше формула используется с уменьшено на единицу. Если первый шар был белым, то приведенная выше формула используется с уменьшено на единицу.
существует конкуренция Важным фактом, отличающим распределение Валлениуса, является то, что между шарами . Вероятность того, что тот или иной шар будет взят в конкретном розыгрыше, зависит не только от его собственного веса, но и от общего веса конкурирующих шаров, оставшихся в урне в этот момент. А вес конкурирующих шаров зависит от результатов всех предыдущих розыгрышей.
Многомерная версия распределения Валлениуса используется, если имеется более двух разных цветов.
Распределение невытянутых шаров является дополнительное нецентральное гипергеометрическое распределение Валлениуса .
Нецентральное гипергеометрическое распределение Фишера
[ редактировать ]В модели Фишера судьбы шаров независимы и зависимости между розыгрышами нет. С таким же успехом можно взять все n шаров одновременно. Каждый шар не «знает» о том, что происходит с другими шарами. По этой же причине невозможно узнать значение n до эксперимента. Если бы мы попытались зафиксировать значение n , то у нас не было бы возможности предотвратить взятие шара с номером n + 1, не нарушив при этом принцип независимости между шарами. Таким образом, n является случайной величиной, а распределение Фишера — это условное распределение, которое можно определить только после эксперимента, когда n наблюдается. Безусловным распределением является два независимых бинома , по одному на каждый цвет.
Распределение Фишера можно просто определить как условное распределение двух или более независимых биномиальных переменных, зависящих от их суммы. Многомерный вариант распределения Фишера используется, если цветов шаров более двух.
Разница между двумя нецентральными гипергеометрическими распределениями
[ редактировать ]
Синий : Валлениус ω = 0,5
Красный : Фишера ω = 0,5.
Зеленый : центральная гипергеометрическая ω = 1.
м 1 = 80, м 2 = 60, n = 100

Синий : Валлениус ω = 0,5
Красный Фишера : ω = 0,28.
Зеленый : центральная гипергеометрическая ω = 1.
м 1 = 80, м 2 = 60, n = 100
Распределения Валлениуса и Фишера примерно равны, когда отношение шансов близко к 1, а n мало по сравнению с общим количеством шаров N . Разница между двумя распределениями становится больше, когда отношение шансов далеко от единицы, а близко к N. n Два распределения лучше приближают друг друга, когда они имеют одинаковое среднее значение, чем когда они имеют одинаковые шансы (ω = 1) (см. рисунки выше).
Оба распределения вырождаются в гипергеометрическое распределение, когда отношение шансов равно 1, или в биномиальное распределение , когда n = 1.
Чтобы понять, почему эти два распределения различны, мы можем рассмотреть следующий крайний пример: урна содержит один красный шар весом 1000 и тысячу белых шаров, каждый весом 1. Мы хотим вычислить вероятность того, что красный шар не взято.
Сначала мы рассмотрим модель Валлениуса. Вероятность того, что красный шар не будет взят в первом розыгрыше, равна 1000/2000 = 1 ⁄ 2 . Вероятность того, что красный шар не будет взят во втором розыгрыше, при условии, что он не был взят в первом розыгрыше, равна 999/1999 ≈ 1 ⁄ 2 . Вероятность того, что красный шар не будет взят в третьем розыгрыше, при условии, что он не был взят в первых двух тиражах, равна 998/1998 ≈ 1 ⁄ 2 . Продолжая таким же образом, можно подсчитать, что вероятность не взять красный шар в n розыгрышах равна примерно 2. − п пока n мало по сравнению N. с Другими словами, вероятность не взять очень тяжелый шар в n розыгрышах падает почти экспоненциально с увеличением n в модели Валлениуса. Экспоненциальная функция возникает потому, что все вероятности каждого розыгрыша перемножаются вместе.
В модели Фишера дело обстоит иначе, где шары берутся независимо, а возможно, и одновременно. Здесь розыгрыши независимы, и поэтому вероятности не перемножаются. Вероятность не взять тяжелый красный шар в Фишере модель составляет примерно 1/( n + 1). Таким образом, в этом крайнем случае два распределения сильно различаются, хотя в менее крайних случаях они весьма схожи.
Для применимости распределения Валлениуса должны быть выполнены следующие условия:
- Предметы берутся случайным образом из ограниченного источника, содержащего разные виды предметов без замены.
- Элементы рисуются один за другим.
- Вероятность взятия определенного предмета в конкретном розыгрыше равна его доле от общего «веса» всех предметов, которые еще не были взяты в этот момент. Вес предмета зависит только от его вида (например, цвета).
- Общее количество n предметов, которые нужно взять, фиксировано и не зависит от того, какие предметы будут взяты первыми.
Для применимости распределения Фишера должны быть выполнены следующие условия:
- Предметы берутся случайным образом из ограниченного источника, содержащего разные виды предметов без замены.
- Предметы принимаются независимо друг от друга. Будет ли взят один предмет, не зависит от того, будет ли взят другой предмет. Принимается ли один предмет до, после или одновременно с другим предметом, не имеет значения.
- Вероятность взятия конкретного предмета пропорциональна его «весу». Вес предмета зависит только от его вида (например, цвета).
- Общее количество n предметов, которые будут взяты, до начала эксперимента неизвестно.
- n определяется после эксперимента, и n . желательно условное распределение для известного
Примеры
[ редактировать ]Следующие примеры иллюстрируют, какое распределение применяется в различных ситуациях.
Пример 1
[ редактировать ]Вы ловите рыбу в небольшом озере, содержащем ограниченное количество рыбы. Существуют разные виды рыбы с разным весом. Вероятность поймать конкретную рыбу в конкретный момент пропорциональна ее весу.
Вы ловите рыбу одну за другой удочкой. Вы решили поймать рыбу . Вы полны решимости поймать ровно n рыб независимо от того, сколько времени это может занять. Вы остановитесь после того, как поймаете n рыб, даже если увидите больше соблазнительной рыбы.
Этот сценарий даст распределение типов пойманной рыбы, равное нецентральному гипергеометрическому распределению Валлениуса.
Пример 2
[ редактировать ]Вы ловите рыбу, как в примере 1, но используете большую сеть. Вы устанавливаете сеть в один день и возвращаетесь на следующий день, чтобы удалить сеть. Вы подсчитываете, сколько рыбы вы поймали, а затем идете домой независимо от того, сколько рыбы вы поймали. У каждой рыбы есть вероятность попасть в ловушку, пропорциональная ее весу, но не зависящая от того, что происходит с другой рыбой.
Общее количество рыбы, которая будет поймана в этом сценарии, заранее неизвестно. Таким образом, ожидаемое количество пойманной рыбы описывается несколькими биномиальными распределениями, по одному для каждого вида рыбы.
После подсчета рыб n известно общее количество рыб . Распределение вероятностей, когда n известно (но число каждого типа еще не известно), представляет собой нецентральное гипергеометрическое распределение Фишера.
Пример 3
[ редактировать ]Вы ловите рыбу небольшой сетью. В сеть одновременно может быть поймано несколько рыб. Вы будете использовать сеть несколько раз, пока не соберете хотя бы n рыб.
Этот сценарий дает распределение, находящееся между распределениями Валлениуса и Фишера. Общее количество пойманной рыбы может варьироваться, если в последнем улове выловили слишком много рыбы. Вы можете положить лишнюю рыбу обратно в озеро, но это все равно не даст распределения Валлениуса. Это потому, что ты ловишь несколько рыб одновременно. Условие зависимости каждого улова от всех предыдущих уловов не выполняется для рыб, пойманных одновременно или в одной операции.
Полученное распределение будет близко к распределению Валлениуса, если в каждом улове в сети будет мало рыбы и много забросов сети. Полученное распределение будет близко к распределению Фишера, если в каждом улове в сети много рыбы и мало забросов.
Пример 4
[ редактировать ]Вы ловите рыбу большой сетью. Рыба попадает в сеть случайным образом, что напоминает процесс Пуассона . Вы следите за сетью и беретесь за нее, как только поймаете ровно n рыб.
Полученное распределение будет близко к распределению Фишера, поскольку рыбы попадают в сеть независимо друг от друга. Но судьбы рыб не являются полностью независимыми, поскольку конкретную рыбу можно спасти от поимки, если ни одна другая рыба не попадет в сеть раньше этой конкретной рыбы. Это более вероятно, если другие рыбы тяжелые, чем если они легкие.
Пример 5
[ редактировать ]Вы ловите рыбу по одной удочкой, как в примере 1. Вам нужно определенное количество рыбы, чтобы прокормить свою семью. Вы остановитесь, когда общий вес пойманной рыбы достигнет этого заданного предела. Полученное распределение будет близко к распределению Валлениуса, но не совсем равно ему, поскольку решение об остановке зависит от веса пойманной на данный момент рыбы. Таким образом, n не известно до рыбалки.
Заключение к примерам
[ редактировать ]Эти примеры показывают, что распределение видов пойманной рыбы зависит от способа ее ловли. Во многих ситуациях распределение будет находиться где-то между нецентральными гипергеометрическими распределениями Валлениуса и Фишера.
Следствием различия между этими двумя распределениями является то, что в среднем можно поймать больше тяжелой рыбы, поймав n рыб одну за другой, чем поймав все n одновременно. В целом можно сказать, что при смещенной выборке параметр шансов оказывает более сильное влияние на распределение Валлениуса, чем на распределение Фишера, особенно когда n / N велико.

м 1 = 80, м 2 = 60, n = 100, ω = 0,1...20

м 1 = 80, м 2 = 60, n = 100, ω = 0,01...1000
См. также
[ редактировать ]- Нецентральное гипергеометрическое распределение Валлениуса
- Нецентральное гипергеометрическое распределение Фишера
- Гипергеометрическое распределение
- Проблема с урной
- Предвзятость
- Смещенная выборка
Ссылки
[ редактировать ]Джонсон, Нидерланды; Кемп, AW; Коц, С. (2005), Одномерные дискретные распределения , Хобокен, Нью-Джерси: Wiley and Sons .
МакКаллах, П.; Нелдер, Дж. А. (1983), Обобщенные линейные модели , Лондон: Чепмен и Холл .
Фог, Агнер (2007), Теория случайных чисел .
Фог, Агнер (2008), «Методы расчета нецентрального гипергеометрического распределения Валлениуса», Коммуникации в статистике – моделирование и вычисления , том. 37, нет. 2, стр. 258–273, doi : 10.1080/03610910701790269 , S2CID 9040568 .