Гипергеометрическое распределение
Функция массы вероятности ![]() | |||
Кумулятивная функция распределения ![]() | |||
Параметры | |||
---|---|---|---|
Поддерживать | |||
ПМФ | |||
CDF | где — обобщенная гипергеометрическая функция | ||
Иметь в виду | |||
Режим | |||
Дисперсия | |||
асимметрия | |||
Избыточный эксцесс | |||
МГФ | |||
CF |
В теории вероятностей и статистике гипергеометрическое распределение — это дискретное распределение вероятностей , описывающее вероятность успехи (случайные розыгрыши, в которых нарисованный объект имеет указанную особенность) в извлекается без замены из конечной популяции размером который содержит ровно объекты с этой функцией, при этом каждый розыгрыш является либо успешным, либо неудачным. Напротив, биномиальное распределение описывает вероятность успехи в рисует с заменой.
Определения
[ редактировать ]Функция массы вероятности
[ редактировать ]Следующие условия характеризуют гипергеометрическое распределение:
- Результат каждого отбора (элементы выборки населения) можно отнести к одной из двух взаимоисключающих категорий (например, «зачет/не зачет» или «занятый/безработный»).
- Вероятность успеха меняется при каждом розыгрыше, поскольку каждый розыгрыш уменьшает популяцию ( выборка без замены из конечной популяции).
величина Случайная следует гипергеометрическому распределению, если его функция массы вероятности (pmf) определяется выражением [1]
где
- численность населения,
- количество состояний успеха в популяции,
- количество розыгрышей (т.е. количество розыгрышей в каждом испытании),
- количество наблюдаемых успехов,
- является биномиальным коэффициентом .
PMF когда положителен, .
Случайная величина, распределенная гипергеометрически с параметрами , и написано и имеет функцию массы вероятности выше.
Комбинаторные тождества
[ редактировать ]По требованию у нас есть
что по существу следует из тождества Вандермонда из комбинаторики .
Также обратите внимание, что
Это тождество можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние. Кроме того, этоследует из симметрии задачи, описываемой двумя разными, но взаимозаменяемыми способами.
Например, рассмотрим два раунда розыгрыша без замены. В первом туре из нейтральные шарики извлекаются из урны без замены и окрашиваются в зеленый цвет. Затем цветные шарики кладут обратно. Во втором туре шарики вытягиваются без замены и окрашиваются в красный цвет. Тогда количество шариков обоих цветов (то есть количество шариков, вытянутых дважды) имеет гипергеометрическое распределение. Симметрия в и связано с тем, что два раунда независимы, и можно было бы начать с жеребьевки шарики и сначала раскрасьте их в красный цвет.
Обратите внимание, что нас интересует вероятность успехи в рисуется без замены , поскольку вероятность успеха в каждом испытании неодинакова, поскольку размер оставшейся популяции меняется по мере удаления каждого шарика. Имейте в виду, чтобы не путать с биномиальным распределением , которое описывает вероятность успехи в рисует с заменой.
Характеристики
[ редактировать ]Рабочий пример
[ редактировать ]Классическое применение гипергеометрического распределения — выборка без замены . Представьте себе урну двух цветов с шариками : красного и зеленого. Определите рисование зеленого шарика как успех, а рисование красного шарика как неудачу. Пусть N описывает количество всех шариков в урне (см. таблицу непредвиденных обстоятельств ниже), а K описывает количество зеленых шариков , тогда N − K соответствует количеству красных шариков . Теперь, стоя рядом с урной, вы закрываете глаза и рисуете n шариков без замены. Определите X как случайную величину , результатом которой будет k — количество зеленых шариков, вытянутых в эксперименте. Эту ситуацию иллюстрирует следующая таблица непредвиденных обстоятельств :
нарисованный | не нарисовано | общий | |
---|---|---|---|
зеленые шарики | к | К - К | К |
красные шарики | n − k | N + k − n − K | N − K |
общий | н | Н - п | Н |
Действительно, нас интересует вычисление вероятности вытягивания k зеленых шариков за n розыгрышей, учитывая, что из N шариков имеется K зеленых шариков. В этом примере предположим, что 5 зеленых и 45 в урне красных шариков. Стоя рядом с урной, вы закрываете глаза и без замены вытягиваете 10 шариков. Какова вероятность того, что ровно 4 из 10 будут зелеными?
Эта проблема обобщена следующей таблицей непредвиденных обстоятельств:
нарисованный | не нарисовано | общий | |
---|---|---|---|
зеленые шарики | к = 4 | К - К = 1 | К = 5 |
красные шарики | n − k = 6 | N + k − n − K = 39 | N − K = 45 |
общий | п = 10 | Н - п = 40 |
Чтобы найти вероятность вытянуть k зеленых шариков ровно за n розыгрышей из N общего количества розыгрышей , мы определяем X как гипергеометрическую случайную величину и используем формулу
Чтобы интуитивно объяснить данную формулу, рассмотрим две симметричные задачи, представленные тождеством
- левая часть — из урны вытащили всего n шариков. Мы хотим найти вероятность результата вытягивания k зеленых шариков из K общего количества зеленых шариков и вытягивания nk красных шариков из NK красных шариков в этих n раундах.
- правая часть — альтернативно вытягивание всех N шариков из урны. Мы хотим найти вероятность результата вытягивания k зеленых шариков в n розыгрышах из общего числа N розыгрышей и Kk зеленых шариков в остальных Nn розыгрышах.
Возвращаясь к расчетам, мы используем приведенную выше формулу для расчета вероятности вытянуть ровно k зеленых шариков.
Интуитивно мы ожидаем, что еще более маловероятно, что все 5 зеленых шариков попадут в число 10 вытянутых.
Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытянуть 4.
Симметрии
[ редактировать ]Меняем местами зеленые и красные шарики:
Меняем местами нарисованные и не нарисованные шарики:
Меняем местами зеленые и нарисованные шарики:
Эти симметрии порождают группу диэдра .
Порядок розыгрышей
[ редактировать ]Вероятность вытащить любой набор зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т. е. это сменное распределение. В результате вероятность вытащить зеленый шарик в ничья это [2]
Это ожидаемая вероятность, то есть она основана на незнании результатов предыдущих розыгрышей.
Хвостовые границы
[ редактировать ]Позволять и . Тогда для мы можем вывести следующие границы: [3]
где
– это расхождение Кульбака-Лейблера , и оно используется так: . [4]
Примечание . Чтобы получить предыдущие границы, нужно начать с наблюдения, что где являются зависимыми случайными величинами с определенным распределением . Поскольку большинство теорем об границах суммы случайных величин касаются независимых их последовательностей, сначала необходимо создать последовательность независимых случайных величин с одинаковым распределением и применить теоремы о . Тогда это доказывает Хеффдинг [3] что результаты и оценки, полученные с помощью этого процесса, справедливы для также.
Если n больше N /2, может быть полезно применить симметрию, чтобы «инвертировать» границы, что даст вам следующее: [4] [5]
Статистический вывод
[ редактировать ]Гипергеометрический тест
[ редактировать ]Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости составления выборки, состоящей из определенного количества успехи (из общее количество розыгрышей) из популяции размером содержащий успехи. В тесте на чрезмерное представительство успехов в выборке гипергеометрическое значение p рассчитывается как вероятность случайного выпадения результатов. или больше успехов от населения в итоговые ничьи. В тесте на недостаточную представленность значение p представляет собой вероятность случайного рисования. или меньше успехов.
Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующему одностороннему варианту точного критерия Фишера . [6] И наоборот, значение p двустороннего точного критерия Фишера можно рассчитать как сумму двух соответствующих гипергеометрических критериев (более подробную информацию см. [7] ).
Тест часто используется для определения того, какие подгруппы населения пере- или недостаточно представлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать этот тест, чтобы понять свою клиентскую базу, проверив набор известных клиентов на предмет чрезмерного представительства различных демографических подгрупп (например, женщин, людей до 30 лет).
Связанные дистрибутивы
[ редактировать ]Позволять и .
- Если затем имеет распределение Бернулли с параметром .
- Позволять имеют биномиальное распределение с параметрами и ; это моделирует количество успехов в аналогичной задаче выборки с заменой. Если и большие по сравнению с , и не близко к 0 или 1, то и имеют аналогичные распределения, т.е. .
- Если большой, и большие по сравнению с , и не близко к 0 или 1, то
где стандартная функция нормального распределения
- Если вероятности вытащить зеленый или красный шарик не равны (например, потому что зеленые шарики больше/легче схватить, чем красные шарики), то имеет нецентральное гипергеометрическое распределение
- Бета -биномиальное распределение является сопряженным априорным для гипергеометрического распределения.
В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:
С заменами | Нет замен | |
---|---|---|
Указанное количество розыгрышей | биномиальное распределение | гипергеометрическое распределение |
Заданное количество отказов | отрицательное биномиальное распределение | отрицательное гипергеометрическое распределение |
Многомерное гипергеометрическое распределение
[ редактировать ]Параметры | |||
---|---|---|---|
Поддерживать | |||
ПМФ | |||
Иметь в виду | |||
Дисперсия |
Модель урны с зелеными и красными шариками можно распространить на случай, когда шариков более двух цветов. находится K i шариков цвета i Если в урне и вы берете наугад n шариков без замены, то количество шариков каждого цвета в выборке ( k 1 , k 2 ,..., k c ) имеет многомерную величину гипергеометрическое распределение:
Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному распределению: полиномиальное распределение — это распределение «с заменой», а многомерное гипергеометрическое распределение — это распределение «без замены».
Свойства этого распределения приведены в соседней таблице: [8] где c — количество разных цветов и общее количество шариков в урне.
Пример
[ редактировать ]Предположим, в урне лежат 5 черных, 10 белых и 15 красных шариков. Если шесть шариков выбраны без замены, вероятность того, что будут выбраны ровно два шарика каждого цвета, равна
Возникновение и применение
[ редактировать ]Заявление о проверке выборов
[ редактировать ]
При аудите выборов обычно проверяются выборочные участки с машинным подсчетом, чтобы увидеть, соответствуют ли результаты ручного или машинного пересчета исходным подсчетам. Несовпадения приводят либо к составлению отчета, либо к более масштабному пересчету. Частота выборки обычно определяется законом, а не статистическим расчетом, поэтому для юридически определенного размера выборки n какова вероятность пропустить проблему, присутствующую на K участках, например взлом или ошибку? Это вероятность того, что k = 0 . минимуму их обнаружение, затронув лишь несколько избирательных участков, что все равно повлияет на закрытые выборы, поэтому вероятный сценарий состоит в том, что K будет порядка 5% от N. Ошибки часто неясны, и хакер может свести к Проверки обычно охватывают от 1% до 10% избирательных участков (часто 3%). [9] [10] [11] поэтому у них высока вероятность пропустить проблему. Например, если проблема присутствует на 5 из 100 участков, 3%-ная выборка имеет 86%-ную вероятность того, что k = 0, поэтому проблема не будет замечена, и только 14%-ную вероятность появления проблемы в выборке (положительное k ). :
Выборке потребуется 45 избирательных участков, чтобы вероятность того, что k = 0 в выборке, была менее 5% и, таким образом, имела вероятность более 95% обнаружения проблемы:
Приложение к техасскому холдему
[ редактировать ]В холдеме игроки в покер составляют лучшую возможную комбинацию, объединяя две карты в своей руке с пятью картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 карты, по 13 карт каждой масти.В этом примере предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых тоже трефы. Игрок хотел бы узнать вероятность того, что одна из следующих двух карт окажется трефой для завершения флеша .
(Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении Вероятность для каждого сценария. Строго говоря, описанный здесь подход к расчету вероятностей успеха является точным в сценарии, где в многопользовательской игре за столом находится только один игрок, и эта вероятность может быть несколько скорректирована в зависимости от ставок оппонентов; .)
Показаны 4 клуба, поэтому 9 клубов еще не показаны. Открыто 5 карт (2 в руке и 3 на столе), поэтому есть еще невидимый.
Вероятность того, что одна из следующих двух перевернутых карт окажется трефой, можно вычислить с помощью гипергеометрического выражения: и . (около 31,64%)
Вероятность того, что обе следующие две перевернутые карты окажутся трефами, можно вычислить с помощью гипергеометрического выражения: и . (около 3,33%)
Вероятность того, что ни одна из следующих двух перевернутых карт не окажется трефой, можно вычислить с помощью гипергеометрической формулы: и . (около 65,03%)
Заявление в Кено
[ редактировать ]Гипергеометрическое распределение незаменимо для расчета шансов Кено . В Кено из набора из 80 пронумерованных шаров в контейнере случайным образом вытягиваются 20 шаров, что очень похоже на американское бинго . Перед каждым розыгрышем игрок выбирает определенное количество мест , отмечая предоставленную для этого бумажную форму. Например, игрок может сыграть в 6-точечную игру , отметив 6 чисел, каждое из которых находится в диапазоне от 1 до 80 включительно. Затем (после того, как все игроки сдали свои формы в кассу, получили дубликат отмеченной формы и оплатили ставку) вытягивается 20 шаров. Некоторые из вытянутых шаров могут совпадать с некоторыми или всеми шарами, выбранными игроком. Вообще говоря, чем больше попаданий (вытянутых шаров, соответствующих выбранным номерам игроков), тем больше выигрыш.
Например, если клиент ставит («играет») 1 доллар на 6-е место (нередкий пример) и выпадает 4 из 6, казино выплатит 4 доллара. Выплаты могут варьироваться от одного казино к другому, но типичная сумма здесь составляет 4 доллара. Вероятность этого события равна:
Аналогично, шанс попасть в 5 мест из 6 выбранных равен в то время как типичная выплата может составлять 88 долларов. Выплата за попадание всех 6 составит около 1500 долларов (вероятность ≈ 0,000128985 или 7752 к 1). Единственная другая ненулевая выплата может составлять 1 доллар за выпадение трех номеров (т. е. вы получаете обратно свою ставку), вероятность чего составляет около 0,129819548.
Взяв сумму произведений выплат на соответствующие вероятности, мы получаем ожидаемую доходность 0,70986492 или примерно 71% для 6-го места с преимуществом казино 29%. Другие споты имеют аналогичную ожидаемую доходность. Такая очень низкая отдача (для игрока) обычно объясняется большими накладными расходами (площадь, оборудование, персонал), необходимыми для игры.
См. также
[ редактировать ]- Нецентральные гипергеометрические распределения
- Отрицательное гипергеометрическое распределение
- Полиномиальное распределение
- Выборка (статистика)
- Обобщенная гипергеометрическая функция
- Проблема коллекционера купонов
- Геометрическое распределение
- Кено
- Леди дегустирует чай
Ссылки
[ редактировать ]Цитаты
[ редактировать ]- ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (Третье изд.). Даксбери Пресс. п. 42.
- ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ пустой URL PDF ]
- ^ Jump up to: а б Хоффдинг, Василий (1963), «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) , Журнал Американской статистической ассоциации , 58 (301): 13–30, doi : 10.2307/2282952 , JSTOR 2282952 .
- ^ Jump up to: а б «Еще один хвост гипергеометрического распределения» . WordPress.com . 8 декабря 2015 года . Проверено 19 марта 2018 г.
- ^ Серфлинг, Роберт (1974), «Вероятностные неравенства для суммы при выборке без замены», Анналы статистики , 2 (1): 39–48, doi : 10.1214/aos/1176342611 .
- ^ Соперники, И.; Персоназ, Л.; Таинг, Л.; Потье, М.-К (2007). «Обогащение или обеднение категории GO внутри класса генов: какой тест?» . Биоинформатика . 23 (4): 401–407. doi : 10.1093/биоинформатика/btl633 . ПМИД 17182697 .
- ^ К. Проповедник и Н. Бриггс. «Расчет для точного теста Фишера: интерактивный инструмент расчета для точного теста Фишера для таблиц 2 x 2 (интерактивная страница)» .
- ^ Дуан, XG «Лучшее понимание многомерного гипергеометрического распределения с последствиями для выборки обследований на основе дизайна». Препринт arXiv arXiv:2101.00548 (2021 г.). (pdf)
- ^ Глейзер, Аманда; Спертус, Якоб (10 февраля 2020 г.) [8 марта 2020 г.]. Начните распространять новости: поствыборный аудит Нью-Йорка имеет серьезные недостатки (информационный документ). Эльзевир. дои : 10.2139/ssrn.3536011 . ССНН 3536011 . ССНН 3536011 . Проверено 4 декабря 2023 г. - через SSRN.com.
- ^ «Законы о государственном аудите» . Подтвержденное голосование . 10 февраля 2017 года . Проверено 2 апреля 2018 г.
- ^ «Послевыборные проверки» . ncsl.org . Национальная конференция законодательных собраний штатов . Проверено 2 апреля 2018 г.
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Август 2011 г. ) |
Источники
[ редактировать ]- Беркопец, Алеш (2007). «Алгоритм HyperQuick для дискретного гипергеометрического распределения» . Журнал дискретных алгоритмов . 5 (2): 341–347. дои : 10.1016/j.jda.2006.01.001 .
- Скала, М. (2011). «Гипергеометрические хвостовые неравенства: конец безумию». arXiv : 1311.5939 [ мат.PR ]. неопубликованная заметка