~~~~~~~~~~~~~~~~~~~~ Arc.Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~ 
Номер скриншота №:
✰ CD012118F1928F571401EFA978107962__1715200560 ✰
Заголовок документа оригинал.:
✰ Hypergeometric distribution - Wikipedia ✰
Заголовок документа перевод.:
✰ Гипергеометрическое распределение — Википедия ✰
Снимок документа находящегося по адресу (URL):
✰ https://en.wikipedia.org/wiki/Hypergeometric_distribution ✰
Адрес хранения снимка оригинал (URL):
✰ https://arc.ask3.ru/arc/aa/cd/62/cd012118f1928f571401efa978107962.html ✰
Адрес хранения снимка перевод (URL):
✰ https://arc.ask3.ru/arc/aa/cd/62/cd012118f1928f571401efa978107962__translat.html ✰
Дата и время сохранения документа:
✰ 19.06.2024 11:09:47 (GMT+3, MSK) ✰
Дата и время изменения документа (по данным источника):
✰ 8 May 2024, at 23:36 (UTC). ✰ 

~~~~~~~~~~~~~~~~~~~~~~ Ask3.Ru ~~~~~~~~~~~~~~~~~~~~~~ 
Сервисы Ask3.ru: 
 Архив документов (Снимки документов, в формате HTML, PDF, PNG - подписанные ЭЦП, доказывающие существование документа в момент подписи. Перевод сохраненных документов на русский язык.)https://arc.ask3.ruОтветы на вопросы (Сервис ответов на вопросы, в основном, научной направленности)https://ask3.ru/answer2questionТоварный сопоставитель (Сервис сравнения и выбора товаров) ✰✰
✰ https://ask3.ru/product2collationПартнерыhttps://comrades.ask3.ru


Совет. Чтобы искать на странице, нажмите Ctrl+F или ⌘-F (для MacOS) и введите запрос в поле поиска.
Гипергеометрическое распределение — Jump to content

Гипергеометрическое распределение

Из Википедии, бесплатной энциклопедии
Гипергеометрический
Функция массы вероятности
Гипергеометрический график PDF
Кумулятивная функция распределения
Гипергеометрический график CDF
Параметры
Поддерживать
ПМФ
CDF где обобщенная гипергеометрическая функция
Иметь в виду
Режим
Дисперсия
асимметрия
Избыточный эксцесс

МГФ
CF

В теории вероятностей и статистике гипергеометрическое распределение — это дискретное распределение вероятностей , описывающее вероятность успехи (случайные розыгрыши, в которых нарисованный объект имеет указанную особенность) в извлекает без замены из конечной популяции размером который содержит ровно объекты с этой функцией, при этом каждый розыгрыш является либо успешным, либо неудачным. Напротив, биномиальное распределение описывает вероятность успехи в рисует с заменой.

Определения [ править ]

Функция массы вероятности [ править ]

Следующие условия характеризуют гипергеометрическое распределение:

  • Результат каждого отбора (элементы выборки населения) можно отнести к одной из двух взаимоисключающих категорий (например, «зачет/не зачет» или «занятый/безработный»).
  • Вероятность успеха меняется при каждом розыгрыше, поскольку каждый розыгрыш уменьшает популяцию ( выборка без замены из конечной популяции).

величина Случайная следует гипергеометрическому распределению, если его функция массы вероятности (pmf) определяется выражением [1]

где

  • численность населения,
  • количество состояний успеха в популяции,
  • количество розыгрышей (т.е. количество розыгрышей в каждом испытании),
  • количество наблюдаемых успехов,
  • является биномиальным коэффициентом .

PMF когда положителен, .

Случайная величина, распределенная гипергеометрически с параметрами , и написано и имеет функцию массы вероятности выше.

Комбинаторные тождества [ править ]

По требованию у нас есть

что по существу следует из тождества Вандермонда из комбинаторики .

Также обратите внимание, что

Это тождество можно показать, выразив биномиальные коэффициенты через факториалы и переставив последние. Кроме того, это следует из симметрии задачи, описываемой двумя разными, но взаимозаменяемыми способами.

Например, рассмотрим два раунда розыгрыша без замены. В первом туре снаружи нейтральные шарики извлекаются из урны без замены и окрашиваются в зеленый цвет. Затем цветные шарики кладут обратно. Во втором туре шарики вытягиваются без замены и окрашиваются в красный цвет. Тогда количество шариков обоих цветов (то есть количество шариков, вытянутых дважды) имеет гипергеометрическое распределение. Симметрия в и связано с тем, что эти два раунда независимы, и можно было бы начать с жеребьевки шарики и сначала раскрасьте их в красный цвет.

Обратите внимание, что нас интересует вероятность успехи в рисуется без замены , поскольку вероятность успеха в каждом испытании неодинакова, поскольку размер оставшейся популяции меняется по мере удаления каждого шарика. Имейте в виду, чтобы не путать с биномиальным распределением , которое описывает вероятность успехи в рисует с заменой.

Свойства [ править ]

Рабочий пример [ править ]

Классическое применение гипергеометрического распределения — выборка без замены . Представьте себе урну двух цветов с шариками : красного и зеленого. Определите рисование зеленого шарика как успех, а рисование красного шарика как неудачу. Пусть N описывает количество всех шариков в урне (см. таблицу непредвиденных обстоятельств ниже), а K описывает количество зеленых шариков , тогда N K соответствует количеству красных шариков . Теперь, стоя рядом с урной, вы закрываете глаза и рисуете n шариков без замены. Определите X как случайную величину , результатом которой будет k — ​​количество зеленых шариков, вытянутых в эксперименте. Эту ситуацию иллюстрирует следующая таблица непредвиденных обстоятельств :

нарисованный не нарисовано общий
зеленые шарики к К - К К
красные шарики n k N + k − n − K N − K
общий н Н - п Н

Действительно, нас интересует вычисление вероятности вытягивания k зеленых шариков за n розыгрышей, учитывая, что из общего количества N шариков имеется K зеленых шариков. В этом примере предположим, что 5 зеленых и 45 в урне красных шариков. Стоя рядом с урной, вы закрываете глаза и вытягиваете 10 без замены шариков. Какова вероятность того, что ровно 4 из 10 будут зелеными?

Эта проблема обобщена следующей таблицей непредвиденных обстоятельств:

нарисованный не нарисовано общий
зеленые шарики к = 4 К - К = 1 К = 5
красные шарики n k = 6 N + k − n − K = 39 N − K = 45
общий п = 10 Н - п = 40

Чтобы найти вероятность вытягивания k зеленых шариков ровно за n розыгрышей из N общего количества розыгрышей , мы определяем X как гипергеометрическую случайную величину и используем формулу

Чтобы интуитивно объяснить данную формулу, рассмотрим две симметричные задачи, представленные тождеством

  1. левая часть — из урны вытащили всего n шариков. Мы хотим найти вероятность результата вытягивания k зеленых шариков из K общего числа зеленых шариков и вытягивания nk красных шариков из NK красных шариков в этих n раундах.
  2. правая часть — альтернативно вытягивание всех N шариков из урны. Мы хотим найти вероятность результата вытягивания k зеленых шариков в n розыгрышах из общего числа N розыгрышей и Kk зеленых шариков в остальных Nn розыгрышах.

Возвращаясь к расчетам, мы используем приведенную выше формулу для расчета вероятности вытянуть ровно k зеленых шариков.

Интуитивно мы ожидаем, что еще более маловероятно, что все 5 зеленых шариков попадут в число 10 вытянутых.

Как и ожидалось, вероятность вытащить 5 зеленых шариков примерно в 35 раз меньше, чем вероятность вытащить 4.

Симметрии [ править ]

Меняем местами зеленые и красные шарики:

Меняем местами нарисованные и не нарисованные шарики:

Меняем местами зеленые и нарисованные шарики:

Эти симметрии порождают группу диэдра .

Порядок розыгрышей [ править ]

Вероятность вытащить любой набор зеленых и красных шариков (гипергеометрическое распределение) зависит только от количества зеленых и красных шариков, а не от порядка, в котором они появляются; т. е. это сменное распределение. В результате вероятность вытащить зеленый шарик в ничья это [2]

Это ожидаемая вероятность, то есть она основана на незнании результатов предыдущих розыгрышей.

Границы хвоста [ править ]

Позволять и . Тогда для мы можем вывести следующие границы: [3]

где

– это расхождение Кульбака-Лейблера , и оно используется так: . [4]

Примечание . Чтобы получить предыдущие границы, нужно начать с наблюдения, что где являются зависимыми случайными величинами с определенным распределением . Поскольку большинство теорем об границах суммы случайных величин касаются независимых их последовательностей, сначала необходимо создать последовательность независимых случайных величин с одинаковым распределением и применить теоремы о . Тогда это доказывает Хеффдинг [3] что результаты и оценки, полученные с помощью этого процесса, справедливы для также.

Если n больше N /2, может быть полезно применить симметрию, чтобы «инвертировать» границы, что даст вам следующее: [4] [5]

Статистический вывод

Гипергеометрический тест [ править ]

Гипергеометрический тест использует гипергеометрическое распределение для измерения статистической значимости составления выборки, состоящей из определенного количества успехи (из общее количество розыгрышей) из популяции размером содержащий успехи. В тесте на чрезмерное представительство успехов в выборке гипергеометрическое значение p рассчитывается как вероятность случайного выпадения результатов. или больше успехов от населения в итоговые ничьи. В тесте на недостаточную представленность значение p представляет собой вероятность случайного рисования. или меньше успехов.

Биолог и статистик Рональд Фишер

Тест, основанный на гипергеометрическом распределении (гипергеометрический тест), идентичен соответствующему одностороннему варианту точного критерия Фишера . [6] И наоборот, значение p двустороннего точного критерия Фишера можно рассчитать как сумму двух соответствующих гипергеометрических критериев (более подробную информацию см. [7] ).

Тест часто используется для определения того, какие подгруппы населения пере- или недостаточно представлены в выборке. Этот тест имеет широкий спектр применения. Например, маркетинговая группа может использовать этот тест, чтобы понять свою клиентскую базу, проверив набор известных клиентов на предмет чрезмерного представительства различных демографических подгрупп (например, женщин, людей до 30 лет).

Связанные дистрибутивы [ править ]

Позволять и .

  • Если затем имеет распределение Бернулли с параметром .
  • Позволять имеют биномиальное распределение с параметрами и ; это моделирует количество успехов в аналогичной задаче выборки с заменой. Если и большие по сравнению с , и не близко к 0 или 1, то и имеют аналогичные распределения, т.е. .
  • Если большой, и большие по сравнению с , и не близко к 0 или 1, то

где стандартная функция нормального распределения

В следующей таблице описаны четыре распределения, связанные с количеством успехов в последовательности розыгрышей:

С заменами Нет замен
Указанное количество розыгрышей биномиальное распределение гипергеометрическое распределение
Заданное количество отказов отрицательное биномиальное распределение отрицательное гипергеометрическое распределение

гипергеометрическое распределение Многомерное

Многомерное гипергеометрическое распределение
Параметры




Поддерживать
ПМФ
Иметь в виду
Дисперсия



Модель урны с зелеными и красными шариками можно распространить на случай, когда шариков более двух цветов. находится K i шариков цвета i Если в урне и вы берете наугад n шариков без замены, то количество шариков каждого цвета в выборке ( k 1 , k 2 ,..., k c ) имеет многомерную величину гипергеометрическое распределение:

Это имеет такое же отношение к полиномиальному распределению , как гипергеометрическое распределение к биномиальному распределению: полиномиальное распределение — это распределение «с заменой», а многомерное гипергеометрическое распределение — это распределение «без замены».

Свойства этого распределения приведены в соседней таблице: [8] где c — количество разных цветов и общее количество шариков в урне.

Пример [ править ]

Предположим, в урне лежат 5 черных, 10 белых и 15 красных шариков. Если шесть шариков выбраны без замены, вероятность того, что будут выбраны ровно два шарика каждого цвета, равна

Возникновение и применение [ править ]

Заявление о проверке выборов [ править ]

Образцы, используемые для аудита выборов, и, как следствие, вероятность упустить проблему

При аудите выборов обычно проверяются выборочные участки с машинным подсчетом, чтобы увидеть, соответствуют ли результаты ручного или машинного пересчета первоначальным подсчетам. Несоответствия приводят либо к составлению отчета, либо к более масштабному пересчету. Частота выборки обычно определяется законом, а не статистическим планированием, поэтому для юридически определенного размера выборки n какова вероятность пропустить проблему, присутствующую на K участках, например взлом или ошибку? Это вероятность того, что k = 0 . Ошибки часто неясны, и хакер может свести к минимуму их обнаружение, затронув лишь несколько избирательных участков, что все равно повлияет на закрытые выборы, поэтому вероятный сценарий состоит в том, что будет порядка 5% от N. K Проверки обычно охватывают от 1% до 10% избирательных участков (часто 3%). [9] [10] [11] поэтому у них высока вероятность пропустить проблему. Например, если проблема присутствует на 5 из 100 участков, 3%-ная выборка имеет 86%-ную вероятность того, что k = 0 , поэтому проблема не будет замечена, и только 14%-ную вероятность появления проблемы в выборке (положительное k ). :

Выборке потребуется 45 избирательных участков, чтобы вероятность того, что k = 0 в выборке, была менее 5% и, таким образом, имела вероятность более 95% обнаружения проблемы:

холдему к Приложение техасскому

В холдеме игроки в покер собирают лучшую комбинацию, какую только могут, комбинируя две карты в своей руке с 5 картами (общими картами), которые в конечном итоге оказываются на столе. В колоде 52 карты, по 13 карт каждой масти. В этом примере предположим, что у игрока в руке 2 трефы, а на столе лежат 3 карты, 2 из которых тоже трефы. Игрок хотел бы узнать вероятность того, что одна из следующих двух карт окажется трефой для завершения флеша .
(Обратите внимание, что вероятность, рассчитанная в этом примере, предполагает, что информация о картах в руках других игроков неизвестна; однако опытные игроки в покер могут учитывать, как другие игроки делают свои ставки (чек, колл, рейз или фолд) при рассмотрении Строго говоря, описанный здесь подход к вычислению вероятностей успеха является точным в сценарии, где в многопользовательской игре за столом находится только один игрок, эта вероятность может быть несколько скорректирована в зависимости от ставок оппонентов; .)

Показаны 4 клуба, поэтому 9 клубов еще не показаны. Открыто 5 карт (2 в руке и 3 на столе), поэтому есть еще невидимый.

Вероятность того, что одна из следующих двух перевернутых карт окажется трефой, можно вычислить с помощью гипергеометрической формулы: и . (около 31,64%)

Вероятность того, что обе следующие две перевернутые карты окажутся трефами, можно вычислить с помощью гипергеометрического выражения: и . (около 3,33%)

Вероятность того, что ни одна из следующих двух перевернутых карт не окажется трефой, можно вычислить с помощью гипергеометрической формулы: и . (около 65,03%)

Заявление в Кено [ править ]

Гипергеометрическое распределение незаменимо для расчета шансов Кено . В Кено из набора из 80 пронумерованных шаров в контейнере случайным образом вытягиваются 20 шаров, что очень похоже на американское бинго . Перед каждым розыгрышем игрок выбирает определенное количество мест , отмечая предоставленную для этого бумажную форму. Например, игрок может сыграть в 6-точечную игру, отметив 6 чисел, каждое из которых находится в диапазоне от 1 до 80 включительно. Затем (после того, как все игроки сдали свои формы в кассу, получили дубликат отмеченной формы и оплатили ставку) вытягивается 20 шаров. Некоторые из вытянутых шаров могут совпадать с некоторыми или всеми шарами, выбранными игроком. Вообще говоря, чем больше попаданий (вытянутых шаров, соответствующих выбранным номерам игроков), тем больше выигрыш.

Например, если клиент ставит («играет») 1 доллар на 6-е место (нередкий пример) и выпадает 4 из 6, казино выплатит 4 доллара. Выплаты могут варьироваться от одного казино к другому, но типичная сумма здесь составляет 4 доллара. Вероятность этого события равна:

Аналогично, шанс попасть в 5 мест из 6 выбранных равен в то время как типичная выплата может составлять 88 долларов. Выплата за попадание всех 6 составит около 1500 долларов (вероятность ≈ 0,000128985 или 7752 к 1). Единственная другая ненулевая выплата может составлять 1 доллар за выпадение трех номеров (т. е. вы получаете обратно свою ставку), вероятность чего составляет около 0,129819548.

Взяв сумму произведений выплат на соответствующие вероятности, мы получаем ожидаемую доходность 0,70986492 или примерно 71% для 6-го места с преимуществом казино 29%. Другие споты имеют аналогичную ожидаемую доходность. Такая очень низкая отдача (для игрока) обычно объясняется большими накладными расходами (площадь, оборудование, персонал), необходимыми для игры.

См. также [ править ]

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (Третье изд.). Даксбери Пресс. п. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ пустой URL PDF ]
  3. ^ Перейти обратно: а б Хоффдинг, Василий (1963), «Вероятностные неравенства для сумм ограниченных случайных величин» (PDF) , Журнал Американской статистической ассоциации , 58 (301): 13–30, doi : 10.2307/2282952 , JSTOR   2282952 .
  4. ^ Перейти обратно: а б «Еще один хвост гипергеометрического распределения» . WordPress.com . 8 декабря 2015 года . Проверено 19 марта 2018 г.
  5. ^ Серфлинг, Роберт (1974), «Вероятностные неравенства для суммы при выборке без замены», Анналы статистики , 2 (1): 39–48, doi : 10.1214/aos/1176342611 .
  6. ^ Соперники, И.; Персоназ, Л.; Таинг, Л.; Потье, М.-К (2007). «Обогащение или обеднение категории GO внутри класса генов: какой тест?» . Биоинформатика . 23 (4): 401–407. doi : 10.1093/биоинформатика/btl633 . ПМИД   17182697 .
  7. ^ К. Проповедник и Н. Бриггс. «Расчет для точного теста Фишера: интерактивный инструмент расчета для точного теста Фишера для таблиц 2 x 2 (интерактивная страница)» .
  8. ^ Дуан, XG «Лучшее понимание многомерного гипергеометрического распределения с последствиями для выборки обследований на основе дизайна». Препринт arXiv arXiv:2101.00548 (2021 г.). (pdf)
  9. ^ Глейзер, Аманда; Спертус, Якоб (10 февраля 2020 г.) [8 марта 2020 г.]. Начните распространять новости: поствыборный аудит Нью-Йорка имеет серьезные недостатки (информационный документ). Эльзевир. дои : 10.2139/ssrn.3536011 . ССНН   3536011 . ССНН 3536011 . Проверено 4 декабря 2023 г. - через SSRN.com.
  10. ^ «Законы о государственном аудите» . Подтвержденное голосование . 10 февраля 2017 года . Проверено 2 апреля 2018 г.
  11. ^ «Послевыборные проверки» . ncsl.org . Национальная конференция законодательных собраний штатов . Проверено 2 апреля 2018 г.

Источники [ править ]

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец оригинального документа.
Arc.Ask3.Ru
Номер скриншота №: CD012118F1928F571401EFA978107962__1715200560
URL1:https://en.wikipedia.org/wiki/Hypergeometric_distribution
Заголовок, (Title) документа по адресу, URL1:
Hypergeometric distribution - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть, любые претензии не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, денежную единицу можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)