Jump to content

Проблема с днем ​​рождения

(Перенаправлено из «Парадокса дня рождения »)
Вычисленная вероятность того, что по крайней мере два человека имеют один день рождения, в зависимости от количества людей.

В теории вероятностей задача о дне рождения предполагает вероятность того, что из n случайно выбранных людей хотя бы у двоих день рождения будет одинаковым . Парадокс дня рождения связан с противоречивым фактом, что для того, чтобы вероятность превысить 50%, необходимо всего 23 человека.

Парадокс дня рождения — это настоящий парадокс : на первый взгляд он кажется неправильным, но на самом деле это правда. Хотя может показаться удивительным, что для достижения 50%-ной вероятности общего дня рождения требуется всего 23 человека, этот результат становится более интуитивным, если учесть, что сравнения дней рождения будут проводиться между каждой возможной парой людей. Из 23 человек есть 23 × 22/2 = 253 пары , которые следует учитывать, что намного больше половины количества дней в году.

Реальные приложения для решения проблемы дня рождения включают криптографическую атаку, называемую атакой дня рождения , которая использует эту вероятностную модель для уменьшения сложности поиска коллизии для хеш-функции , а также для расчета приблизительного риска хеш-коллизии, существующей внутри хэшей. определенной численности населения.

Эту проблему обычно приписывают Гарольду Дэвенпорту примерно в 1927 году, хотя он тогда не опубликовал ее. Давенпорт не претендовал на роль его первооткрывателя, «потому что не мог поверить, что об этом не было заявлено ранее». [1] [2] Первую версию задачи о дне рождения опубликовал Рихард фон Мизес в 1939 году. [3]

Вычисление вероятности

[ редактировать ]

С точки зрения перестановок , пусть событием А будет вероятность найти группу из 23 человек без повторяющихся дней рождения. Если событие B — это вероятность найти группу из 23 человек, в которой по крайней мере два человека имеют один и тот же день рождения, P ( B ) = 1 — P ( A ) . P ( A ) – отношение общего числа дней рождения, , без повторений и порядка (например, для группы из 2 человек, формат дня рождения мм/дд, один из возможных результатов: ) разделить на общее количество дней рождения с учетом повторений и порядка, , поскольку это общее пространство результатов эксперимента (например, 2 человека, один из возможных результатов — ). Поэтому и являются перестановками .

Другой способ решения проблемы дней рождения — запрос приблизительной вероятности того, что в группе из n человек хотя бы у двоих день рождения совпадает. Для простоты: високосные годы , близнецы , систематическая ошибка отбора , а также сезонные и еженедельные колебания рождаемости. [4] обычно не учитываются, а вместо этого предполагается, что существует 365 возможных дней рождения и что день рождения каждого человека с равной вероятностью приходится на любой из этих дней, независимо от других людей в группе.

Для независимых дней рождения равномерное распределение дней рождения сводит к минимуму вероятность того, что у двух человек в группе будет один и тот же день рождения. Любая неравномерность увеличивает вероятность того, что у двух людей день рождения будет совпадать. [5] [6] Однако реальные дни рождения не настолько неравномерны, чтобы что-то изменить: размер реальной группы, необходимый для того, чтобы вероятность общего дня рождения была более 50%, равна 23, как и в теоретическом равномерном распределении. [7]

Цель состоит в том, чтобы вычислить P ( B ) — вероятность того, что по крайней мере у двух человек в комнате день рождения совпадает. Однако проще вычислить P ( A ′) , вероятность того, что ни у одного человека в комнате не будет одинакового дня рождения. Тогда, поскольку B и A — единственные две возможности, а также взаимоисключающие , P ( B ) = 1 − P ( A ′).

Вот расчет P ( B ) для 23 человек. Пусть 23 человека будут пронумерованы от 1 до 23. Событие , когда у всех 23 человек дни рождения разные, аналогично событию, когда день рождения человека 2 не совпадает с днем ​​рождения человека 1, а день рождения человека 3 не совпадает с днем ​​рождения ни одного из них. человек 1 или человек 2 и так далее, и, наконец, у человека 23 день рождения не совпадает с днем ​​рождения человека с 1 по 22. Пусть эти события будут называться Событие 2, Событие 3 и так далее. Событие 1 — это событие, когда у человека 1 день рождения, что происходит с вероятностью 1. Это сочетание событий можно вычислить с использованием условной вероятности : вероятность События 2 равна 364 / 365 , поскольку у человека 2 может быть любой день рождения, кроме дня рождения человека 1. Аналогично, вероятность События 3 при условии, что произошло Событие 2, равна 363 / 365 , поскольку у человека 3 может быть любой из дней рождения, которые еще не были отмечены людьми 1 и 2. Это продолжается до тех пор, пока, наконец, вероятность События 23, учитывая, что все предыдущие события произошли, не равна 343/365 . Наконец, принцип условной вероятности подразумевает, что P ( A ′) равно произведению этих отдельных вероятностей:

( 1 )

Члены уравнения ( 1 ) можно объединить, чтобы получить:

( 2 )

Вычисление уравнения ( 2 ) дает P ( A ′) ≈ 0,492703.

Следовательно, P ( B ) ≈ 1 - 0,492703 = 0,507297 (50,7297%).

Этот процесс можно обобщить на группу из n человек, где p ( n ) — вероятность того, что по крайней мере у двух из n человек день рождения совпадет. Проще сначала вычислить вероятность p ( n ) того, что все n дней рождения разные . Согласно принципу «ячейки» , p ( n ) равно нулю, когда n > 365 . Когда n ≤ 365 :

где ! оператор факториала , ( 365
n
)
биномиальный коэффициент , а k P r обозначает перестановку .

Уравнение выражает тот факт, что у первого человека нет одного дня рождения, у второго человека не может быть того же дня рождения, что и у первого ( 364 / 365 ) , у третьего не может быть тот же день рождения, что и у первых двух ( 363 / 365 ) , и вообще n- й день рождения не может совпадать с любым из n - 1 предыдущих дней рождения.

Событие , когда по крайней мере у двух из n человек совпадают дни рождения, дополняется тем, что все n дней рождения различны. Следовательно, его вероятность p ( n ) равна

В следующей таблице показана вероятность некоторых других значений n (в этой таблице игнорируется существование високосных лет и предполагается, что каждый день рождения одинаково вероятен):

Вероятность того, что никакие два человека в группе из n человек не имеют одинаковых дней рождения. Обратите внимание, что вертикальный масштаб логарифмический (каждый шаг вниз равен 10). 20 раз менее вероятно).
н п ( п )
1 0 0.0%
5 0 2.7%
10 11.7%
20 41.1%
23 50.7%
30 70.6%
40 89.1%
50 97.0%
60 99.4%
70 99.9%
75 99.97%
100 99.999 97 %
200 99.999 999 999 999 999 999 999 999 9998 %
300 (100 − 6 × 10 −80 )%
350 (100 − 3 × 10 −129 )%
365 (100 − 1.45 × 10 −155 )%
≥ 366 100%

Приближения

[ редактировать ]
Графики, показывающие приблизительные вероятности того, что по крайней мере два человека имеют один день рождения ( red ) и дополнительное к нему событие ( синий )
График, показывающий точность аппроксимации 1 − e п 2 /730 ( красный )

( в ряд Тейлора Разложение показательной функции константа e 2,718 281 828 )

обеспечивает приближение первого порядка для e х для :

Чтобы применить это приближение к первому выражению, полученному для p ( n ) , установите x = − а / 365 . Таким образом,

Затем замените a неотрицательными целыми числами для каждого члена формулы p ( n ) до тех пор, пока a = n - 1 , например, когда a = 1 ,

Первое выражение, полученное для p ( n ), можно аппроксимировать как

Поэтому,

Еще более грубое приближение дается формулой

который, как показывает график, все еще довольно точен.

Согласно приближению, тот же подход можно применить к любому количеству «людей» и «дней». Если вместо 365 дней есть d , если есть n человек и если n d , то, используя тот же подход, что и выше, мы достигаем результата, что если p ( n , d ) - это вероятность того, что хотя бы двое из n у людей один и тот же день рождения из набора d доступных дней, тогда:

Простое возведение в степень

[ редактировать ]

Вероятность того, что у любых двух людей день рождения не совпадет, равна 364/365 . В комнате, содержащей n человек, находятся ( н
2
) = n ( n − 1) / 2
пар людей, т.е. ( н
2
)
события. Вероятность того, что никакие два человека не родятся в один и тот же день рождения, можно приблизительно определить, если предположить, что эти события независимы, и, следовательно, перемножив их вероятность. Быть независимым было бы равносильно выбору замены любой пары людей в мире, а не только в комнате. Суммируя 364/365 на ( можно умножить само себя н
2
)
раз, что дает нам

Поскольку это вероятность того, что ни у кого не будет одного и того же дня рождения, то вероятность того, что у кого-то день рождения совпадет, равна

А для группы из 23 человек вероятность поделиться равна

Пуассоновское приближение

[ редактировать ]

Применяя приближение Пуассона для бинома на группе из 23 человек:

так

Результат превышает 50%, как описано в предыдущих описаниях. Это приближение такое же, как и приведенное выше, основанное на разложении Тейлора, в котором используется e х ≈ 1 + х .

Квадратное приближение

[ редактировать ]

Хорошим эмпирическим правилом , которое можно использовать для мысленных вычислений, является соотношение

что также можно записать как

который хорошо работает для вероятностей, меньших или равных 1/2 . В этих уравнениях d — количество дней в году.

Например, чтобы оценить количество людей, необходимых для 1/2 получаем шанс на общий день рождения, мы

Что не так уж далеко от правильного ответа 23.

Примерное количество человек

[ редактировать ]

Это также можно приблизительно определить, используя следующую формулу для количества людей, необходимых для того, чтобы иметь хотя бы 1 / 2 шанс совпадения:

Это результат хорошего приближения, согласно которому событие с 1 / k вероятность будет иметь 1/2 хотя бы один раз , вероятность появления если оно повторяется k ln 2 раза. [8]

Таблица вероятностей

[ редактировать ]
длина
шестнадцатеричная строка
нет. из
биты
( б )
хеш-пространство
размер
( 2 б )
Количество хешированных элементов, при которых вероятность хотя бы одного хеш-коллизии ≥ p
р = 10 −18 р = 10 −15 р = 10 −12 р = 10 −9 р = 10 −6 р = 0,001 р = 0,01 р = 0,25 р = 0,50 р = 0,75
8 32 4.3 × 10 9 2 2 2 2.9 93 2.9 × 10 3 9.3 × 10 3 5.0 × 10 4 7.7 × 10 4 1.1 × 10 5
(10) (40) ( 1.1 × 10 12 ) 2 2 2 47 1.5 × 10 3 4.7 × 10 4 1.5 × 10 5 8.0 × 10 5 1.2 × 10 6 1.7 × 10 6
(12) (48) ( 2.8 × 10 14 ) 2 2 24 7.5 × 10 2 2.4 × 10 4 7.5 × 10 5 2.4 × 10 6 1.3 × 10 7 2.0 × 10 7 2.8 × 10 7
16 64 1.8 × 10 19 6.1 1.9 × 10 2 6.1 × 10 3 1.9 × 10 5 6.1 × 10 6 1.9 × 10 8 6.1 × 10 8 3.3 × 10 9 5.1 × 10 9 7.2 × 10 9
(24) (96) ( 7.9 × 10 28 ) 4.0 × 10 5 1.3 × 10 7 4.0 × 10 8 1.3 × 10 10 4.0 × 10 11 1.3 × 10 13 4.0 × 10 13 2.1 × 10 14 3.3 × 10 14 4.7 × 10 14
32 128 3.4 × 10 38 2.6 × 10 10 8.2 × 10 11 2.6 × 10 13 8.2 × 10 14 2.6 × 10 16 8.3 × 10 17 2.6 × 10 18 1.4 × 10 19 2.2 × 10 19 3.1 × 10 19
(48) (192) ( 6.3 × 10 57 ) 1.1 × 10 20 3.5 × 10 21 1.1 × 10 23 3.5 × 10 24 1.1 × 10 26 3.5 × 10 27 1.1 × 10 28 6.0 × 10 28 9.3 × 10 28 1.3 × 10 29
64 256 1.2 × 10 77 4.8 × 10 29 1.5 × 10 31 4.8 × 10 32 1.5 × 10 34 4.8 × 10 35 1.5 × 10 37 4.8 × 10 37 2.6 × 10 38 4.0 × 10 38 5.7 × 10 38
(96) (384) ( 3.9 × 10 115 ) 8.9 × 10 48 2.8 × 10 50 8.9 × 10 51 2.8 × 10 53 8.9 × 10 54 2.8 × 10 56 8.9 × 10 56 4.8 × 10 57 7.4 × 10 57 1.0 × 10 58
128 512 1.3 × 10 154 1.6 × 10 68 5.2 × 10 69 1.6 × 10 71 5.2 × 10 72 1.6 × 10 74 5.2 × 10 75 1.6 × 10 76 8.8 × 10 76 1.4 × 10 77 1.9 × 10 77
Сравнение проблемы дня рождения (1) и атаки дня рождения (2):
В (1) столкновения обнаружены в пределах одного набора, в данном случае 3 из 276 пар 24 лунных астронавтов.
В (2) обнаружены коллизии между двумя наборами, в данном случае 1 из 256 пар только первых байтов SHA-256 хэшей по 16 вариантов каждого из доброкачественных и вредных контрактов.

Более светлые поля в этой таблице показывают количество хэшей, необходимых для достижения заданной вероятности коллизии (столбец) при заданном хэш-пространстве определенного размера в битах (строка). Используя аналогию с днем ​​рождения: «размер хэш-пространства» напоминает «доступные дни», «вероятность столкновения» напоминает «вероятность общего дня рождения», а «необходимое количество хешированных элементов» напоминает «необходимое количество людей в группа». Эту диаграмму можно также использовать для определения минимально необходимого размера хеша (с учетом верхних границ хэшей и вероятности ошибки) или вероятности коллизии (для фиксированного количества хэшей и вероятности ошибки).

Для сравнения: 10 −18 до 10 −15 — это частота неисправимых битовых ошибок типичного жесткого диска. [9] Теоретически 128-битные хеш-функции, такие как MD5 , должны оставаться в этом диапазоне примерно до 8,2 × 10. 11 документов, даже если его возможных результатов гораздо больше.

Верхняя граница вероятности и нижняя граница количества людей

[ редактировать ]

Приведенный ниже аргумент адаптирован из аргумента Пола Халмоша . [номер 1]

Как указано выше, вероятность того, что никакие два дня рождения не совпадут, равна

Как и в предыдущих параграфах, интерес представляет наименьшее n такое, что p ( n ) > 1/2 ; ​или, что то же самое, наименьшее n такое, что p ( n ) < 1 / 2 .

Используя неравенство 1 − x < e х в приведенном выше выражении мы заменяем 1 — к / 365 с е k 365 . Это дает

Следовательно, выражение выше является не только приближением, но и границей верхней p ( n ) . Неравенство

подразумевает p ( n ) < 1/2 . Решение для n дает

Теперь 730 ln 2 составляет примерно 505,997, что чуть ниже 506, значение n 2 n достигается, когда n = 23 . Поэтому 23 человека достаточно. Кстати, решение n 2 n = 730 ln 2 для n дает приближенную формулу Фрэнка Х. Мэтиса, цитированную выше.

Этот вывод показывает только, что необходимо не более 23 человек, чтобы шансы на совпадение по случаю дня рождения были хотя бы равными; это оставляет открытой возможность того, что n равно 22 или меньше тоже может работать.

Обобщения

[ редактировать ]

Произвольное количество дней

[ редактировать ]

Учитывая год с d днями, обобщенная задача о днях рождения требует минимального числа n ( d ) такого, что в наборе из n случайно выбранных людей вероятность совпадения дней рождения составляет не менее 50%. Другими словами, n ( d ) — минимальное целое число n такое, что

Таким образом, классическая проблема дня рождения соответствует определению n (365) . первые 99 значений n ( d ) Здесь приведены (последовательность A033810 в OEIS ):

д 1–2 3–5 6–9 10–16 17–23 24–32 33–42 43–54 55–68 69–82 83–99
п ( д ) 2 3 4 5 6 7 8 9 10 11 12

Аналогичный расчет показывает, что n ( d ) = 23, когда d находится в диапазоне 341–372.

ряд оценок и формул для n ( d ) . Был опубликован [10] Для любого d ≥ 1 число n ( d ) удовлетворяет условию [11]

Эти границы оптимальны в том смысле, что последовательность n ( d ) − 2 d ln 2 становится сколь угодно близко к

пока у него есть

в качестве максимума взято при d = 43 .

Границы достаточно точные, чтобы дать точное значение n ( d ) в большинстве случаев. Например, для d = 365 эти границы подразумевают, что 22,7633 < n (365) < 23,7736 и 23 — единственное целое число в этом диапазоне. В общем случае из этих границ следует, что n ( d ) всегда равно либо

где ⌈ · ⌉ обозначает функцию потолка .Формула

справедливо для 73% всех целых чисел d . [12] Формула

справедливо для почти всех d , т. е. для набора целых чисел d с асимптотической плотностью 1. [12]

Формула

справедливо для всех d 10 18 , но предполагается, что контрпримеров этой формуле бесконечно много. [13]

Формула

справедливо для всех d 10 18 , и предполагается, что эта формула справедлива для всех d . [13]

День рождения у более двух человек

[ редактировать ]

Можно расширить задачу и спросить, сколько человек в группе необходимо, чтобы с вероятностью более 50% по крайней мере 3, 4, 5 и т. д. из группы имели один и тот же день рождения.

Первые несколько значений таковы: >50% вероятность того, что у 3 человек один день рождения - 88 человек; >50% вероятность того, что у четырех человек один день рождения — 187 человек (последовательность A014088 в OEIS ). [14]

Вероятность общего дня рождения (столкновение)

[ редактировать ]

Проблему дня рождения можно обобщить следующим образом:

Учитывая n случайных целых чисел, взятых из дискретного равномерного распределения с диапазоном [1, d ] , какова вероятность p ( n ; d ), что хотя бы два числа окажутся одинаковыми? ( d = 365 дает обычную задачу о дне рождения.) [15]

Общие результаты могут быть получены с использованием тех же аргументов, что приведены выше.

И наоборот, если n ( p ; d ) обозначает количество случайных целых чисел, взятых из [1, d ] для получения вероятности p того, что по крайней мере два числа одинаковы, тогда

Проблема дня рождения в более общем смысле применима к хеш-функциям : ожидаемое количество N - битных хэшей, которые могут быть сгенерированы до возникновения коллизии, не равно 2. Н , а скорее только 2 N 2 . Это используется атаками «дня рождения» на криптографические хэш-функции и является причиной того, что небольшое количество коллизий в хеш-таблице для всех практических целей неизбежно.

Теорию проблемы дня рождения использовала Зои Шнабель. [16] под названием « статистика повторного вылова» для оценки численности рыбной популяции в озерах.

Обобщение на несколько типов людей

[ редактировать ]
График вероятности хотя бы одного общего дня рождения хотя бы у одного мужчины и одной женщины

Основная проблема заключается в том, что все испытания относятся к одному «типу». Проблема дня рождения была обобщена для рассмотрения произвольного числа типов. [17] В простейшем случае есть два типа людей, скажем, m мужчин и n женщин, и проблема становится в том, чтобы определить вероятность общего дня рождения хотя бы у одного мужчины и одной женщины. (Совместные дни рождения двух мужчин или двух женщин не учитываются.) Вероятность отсутствия общих дней рождения здесь равна

где d = 365 и S 2 числа Стирлинга второго рода . Следовательно, желаемая вероятность равна 1 − p 0 .

Этот вариант задачи о дне рождения интересен тем, что не существует единственного решения для общего числа людей m + n . Например, обычное значение вероятности 50% реализуется как для группы из 32 человек (16 мужчин и 16 женщин), так и для группы из 49 человек (43 женщины и 6 мужчин).

Другие проблемы с днем ​​рождения

[ редактировать ]

Первый матч

[ редактировать ]

Связанный с этим вопрос: когда люди входят в комнату по одному, у кого из них, скорее всего, будет тот же день рождения, что и у кого-то, кто уже находится в комнате? То есть, для какого n является p ( n ) − p ( n − 1) максимальным? Ответ: 20. Если за первое совпадение есть приз, то лучшая позиция в очереди — 20-я. [ нужна ссылка ]

Тот же день рождения, что и у тебя

[ редактировать ]
Сравнение p ( n ) = вероятности совпадения дня рождения с q ( n ) = вероятность совпадения вашего дня рождения

В задаче о дне рождения ни один из двух человек не выбран заранее. Напротив, вероятность q ( n ) того, что хотя бы у одного человека в комнате, состоящей из n других людей, день рождения совпадает с днем ​​рождения конкретного человека (например, вас), определяется выражением

и для общего d по

В стандартном случае d = 365 замена n = 23 дает около 6,1%, что составляет менее 1 шанса из 16. Для вероятности более 50%, что хотя бы у одного человека в комнате из n человек день рождения совпадает. как и вы , n должно быть не менее 253. Это число значительно выше, чем 365 / 2 = 182,5 : причина в том, что среди других людей в комнате, вероятно, есть совпадения по случаю дня рождения.

Количество людей с общим днем ​​рождения

[ редактировать ]

Для любого человека в группе из n человек вероятность того, что день его рождения совпадает с кем-то еще, равна , как объяснено выше. Ожидаемое количество людей с общим (неуникальным) днем ​​рождения теперь можно легко вычислить, умножив эту вероятность на количество людей ( n ), то есть:

(Это умножение можно выполнить таким образом из-за линейности ожидаемого значения индикаторных переменных). Это означает, что ожидаемое количество людей с необщим (уникальным) днем ​​рождения составляет:

Аналогичные формулы можно вывести для ожидаемого числа людей, которые делятся с тремя, четырьмя и т. д. другими людьми.

Количество человек до достижения каждого дня рождения

[ редактировать ]

Ожидаемое количество людей, необходимое для достижения каждого дня рождения, называется задачей коллекционера купонов . Его можно рассчитать по формуле nH n , где H n n- й номер гармоники . Для 365 возможных дат (задача о днях рождения) ответ — 2365.

Рядом матчи

[ редактировать ]

Другое обобщение состоит в том, чтобы задаться вопросом о вероятности найти хотя бы одну пару в группе из n людей, дни рождения которых находятся в пределах k календарных дней друг от друга, если имеется d одинаково вероятных дней рождения. [18]

Количество людей, необходимое для того, чтобы вероятность того, что у некоторой пары день рождения будет разделен на k дней или меньше, была выше 50%, указано в следующей таблице:

к н
для d = 365
0 23
1 14
2 11
3 9
4 8
5 8
6 7
7 7

Таким образом, в группе всего из семи случайных людей более вероятно, чем нет, что у двоих из них день рождения будет с разницей в неделю. [18]

Количество дней с определенным количеством дней рождения

[ редактировать ]

Количество дней, в течение которых есть хотя бы один день рождения

[ редактировать ]

Ожидаемое количество разных дней рождения, то есть количество дней, в которые приходится день рождения хотя бы одному человеку, составляет:

Это следует из ожидаемого количества дней, в течение которых ни у кого нет дня рождения:

что следует из вероятности того, что в данный день ни у кого нет дня рождения ( d − 1 / d ) н
 
, легко суммируется из-за линейности ожидаемого значения.

Например, при d = 365 вы должны ожидать около 21 разных дней рождения, если в группе 22 человека, или 46 разных дней рождения, если в группе 50 человек. При 1000 человек будет около 341 разных дней рождения (24 невостребованных дня рождения).

Количество дней с минимум двумя днями рождения

[ редактировать ]

Вышеизложенное можно обобщить на основе распределения числа людей с днем ​​рождения в любой конкретный день, которое представляет собой биномиальное распределение с вероятностью. 1 / д . Умножение соответствующей вероятности на d даст ожидаемое количество дней. Например, ожидаемое количество дней, которые будут разделены; т.е. у которых хотя бы два (т.е. не ноль и не один) день рождения человека:

Количество людей, у которых день рождения повторяется

[ редактировать ]

Вероятность того, что k -е целое число, случайно выбранное из [1, d ] повторит хотя бы один предыдущий выбор, равна q ( k - 1; d ) , указанному выше. Ожидаемое общее количество раз, когда выбор будет повторять предыдущий выбор, поскольку n таких целых чисел, равно выбрано [19]

Можно увидеть, что это равно количеству людей минус ожидаемое количество разных дней рождения.

Среднее количество людей, у которых будет хотя бы один общий день рождения

[ редактировать ]

В альтернативной формулировке задачи о дне рождения задается вопрос о среднем количестве людей, необходимых для поиска пары с одинаковым днем ​​рождения. Если мы рассмотрим функцию вероятности Pr[ n людей имеют хотя бы один общий день рождения], это среднее значение определяет среднее значение распределения, в отличие от обычной формулировки, которая требует медианы . Проблема актуальна для нескольких алгоритмов хеширования, проанализированных Дональдом Кнутом в его книге «Искусство компьютерного программирования» . Это может быть показано [20] [21] что если производить выборку равномерно, с замещением, из популяции размером M , количество испытаний, необходимых для первой повторной выборки некоторого индивидуума, имеет ожидаемое значение n = 1 + Q ( M ) , где

Функция

был изучен Шринивасой Рамануджаном и имеет асимптотическое разложение :

При M = 365 дней в году среднее количество людей, необходимое для поиска пары с одинаковым днем ​​рождения, составляет n = 1 + Q ( M ) ≈ 24,61659 , что несколько больше 23, числа, необходимого для 50% вероятности. В лучшем случае хватит двух человек; максимально возможное количество М +1=366 в худшем случае необходимо человек; но в среднем требуется всего 25 человек

Анализ с использованием индикаторных случайных величин может обеспечить более простой, но приблизительный анализ этой проблемы. [22] Для каждой пары ( i , j ) для k человек в комнате мы определяем индикаторную случайную величину X ij , для , к

Пусть X — случайная величина, подсчитывающая пары людей с одинаковым днем ​​рождения.

Для n = 365 , если k = 28 , ожидаемое количество пар людей с одинаковым днем ​​рождения равно 28×27 / 2×365 ≈ 1,0356. Следовательно, мы можем ожидать как минимум одну совпадающую пару, состоящую как минимум из 28 человек.

На чемпионате мира по футболу 2014 года в каждой из 32 команд было по 23 игрока. Анализ официальных списков команд показал, что в 16 командах были пары игроков с одинаковыми днями рождения, и из этих 5 команд было по две пары: Аргентина, Франция, Иран, Южная Корея и Швейцария имели по две пары, а также Австралия, Босния и Герцеговина, Бразилия. , Камерун, Колумбия, Гондурас, Нидерланды, Нигерия, Россия, Испания и США по одной паре. [23]

Ворачек, Тран и Форман показали, что большинство людей заметно переоценивают количество людей, необходимое для достижения заданной вероятности того, что у людей один и тот же день рождения, и заметно недооценивают вероятность того, что у людей один и тот же день рождения, когда задан определенный размер выборки. . [24] Дальнейшие результаты показали, что студенты-психологи и женщины справились с заданием лучше, чем посетители/персонал казино или мужчины, но были менее уверены в своих оценках.

Обратная задача

[ редактировать ]

Обратная задача состоит в том, чтобы найти для фиксированной p вероятности наибольшее n, для которого вероятность p ( n ) меньше заданного p , или наименьшее n, для которого вероятность p ( n ) больше заданного p . [ нужна ссылка ]

Взяв приведенную выше формулу для d = 365 , имеем

В следующей таблице приведены некоторые примеры расчетов.

п н n п ( п ↓) n п ( п ↑)
0.01 0.14178 365 = 2.70864 2 0.00274 3 0.00820
0.05 0.32029 365 = 6.11916 6 0.04046 7 0.05624
0.1 0.45904 365 = 8.77002 8 0.07434 9 0.09462
0.2 0.66805 365 = 12.76302 12 0.16702 13 0.19441
0.3 0.84460 365 = 16.13607 16 0.28360 17 0.31501
0.5 1.17741 365 = 22.49439 22 0.47570 23 0.50730
0.7 1.55176 365 = 29.64625 29 0.68097 30 0.70632
0.8 1.79412 365 = 34.27666 34 0.79532 35 0.81438
0.9 2.14597 365 = 40.99862 40 0.89123 41 0.90315
0.95 2.44775 365 = 46.76414 46 0.94825 47 0.95477
0.99 3.03485 365 = 57.98081 57 0.99012 58 0.99166

Некоторые значения, выходящие за пределы границ, окрашены в цвет, чтобы показать, что аппроксимация не всегда точна.

Проблема с разделом

[ редактировать ]

Связанной с этим проблемой является задача о перегородках , вариант задачи о рюкзаке из исследования операций . Некоторые гири помещаются на весы ; каждый вес представляет собой целое число граммов, случайно выбранное между одним граммом и одним миллионом граммов (одна тонна ). Вопрос в том, можно ли обычно (то есть с вероятностью, близкой к 1) переносить гири между левой и правой руками, чтобы сбалансировать весы. (В случае, если сумма всех гирь представляет собой нечетное число граммов, допускается расхождение в один грамм.) Если гирь всего две или три, ответ явно отрицательный; хотя есть некоторые комбинации, которые работают, большинство случайно выбранных комбинаций из трех весов не работают. Если весов очень много, ответ однозначно — да. Вопрос в том, сколько их будет достаточно? То есть, каково количество гирь, при которых их можно сбалансировать с равной вероятностью и невозможностью?

Часто интуиция людей подсказывает, что ответ выше 100 000 . Интуиция большинства людей подсказывает, что их число исчисляется тысячами или десятками тысяч, в то время как другие считают, что их должно быть по крайней мере сотни. Правильный ответ: 23. [ нужна ссылка ]

Причина в том, что правильное сравнение заключается в количестве делений весов на левые и правые. Есть 2 Н - 1 разные разделы для N весов, а левую сумму минус правую сумму можно рассматривать как новую случайную величину для каждого раздела. Распределение суммы весов приблизительно гауссово , с пиком при 500 000 Н и шириной 1 000 000 Н , так что при 2 Н - 1 приблизительно равен 1 000 000 N, происходит переход. 2 23 − 1 составляет около 4 миллионов, тогда как ширина распределения всего 5 миллионов. [25]

В художественной литературе

[ редактировать ]

В романе Артура Кларка 1961 года «Падение лунной пыли» есть раздел, в котором главные герои, запертые под землей на неопределенное время, празднуют день рождения и обсуждают обоснованность проблемы дня рождения. Как заявил пассажир-физик: «Если в вашей группе более двадцати четырех человек, шансы выше, чем даже если у двоих из них день рождения в один и тот же день». В конце концов, из 22 присутствующих выясняется, что у двух персонажей один и тот же день рождения - 23 мая.

Примечания

[ редактировать ]
  1. В своей автобиографии Халмош раскритиковал форму, в которой парадокс дня рождения часто представляется с точки зрения числовых вычислений. Он считал, что его следует использовать в качестве примера при использовании более абстрактных математических понятий. Он написал:

    Рассуждения основаны на важных инструментах, к которым все студенты-математики должны иметь свободный доступ. Проблема дня рождения когда-то была великолепной иллюстрацией преимуществ чистой мысли перед механическими манипуляциями; неравенства можно получить за минуту или две, тогда как умножение заняло бы гораздо больше времени и было бы гораздо более подвержено ошибкам, независимо от того, является ли инструментом карандаш или старомодный настольный компьютер. Чего калькуляторы не дают, так это понимания, математических способностей или прочной основы для более продвинутых, обобщенных теорий.

  1. ^ Дэвид Сингмастер , Источники по развлекательной математике: аннотированная библиография , восьмое предварительное издание, 2004, раздел 8.B
  2. ^ HSM Coxeter , «Математические развлечения и эссе, 11-е издание», 1940, стр. 45, как сообщается в IJ Good , Probability and the взвешивание доказательств , 1950, стр. 45. 38
  3. ^ Рихард фон Мизес, «О вероятностях разделения и оккупации», Revue de la faculté des Sciences de l'Université d'Istanbul 4 : 145-163, 1939, перепечатано в Франк, П.; Гольдштейн, С.; Кац, М.; Прагер, В.; Сегё, Г.; Биркгоф, Г., ред. (1964). Избранные статьи Рихарда фон Мизеса . Том. 2. Провиденс, Род-Айленд: Амер. Математика. Соц. стр. 313–334.
  4. ^ см . День рождения#Распределение по году.
  5. ^ ( Блум 1973 )
  6. ^ Стил, Дж. Майкл (2004). Мастер-класс Коши-Шварца . Кембридж: Издательство Кембриджского университета. стр. 206 , 277. ISBN.  9780521546775 .
  7. ^ Марио Кортина Борха; Джон Хей (сентябрь 2007 г.). «Проблема дня рождения» . Значение . 4 (3). Королевское статистическое общество: 124–127. дои : 10.1111/j.1740-9713.2007.00246.x .
  8. ^ Матис, Фрэнк Х. (июнь 1991 г.). «Общая проблема дня рождения» . Обзор СИАМ . 33 (2): 265–270. дои : 10.1137/1033051 . ISSN   0036-1445 . JSTOR   2031144 . ОСЛК   37699182 .
  9. ^ Джим Грей, Кэтрин ван Инген. Эмпирические измерения частоты отказов дисков и частоты ошибок
  10. ^ Д. Бринк, (вероятно) точное решение проблемы дня рождения, Ramanujan Journal, 2012, [1] .
  11. ^ Бринк 2012 , Теорема 2
  12. Перейти обратно: Перейти обратно: а б Бринк 2012 , Теорема 3
  13. Перейти обратно: Перейти обратно: а б Brink 2012 , Таблица 3, Гипотеза 1
  14. ^ «Минимальное количество людей, обеспечивающее 50% вероятность того, что в течение одного года у них совпадут как минимум n дней рождения» . Интернет-энциклопедия целочисленных последовательностей . ОЭИС . Проверено 17 февраля 2020 г.
  15. ^ Сузуки, К.; Тониен, Д.; и др. (2006). «Парадокс дня рождения мультиколлизий». В Ри MS, Ли Б. (ред.). Конспекты лекций по информатике, том 4296 . Берлин: Шпрингер. дои : 10.1007/11927587_5 . Информационная безопасность и криптология – ICISC 2006.
  16. ^ З. Э. Шнабель (1938) Оценка общей численности рыб в озере , American Mathematical Monthly 45 , 348–352.
  17. ^ MC Wendl (2003) Вероятность столкновения между наборами случайных величин , Статистика и буквы о вероятности 64 (3), 249–254.
  18. Перейти обратно: Перейти обратно: а б М. Абрамсон и В.О. Мозер (1970) Еще сюрпризы на день рождения , American Mathematical Monthly 77 , 856–858
  19. ^ Возможно, Мэтт. «Хэш-столкновения столкновений с парадоксом дня рождения» . Блог Мэтта Мэйта . Проверено 17 июля 2015 г.
  20. ^ Кнут, DE (1973). Искусство компьютерного программирования . Том. 3. Сортировка и поиск. Ридинг, Массачусетс: Аддисон-Уэсли. ISBN  978-0-201-03803-3 .
  21. ^ Флажоле, П.; Грабнер, П.Дж.; Киршенхофер, П.; Продингер, Х. (1995). «О Q-функции Рамануджана» . Журнал вычислительной и прикладной математики . 58 : 103–116. дои : 10.1016/0377-0427(93)E0258-N .
  22. ^ Кормен; и др. Введение в алгоритмы .
  23. ^ Флетчер, Джеймс (16 июня 2014 г.). «Парадокс дня рождения на чемпионате мира» . bbc.com . Би-би-си . Проверено 27 августа 2015 г.
  24. ^ Ворачек, М.; Тран, США; Форман, АК (2008). «Проблемы дня рождения и родителя: неправильные представления о вероятности среди студентов-психологов, посетителей и персонала казино». Перцептивные и моторные навыки . 106 (1): 91–103. дои : 10.2466/pms.106.1.91-103 . ПМИД   18459359 . S2CID   22046399 .
  25. ^ Боргс, К.; Чейс, Дж.; Питтель, Б. (2001). «Фазовый переход и масштабирование конечного размера в задаче целочисленного разбиения». Случайные структуры и алгоритмы . 19 (3–4): 247–288. дои : 10.1002/rsa.10004 . S2CID   6819493 .

Библиография

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d01ed488497319a90c60dc59d4f4ae04__1721296560
URL1:https://arc.ask3.ru/arc/aa/d0/04/d01ed488497319a90c60dc59d4f4ae04.html
Заголовок, (Title) документа по адресу, URL1:
Birthday problem - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)