Проверка честности монеты

В статистике вопрос проверки честности монеты — это вопрос, важность которого заключается, во-первых, в постановке простой задачи, на которой можно проиллюстрировать основные идеи статистического вывода , и, во-вторых, в постановке простой задачи, которую можно использовать для сравнения различных конкурирующие методы статистического вывода, включая теорию принятия решений . Практическая проблема проверки честности монеты может считаться легко решаемой путем проведения достаточно большого количества испытаний, но статистика и теория вероятностей могут дать рекомендации по двум типам вопросов; в частности, сколько испытаний необходимо предпринять и точность оценки вероятности выпадения орла, полученной на основе данной выборки испытаний.

Честная монета — это идеализированное устройство рандомизации с двумя состояниями (обычно называемыми «орлом» и «решкой» ), возникновение которых одинаково вероятно. Он основан на подбрасывании монеты, широко используемом в спорте и других ситуациях, когда требуется дать двум сторонам одинаковые шансы на победу. Используется либо специально разработанный чип , либо, что чаще, простая денежная монета , хотя последняя может быть немного «несправедливой» из-за асимметричного распределения веса, из-за чего одно состояние может возникать чаще, чем другое, давая одной стороне несправедливое преимущество. . ^[1] Поэтому, возможно, придется экспериментально проверить, действительно ли монета «честная», то есть составляет ли вероятность падения монеты на любую сторону при ее подбрасывании ровно 50%. Конечно, невозможно исключить сколь угодно малые отклонения от справедливости, которые, как можно было бы ожидать, повлияют только на один бросок за всю жизнь; Кроме того, всегда возможно, что на нечестной (или « предвзятой ») монете за 20 подбрасываний выпадет ровно 10 орлов. Следовательно, любой тест на справедливость должен лишь устанавливать определенную степень уверенности в определенной степени справедливости (определенную максимальную предвзятость). В более строгой терминологии проблема заключается в определении параметров процесса Бернулли , учитывая лишь ограниченную выборку испытаний Бернулли .

Преамбула

В этой статье описываются экспериментальные процедуры определения того, является ли монета честной или несправедливой. Существует множество статистических методов анализа такой экспериментальной процедуры. Эта статья иллюстрирует два из них.

Оба метода предусматривают эксперимент (или испытание), в ходе которого монету подбрасывают много раз и записывают результат каждого подбрасывания. Затем результаты можно проанализировать статистически, чтобы решить, является ли монета «честной» или «вероятно, нечестной».

Апостериорная функция плотности вероятности , или PDF ( байесовский подход ). Первоначально истинная вероятность получения определенной стороны при подбрасывании монеты неизвестна, но неопределенность представлена « априорным распределением ». Теория байесовского вывода используется для получения апостериорного распределения путем объединения априорного распределения и функции правдоподобия , которая представляет информацию, полученную в результате эксперимента. Вероятность того, что эта конкретная монета является «честной монетой», затем может быть получена путем интегрирования PDF апостериорного распределения по соответствующему интервалу, который представляет все вероятности, которые можно считать «честными» в практическом смысле.
Оценка истинной вероятности ( частотный подход ). Этот метод предполагает, что экспериментатор может решить подбросить монету любое количество раз. Экспериментатор сначала принимает решение о требуемом уровне уверенности и допустимой погрешности. Эти параметры определяют минимальное количество бросков, которое необходимо выполнить для завершения эксперимента.

Важная разница между этими двумя подходами заключается в том, что первый подход придает некоторый вес предыдущему опыту бросания монет, а второй - нет. Вопрос о том, какой вес придавать предыдущему опыту в зависимости от качества (достоверности) этого опыта, обсуждается в рамках теории достоверности .

Апостериорная функция плотности вероятности

Одним из методов является вычисление апостериорной функции плотности вероятности байесовской теории вероятностей .

Тест проводится путем подбрасывания монеты N раз и наблюдения за наблюдаемым количеством орлов h и решек t . Символы H и T обозначают более обобщенные переменные, выражающие количество орлов и решек соответственно, которые могли наблюдаться в эксперименте. Таким образом, N знак равно ЧАС + Т = час + т .

Далее, пусть r будет фактической вероятностью выпадения орла при одном подбрасывании монеты. Это свойство монеты, которую исследуют. Используя теорему Байеса , апостериорная плотность вероятности r при условии h и t выражается следующим образом:

f(r\mid H=h,T=t)={\frac {\Pr(H=h\mid r,N=h+t)\,g(r)}{\int _{0}^{1}\Pr(H=h\mid p,N=h+t)\,g(p)\,dp}},

где g ( r ) представляет априорное распределение плотности вероятности r , которое лежит в диапазоне от 0 до 1.

Априорное распределение плотности вероятности суммирует то, что известно о распределении r в отсутствие каких-либо наблюдений. Будем предполагать, что распределение r равномерно на априорное интервале [0, 1]. То есть g ( r ) = 1. (На практике было бы более уместно предположить априорное распределение, которое имеет гораздо больший вес в районе 0,5, чтобы отразить наш опыт с реальными монетами.)

Вероятность получения h орлов при N подбрасываниях монеты с вероятностью выпадения орла, равной r, определяется биномиальным распределением :

\Pr(H=h\mid r,N=h+t)={N \choose h}r^{h}(1-r)^{t}.

Подставив это в предыдущую формулу:

f(r\mid H=h,T=t)={\frac {{N \choose h}r^{h}(1-r)^{t}}{\int _{0}^{1}{N \choose h}p^{h}(1-p)^{t}\,dp}}={\frac {r^{h}(1-r)^{t}}{\int _{0}^{1}p^{h}(1-p)^{t}\,dp}}.

Фактически это бета-распределение ( сопряженное априорное биномиальное распределение), знаменатель которого можно выразить через бета-функцию :

f(r\mid H=h,T=t)={\frac {1}{\mathrm {B} (h+1,t+1)}}r^{h}(1-r)^{t}.

Поскольку предполагалось равномерное априорное распределение и поскольку h и t являются целыми числами, это также можно записать в терминах факториалов :

f(r\mid H=h,T=t)={\frac {(h+t+1)!}{h!\,t!}}r^{h}(1-r)^{t}.

Пример

Например, пусть N = 10, h = 7, т.е. монету подбрасывают 10 раз и получается 7 орлов:

f(r\mid H=7,T=3)={\frac {(10+1)!}{7!\,3!}}r^{7}(1-r)^{3}=1320\,r^{7}(1-r)^{3}.

График справа показывает функцию плотности вероятности r , учитывая, что за 10 бросков было получено 7 орлов. (Примечание: r — вероятность выпадения орла при однократном подбрасывании одной и той же монеты.)

Вероятность для несмещенной монеты (определяемой для этой цели как монета, вероятность выпадения орла которой составляет где-то между 45% и 55%)

\Pr(0.45<r<0.55)=\int _{0.45}^{0.55}f(p\mid H=7,T=3)\,dp\approx 13\%\!

мал по сравнению с альтернативной гипотезой (предвзятой монетой). Однако он не настолько мал, чтобы заставить нас поверить в то, что монета имеет значительный уклон. Эта вероятность немного выше , чем наше предположение о вероятности того, что монета была честной, что соответствует равномерному априорному распределению, которое составляло 10%.Используя априорное распределение, которое отражает наши предварительные знания о том, что такое монета и как она действует, апостериорное распределение не будет способствовать гипотезе предвзятости. Однако количество попыток в этом примере (10 бросков) очень мало, и при большем количестве попыток выбор предварительного распределения будет несколько менее актуальным.)

При равномерном априоре апостериорное распределение вероятностей f ( r | H = 7, T = 3) достигает своего пика при r = h / ( h + t ) = 0,7; это значение называется максимальной апостериорной (MAP) оценкой r . Также при равномерном априоре ожидаемое значение r равно при апостериорном распределении

\operatorname {E} [r]=\int _{0}^{1}r\cdot f(r\mid H=7,T=3)\,\mathrm {d} r={\frac {h+1}{h+t+2}}={\frac {2}{3}}.

Оценщик истинной вероятности

Лучший оценщик фактической стоимости

r\,\!

это оценщик

p\,\!={\frac {h}{h+t}}

.

Эта оценка имеет погрешность (E), где $|p-r|<E$ на определенном уровне доверия.

Используя этот подход, чтобы определить, сколько раз монету следует подбросить, требуются два параметра:

Уровень доверия, обозначаемый доверительным интервалом (Z).
Максимальная (допустимая) погрешность (Е)

Уровень достоверности обозначается Z и задается значением Z стандартного нормального распределения . Это значение можно считать из стандартной таблицы статистики оценок для нормального распределения. Некоторые примеры:

Z-значение	Уровень уверенности	Комментарий
0.6745	дает 50.000 % уровень уверенности	Половина
1.0000	дает 68,269 уровень уверенности %	Один стандартный разработчик
1.6449	дает 90.000 % уровень уверенности	«Одна девятка»
1.9599	дает 95.000 % уровень уверенности	95 процентов
2.0000	дает 95,450 уровень уверенности %	Два стандартных разработчика
2.5759	дает 99.000 уровень уверенности %	«Две девятки»
3.0000	дает 99,730 уровень уверенности %	Три стандартных разработки
3.2905	дает 99,900 уровень уверенности %	«Три девятки»
3.8906	дает 99,990 уровень уверенности %	«Четыре девятки»
4.0000	дает 99,993 уровень уверенности %	Четыре стандартные разработки
4.4172	дает 99,999 уровень уверенности %	«Пять девяток»

Максимальная ошибка (E) определяется формулой $|p-r|<E$ где $p\,\!$ — предполагаемая вероятность выпадения орла. Примечание: $r$ такая же фактическая вероятность (выпадения орла), что и $r\,\!$ предыдущего раздела этой статьи.
В статистике оценка доли выборки (обозначаемая p ) имеет стандартную ошибку, определяемую следующим образом:

s_{p}={\sqrt {\frac {p\,(1-p)}{n}}}

где n — количество испытаний (которое было обозначено N в предыдущем разделе ).

Эта стандартная ошибка $s_{p}$ функция p имеет максимум при $p=(1-p)=0.5$ . Далее, в случае подбрасывания монеты, вполне вероятно, что p будет недалеко от 0,5, поэтому разумно принять p = 0,5 в следующем:

s_{p}\,\!

={\sqrt {\frac {p\,(1-p)}{n}}}\leq {\sqrt {\frac {0.5\times 0.5}{n}}}={\frac {1}{2\,{\sqrt {n}}}}

Следовательно, значение максимальной ошибки (E) определяется выражением

E=Z\,s_{p}={\frac {Z}{2\,{\sqrt {n}}}}

Нахождение необходимого количества бросков монеты n ,

n={\frac {Z^{2}}{4\,E^{2}}}\!

Примеры

1. Если желательна максимальная ошибка 0,01, сколько раз следует подбросить монету?

n={\frac {Z^{2}}{4\,E^{2}}}={\frac {Z^{2}}{4\times 0.01^{2}}}=2500\ Z^{2}

n=2500\,

при уровне достоверности 68,27% (Z=1)

n=10000\,

при уровне достоверности 95,45% (Z=2)

n=27225\,

при уровне достоверности 99,90% (Z=3,3)

2. Если монету подбросить 10000 раз, какова максимальная ошибка оценщика? $p\,\!$ о ценности $r\,\!$ (фактическая вероятность выпадения орла при подбрасывании монеты)?

E={\frac {Z}{2\,{\sqrt {n}}}}

E={\frac {Z}{2\,{\sqrt {10000}}}}={\frac {Z}{200}}

E=0.0050\,

при уровне достоверности 68,27% (Z=1)

E=0.0100\,

при уровне достоверности 95,45% (Z=2)

E=0.0165\,

при уровне достоверности 99,90% (Z=3,3)

3. Монету подбрасывают 12000 раз, в результате выпадает 5961 орел (и 6039 решка). В каком интервале находится значение $r\,\!$ (истинная вероятность выпадения орла) находится в пределах, если желателен уровень достоверности 99,999%?

p={\frac {h}{h+t}}\,={\frac {5961}{12000}}\,=0.4968

Теперь найдите значение Z, соответствующее уровню уверенности 99,999%.

Z=4.4172\,\!

Теперь вычислите Е

E={\frac {Z}{2\,{\sqrt {n}}}}\,={\frac {4.4172}{2\,{\sqrt {12000}}}}\,=0.0202

Таким образом, интервал, содержащий r:

p-E<r<p+E\,\!

0.4766<r<0.5170\,\!

Другие подходы

Другие подходы к вопросу проверки честности монеты доступны с использованием теории принятия решений , применение которой потребует формулировки функции потерь или функции полезности , которая описывает последствия принятия данного решения. Подход, который позволяет избежать необходимости использования функции потерь или априорной вероятности (как в байесовском подходе), представляет собой «приемочную выборку». ^[2]

Другие приложения

Приведенный выше математический анализ для определения честности монеты также можно применить и для других целей. Например:

Определение доли дефектных изделий для продукта, находящегося в определенных (но четко определенных) условиях. Иногда продукт может быть очень трудным или дорогим в производстве. Кроме того, если тестирование таких продуктов приведет к их уничтожению, необходимо протестировать минимальное количество предметов. Используя аналогичный анализ, можно найти функцию плотности вероятности уровня дефектности продукта.
Двухпартийное голосование. Если проводится небольшой случайный выборочный опрос, в котором есть только два взаимоисключающих варианта, то это похоже на подбрасывание одной монеты несколько раз, используя возможно предвзятую монету. Таким образом, аналогичный анализ можно применить для определения степени доверия к фактическому соотношению поданных голосов. (Если людям разрешено воздерживаться , то анализ должен это учитывать, а аналогия с подбрасыванием монеты не совсем верна.)
Определение соотношения полов в большой группе видов животных. При условии, что при выполнении случайной выборки совокупности берется небольшая случайная выборка (т.е. небольшая по сравнению с общей совокупностью), анализ аналогичен определению вероятности выпадения орла при подбрасывании монеты.

См. также

Ссылки

^ Однако, если монета поймана, а не подпрыгивает или вращается, трудно повлиять на результат подбрасывания монеты. Видеть Гельман , Эндрю; Дебора Нолан (2002). «Уголок учителя: можно загрузить игральную кость, но нельзя сместить монету». Американский статистик . 56 (4): 308–311. дои : 10.1198/000313002605 . S2CID 123597087 .
^ Кокс, Д.Р., Хинкли, Д.В. (1974) Теоретическая статистика (пример 11.7), Chapman & Hall. ISBN 0-412-12420-3

Гуттман, Уилкс и Хантер: Вводная инженерная статистика , John Wiley & Sons, Inc. (1971) ISBN 0-471-33770-6
Девиндер Сивия: анализ данных, байесовский учебник , Oxford University Press (1996) ISBN 0-19-851889-7

[1] Однако, если монета поймана, а не подпрыгивает или вращается, трудно повлиять на результат подбрасывания монеты. Видеть Гельман , Эндрю; Дебора Нолан (2002). «Уголок учителя: можно загрузить игральную кость, но нельзя сместить монету». Американский статистик . 56 (4): 308–311. дои : 10.1198/000313002605 . S2CID 123597087 .

[2] Кокс, Д.Р., Хинкли, Д.В. (1974) Теоретическая статистика (пример 11.7), Chapman & Hall. ISBN 0-412-12420-3

[1]

[2]