Проблема немецкого танка

В статистической теории оценки путем задача немецкого танка состоит в оценке максимума дискретного равномерного распределения выборки без замены . Проще говоря, предположим, что существует неизвестное количество элементов, которые последовательно пронумерованы от 1 N. до Берется случайная выборка этих элементов и наблюдаются их порядковые номера; проблема состоит в том, чтобы оценить N на основе этих наблюдаемых чисел.

К проблеме можно подойти, используя либо частотный вывод , либо байесовский вывод , что приводит к разным результатам. Оценка максимума совокупности на основе одной выборки дает разные результаты, тогда как оценка на основе нескольких выборок представляет собой практический вопрос оценки, ответ на который прост (особенно в частотной настройке), но не очевиден (особенно в байесовской настройке).

Проблема названа в честь ее исторического применения союзными войсками во Второй мировой войне для оценки ежемесячного темпа производства немецких танков на основе очень ограниченных данных. При этом использовалась производственная практика присвоения и прикрепления возрастающих последовательностей серийных номеров к компонентам танка (шасси, коробке передач, двигателю, колесам), при этом некоторые танки в конечном итоге были захвачены в бою союзными войсками.

Предположения

Предполагается, что противник изготовил серию танков, отмеченных последовательными целыми номерами, начиная с серийного номера 1. Кроме того, независимо от даты изготовления танка, истории службы или серийного номера, который он носит, распределение по серийным номерам становится выявляемая при анализе, является однородной до момента проведения анализа.

Пример

Предполагая, что танкам присвоены последовательные серийные номера, начинающиеся с 1, предположим, что захвачено четыре танка, которые имеют серийные номера: 19, 40, 42 и 60.

Частотный ) предсказывает , подход (с использованием несмещенной оценки с минимальной дисперсией что общее количество произведенных танков будет:

N\approx 74

Байесовский в подход (использование равномерного априора над целыми числами $[4,\Omega ]$ для любого достаточно большого $\Omega$ ) предсказывает, что среднее количество произведенных танков будет очень похоже на предсказание частоты:

N_{med}\approx 74.5

тогда как байесовское среднее предсказывает, что количество произведенных танков будет:

N_{av}\approx 89

Пусть $N$ равно общему количеству танков, которые, по прогнозам, будут произведены, $m$ равно наибольшему наблюдаемому серийному номеру, а $k$ равно количеству захваченных танков.

Частотный прогноз рассчитывается как:

N\approx m+{\frac {m}{k}}-1=74

Байесовская медиана рассчитывается как:

N_{med}\approx m+{\frac {m\ln(2)}{k-1}}=74.5

Байесовское среднее рассчитывается как:

N_{av}\approx (m-1){\frac {k-1}{k-2}}=89

Эти байесовские величины получены из байесовского апостериорного распределения:

\Pr(N=n)={\begin{cases}0&{\text{if }}n<m\\{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}&{\text{if }}n\geq m,\end{cases}}

Эта функция вероятностной массы имеет положительную асимметрию , связанную с тем, что имеется не менее 60 танков. Из-за этой асимметрии среднее значение может оказаться не самой значимой оценкой. Медиана в этом примере равна 74,5, что близко соответствует частотной формуле. Используя приближение Стирлинга , апостериорную величину можно аппроксимировать экспоненциально убывающей функцией n ,

\Pr(N=n)\approx {\begin{cases}0&{\text{if }}n<m\\(k-1)m^{k-1}n^{-k}&{\text{if }}n\geq m,\end{cases}}

что приводит к следующему приближению для медианы:

N_{med}\approx m+{\frac {m\ln(2)}{k-1}}

и следующие приближения для среднего и стандартного отклонения:

{\begin{aligned}N&\approx \mu \pm \sigma =89\pm 50,\\[5pt]\mu &=(m-1){\frac {k-1}{k-2}},\\[5pt]\sigma &={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}.\end{aligned}}

Исторический пример проблемы

В ходе Второй мировой войны западные союзники прилагали постоянные усилия по определению масштабов немецкого производства и подходили к этому двумя основными способами: обычным сбором разведданных и статистической оценкой. Во многих случаях статистический анализ существенно превосходил обычный интеллект. В некоторых случаях традиционные разведывательные данные использовались в сочетании со статистическими методами, как это было в случае с оценкой производства танков «Пантера» незадолго до дня «Д» .

Командование союзников считало, что танки Panzer V («Пантера»), замеченные в Италии, с их высокоскоростными длинноствольными 75-мм/L70 орудиями, были необычными тяжелыми танками и их можно будет увидеть только на севере Франции в небольшом количестве, почти так же. кстати как Тигра меня видели в Тунисе. Армия США была уверена, что танк «Шерман» продолжит показывать хорошие результаты, как и в случае с танками Panzer III и Panzer IV в Северной Африке и на Сицилии. ^[а] Незадолго до дня «Д» ходили слухи, что используется большое количество танков Panzer V.

Чтобы определить, правда ли это, союзники попытались оценить количество производимых танков. Для этого они использовали серийные номера трофейных или уничтоженных танков. Основными используемыми числами были номера коробок передач, поскольку они располагались в двух непрерывных последовательностях. Также использовались номера шасси и двигателя, хотя их использование было более сложным. Для перекрестной проверки анализа использовались различные другие компоненты. Аналогичный анализ был проведен на колесах, которые были пронумерованы последовательно (т.е. 1, 2, 3, ..., N ). ^[2]^[б]^[3]^[4]

Анализ колес цистерн позволил оценить количество использовавшихся форм для колес. Затем в ходе дискуссии с британскими производителями опорных катков было оценено количество колес, которые можно было бы изготовить из такого количества форм, что дало количество танков, производившихся каждый месяц. Анализ колес двух танков (по 32 опорных катка каждый, всего 64 опорных катка) позволил оценить, что в феврале 1944 года было произведено 270 танков, что значительно больше, чем предполагалось ранее. ^[5]

Немецкие записи после войны показали, что производство за февраль 1944 года составило 276 штук. ^[6]^[с] Статистический подход оказался гораздо более точным, чем традиционные методы разведки, и фраза «проблема немецких танков» стала использоваться в качестве описания этого типа статистического анализа.

Оценка производства была не единственным применением анализа серийных номеров. Он также использовался для более общего понимания немецкого производства, включая количество заводов, относительную важность заводов, длину цепочки поставок (основанную на задержке между производством и использованием), изменения в производстве и использование ресурсов, таких как каучук.

Конкретные данные

По общепринятым оценкам разведки союзников, с июня 1940 года по сентябрь 1942 года немцы производили около 1400 танков в месяц. Применяя приведенную ниже формулу к серийным номерам трофейных танков, это число было рассчитано как 246 в месяц. После войны данные по захваченному немецкому производству из министерства Альберта Шпеера показали, что фактическое число составляло 245. ^[3]

Оценки за некоторые конкретные месяцы даны следующим образом: ^[7]

Месяц	Статистическая оценка	Оценка интеллекта	Немецкие рекорды
июнь 1940 г.	169	1,000	122
июнь 1941 г.	244	1,550	271
август 1942 г.	327	1,550	342

Подобные анализы

Подобный анализ серийных номеров использовался для другой военной техники во время Второй мировой войны, наиболее успешно для ракеты Фау-2 . ^[8]

Заводская маркировка на советской военной технике анализировалась во время Корейской войны , а немецкая разведка — во время Второй мировой войны. ^[9]

В 1980-е годы некоторым американцам был предоставлен доступ к линии производства израильских танков «Меркава» . Производственные номера были засекречены, но танки имели серийные номера, позволяющие оценить объем производства. ^[10]

Формула использовалась в невоенном контексте, например, для оценки количества построенных компьютеров Commodore 64 , где результат (12,5 миллионов) соответствует нижней оценке. ^[11]

Контрмеры

Чтобы затруднить анализ серийных номеров, серийные номера можно исключить или уменьшить полезную вспомогательную информацию. В качестве альтернативы можно использовать серийные номера, устойчивые к криптоанализу, наиболее эффективно путем случайного выбора чисел без замены из списка, который намного превышает количество созданных объектов, или путем создания случайных чисел и проверки их по списку уже присвоенных номеров; коллизии вероятны, если только количество возможных цифр не превышает более чем в два раза количество цифр в количестве произведенных объектов (где серийный номер может быть в любой базе); см . проблему с днем рождения . ^[д] Для этого криптографически безопасный генератор псевдослучайных чисел может быть использован . Все эти методы требуют таблицы поиска (или взлома шифра) для возврата от серийного номера к производственному заказу, что усложняет использование серийных номеров: например, невозможно вспомнить диапазон серийных номеров, но каждый из них необходимо искать индивидуально. или созданный список.

Альтернативно, последовательные серийные номера могут быть зашифрованы с помощью простого шифра замены , который позволяет легко декодировать, но также легко взламывается с помощью частотного анализа : даже если начинать с произвольной точки, открытый текст имеет шаблон (а именно, числа идут последовательно). Один из примеров приведен в Кена Фоллетта романе «Код до нуля» , где шифрование серийных номеров ракеты «Юпитер-С» представлено следующим образом:

ЧАС	В	Н	Т	С	V	я	л	И	Х
1	2	3	4	5	6	7	8	9	0

Кодовое слово здесь — Хантсвилл (без повторяющихся букв), чтобы получить 10-буквенный ключ. ^[12] Таким образом, ракета номер 13 была «HN», а ракета номер 24 — «UT».

Частотный анализ

Несмещенная оценка с минимальной дисперсией

Для точечной оценки (оценка одного значения суммы, ${\widehat {N}}$ ), несмещенная оценка минимальной дисперсии (оценка MVUE или UMVU) определяется следующим образом: ^[и]

{\widehat {N}}=m(1+k^{-1})-1,

где m — наибольший наблюдаемый серийный номер ( максимум выборки ), а k — количество наблюдаемых резервуаров ( размер выборки ). ^[10]^[13] Обратите внимание: как только серийный номер будет обнаружен, он больше не будет находиться в пуле и больше не будет наблюдаться.

Это имеет дисперсию ^[10]

\operatorname {var} \left({\widehat {N}}\right)={\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N,

таким образом, стандартное отклонение составляет примерно N / k , ожидаемый размер разрыва между отсортированными наблюдениями в выборке.

Формулу можно интуитивно понимать как выборочный максимум плюс средний разрыв между наблюдениями в выборке, при этом выборочный максимум выбирается в качестве начальной оценки, поскольку он является оценкой максимального правдоподобия . ^[ф] с добавлением разрыва для компенсации отрицательного смещения максимума выборки в качестве оценки максимума совокупности, ^[г] и написано как

{\widehat {N}}=m+{\frac {m-k}{k}}=m+mk^{-1}-1=m(1+k^{-1})-1.

Это можно визуализировать, представив, что наблюдения в выборке равномерно распределены по всему диапазону, а дополнительные наблюдения находятся сразу за пределами диапазона при 0 и N + 1. Если начать с начального разрыва между 0 и самым низким наблюдением в выборке ( минимум выборки), средний разрыв между последовательными наблюдениями в выборке равен $(m-k)/k$ ; тот $-k$ потому что сами наблюдения не учитываются при вычислении разрыва между наблюдениями. ^[час]. Вывод ожидаемого значения и дисперсии выборочного максимума показаны на странице дискретного равномерного распределения .

Эта философия формализована и обобщена в методе оценки максимального расстояния ; аналогичная эвристика используется для отрисовка положения на графике Q–Q , отрисовка точек выборки в точке $k /(n + 1)$ , которая находится равномерно на равномерном распределении, с пробелом в конце.

Доверительные интервалы

Вместо точечной оценки интервальную оценку или в дополнение к ней можно выполнять , например доверительные интервалы .Их легко вычислить, основываясь на наблюдении, что вероятность того, что k наблюдений в выборке попадут в интервал, охватывающий p диапазона (0 ≤ p ≤ 1), равна p ^к (в этом разделе предполагается, что розыгрыши производятся с заменой, чтобы упростить вычисления; если розыгрыши проводятся без замены, это завышает вероятность, и интервалы будут слишком консервативными).

Таким образом, выборочное распределение квантиля выборочного максимума представляет собой график x ^{1/ к} от 0 до 1: от p -го до q -го квантиля максимума выборки m — это интервал [ p ^{1/ к}Н , д ^{1/ к}Н ]. Инвертирование этого значения дает соответствующий доверительный интервал для максимума совокупности [ m / q ^{1/ к}, м / п ^{1/ к}].

Например, если взять симметричный 95%-ный интервал p = 2,5% и q = 97,5% для k = 5, получим 0,025. ^1/5 ≈ 0.48, 0.975 ^1/5 ≈ 0,995, поэтому доверительный интервал составляет примерно [1,005 м , 2,08 м ]. Нижняя граница очень близка к m , поэтому более информативным является асимметричный доверительный интервал от p = 5% до 100%; для k = 5 это дает 0,05 ^1/5 ≈ 0,55 и интервал [ м , 1,82 м ].

В более общем плане (смещенный вниз) 95% доверительный интервал равен [ m , m /0,05] . ^{1/ к}] = [ м , м ·20 ^1/к]. Для диапазона значений k , используя для справки точечную оценку UMVU (плюс 1 для разборчивости), это дает:

к	Точечная оценка	Доверительный интервал
1	22м	[ м , 20 м ]
2	1,5 м	[ м , 4,5 м ]
5	1.21,2 м	[ м , 1,82 м ]
10	1,1 м	[ м , 1,35 м ]
20	1,05 м	[ м , 1,16 м ]

Непосредственные наблюдения:

Для небольших размеров выборки доверительный интервал очень широк, что отражает большую неопределенность оценки.
Диапазон быстро сужается, отражая экспоненциально убывающую вероятность того, что все наблюдения в выборке будут значительно ниже максимума.
Доверительный интервал имеет положительную асимметрию, поскольку N никогда не может быть ниже максимума выборки, но потенциально может быть сколь угодно выше его.

Обратите внимание, что m / k нельзя использовать просто так (или, скорее, ( m + m / k − 1)/ k ) в качестве оценки стандартной ошибки SE , поскольку стандартная ошибка оценщика основана на максимуме совокупности (параметре) и использование оценки для оценки ошибки в этой самой оценке является круговым рассуждением .

Байесовский анализ

Байесовский подход к проблеме немецких танков ^[14] заключается в рассмотрении апостериорной вероятности $(N=n\mid M=m,K=k)$ что количество вражеских танков $N$ является $n$ , когда количество наблюдаемых танков $K$ является $k$ и максимальный наблюдаемый серийный номер $M$ является $m$ .

Ответ на эту задачу зависит от выбора априора для $N$ . Можно продолжить, используя правильное априорное распределение по положительным целым числам, например, распределение Пуассона или отрицательное биномиальное распределение, где можно получить замкнутую формулу для апостериорного среднего и апостериорной дисперсии. ^[15] Ниже мы вместо этого примем ограниченный равномерный априор.

Для краткости в дальнейшем $(N=n\mid M=m,K=k)$ написано $(n\mid m,k)$ .

Условная вероятность

Правило условной вероятности дает

(n\mid m,k)(m\mid k)=(m\mid n,k)(n\mid k)=(m,n\mid k)

Вероятность того, что M знает N и K

Выражение

(m\mid n,k)=(M=m\mid N=n,K=k)

- условная вероятность того, что наблюдается максимальный серийный номер, $M$ , равно $m$ , когда количество танков противника, $N$ , как известно, равен $n$ , и количество замеченных танков противника, $K$ , как известно, равен $k$ .

Это

(m\mid n,k)={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}[k\leq m][m\leq n]

где ${\binom {n}{k}}$ представляет собой биномиальный коэффициент и $[k\leq n]$ представляет собой скобку Айверсона .

Выражение можно получить следующим образом: $(m\mid n,k)$ отвечает на вопрос: «Какова вероятность того, что конкретный серийный номер $m$ является наибольшим числом, наблюдаемым в выборке $k$ танки, при наличии $n$ танки в общей сложности?"

Можно подумать о выборке размером $k$ быть результатом $k$ индивидуальные розыгрыши без замены. Предполагать $m$ наблюдается по номеру тиража $d$ . Вероятность этого события равна: $\underbrace {{\frac {m-1}{n}}\cdot {\frac {m-2}{n-1}}\cdot {\frac {m-3}{n-2}}\cdots {\frac {m-d+1}{n-d+2}}} _{d-1{\text{ times}}}\cdot \underbrace {\frac {1}{n-d+1}} _{{\text{draw no. }}d}\cdot \underbrace {{\frac {m-d}{n-d}}\cdot {\frac {m-d-1}{n-d-1}}\cdots {\frac {m-d-(k-d-1)}{n-d-(k-d-1)}}} _{k-d{\text{ times}}}={\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}.$

Как видно из правой части, это выражение не зависит от $d$ и поэтому одинаково для каждого $d\leq k$ . Как $m$ можно нарисовать на $k$ разные розыгрыши, вероятность какого-либо конкретного $m$ самый большой из наблюдаемых $k$ умножить вышеуказанную вероятность: $(m\mid n,k)=k\cdot {\frac {(n-k)!}{n!}}\cdot {\frac {(m-1)!}{(m-k)!}}={\binom {m-1}{k-1}}{\binom {n}{k}}^{-1}.$

Вероятность того, что M знает только K

Выражение $(m\mid k)=(M=m\mid K=k)$ - вероятность того, что максимальный серийный номер равен $m$ один раз $k$ танки наблюдались, но до того, как были фактически обнаружены серийные номера.

Выражение $(m\mid k)$ можно переписать через другие величины, исключив все возможные значения. $n$ .

{\begin{aligned}(m\mid k)&=\sum _{n=0}^{\infty }(m,n\mid k)\\&=\sum _{n=0}^{\infty }(m\mid n,k)(n\mid k)\end{aligned}}

Априорная вероятность того, что N знает только K

Мы предполагаем, что $k$ фиксировано заранее, поэтому нам не нужно учитывать какое-либо распределение по $k$ . Таким образом, наш априор может зависеть от $k$ .

Выражение

(n\mid k)=(N=n\mid K=k)

является достоверность того, что общее количество танков, $N$ , равно $n$ когда число $K$ наблюдаемые танки, как известно, $k$ , но до того, как были замечены серийные номера. Предположим, что это некоторое дискретное равномерное распределение

(n\mid k)=(\Omega -k)^{-1}[k\leq n][n<\Omega ]

Верхний предел $\Omega$ должна быть конечной, поскольку функция

f(n)=\lim _{\Omega \rightarrow \infty }(\Omega -k)^{-1}[k\leq n][n<\Omega ]=0

не является функцией распределения массы. Наш результат ниже не будет зависеть от $\Omega$ .

Апостериорная вероятность того, что N знает M и K

При условии, что $\Omega >m$ , так что априорное значение согласуется с наблюдаемыми данными:

(n\mid m,k)=(m\mid n,k)\left(\sum _{n=m}^{\Omega -1}(m\mid n,k)\right)^{-1}[m\leq n][n<\Omega ]

Как $\Omega \rightarrow \infty$ , суммирование приближается $\sum _{n=m}^{\infty }(m\mid n,k)$ (что конечно, если k ≥ 2). Таким образом, для достаточно больших $\Omega$ , у нас есть

(n\mid m,k)\approx (m\mid n,k)\left(\sum _{n=m}^{\infty }(m\mid n,k)\right)^{-1}[m\leq n]

При k ≥ 1 режим распределения количества танков противника m .

При k ≥ 2 достоверность того, что количество танков противника равно $n$ , является

(N=n\mid m,k)=(k-1){\binom {m-1}{k-1}}k^{-1}{\binom {n}{k}}^{-1}[m\leq n]

Достоверность того, что количество вражеских танков N больше n , равна

(N>n\mid m,k)={\begin{cases}1&{\text{if }}n<m\\{\frac {\binom {m-1}{k-1}}{\binom {n}{k-1}}}&{\text{if }}n\geq m\end{cases}}

Среднее значение и стандартное отклонение

Для k ≥ 3 N имеет конечное среднее значение :

(m-1)(k-1)(k-2)^{-1}

Для k ≥ 4 N имеет конечное стандартное отклонение :

(k-1)^{1/2}(k-2)^{-1}(k-3)^{-1/2}(m-1)^{1/2}(m+1-k)^{1/2}

Эти формулы выведены ниже.

Формула суммирования

Следующее тождество с биномиальным коэффициентом используется ниже для упрощения ряда, относящегося к проблеме немецких танков.

\sum _{n=m}^{\infty }{\frac {1}{\binom {n}{k}}}={\frac {k}{k-1}}{\frac {1}{\binom {m-1}{k-1}}}

Эта формула суммы в некоторой степени аналогична интегральной формуле

\int _{n=m}^{\infty }{\frac {dn}{n^{k}}}={\frac {1}{k-1}}{\frac {1}{m^{k-1}}}

Эти формулы применимы для k > 1.

Один танк

Случайное наблюдение за одним танком из популяции из n танков дает серийный номер m с вероятностью 1/ n для m ≤ n и нулевой вероятностью для m > n . Используя обозначение скобок Айверсона, это записывается

(M=m\mid N=n,K=1)=(m\mid n)={\frac {[m\leq n]}{n}}

Это условная функция распределения вероятности по массе $m$ .

Если рассматривать функцию n при фиксированном m, то это функция правдоподобия.

{\mathcal {L}}(n)={\frac {[n\geq m]}{n}}

Оценка максимального правдоподобия для общего количества резервуаров равна N ₀ = m , что явно является необъективной оценкой, поскольку истинное число может быть больше, потенциально намного больше, но не может быть меньше.

Предельная вероятность (т. е. маргинальная по всем моделям) бесконечна и является хвостом гармонического ряда .

\sum _{n}{\mathcal {L}}(n)=\sum _{n=m}^{\infty }{\frac {1}{n}}=\infty

но

{\begin{aligned}\sum _{n}{\mathcal {L}}(n)[n<\Omega ]&=\sum _{n=m}^{\Omega -1}{\frac {1}{n}}\\[5pt]&=H_{\Omega -1}-H_{m-1}\end{aligned}}

где $H_{n}$ это номер гармоники .

Функция распределения массы доверия зависит от априорного предела $\Omega$ :

{\begin{aligned}&(N=n\mid M=m,K=1)\\[5pt]={}&(n\mid m)={\frac {[m\leq n]}{n}}{\frac {[n<\Omega ]}{H_{\Omega -1}-H_{m-1}}}\end{aligned}}

Среднее значение $N$ является

{\begin{aligned}\sum _{n}n\cdot (n\mid m)&=\sum _{n=m}^{\Omega -1}{\frac {1}{H_{\Omega -1}-H_{m-1}}}\\[5pt]&={\frac {\Omega -m}{H_{\Omega -1}-H_{m-1}}}\\[5pt]&\approx {\frac {\Omega -m}{\log \left({\frac {\Omega -1}{m-1}}\right)}}\end{aligned}}

Два танка

Если наблюдаются два танка, а не один, то вероятность того, что больший из двух наблюдаемых серийных номеров равен m , равна

(M=m\mid N=n,K=2)=(m\mid n)=[m\leq n]{\frac {m-1}{\binom {n}{2}}}

Если рассматривать функцию n при фиксированном m, то это функция правдоподобия.

{\mathcal {L}}(n)=[n\geq m]{\frac {m-1}{\binom {n}{2}}}

Общая вероятность равна

{\begin{aligned}\sum _{n}{\mathcal {L}}(n)&={\frac {m-1}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n}{2}}}\\[4pt]&={\frac {m-1}{1}}\cdot {\frac {2}{2-1}}\cdot {\frac {1}{\binom {m-1}{2-1}}}\\[4pt]&=2\end{aligned}}

а функция распределения по массе доверия равна

{\begin{aligned}&(N=n\mid M=m,K=2)\\[4pt]={}&(n\mid m)\\[4pt]={}&{\frac {{\mathcal {L}}(n)}{\sum _{n}{\mathcal {L}}(n)}}\\[4pt]={}&[n\geq m]{\frac {m-1}{n(n-1)}}\end{aligned}}

Медиана ${\tilde {N}}$ удовлетворяет

\sum _{n}[n\geq {\tilde {N}}](n\mid m)={\frac {1}{2}}

так

{\frac {m-1}{{\tilde {N}}-1}}={\frac {1}{2}}

и поэтому медиана

{\tilde {N}}=2m-1

но среднее значение $N$ бесконечен

\mu =\sum _{n}n\cdot (n\mid m)={\frac {m-1}{1}}\sum _{n=m}^{\infty }{\frac {1}{n-1}}=\infty

Много танков

Функция распределения массы доверия

Условная вероятность того, что наибольшее из k наблюдений, взятых из порядковых номеров {1,..., n }, равно m , равна

{\begin{aligned}&(M=m\mid N=n,K=k\geq 2)\\={}&(m\mid n,k)\\={}&[m\leq n]{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}\end{aligned}}

Функция правдоподобия n — это то же выражение

{\mathcal {L}}(n)=[n\geq m]{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}

Полная вероятность конечна для k ≥ 2:

{\begin{aligned}\sum _{n}{\mathcal {L}}(n)&={\frac {\binom {m-1}{k-1}}{1}}\sum _{n=m}^{\infty }{1 \over {\binom {n}{k}}}\\&={\frac {\binom {m-1}{k-1}}{1}}\cdot {\frac {k}{k-1}}\cdot {\frac {1}{\binom {m-1}{k-1}}}\\&={\frac {k}{k-1}}\end{aligned}}

Функция распределения массы доверия равна

{\begin{aligned}&(N=n\mid M=m,K=k\geq 2)=(n\mid m,k)\\={}&{\frac {{\mathcal {L}}(n)}{\sum _{n}{\mathcal {L}}(n)}}\\={}&[n\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {n}{k}}}\\={}&[n\geq m]{\frac {m-1}{n}}{\frac {\binom {m-2}{k-2}}{\binom {n-1}{k-1}}}\\={}&[n\geq m]{\frac {m-1}{n}}{\frac {m-2}{n-1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{\binom {n-2}{k-2}}}\end{aligned}}

Дополнительная кумулятивная функция распределения — это вероятность того, что N > x

{\begin{aligned}&(N>x\mid M=m,K=k)\\[4pt]={}&{\begin{cases}1&{\text{if }}x<m\\\sum _{n=x+1}^{\infty }(n\mid m,k)&{\text{if }}x\geq m\end{cases}}\\={}&[x<m]+[x\geq m]\sum _{n=x+1}^{\infty }{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{\binom {N}{k}}}\\[4pt]={}&[x<m]+[x\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{1}}\sum _{n=x+1}^{\infty }{\frac {1}{\binom {n}{k}}}\\[4pt]={}&[x<m]+[x\geq m]{\frac {k-1}{k}}{\frac {\binom {m-1}{k-1}}{1}}\cdot {\frac {k}{k-1}}{\frac {1}{\binom {x}{k-1}}}\\[4pt]={}&[x<m]+[x\geq m]{\frac {\binom {m-1}{k-1}}{\binom {x}{k-1}}}\end{aligned}}

Кумулятивная функция распределения – это вероятность того, что N ≤ x

{\begin{aligned}&(N\leq x\mid M=m,K=k)\\[4pt]={}&1-(N>x\mid M=m,K=k)\\[4pt]={}&[x\geq m]\left(1-{\frac {\binom {m-1}{k-1}}{\binom {x}{k-1}}}\right)\end{aligned}}

Порядок величины

Порядок количества танков противника равен

{\begin{aligned}\mu &=\sum _{n}n\cdot (N=n\mid M=m,K=k)\\[4pt]&=\sum _{n}n[n\geq m]{\frac {m-1}{n}}{\frac {\binom {m-2}{k-2}}{\binom {n-1}{k-1}}}\\[4pt]&={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-1}{k-1}}}\\[4pt]&={\frac {m-1}{1}}{\frac {\binom {m-2}{k-2}}{1}}\cdot {\frac {k-1}{k-2}}{\frac {1}{\binom {m-2}{k-2}}}\\[4pt]&={\frac {m-1}{1}}{\frac {k-1}{k-2}}\end{aligned}}

Статистическая неопределенность

Статистическая неопределенность – это стандартное отклонение. $\sigma$ , удовлетворяющий уравнению

\sigma ^{2}+\mu ^{2}=\sum _{n}n^{2}\cdot (N=n\mid M=m,K=k)

Так

{\begin{aligned}\sigma ^{2}+\mu ^{2}-\mu &=\sum _{n}n(n-1)\cdot (N=n\mid M=m,K=k)\\[4pt]&=\sum _{n=m}^{\infty }n(n-1){\frac {m-1}{n}}{\frac {m-2}{n-1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{\binom {n-2}{k-2}}}\\[4pt]&={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}\cdot {\frac {\binom {m-3}{k-3}}{1}}\sum _{n=m}^{\infty }{\frac {1}{\binom {n-2}{k-2}}}\\[4pt]&={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-2}}{\frac {\binom {m-3}{k-3}}{1}}{\frac {k-2}{k-3}}{\frac {1}{\binom {m-3}{k-3}}}\\[4pt]&={\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}\end{aligned}}

и

{\begin{aligned}\sigma &={\sqrt {{\frac {m-1}{1}}{\frac {m-2}{1}}{\frac {k-1}{k-3}}+\mu -\mu ^{2}}}\\[4pt]&={\sqrt {\frac {(k-1)(m-1)(m-k+1)}{(k-3)(k-2)^{2}}}}\end{aligned}}

Отношение дисперсии к среднему просто

{\frac {\sigma ^{2}}{\mu }}={\frac {m-k+1}{(k-3)(k-2)}}

См. также

Маркировать и повторно поймать , другой метод оценки численности популяции.
Оценка максимального расстояния , которая обобщает интуицию «предполагать равномерное распределение».
Принцип Коперника и эффект Линди — аналогичные предсказания продолжительности жизни, предполагающие только одно наблюдение в выборке (текущий возраст).
- Аргумент Судного дня , применение для оценки ожидаемого времени выживания человечества.
Распределение обобщенных экстремальных значений , возможные предельные распределения выборочного максимума (противоположный вопрос).
Максимальная вероятность
Смещение оценщика
Функция правдоподобия

Дальнейшее чтение

Гудман, Луизиана (1954). «Некоторые практические методы анализа серийных номеров». Журнал Американской статистической ассоциации . 49 (265). Американская статистическая ассоциация: 97–112. дои : 10.2307/2281038 . JSTOR 2281038 .

Примечания

↑ В заявлении о политике Сухопутных бронетанковых войск от ноября 1943 года делается вывод: «Рекомендация об ограничении количества танков с 90-мм пушкой не поддерживается по следующим причинам: Танк М4 широко провозглашается лучшим танком на поле боя сегодня. ...Похоже, что наши войска не боятся немецкого танка Mark VI (Тигр). Для танка Т26 не может быть иного основания, кроме концепции дуэли танк против танка, которая. считается необоснованным и ненужным». ^[1]
^ Нижняя граница была неизвестна, но для упрощения обсуждения эта деталь обычно опускается, считая нижнюю границу известной равной 1.
^ Ruggles & Brodie - это в основном практический анализ и резюме, а не математический - проблема оценки упоминается только в сноске 3 на странице 82, где они оценивают максимум как «выборочный максимум + средний разрыв».
^ Как обсуждалось в разделе «Атака дня рождения» , можно ожидать столкновения после чисел 1,25 √ H , если выбирать из H возможных выходов. Этот квадратный корень соответствует половине цифр. Например, в любой системе счисления квадратный корень из 100-значного числа примерно равен 50-значному числу.
^ В непрерывном распределении нет члена -1.
^ Учитывая определенный набор наблюдений, этот набор, скорее всего, произойдет, если максимум совокупности является максимумом выборки, а не более высоким значением (оно не может быть ниже).
^ Максимум выборки никогда не превышает максимум совокупности, но может быть меньше, следовательно, это смещенная оценка : она имеет тенденцию недооценивать максимум совокупности.
^ Например, разрыв между 2 и 7 составляет (7 - 2) - 1 = 4, состоящий из 3, 4, 5 и 6.

Ссылки

^ Заявление о политике AGF. Начальник штаба АГФ. Ноябрь 1943 года. МХИ.
^ Рагглс и Броди, 1947 , стр. 73–74.
^ Jump up to: ^а ^б «Гэвин Дэвис занимается математикой – Как статистическая формула выиграла войну» . Хранитель . 20 июля 2006 г. Проверено 6 июля 2014 г.
^ Мэтьюз, Роберт (23 мая 1998 г.), «Сыщики данных идут на войну, боковая панель в статье «Скрытые истины» » , New Scientist , заархивировано из оригинала 18 апреля 2001 г.
^ Боб Каррутерс (1 марта 2012 г.). Пантера V в бою . Книги Коды. стр. 94–. ISBN 978-1-908538-15-4 .
^ Рагглс и Броди, 1947 , стр. 82–83.
^ Рагглс и Броди, 1947 , с. 89.
^ Рагглс и Броди, 1947 , стр. 90–91.
^ Волц 2008 .
^ Jump up to: ^а ^б ^с Джонсон 1994 .
^ «Сколько компьютеров Commodore 64 было продано на самом деле?» . pagetable.com . 1 февраля 2011 года. Архивировано из оригинала 6 марта 2016 года . Проверено 6 июля 2014 г.
^ «Ракеты и ракеты» . www.spaceline.org .
^ Джойс, Смарт. «Немецкая танковая проблема» . Средняя школа Логана . Архивировано из оригинала 24 апреля 2012 года . Проверено 8 июля 2014 г.
^ Саймон, Кори (2023). «Байесовский подход к проблеме немецких танков» . Математический интеллект . arXiv : 2301.00046 . дои : 10.1007/s00283-023-10274-6 .
^ Хёле, М.; Хелд, Л. (2006). «Байесовская оценка численности населения» (PDF) . Технический отчет SFB 386, № 399, Статистический факультет Мюнхенского университета . Проверено 17 апреля 2016 г.

Цитируемые работы

Джонсон, RW (лето 1994 г.). «Оценка численности населения» (PDF) . Преподавание статистики . 16 (2): 50–52. дои : 10.1111/j.1467-9639.1994.tb00688.x . Архивировано из оригинала (PDF) 23 февраля 2014 года.
Рагглс, Р .; Броди, Х. (1947). «Эмпирический подход к экономической разведке во Второй мировой войне». Журнал Американской статистической ассоциации . 42 (237): 72. дои : 10.1080/01621459.1947.10501915 . JSTOR 2280189 .
Фольц, АГ (июль 2008 г.). «Советская оценка производства немецких танков». Журнал славянских военных исследований . 21 (3): 588–590. дои : 10.1080/13518040802313902 . S2CID 144483708 .

[2] В заявлении о политике Сухопутных бронетанковых войск от ноября 1943 года делается вывод: «Рекомендация об ограничении количества танков с 90-мм пушкой не поддерживается по следующим причинам: Танк М4 широко провозглашается лучшим танком на поле боя сегодня. ...Похоже, что наши войска не боятся немецкого танка Mark VI (Тигр). Для танка Т26 не может быть иного основания, кроме концепции дуэли танк против танка, которая. считается необоснованным и ненужным». ^[1]

[4] Нижняя граница была неизвестна, но для упрощения обсуждения эта деталь обычно опускается, считая нижнюю границу известной равной 1.

[9] Ruggles & Brodie - это в основном практический анализ и резюме, а не математический - проблема оценки упоминается только в сноске 3 на странице 82, где они оценивают максимум как «выборочный максимум + средний разрыв».

[15] Как обсуждалось в разделе «Атака дня рождения» , можно ожидать столкновения после чисел 1,25 √ H , если выбирать из H возможных выходов. Этот квадратный корень соответствует половине цифр. Например, в любой системе счисления квадратный корень из 100-значного числа примерно равен 50-значному числу.

[17] В непрерывном распределении нет члена -1.

[19] Учитывая определенный набор наблюдений, этот набор, скорее всего, произойдет, если максимум совокупности является максимумом выборки, а не более высоким значением (оно не может быть ниже).

[20] Максимум выборки никогда не превышает максимум совокупности, но может быть меньше, следовательно, это смещенная оценка : она имеет тенденцию недооценивать максимум совокупности.

[21] Например, разрыв между 2 и 7 составляет (7 - 2) - 1 = 4, состоящий из 3, 4, 5 и 6.

[1] Заявление о политике AGF. Начальник штаба АГФ. Ноябрь 1943 года. МХИ.

[FOOTNOTERugglesBrodie194773–74-3] Рагглс и Броди, 1947 , стр. 73–74.

[Davies-2006-07-20-5] Jump up to: ^а ^б «Гэвин Дэвис занимается математикой – Как статистическая формула выиграла войну» . Хранитель . 20 июля 2006 г. Проверено 6 июля 2014 г.

[6] Мэтьюз, Роберт (23 мая 1998 г.), «Сыщики данных идут на войну, боковая панель в статье «Скрытые истины» » , New Scientist , заархивировано из оригинала 18 апреля 2001 г.

[Carruthers-7] Боб Каррутерс (1 марта 2012 г.). Пантера V в бою . Книги Коды. стр. 94–. ISBN 978-1-908538-15-4 .

[FOOTNOTERugglesBrodie194782–83-8] Рагглс и Броди, 1947 , стр. 82–83.

[FOOTNOTERugglesBrodie194789-10] Рагглс и Броди, 1947 , с. 89.

[FOOTNOTERugglesBrodie194790–91-11] Рагглс и Броди, 1947 , стр. 90–91.

[FOOTNOTEVolz2008-12] Волц 2008 .

[FOOTNOTEJohnson1994-13] Jump up to: ^а ^б ^с Джонсон 1994 .

[pagetable.com-14] «Сколько компьютеров Commodore 64 было продано на самом деле?» . pagetable.com . 1 февраля 2011 года. Архивировано из оригинала 6 марта 2016 года . Проверено 6 июля 2014 г.

[16] «Ракеты и ракеты» . www.spaceline.org .

[18] Джойс, Смарт. «Немецкая танковая проблема» . Средняя школа Логана . Архивировано из оригинала 24 апреля 2012 года . Проверено 8 июля 2014 г.

[22] Саймон, Кори (2023). «Байесовский подход к проблеме немецких танков» . Математический интеллект . arXiv : 2301.00046 . дои : 10.1007/s00283-023-10274-6 .

[23] Хёле, М.; Хелд, Л. (2006). «Байесовская оценка численности населения» (PDF) . Технический отчет SFB 386, № 399, Статистический факультет Мюнхенского университета . Проверено 17 апреля 2016 г.

[а]

[2]

[б]

[3]

[4]

[5]

[6]

[с]

[7]

[8]

[9]

[10]

[11]

[д]

[12]

[и]

[13]

[ф]

[г]

[час]

[14]

[15]

[1]