Проблема невидимых видов

Проблема невидимых видов обычно упоминается в экологии и связана с оценкой количества видов, представленных в экосистеме, которые не наблюдались с помощью образцов. В частности, это относится к тому, сколько новых видов было бы обнаружено, если бы в экосистеме было взято больше образцов. Исследование проблемы невидимых видов было начато в начале 1940-х годов Александром Стивеном Корбетом . Он провел два года в Британской Малайе , ловя бабочек, и ему было любопытно, сколько новых видов он откроет, если проведет еще два года в ловушках. Было разработано множество различных методов оценки, чтобы определить, сколько новых видов будет обнаружено при наличии большего количества образцов. Проблема невидимых видов также применима в более широком смысле, поскольку оценщики могут использоваться для оценки любых новых элементов набора, ранее не обнаруженных в образцах. Примером этого является определение того, сколько слов знал Уильям Шекспир на основе всех его письменных произведений. ^[1]

Математически проблему невидимых видов можно разложить следующим образом: если $n$ отбираются независимые пробы, $X^{n}\triangleq X_{1},\ldots ,X_{n}$ , и тогда, если $m$ были взяты более независимые образцы, количество невидимых видов, которые будут обнаружены с помощью дополнительных образцов, определяется выражением $U\triangleq U(X^{n},X_{n+1}^{m+n})\triangleq \left|\{X_{n+1}^{m+n}\}\setminus \{X^{n}\}\right|,$ с $X_{n+1}^{m+n}\triangleq X_{n+1},\ldots ,X_{n+m}$ это второй набор $m$ образцы.

История

В начале 1940-х годов Александр Стивен Корбет провел два года в Британской Малайе, ловя бабочек. ^[2] Он отслеживал, сколько видов он наблюдал и сколько представителей каждого вида было поймано. Например, существовало 74 различных вида, из которых он поймал только 2 отдельные бабочки.

Когда Корбет вернулся в Соединенное Королевство, он подошел к биостатистику Рональду Фишеру и спросил, сколько новых видов бабочек он сможет поймать, если займется ловлей еще на два года; ^[3] по сути, Корбет спрашивал, сколько видов он наблюдал ноль раз.

Фишер ответил простой оценкой: за дополнительные два года отлова Корбет мог рассчитывать поймать 75 новых видов. Он сделал это с помощью простого суммирования (данные Орлицкого ^[3] в таблице из примера ниже: $U=\sum _{i=1}^{n}(-1)^{i+1}\varphi _{i}=118-74+44-24+\cdots -12+6=75.$ Здесь $\varphi _{i}$ соответствует числу отдельных видов, которые наблюдались $i$ раз. Сумма Фишера позже была подтверждена Гудом-Тулмином. ^[2]

Оценщики

Чтобы оценить количество невидимых видов, пусть $t\triangleq m/n$ быть числом будущих выборок ( $m$ ) разделить на количество прошлых выборок ( $n$ ), или $m=tn$ . Позволять $\varphi _{i}$ быть числом отдельных наблюдаемых видов $i$ раз (например, если во всей выборке было 74 вида бабочек с 2 наблюдавшимися представителями, то $\varphi _{2}=74$ ).

Оценка Гуда – Тулмина

Оценка Гуда – Тулмина (GT) была разработана Гудом и Тулмином в 1953 году. ^[4] Оценка невидимых видов, основанная на оценке Гуда – Тулмина, определяется выражением $U^{\text{GT}}\triangleq U^{\text{GT}}(X^{n},t)\triangleq \sum _{i=1}^{\infty }(-t)^{i+1}\varphi _{i}.$ Было показано, что оценщик Гуда – Тулмина является хорошей оценкой значений $t\leq 1.$ Оценка Гуда – Тулмина также приблизительно удовлетворяет $\operatorname {\mathbb {E} } (U^{\text{GT}}-U)^{2}\lesssim nt^{2}.$ Это означает, что $U^{\text{GT}}$ оценки $U$ внутри ${\sqrt {n}}\cdot t,$ пока $t\leq 1.$

Однако для $t>1,$ оценщик Гуда – Тулмина не может дать точные результаты. Это потому, что, если $t>1,$ $U^{\text{GT}}$ увеличивается на $(-t)^{i}\varphi _{i}$ для $i$ с $\varphi _{i}>0,$ это означает, что если $\varphi _{i}>0,$ $U^{\text{GT}}$ растет сверхлинейно в $t,$ но $U$ может расти максимально линейно с $t.$ Поэтому, когда $t>1,$ $U^{\text{GT}}$ растет быстрее, чем $U$ и не соответствует истинному значению. ^[3]

Чтобы компенсировать это, Эфрон и Тистед в 1976 г. ^[1] показал, что усеченное преобразование Эйлера также может быть полезной оценкой (оценка «ET»): $U^{\text{ET}}\triangleq \sum _{i=1}^{n}h_{h}^{\text{ET}}\cdot \varphi _{i},$ с $h_{i}^{\text{ET}}\triangleq (-t)^{i+1}\cdot \mathbb {P} (X\geq i),$ где $X\sim \operatorname {Bin} \left(k,{\frac {1}{1+t}}\right),$ и $\mathbb {P} (X\geq i)={\begin{cases}\displaystyle \sum _{j=i}^{k}{\binom {k}{j}}{\frac {t^{k-j}}{(1+t)^{k}}}&{\text{ for }}i\leq k,\\0&{\text{ for }}i>k,\end{cases}}$ где $k$ — это место, выбранное для усечения преобразования Эйлера.

Сглаженная оценка Гуда – Тулмина

Подобно подходу Эфрона и Тистеда, Алон Орлицкий , Ананда Тирта Суреш и Йихонг Ву разработали гладкую оценку Гуда – Тулмина. Они поняли, что оценка Гуда – Тулмина не удалась из-за экспоненциального роста, а не из-за его смещения. ^[3] Поэтому они оценили количество невидимых видов, усекая ряд $U^{l}\triangleq -\sum _{i=1}^{l}(-t)^{i}\varphi _{i}.$ Орлицкий, Суреш и Ву также отметили, что для распределений с $t>1$ , движущим членом в оценке суммирования является $l-{\text{th}}$ срок, независимо от того, какое значение $l$ выбран. ^[2] Чтобы решить эту проблему, они выбрали случайное неотрицательное целое число. $L$ , урезал серию на $L$ , а затем взял среднее значение по распределению около $L$ . ^[3] Полученная оценка $U^{L}=\operatorname {E} _{L}\left[-\sum _{i=1}^{L}(-t)^{i}\varphi _{i}\right].$ Этот метод был выбран потому, что смещение $U^{l}$ меняет знаки из-за $(-t)^{i}$ коэффициент. Усреднение по распределению $L$ следовательно, уменьшает предвзятость. Это означает, что оценку можно записать как линейную комбинацию распространенности: ^[2] $U^{L}=\operatorname {E} _{L}\left[-\sum _{i\geq 1}(-t)^{i}\varphi _{i}\mathbf {1} _{i\leq L}\right]=-\sum _{i\geq 1}(-t)^{i}\Pr(L\geq i)\varphi _{i}.$ В зависимости от распределения $L$ выбраны, результаты будут различаться. С помощью этого метода можно оценить $t\propto \ln n$ , и это лучшее из возможного. ^[3]

Кривая открытия видов

кривую открытия видов Также можно использовать . Эта кривая связывает количество видов, обитающих на определенной территории, в зависимости от времени. Эти кривые также можно создать с помощью оценщиков (таких как оценщик Гуда – Тулмина) и построить график количества невидимых видов при каждом значении для $t$ . ^[5]

Кривая открытия видов всегда увеличивается, поскольку никогда не существует образца, который мог бы уменьшить количество открытых видов. Более того, кривая открытия видов также замедляется: чем больше образцов будет взято, тем меньше ожидается открытия невидимых видов. Кривая открытия видов также никогда не будет асимптотической, поскольку предполагается, что, хотя скорость открытия может стать бесконечно медленной, на самом деле она никогда не остановится. ^[5] Двумя распространенными моделями кривой открытия видов являются логарифмическая и экспоненциальная функции .

Пример: бабочки Корбета.

В качестве примера рассмотрим данные, которые Корбет предоставил Фишеру в 1940-х годах. ^[3] Используя модель Гуда – Тулмина, количество невидимых видов определяется с помощью $U=-\sum _{i=1}^{\infty }(-t)^{i}\varphi _{i}.$ Затем это можно использовать для создания отношений между $t$ и $U$ .

Данные предоставлены Фишеру Корбетом. ^[3]
Количество наблюдаемых участников, $i$	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Количество видов, $\varphi _{i}$	118	74	44	24	29	22	20	19	20	15	12	14	6	12	6

Эта связь показана на графике ниже.

Из сюжета видно, что в $t=1$ , что было значением $t$ Корбет принес Фишеру итоговую оценку $U$ ему 75 лет, что соответствует тому, что нашел Фишер. Этот график также действует как кривая открытия видов для этой экосистемы и определяет, сколько новых видов будет обнаружено в будущем. $t$ увеличивается (и берется больше образцов).

Другое использование

Алгоритм прогнозирования имеет множество применений. Зная, что оценщики точны, ученые могут точно экстраполировать результаты опроса людей с коэффициентом 2. Они могут предсказать количество уникальных ответов на основе количества людей, ответивших одинаково. Этот метод также можно использовать для определения объема чьих-либо знаний.

Пример: Сколько слов знал Шекспир?

Согласно исследованию известных произведений Шекспира, проведенному Тистедом и Эфроном, всего в них 884 647 слов. ^[1] Исследование также показало, что в общей сложности существует $N=864$ разные слова, которые встречаются более 100 раз. Таким образом, общее количество уникальных слов составило 31 534. ^[1] Применяя модель Гуда – Тулмина, если бы было обнаружено равное количество произведений Шекспира, то, по оценкам, $U^{\text{words}}\approx 11{,}460$ будут найдены уникальные слова. Целью будет получение $U^{\text{words}}$ для $t=\infty$ . По оценкам Тистеда и Эфрона, $U^{\text{words}}(t\to \infty )\approx 35{,}000$ Это означает, что Шекспир, скорее всего, знал вдвое больше слов, чем он фактически использовал во всех своих произведениях. ^[1]

См. также

Ссылки

^ Перейти обратно: ^а ^б ^с ^д ^и Эфрон, Брэдли; Тистед, Рональд (1976). «Оценка количества несэн-видов: сколько слов знал Шекспир?». Биометрика . 63 (3): 435–447. дои : 10.2307/2335721 . JSTOR 2335721 .
^ Перейти обратно: ^а ^б ^с ^д Орлицкий, Алон; Суреш, Ананда Тиртха; Ву, Ихонг (22 ноября 2016 г.). «Оптимальное предсказание количества невидимых видов» . Труды Национальной академии наук . 113 (47): 13283–13288. дои : 10.1073/pnas.1607774113 . ПМК 5127330 . ПМИД 27830649 .
^ Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Орлицкий, Алон; Суреш, Ананда Тиртха; Ву, Ихун (23 ноября 2015 г.). «Оценка количества невидимых видов: птица в руке стоит $в бревна$ кустах». arXiv : 1511.07428 [ math.ST ].
^ Хорошо, Эй Джей; Тулмин, GH (1956). «Количество новых видов и увеличение охвата популяции при увеличении выборки» . Биометрика . 43 (1–2): 45–63. дои : 10.1093/biomet/43.1-2.45 . ISSN 0006-3444 .
^ Перейти обратно: ^а ^б Беббер, Д.П.; Марриотт, ФХК; Гастон, К.Дж.; Харрис, С.А.; Шотландия, RW (7 июля 2007 г.). «Прогнозирование численности неизвестных видов с помощью кривых открытия» . Труды Королевского общества B: Биологические науки . 274 (1618): 1651–1658. дои : 10.1098/rspb.2007.0464 . ПМК 2169286 . ПМИД 17456460 .

[Efron_1976-1] Перейти обратно: ^а ^б ^с ^д ^и Эфрон, Брэдли; Тистед, Рональд (1976). «Оценка количества несэн-видов: сколько слов знал Шекспир?». Биометрика . 63 (3): 435–447. дои : 10.2307/2335721 . JSTOR 2335721 .

[Orlitsky_2016-2] Перейти обратно: ^а ^б ^с ^д Орлицкий, Алон; Суреш, Ананда Тиртха; Ву, Ихонг (22 ноября 2016 г.). «Оптимальное предсказание количества невидимых видов» . Труды Национальной академии наук . 113 (47): 13283–13288. дои : 10.1073/pnas.1607774113 . ПМК 5127330 . ПМИД 27830649 .

[Orlitsky_2015-3] Перейти обратно: ^а ^б ^с ^д ^и ^ж ^г ^час Орлицкий, Алон; Суреш, Ананда Тиртха; Ву, Ихун (23 ноября 2015 г.). «Оценка количества невидимых видов: птица в руке стоит $в бревна$ кустах». arXiv : 1511.07428 [ math.ST ].

[4] Хорошо, Эй Джей; Тулмин, GH (1956). «Количество новых видов и увеличение охвата популяции при увеличении выборки» . Биометрика . 43 (1–2): 45–63. дои : 10.1093/biomet/43.1-2.45 . ISSN 0006-3444 .

[Bebber_2007-5] Перейти обратно: ^а ^б Беббер, Д.П.; Марриотт, ФХК; Гастон, К.Дж.; Харрис, С.А.; Шотландия, RW (7 июля 2007 г.). «Прогнозирование численности неизвестных видов с помощью кривых открытия» . Труды Королевского общества B: Биологические науки . 274 (1618): 1651–1658. дои : 10.1098/rspb.2007.0464 . ПМК 2169286 . ПМИД 17456460 .

[1]

[2]

[3]

[4]

[5]