Jump to content

Индекс разнообразия

(Перенаправлено с «Истинное разнообразие »)

Индекс разнообразия — это метод измерения количества различных типов (например, видов ) в наборе данных (например, сообществе). Некоторые более сложные индексы также объясняют филогенетическое родство между типами. [1] Индексы разнообразия — это статистические представления различных аспектов биоразнообразия (например, богатства , равномерности и доминирования ), которые являются полезными упрощениями для сравнения различных сообществ или территорий.

Эффективное количество видов или числа Хилла

[ редактировать ]

Когда индексы разнообразия используются в экологии , типами, представляющими интерес, обычно являются виды, но они также могут быть и другими категориями, такими как роды , семейства , функциональные типы или гаплотипы . Объектами интереса обычно являются отдельные организмы (например, растения или животные), а мерой численности может быть, например, количество особей, биомасса или охват. В демографии объектами интереса могут быть люди, а типами интересов — различные демографические группы. В информатике сущностями могут быть символы и типы различных букв алфавита. Наиболее часто используемые индексы разнообразия представляют собой простые преобразования эффективного числа типов (также известные как «истинное разнообразие»), но каждый индекс разнообразия также можно интерпретировать самостоятельно как меру, соответствующую некоторому реальному явлению (но другому). для каждого индекса разнообразия). [2] [3] [4] [5]

Многие индексы учитывают только категориальное разнообразие между субъектами или организациями. Однако такие индексы не учитывают общую вариативность (разнообразие), которая может иметь место между субъектами или объектами, которая возникает только тогда, когда рассчитываются как категориальное, так и качественное разнообразие.

Истинное разнообразие, или эффективное количество типов, относится к числу одинаково распространенных типов, необходимых для того, чтобы средняя пропорциональная численность типов равнялась наблюдаемой в интересующем наборе данных (где не все типы могут быть одинаково распространены). Истинное разнообразие в наборе данных рассчитывается путем сначала взятия взвешенного обобщенного среднего M q -1 пропорциональной численности типов в наборе данных, а затем принятия обратного значения . Уравнение: [4] [5]

Знаменатель - M q -1 равен средней пропорциональной распространенности типов в наборе данных, рассчитанной с использованием взвешенного обобщенного среднего с показателем q 1 . В уравнении R — это богатство (общее количество типов в наборе данных), а пропорциональное обилие - го типа равно pi i . Сами пропорциональные численности используются в качестве номинальных весов. Числа называются числами Хилла порядка q или эффективным числом видов . [6]

Когда q = 1 , приведенное выше уравнение не определено. Однако математический предел , когда q приближается к 1, четко определен, и соответствующее разнообразие рассчитывается по следующему уравнению:

которая представляет собой экспоненту энтропии Шеннона , рассчитанную с помощью натуральных логарифмов (см. Выше). В других областях эта статистика также известна как недоумение .

Общее уравнение разнообразия часто записывают в виде [2] [3]

а член в скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с разными значениями q . [3]

Чувствительность значения разнообразия к редким и многочисленным видам

[ редактировать ]

Значение q часто называют порядком разнообразия. Он определяет чувствительность истинного разнообразия к редким и многочисленным видам путем изменения способа расчета средневзвешенного пропорционального обилия видов. При некоторых значениях параметра q значение обобщенного среднего M q −1 предполагает знакомые виды взвешенных средних в качестве особых случаев. В частности,

Как правило, увеличение значения q увеличивает эффективный вес, присваиваемый наиболее многочисленным видам. Это приводит к получению большего значения M q −1 и меньшего истинного разнообразия ( д D ) значение с увеличением q .

Когда q = 1 , используется средневзвешенное геометрическое значений pi . , и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом веса являются показателями степени) Когда q > 1 , вес, придаваемый многочисленным видам, преувеличивается, а когда q < 1 , вес, придаваемый редким видам. При q = 0 веса видов точно компенсируют пропорциональную численность видов, так что средневзвешенное значение pi даже равно 1 / R, если все виды не одинаково многочисленны. При q = 0 эффективное число видов, 0 D равно фактическому числу видов R. , следовательно , В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это связано с тем, что отрицательные значения q придали бы редким видам гораздо больший вес, чем многочисленным, что д D превысит R. [4] [5]

Богатство

[ редактировать ]

Богатство R просто определяет количество различных типов, которые содержит интересующий набор данных. Например, видовое богатство (обычно обозначаемое S ) — это просто количество видов, например, на определенном участке. Богатство — это простая мера, поэтому он стал популярным индексом разнообразия в экологии, где данные о численности часто недоступны. [7] Если истинное разнообразие рассчитывается с q = 0 , эффективное количество типов ( 0 D ) равно фактическому количеству типов, которое идентично богатству ( R ). [3] [5]

Индекс Шеннона

[ редактировать ]

Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона , Шеннона- Винера индекс и (ошибочно) Шеннона- Уивера индекс . [8] Первоначально эта мера была предложена Клодом Шенноном в 1948 году для количественной оценки энтропии (отсюда и энтропии Шеннона , связанной с информационным содержанием Шеннона ) в текстовых строках. [9] Идея состоит в том, что чем больше букв и чем ближе их пропорциональное содержание в интересующей строке, тем труднее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего его рассчитывают следующим образом:

где p i — доля символов, принадлежащих i-му типу букв в интересующей строке. В экологии pi часто представляет собой долю особей, принадлежащих к i- му виду в интересующем наборе данных. Затем энтропия Шеннона количественно определяет неопределенность в предсказании видовой принадлежности особи, которая случайно берется из набора данных.

Хотя уравнение здесь записано с использованием натуральных логарифмов, основание логарифма, используемого при вычислении энтропии Шеннона, можно выбирать свободно. Сам Шеннон обсуждал основания логарифмов 2, 10 и e , и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждая база логарифма соответствует отдельной единице измерения, которая называется двоичными цифрами (битами), десятичными цифрами (децитами) и натуральными цифрами (nats) для оснований 2, 10 и e соответственно. Сравнение значений энтропии Шеннона, которые изначально были рассчитаны с использованием разных баз логарифмов, требует преобразования их в одну и ту же базу логарифмов: изменение от базы a к базе b получается путем умножения на log b a . [9]

Индекс Шеннона ( H' ) связан со средневзвешенным геометрическим пропорциональным обилием типов. В частности, оно равно логарифму истинного разнообразия, рассчитанному при q = 1 : [4]

Это также можно написать

что равно

Поскольку сумма значений pi . равна 1 по определению, знаменатель равен взвешенному среднему геометрическому pi значений , при этом сами значения pi используются в качестве весов (показателей степени в уравнении) Следовательно, термин в скобках означает истинное разнообразие. 1 D , а H' равен ln( 1 Д ) . [2] [4] [5]

Когда все типы в интересующем наборе данных одинаково распространены, все pi , и, следовательно , значения равны 1/ R индекс Шеннона принимает значение ln( R ) . Чем более неравномерно содержание типов, тем больше средневзвешенное геометрическое значений pi и тем меньше соответствующая энтропия Шеннона. Если практически вся численность сосредоточена в одном типе, а остальные типы очень редки (даже если их много), энтропия Шеннона приближается к нулю. Когда в наборе данных есть только один тип, энтропия Шеннона точно равна нулю (нет неопределенности в предсказании типа следующего случайно выбранного объекта).

В машинном обучении индекс Шеннона также называют приростом информации .

Энтропия Реньи

[ редактировать ]

Энтропия Реньи представляет собой обобщение энтропии Шеннона на другие значения q, кроме 1. Ее можно выразить:

что равно

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .

Индекс Симпсона

[ редактировать ]

Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при разделении людей на типы. [10] Тот же индекс был заново открыт Оррисом К. Херфиндалем в 1950 году. [11] Квадратный корень индекса был введен в 1945 году экономистом Альбертом О. Хиршманом . [12] В результате один и тот же показатель обычно известен как индекс Симпсона в экологии и как индекс Герфиндаля или индекс Герфиндаля-Хиршмана (HHI) в экономике.

Эта мера равна вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных, представляют один и тот же тип. [10] Оно равно:

где R — богатство (общее количество типов в наборе данных). Это уравнение также равно взвешенному среднему арифметическому пропорциональной численности p i интересующих типов, при этом сами пропорциональные численности используются в качестве весов. [2] Пропорциональная численность по определению ограничена значениями от нуля до единицы, но это среднее арифметическое взвешенное, следовательно, λ ≥ 1/ R , которое достигается, когда все типы одинаково распространены.

Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно увидеть, что 1/λ равно 2 D , т.е. истинное разнообразие, рассчитанное при q = 2 . Таким образом, исходный индекс Симпсона равен соответствующей базовой сумме. [3]

Интерпретация λ как вероятности того, что два объекта, выбранных случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первый объект заменяется в наборе данных до того, как будет взят второй объект. Если набор данных очень большой, выборка без замены дает примерно тот же результат, но в небольших наборах данных разница может быть существенной. Если набор данных небольшой и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках равна:

где n i — количество объектов, принадлежащих i- му типу, а N — общее количество объектов в наборе данных. [10] Эта форма индекса Симпсона также известна в микробиологии как индекс Хантера-Гастона. [13]

Поскольку средняя пропорциональная численность типов увеличивается с уменьшением количества типов и увеличением численности наиболее распространенного типа, λ получает небольшие значения в наборах данных с высоким разнообразием и большие значения в наборах данных с низким разнообразием. Это противоречивое поведение для индекса разнообразия, поэтому часто вместо него использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Наиболее популярными из таких индексов являются обратный индекс Симпсона (1/λ) и индекс Джини – Симпсона (1 − λ). [2] [3] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо проявлять осторожность, чтобы избежать случайного сравнения различных индексов, как если бы они были одинаковыми.

Обратный индекс Симпсона

[ редактировать ]

Обратный индекс Симпсона равен:

Это просто соответствует истинному разнообразию порядка 2, то есть эффективному количеству типов, которое получается, когда среднее арифметическое используется для количественной оценки средней пропорциональной численности типов в интересующем наборе данных.

Индекс также используется в качестве меры эффективного числа партий .

Индекс Джини-Симпсона

[ редактировать ]

Индекс Джини-Симпсона также называют индексом примеси Джини или индексом разнообразия Джини. [14] в области машинного обучения . Исходный индекс Симпсона λ равен вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Следовательно, его преобразование 1 - λ равно вероятности того, что два объекта представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи ( PIE ). [15] и индекс Джини-Симпсона. [3] Это можно выразить как трансформацию истинного многообразия второго порядка:

Индекс Гиббса-Мартина исследований в области социологии, психологии и менеджмента, [16] который также известен как индекс Блау, является той же мерой, что и индекс Джини-Симпсона.

Эта величина также известна как ожидаемая гетерозиготность в популяционной генетике.

Индекс Бергера-Паркера

[ редактировать ]

Бергер-Паркер [17] индекс равен максимальному pi значению в наборе данных, т. е. пропорциональному обилию наиболее распространенного типа. Это соответствует взвешенному обобщенному среднему значений pi , когда q приближается к бесконечности, и, следовательно, равно обратной величине истинного разнообразия порядка бесконечности ( 1/ Д ).

См. также

[ редактировать ]
  1. ^ Такер, Кэролайн М.; Кадотт, Марк В.; Карвалью, Сильвия Б.; Дэвис, Т. Джонатан; Ферье, Саймон; Фриц, Сюзанна А.; Гренье, Рич; Хельмус, Мэтью Р.; Джин, Ланна С. (май 2017 г.). «Руководство по филогенетическим метрикам для сохранения природы, экологии сообществ и макроэкологии: Руководство по филогенетическим метрикам для экологии» . Биологические обзоры . 92 (2): 698–715. дои : 10.1111/brv.12252 . ПМК   5096690 . ПМИД   26785932 .
  2. ^ Перейти обратно: а б с д и Хилл, Миссури (1973). «Разнообразие и равномерность: объединяющие обозначения и их последствия». Экология . 54 (2): 427–432. Бибкод : 1973Ecol...54..427H . дои : 10.2307/1934352 . JSTOR   1934352 .
  3. ^ Перейти обратно: а б с д и ж г Йост, Л. (2006). «Энтропия и разнообразие». Ойкос . 113 (2): 363–375. Бибкод : 2006Oikos.113..363J . дои : 10.1111/j.2006.0030-1299.14714.x .
  4. ^ Перейти обратно: а б с д и Туомисто, Х (2010). «Разнообразие бета-разнообразий: исправление ошибочной концепции. Часть 1. Определение бета-разнообразия как функции альфа- и гамма-разнообразия». Экография . 33 (1): 2–22. Бибкод : 2010Экогр..33....2Т . дои : 10.1111/j.1600-0587.2009.05880.x .
  5. ^ Перейти обратно: а б с д и Туомисто, Х (2010). «Последовательная терминология для количественной оценки видового разнообразия? Да, она существует». Экология . 164 (4): 853–860. Бибкод : 2010Oecol.164..853T . дои : 10.1007/s00442-010-1812-0 . ПМИД   20978798 . S2CID   19902787 .
  6. ^ Чао, Энн; Чиу, Чун-Хо; Йост, Лу (2016), «Показатели филогенетического разнообразия и их разложение: структура, основанная на числах холмов», Сохранение биоразнообразия и филогенетическая систематика , Темы биоразнообразия и сохранения, том. 14, Springer International Publishing, стр. 141–172, номер документа : 10.1007/978-3-319-22461-9_8 , ISBN.  9783319224602
  7. ^ Моррис, Э. Кэтрин; Карузо, Танкреди; Бускот, Франсуа; Фишер, Маркус; Хэнкок, Кристина; Майер, Таня С.; Майнерс, Торстен; Мюллер, Кэролайн; Обермайер, Элизабет; Прати, Дэниел; Сочер, Стефани А.; Зоннеманн, Илья; Васке, Николь; Вубет, Тесфайе; Вурст, Сюзанна (сентябрь 2014 г.). «Выбор и использование индексов разнообразия: идеи для экологических приложений от Немецких исследований биоразнообразия» . Экология и эволюция . 4 (18): 3514–3524. Бибкод : 2014EcoEv...4.3514M . дои : 10.1002/ece3.1155 . ISSN   2045-7758 . ПМЦ   4224527 . ПМИД   25478144 .
  8. ^ Спеллерберг, Ян Ф. и Питер Дж. Федор. (2003) Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и индекса Шеннона-Винера. Глобальная экология и биогеография 12.3, 177-179.
  9. ^ Перейти обратно: а б Шеннон, CE (1948) Математическая теория связи . Технический журнал Bell System, 27, 379–423 и 623–656.
  10. ^ Перейти обратно: а б с Симпсон, Э.Х. (1949). «Измерение разнообразия» . Природа . 163 (4148): 688. Бибкод : 1949Natur.163..688S . дои : 10.1038/163688a0 .
  11. ^ Херфиндал, О.К. (1950) Концентрация сталелитейной промышленности США. Неопубликованная докторская диссертация, Колумбийский университет.
  12. ^ Хиршман, А.О. (1945) Национальная власть и структура внешней торговли. Беркли.
  13. ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем типизации: применение индекса разнообразия Симпсона» . J Clin Микробиол . 26 (11): 2465–2466. doi : 10.1128/JCM.26.11.2465-2466.1988 . ПМК   266921 . ПМИД   3069867 .
  14. ^ «Выращивание деревьев решений» . Матворкс .
  15. ^ Херлберт, С.Х. (1971). «Неконцепция видового разнообразия: критика и альтернативные параметры». Экология . 52 (4): 577–586. Бибкод : 1971Ecol...52..577H . дои : 10.2307/1934145 . JSTOR   1934145 . ПМИД   28973811 . S2CID   25837001 .
  16. ^ Гиббс, Джек П.; Уильям Т. Мартин (1962). «Урбанизация, технологии и разделение труда». Американский социологический обзор . 27 (5): 667–677. дои : 10.2307/2089624 . JSTOR   2089624 .
  17. ^ Бергер, Вольфганг Х.; Паркер, Фрэнсис Л. (июнь 1970 г.). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука . 168 (3937): 1345–1347. Бибкод : 1970Sci...168.1345B . дои : 10.1126/science.168.3937.1345 . ПМИД   17731043 . S2CID   29553922 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 400785069075382d83379c2a57c4d207__1720273260
URL1:https://arc.ask3.ru/arc/aa/40/07/400785069075382d83379c2a57c4d207.html
Заголовок, (Title) документа по адресу, URL1:
Diversity index - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)