Индекс разнообразия
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Индекс разнообразия — это метод измерения количества различных типов (например, видов ) в наборе данных (например, сообществе). Некоторые более сложные индексы также объясняют филогенетическое родство между типами. [1] Индексы разнообразия — это статистические представления различных аспектов биоразнообразия (например, богатства , равномерности и доминирования ), которые являются полезными упрощениями для сравнения различных сообществ или территорий.
Эффективное количество видов или числа Хилла
[ редактировать ]Когда индексы разнообразия используются в экологии , типами, представляющими интерес, обычно являются виды, но они также могут быть и другими категориями, такими как роды , семейства , функциональные типы или гаплотипы . Объектами интереса обычно являются отдельные организмы (например, растения или животные), а мерой численности может быть, например, количество особей, биомасса или охват. В демографии объектами интереса могут быть люди, а типами интересов — различные демографические группы. В информатике сущностями могут быть символы и типы различных букв алфавита. Наиболее часто используемые индексы разнообразия представляют собой простые преобразования эффективного числа типов (также известные как «истинное разнообразие»), но каждый индекс разнообразия также можно интерпретировать самостоятельно как меру, соответствующую некоторому реальному явлению (но другому). для каждого индекса разнообразия). [2] [3] [4] [5]
Многие индексы учитывают только категориальное разнообразие между субъектами или организациями. Однако такие индексы не учитывают общую вариативность (разнообразие), которая может иметь место между субъектами или организациями, что происходит только тогда, когда рассчитываются как категориальное, так и качественное разнообразие.
Истинное разнообразие, или эффективное количество типов, относится к числу одинаково распространенных типов, необходимых для того, чтобы средняя пропорциональная численность типов равнялась наблюдаемой в интересующем наборе данных (где не все типы могут быть одинаково распространены). Истинное разнообразие в наборе данных рассчитывается путем сначала взятия взвешенного обобщенного среднего M q -1 пропорциональной численности типов в наборе данных, а затем принятия обратного значения . Уравнение: [4] [5]
Знаменатель - M q -1 равен средней пропорциональной распространенности типов в наборе данных, рассчитанной с использованием взвешенного обобщенного среднего с показателем q 1 . В уравнении R — это богатство (общее количество типов в наборе данных), а пропорциональное обилие - го типа равно pi i . Сами пропорциональные численности используются в качестве номинальных весов. Числа называются числами Хилла порядка q или эффективным числом видов . [6]
Когда q = 1 , приведенное выше уравнение не определено. Однако математический предел , когда q приближается к 1, четко определен, и соответствующее разнообразие рассчитывается по следующему уравнению:
которая представляет собой экспоненту энтропии Шеннона , рассчитанную с использованием натуральных логарифмов (см. Выше). В других областях эта статистика также известна как недоумение .
Общее уравнение разнообразия часто записывают в виде [2] [3]
а член в скобках называется базовой суммой. Некоторые популярные индексы разнообразия соответствуют базовой сумме, рассчитанной с разными значениями q . [3]
Чувствительность значения разнообразия к редким и многочисленным видам
[ редактировать ]Значение q часто называют порядком разнообразия. Он определяет чувствительность истинного разнообразия к редким и многочисленным видам путем изменения способа расчета средневзвешенного пропорционального обилия видов. При некоторых значениях параметра q значение обобщенного среднего M q −1 предполагает знакомые виды взвешенных средних в качестве особых случаев. В частности,
- q = 0 соответствует взвешенному гармоническому среднему ,
- q = 1 к взвешенному среднему геометрическому и
- q = 2 к взвешенному среднему арифметическому .
- Когда q приближается к бесконечности , взвешенное обобщенное среднее с показателем q 1 приближается к максимальному значению pi - , которое представляет собой пропорциональное обилие наиболее распространенных видов в наборе данных.
Как правило, увеличение значения q увеличивает эффективный вес, присваиваемый наиболее многочисленным видам. Это приводит к получению большего значения M q −1 и меньшего истинного разнообразия ( д D ) значение с увеличением q .
Когда q = 1 , используется средневзвешенное геометрическое значений pi . , и каждый вид точно взвешивается по его пропорциональной численности (в средневзвешенном геометрическом веса являются показателями степени) Когда q > 1 , вес, придаваемый многочисленным видам, преувеличивается, а когда q < 1 , вес, придаваемый редким видам. При q = 0 веса видов точно компенсируют пропорциональную численность видов, так что средневзвешенное значение pi даже равно 1 / R, если все виды не одинаково многочисленны. При q = 0 эффективное число видов, 0 D равно фактическому числу видов R. , следовательно , В контексте разнообразия q обычно ограничивается неотрицательными значениями. Это связано с тем, что отрицательные значения q придали бы редким видам гораздо больший вес, чем многочисленным, что д D превысит R. [4] [5]
Богатство
[ редактировать ]Богатство R просто определяет количество различных типов, которые содержит интересующий набор данных. Например, видовое богатство (обычно обозначаемое S ) — это просто количество видов, например, на определенном участке. Богатство — это простая мера, поэтому он стал популярным индексом разнообразия в экологии, где данные о численности часто недоступны. [7] Если истинное разнообразие рассчитывается с q = 0 , эффективное количество типов ( 0 D ) равно фактическому количеству типов, которое идентично богатству ( R ). [3] [5]
Индекс Шеннона
[ редактировать ]Индекс Шеннона был популярным индексом разнообразия в экологической литературе, где он также известен как индекс разнообразия Шеннона , Шеннона- Винера индекс и (ошибочно) Шеннона- Уивера индекс . [8] Первоначально эта мера была предложена Клодом Шенноном в 1948 году для количественного определения энтропии (отсюда и энтропии Шеннона , связанной с информационным содержанием Шеннона ) в текстовых строках. [9] Идея состоит в том, что чем больше букв и чем ближе их пропорциональное содержание в интересующей строке, тем труднее правильно предсказать, какая буква будет следующей в строке. Энтропия Шеннона количественно определяет неопределенность (энтропию или степень неожиданности), связанную с этим предсказанием. Чаще всего его рассчитывают следующим образом:
где p i — доля символов, принадлежащих i-му типу букв в интересующей строке. В экологии pi часто представляет собой долю особей, принадлежащих к i- му виду в интересующем наборе данных. Затем энтропия Шеннона количественно определяет неопределенность в предсказании видовой принадлежности особи, которая случайно берется из набора данных.
Хотя уравнение здесь записано с использованием натуральных логарифмов, основание логарифма, используемого при вычислении энтропии Шеннона, можно выбирать свободно. Сам Шеннон обсуждал основания логарифмов 2, 10 и e , и с тех пор они стали самыми популярными основаниями в приложениях, использующих энтропию Шеннона. Каждая база логарифма соответствует отдельной единице измерения, которая называется двоичными цифрами (битами), десятичными цифрами (децитами) и натуральными цифрами (nats) для оснований 2, 10 и e соответственно. Сравнение значений энтропии Шеннона, которые изначально были рассчитаны с использованием разных баз логарифмов, требует преобразования их в одну и ту же базу логарифмов: изменение от базы a к базе b получается путем умножения на log b a . [9]
Индекс Шеннона ( H' ) связан со средневзвешенным геометрическим пропорциональным обилием типов. В частности, оно равно логарифму истинного разнообразия, рассчитанному при q = 1 : [4]
Это также можно написать
что равно
Поскольку сумма значений pi . равна 1 по определению, знаменатель равен взвешенному среднему геометрическому pi значений , при этом сами значения pi используются в качестве весов (показателей степени в уравнении) Следовательно, термин в скобках означает истинное разнообразие. 1 D , а H' равен ln( 1 Д ) . [2] [4] [5]
Когда все типы в интересующем наборе данных одинаково распространены, все pi , и, следовательно , значения равны 1/ R индекс Шеннона принимает значение ln( R ) . Чем более неравномерно содержание типов, тем больше средневзвешенное геометрическое значений pi и тем меньше соответствующая энтропия Шеннона. Если практически вся численность сосредоточена в одном типе, а остальные типы очень редки (даже если их много), энтропия Шеннона приближается к нулю. Когда в наборе данных есть только один тип, энтропия Шеннона точно равна нулю (нет неопределенности в предсказании типа следующего случайно выбранного объекта).
В машинном обучении индекс Шеннона также называют приростом информации .
Энтропия Реньи
[ редактировать ]Энтропия Реньи представляет собой обобщение энтропии Шеннона на другие значения q, кроме 1. Ее можно выразить:
что равно
Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .
Индекс Симпсона
[ редактировать ]Индекс Симпсона был введен в 1949 году Эдвардом Х. Симпсоном для измерения степени концентрации при разделении людей на типы. [10] Тот же индекс был заново открыт Оррисом К. Херфиндалем в 1950 году. [11] Квадратный корень индекса был введен в 1945 году экономистом Альбертом О. Хиршманом . [12] В результате один и тот же показатель обычно известен как индекс Симпсона в экологии и как индекс Герфиндаля или индекс Герфиндаля-Хиршмана (HHI) в экономике.
Эта мера равна вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных, представляют один и тот же тип. [10] Оно равно:
где R — богатство (общее количество типов в наборе данных). Это уравнение также равно взвешенному среднему арифметическому пропорциональной численности p i интересующих типов, при этом сами пропорциональные численности используются в качестве весов. [2] Пропорциональная численность по определению ограничена значениями от нуля до единицы, но это среднее арифметическое взвешенное, следовательно, λ ≥ 1/ R , которое достигается, когда все типы одинаково распространены.
Сравнивая уравнение, используемое для расчета λ, с уравнениями, используемыми для расчета истинного разнообразия, можно увидеть, что 1/λ равно 2 D , т.е. истинное разнообразие, рассчитанное при q = 2 . Таким образом, исходный индекс Симпсона равен соответствующей базовой сумме. [3]
Интерпретация λ как вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных, представляют один и тот же тип, предполагает, что первый объект заменяется в наборе данных до того, как будет взят второй объект. Если набор данных очень большой, выборка без замены дает примерно тот же результат, но в небольших наборах данных разница может быть существенной. Если набор данных небольшой и предполагается выборка без замены, вероятность получения одного и того же типа при обоих случайных выборках равна:
где n i — количество объектов, принадлежащих i- му типу, а N — общее количество объектов в наборе данных. [10] Эта форма индекса Симпсона также известна в микробиологии как индекс Хантера-Гастона. [13]
Поскольку средняя пропорциональная численность типов увеличивается с уменьшением количества типов и увеличением численности наиболее распространенного типа, λ получает небольшие значения в наборах данных с высоким разнообразием и большие значения в наборах данных с низким разнообразием. Это противоречивое поведение для индекса разнообразия, поэтому часто вместо него использовались такие преобразования λ, которые увеличиваются с увеличением разнообразия. Наиболее популярными из таких индексов являются обратный индекс Симпсона (1/λ) и индекс Джини – Симпсона (1 − λ). [2] [3] Оба они также называются индексом Симпсона в экологической литературе, поэтому необходимо проявлять осторожность, чтобы избежать случайного сравнения различных индексов, как если бы они были одинаковыми.
Обратный индекс Симпсона
[ редактировать ]Обратный индекс Симпсона равен:
Это просто соответствует истинному разнообразию порядка 2, т.е. эффективному количеству типов, которое получается, когда среднее арифметическое используется для количественной оценки средней пропорциональной численности типов в интересующем наборе данных.
Индекс также используется в качестве меры эффективного числа партий .
Индекс Джини-Симпсона
[ редактировать ]Индекс Джини-Симпсона также называют индексом примеси Джини или индексом разнообразия Джини. [14] в области машинного обучения . Исходный индекс Симпсона λ равен вероятности того, что два объекта, выбранные случайным образом из интересующего набора данных (с заменой), представляют один и тот же тип. Следовательно, его преобразование 1 - λ равно вероятности того, что два объекта представляют разные типы. Эта мера также известна в экологии как вероятность межвидовой встречи ( PIE ). [15] и индекс Джини-Симпсона. [3] Это можно выразить как трансформацию истинного многообразия второго порядка:
Индекс Гиббса-Мартина исследований в области социологии, психологии и менеджмента, [16] который также известен как индекс Блау, является той же мерой, что и индекс Джини-Симпсона.
Эта величина также известна как ожидаемая гетерозиготность в популяционной генетике.
Индекс Бергера-Паркера
[ редактировать ]Бергер-Паркер [17] индекс равен максимальному pi значению в наборе данных, т. е. пропорциональному обилию наиболее распространенного типа. Это соответствует взвешенному обобщенному среднему значений pi , когда q приближается к бесконечности, и, следовательно, равно обратной величине истинного разнообразия порядка бесконечности ( 1/ ∞ Д ).
См. также
[ редактировать ]- Альфа-разнообразие
- Бета-разнообразие
- Культурное разнообразие
- Эффективное количество партий , индекс разнообразия, применяемый к политическим партиям.
- Гамма-разнообразие
- Обобщенный индекс энтропии
- Коэффициент Джини
- Индекс изоляции
- Измерение биоразнообразия
- Качественная вариация
- Относительное изобилие
- Видовое разнообразие
- Видовое богатство
Ссылки
[ редактировать ]- ^ Такер, Кэролайн М.; Кадотт, Марк В.; Карвалью, Сильвия Б.; Дэвис, Т. Джонатан; Ферье, Саймон; Фриц, Сюзанна А.; Гренье, Рич; Хельмус, Мэтью Р.; Джин, Ланна С. (май 2017 г.). «Руководство по филогенетическим метрикам для сохранения природы, экологии сообществ и макроэкологии: Руководство по филогенетическим метрикам для экологии» . Биологические обзоры . 92 (2): 698–715. дои : 10.1111/brv.12252 . ПМК 5096690 . ПМИД 26785932 .
- ^ Jump up to: а б с д и Хилл, Миссури (1973). «Разнообразие и равномерность: объединяющие обозначения и их последствия». Экология . 54 (2): 427–432. Бибкод : 1973Ecol...54..427H . дои : 10.2307/1934352 . JSTOR 1934352 .
- ^ Jump up to: а б с д и ж г Йост, Л. (2006). «Энтропия и разнообразие». Ойкос . 113 (2): 363–375. Бибкод : 2006Oikos.113..363J . дои : 10.1111/j.2006.0030-1299.14714.x .
- ^ Jump up to: а б с д и Туомисто, Х (2010). «Разнообразие бета-разнообразий: исправление ошибочной концепции. Часть 1. Определение бета-разнообразия как функции альфа- и гамма-разнообразия». Экография . 33 (1): 2–22. Бибкод : 2010Экогр..33....2Т . дои : 10.1111/j.1600-0587.2009.05880.x .
- ^ Jump up to: а б с д и Туомисто, Х (2010). «Последовательная терминология для количественной оценки видового разнообразия? Да, она существует». Экология . 164 (4): 853–860. Бибкод : 2010Oecol.164..853T . дои : 10.1007/s00442-010-1812-0 . ПМИД 20978798 . S2CID 19902787 .
- ^ Чао, Энн; Чиу, Чун-Хо; Йост, Лу (2016), «Показатели филогенетического разнообразия и их разложение: структура, основанная на числах холмов», Сохранение биоразнообразия и филогенетическая систематика , Темы биоразнообразия и сохранения, том. 14, Springer International Publishing, стр. 141–172, номер документа : 10.1007/978-3-319-22461-9_8 , ISBN. 9783319224602
- ^ Моррис, Э. Кэтрин; Карузо, Танкреди; Бускот, Франсуа; Фишер, Маркус; Хэнкок, Кристина; Майер, Таня С.; Майнерс, Торстен; Мюллер, Кэролайн; Обермайер, Элизабет; Прати, Дэниел; Сочер, Стефани А.; Зоннеманн, Илья; Васке, Николь; Вубет, Тесфайе; Вурст, Сюзанна (сентябрь 2014 г.). «Выбор и использование индексов разнообразия: идеи для экологических приложений от Немецких исследований биоразнообразия» . Экология и эволюция . 4 (18): 3514–3524. Бибкод : 2014EcoEv...4.3514M . дои : 10.1002/ece3.1155 . ISSN 2045-7758 . ПМЦ 4224527 . ПМИД 25478144 .
- ^ Спеллерберг, Ян Ф. и Питер Дж. Федор. (2003) Дань уважения Клоду Шеннону (1916–2001) и призыв к более строгому использованию видового богатства, видового разнообразия и индекса Шеннона-Винера. Глобальная экология и биогеография 12.3, 177-179.
- ^ Jump up to: а б Шеннон, CE (1948) Математическая теория связи . Технический журнал Bell System, 27, 379–423 и 623–656.
- ^ Jump up to: а б с Симпсон, Э.Х. (1949). «Измерение разнообразия» . Природа . 163 (4148): 688. Бибкод : 1949Natur.163..688S . дои : 10.1038/163688a0 .
- ^ Херфиндал, О.К. (1950) Концентрация сталелитейной промышленности США. Неопубликованная докторская диссертация, Колумбийский университет.
- ^ Хиршман, А.О. (1945) Национальная власть и структура внешней торговли. Беркли.
- ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем типизации: применение индекса разнообразия Симпсона» . J Clin Микробиол . 26 (11): 2465–2466. doi : 10.1128/JCM.26.11.2465-2466.1988 . ПМК 266921 . ПМИД 3069867 .
- ^ «Выращивание деревьев решений» . Матворкс .
- ^ Херлберт, С.Х. (1971). «Неконцепция видового разнообразия: критика и альтернативные параметры». Экология . 52 (4): 577–586. Бибкод : 1971Ecol...52..577H . дои : 10.2307/1934145 . JSTOR 1934145 . ПМИД 28973811 . S2CID 25837001 .
- ^ Гиббс, Джек П.; Уильям Т. Мартин (1962). «Урбанизация, технологии и разделение труда». Американский социологический обзор . 27 (5): 667–677. дои : 10.2307/2089624 . JSTOR 2089624 .
- ^ Бергер, Вольфганг Х.; Паркер, Фрэнсис Л. (июнь 1970 г.). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука . 168 (3937): 1345–1347. Бибкод : 1970Sci...168.1345B . дои : 10.1126/science.168.3937.1345 . ПМИД 17731043 . S2CID 29553922 .
Дальнейшее чтение
[ редактировать ]- Колинво, Поль А. (1973). Введение в экологию . Уайли. ISBN 0-471-16498-4 .
- Обложка, Томас М.; Томас, Джой А. (1991). Элементы теории информации . Уайли. ISBN 0-471-06259-6 . См. главу 5 для более подробной информации о процедурах кодирования, неофициально описанных выше.
- Чао, А .; Шен, Ти Джей. (2003). «Непараметрическая оценка индекса разнообразия Шеннона, когда в выборке есть невидимые виды» (PDF) . Экологическая и экологическая статистика . 10 (4): 429–443. дои : 10.1023/А:1026096204727 . S2CID 20389926 .
Внешние ссылки
[ редактировать ]- Индекс разнообразия Симпсона
- Индексы разнообразия. Архивировано 19 декабря 2005 г. в Wayback Machine. Приводятся некоторые примеры оценок индекса Симпсона для реальных экосистем.