Jump to content

Качественная вариация

Индекс качественной вариации ( IQV ) является мерой статистической дисперсии номинальных распределений . Примеры включают коэффициент вариации или информационную энтропию .

Характеристики

[ редактировать ]

Существует несколько типов индексов, используемых для анализа номинальных данных. Некоторые из них являются стандартными статистическими данными, которые используются в других местах: диапазон , стандартное отклонение , дисперсия , среднее отклонение , коэффициент вариации , медианное абсолютное отклонение , межквартильный размах и квартильное отклонение .

В дополнение к этому были разработаны некоторые статистические данные с учетом номинальных данных. Некоторые из них были обобщены и разработаны Уилкоксом ( Wilcox 1967 ), ( Wilcox 1973 ), который требует соблюдения следующих свойств стандартизации:

  • Вариация варьируется от 0 до 1.
  • Вариация равна 0 тогда и только тогда, когда все случаи принадлежат одной категории.
  • Вариация равна 1 тогда и только тогда, когда случаи равномерно распределены по всем категориям. [1]

В частности, значение этих стандартизированных индексов не зависит от количества категорий или количества образцов.

Для любого индекса, чем ближе к равномерному распределению, тем больше дисперсия и чем больше различия в частотах между категориями, тем меньше дисперсия.

Индексы качественных вариаций тогда аналогичны информационной энтропии , которая минимизируется, когда все случаи принадлежат одной категории, и максимизируется при равномерном распределении. Действительно, информационную энтропию можно использовать как показатель качественных изменений.

Одной из характеристик конкретного индекса качественных вариаций (IQV) является отношение наблюдаемых различий к максимальным различиям.

Индексы Уилкокса

[ редактировать ]

Уилкокс дает ряд формул для различных показателей QV ( Wilcox 1973 ), первая, которую он обозначает DM для «отклонения от моды», представляет собой стандартизированную форму коэффициента вариации и аналогична дисперсии как отклонению от среднего значения. .

Формула изменения режима (ModVR) выводится следующим образом:

где f m — модальная частота, K — количество категорий, а f i — частота i й группа.

Это можно упростить до

где N — общий размер выборки.

Индекс Фримена (или коэффициент вариации) равен [2]

Это связано с М следующим образом:

ModVR определяется как

где v — индекс Фримена.

Низкие значения ModVR соответствуют небольшому количеству вариаций, а высокие значения — большему количеству вариаций.

Когда K велико, ModVR примерно равен индексу Фримена v .

Это зависит от диапазона вокруг режима. Это определено как

где f m — модальная частота, а f l — самая низкая частота.

Это аналог среднего отклонения. Оно определяется как среднее арифметическое абсолютных отличий каждого значения от среднего.

Это аналог средней разности — среднего значения разностей всех возможных пар значений переменных, взятых независимо от знака. Средняя разница отличается от среднего и стандартного отклонения, поскольку она зависит от разброса значений переменных между собой, а не от отклонений от некоторого центрального значения. [3]

где f i и f j - это i й и Дж й частоты соответственно.

MNDif — это коэффициент Джини , применяемый к качественным данным.

Это аналог дисперсии.

Это тот же индекс, что и индекс качественной изменчивости Мюллера и Шюсслера. [4] и индекс Гиббса М2 .

Она распределяется как переменная хи-квадрат с K – 1 степенями свободы . [5]

стандартное отклонение

[ редактировать ]

Уилсон предложил две версии этой статистики.

Первый основан на AvDev.

Второй основан на MNDif

Этот индекс был первоначально разработан Клодом Шенноном для использования при определении свойств каналов связи.

где п я знак равно ж я / N .

Это эквивалентно информационной энтропии, деленной на и полезен для сравнения относительных вариаций между таблицами частот разных размеров.

Индекс Б

[ редактировать ]

Уилкокс адаптировал предложение Кайзера [6] на основе среднего геометрического и создал индекс B' . Индекс B определяется как

Некоторые из этих индексов реализованы на языке R. [7]

[ редактировать ]

Гиббс и Постон-младший (1975) предложили шесть индексов. [8]

Нестандартизованный индекс ( М 1) ( Гиббс и Постон-младший, 1975 , стр. 471) равен

где K — количество категорий и — это доля наблюдений, попадающих в данную категорию i .

M 1 можно интерпретировать как единицу минус вероятность того, что случайная пара образцов будет принадлежать к одной и той же категории, [9] таким образом, эта формула для IQV представляет собой стандартизированную вероятность того, что случайная пара попадет в одну и ту же категорию. Этот индекс также называют индексом дифференциации, индексом дифференциации средств к существованию и индексом географической дифференциации в зависимости от контекста, в котором он используется.

Второй индекс — M2. [10] ( Гиббс и Постон-младший, 1975 , стр. 472):

где K — количество категорий и — это доля наблюдений, попадающих в данную категорию i . Фактор предназначен для стандартизации.

M 1 и M 2 можно интерпретировать с точки зрения дисперсии полиномиального распределения ( Swanson 1976 ) (так называемая «расширенная биномиальная модель»). M 1 представляет собой дисперсию полиномиального распределения, а M 2 представляет собой отношение дисперсии полиномиального распределения к дисперсии биномиального распределения .

Индекс М 4

где m — среднее значение.

Формула для М 6:

·где K — количество категорий, X i — количество точек данных в i й категория, N — общее количество точек данных, || - абсолютное значение (модуль) и

Эту формулу можно упростить

где p i — доля выборки в i й категория.

На практике M 1 и M 6 имеют тенденцию сильно коррелировать, что препятствует их совместному использованию.

[ редактировать ]

Сумма

также нашел применение. Это известно как индекс Симпсона в экологии и как индекс Герфиндаля или индекс Герфиндаля-Хиршмана (HHI) в экономике. Вариант этого известен как индекс Хантера-Гастона в микробиологии. [11]

В лингвистике и криптоанализе эта сумма известна как частота повторений. Частота совпадений ( IC ) является несмещенной оценкой этой статистики. [12]

где f i - количество i й графема в тексте, а n — общее количество графем в тексте.

MМ1

Определенная выше статистика M 1 предлагалась несколько раз в различных условиях под разными названиями. К ним относятся индекс изменчивости Джини, [13] Мера разнообразия Симпсона, [14] Индекс языковой однородности Бачи, [15] Индекс качественной вариации Мюллера и Шюсслера, [16] Индекс диверсификации отрасли Гиббса и Мартина. [17] Индекс Либерсона. [18] и индекс Блау в области социологии, психологии и исследований в области менеджмента. [19] Формулировка всех этих индексов идентична.

Симпсона D определяется как

где n — общий размер выборки, а n i — количество элементов в i й категория.

Для больших n имеем

Другая предложенная статистика — это коэффициент несходства, который колеблется от 0 до 1. [20]

где n — размер выборки, а c ( x , y ) = 1, если x и y не похожи друг на друга, и 0 в противном случае.

Для больших n имеем

где К — количество категорий.

Другая связанная статистика - это квадратичная энтропия.

что само по себе связано с индексом Джини .

MМ2

Одноязычный невзвешенный индекс языкового разнообразия Гринберга [21] статистика M 2 , определенная выше.

М 7

Другой индекс – М 7 – был создан на основе индекса М 4 Гиббса и Постона-младшего (1975). [22]

где

и

где K — количество категорий, L — количество подтипов, O ij и E ij — количество наблюдаемых и ожидаемых соответственно подтипа j в i й категория, n i — номер в i й категория, а p j — доля подтипа j в полной выборке.

Примечание. Этот индекс был разработан для измерения участия женщин на рабочем месте: он был разработан для двух подтипов: мужчин и женщин.

Другие индексы единичной выборки

[ редактировать ]

Эти индексы представляют собой сводную статистику вариаций внутри выборки.

Индекс Бергера-Паркера

[ редактировать ]

Индекс Бергера-Паркера равен максимуму значение в наборе данных, т.е. пропорциональное обилие наиболее распространенного типа. [23] Это соответствует взвешенному обобщенному среднему значения, когда q приближается к бесконечности и, следовательно, равняется обратной величине истинного разнообразия порядка бесконечности (1/ Д ).

Индекс разнообразия Бриллюэна

[ редактировать ]

Этот индекс строго применим только ко всей совокупности, а не к конечным выборкам. Это определяется как

где N — общее количество особей в популяции, n i — количество особей в i й категория и N ! является факториалом N. ​Показатель четности Бриллюэна определяется как

где I B (max) — максимальное значение I B .

Числа разнообразия Хилла

[ редактировать ]

Хилл предложил семейство чисел разнообразия [24]

Для заданных значений a можно вычислить несколько других индексов.

  • a = 0: N a = видовое богатство
  • a = 1: N a = индекс Шеннона
  • a = 2: N a = 1/индекс Симпсона (без поправки на малую выборку)
  • a = 3: N a = 1/индекс Бергера–Паркера

Хилл также предложил семейство мер ровности.

где а > б .

Хиллс Е 4

Хиллс Е 5

Индекс Маргалефа

[ редактировать ]

где S — количество типов данных в выборке, а N — общий размер выборки. [25]

Индекс Менхиника

[ редактировать ]

где S — количество типов данных в выборке, а N — общий размер выборки. [26]

В лингвистике этот индекс идентичен индексу Курашкевича (индексу Гийарда), где S — количество отдельных слов (типов), а N — общее количество слов (лексем) в исследуемом тексте. [27] [28] Этот индекс можно получить как частный случай обобщенной функции Торквиста. [29]

Q-статистика

[ редактировать ]

Это статистика, придуманная Кемптоном и Тейлором. [30] и включает в себя квартили выборки. Это определяется как

где R 1 и R 2 — квартили 25% и 75% соответственно на кумулятивной кривой видов, n j — количество видов в j категории, n Ri — количество видов в классе, куда попадает R i ( i = 1 или 2).

Индекс Шеннона – Винера

[ редактировать ]

Это взято из теории информации

где N — общее количество в выборке, а p i — доля в i й категория.

В экологии, где обычно используется этот индекс, Н обычно лежит в пределах 1,5–3,5 и лишь изредка превышает 4,0.

Приблизительная формула для стандартного отклонения (SD) H :

где p i - доля, составляющая i й категория, а N — общее количество в выборке.

Более точное приближенное значение дисперсии H (var( H )) определяется выражением [31]

где N — размер выборки, а K — количество категорий.

Родственным индексом является индекс Пиелоу J, определяемый как

Одна из трудностей с этим индексом заключается в том, что S неизвестна для конечной выборки. На практике S обычно устанавливается на максимальное значение, присутствующее в любой категории выборки.

Энтропия Реньи

[ редактировать ]

Энтропия Реньи представляет собой обобщение энтропии Шеннона на другие значения q , кроме единицы. Это может быть выражено:

что равно

Это означает, что логарифм истинного разнообразия на основе любого значения q дает энтропию Реньи, соответствующую тому же значению q .

Стоимость также известно как число Хилла. [24]

Макинтош D и E

[ редактировать ]

Макинтош предложил меру разнообразия: [32]

где n i - число в i й категория, а K — количество категорий.

Он также предложил несколько нормализованных версий этого индекса. Во-первых, это Д :

где N — общий размер выборки.

что он выражает наблюдаемое разнообразие как долю абсолютного максимального разнообразия при данном N. Преимущество этого индекса состоит в том ,

Другая предложенная нормализация — это E — отношение наблюдаемого разнообразия к максимально возможному разнообразию данных N и K (т. е. если все виды равны по числу особей):

Альфа Фишера

[ редактировать ]

Это был первый индекс разнообразия. [33]

где K — количество категорий, а N — количество точек данных в выборке. Фишера α должна быть оценена численно на основе данных.

Ожидаемое количество особей в р й категория, в которой категории расположены в возрастающем размере, - это

где X — эмпирический параметр, лежащий между 0 и 1. Хотя X лучше всего оценить численно, приближенное значение можно получить, решив следующие два уравнения:

где K — количество категорий, а N — общий размер выборки.

Дисперсия α примерно равна [34]

Индекс Стронга

[ редактировать ]

Этот индекс ( D w ) представляет собой расстояние между кривой Лоренца распределения видов и линией 45 градусов. Он тесно связан с коэффициентом Джини. [35]

В символах это

где max() — максимальное значение, полученное по N точкам данных, K — количество категорий (или видов) в наборе данных, а c i — совокупная сумма, включая i- ю категорию.

Симпсон E

[ редактировать ]

Симпсона Это связано с D и определяется как

где D Симпсона — D , а K — количество категорий в выборке.

Индексы Смита и Вильсона

[ редактировать ]

Смит и Уилсон предложили ряд индексов, основанных на D Симпсона .

где D по Симпсону — D , а K — количество категорий.

Индекс Хейпа

[ редактировать ]

где H — энтропия Шеннона, а K — количество категорий.

Этот индекс тесно связан с индексом Шелдона, который

где H — энтропия Шеннона, а K — количество категорий.

Индекс Камарго

[ редактировать ]

Этот индекс был создан Камарго в 1993 году. [36]

где K — количество категорий, а pi доля в i й категория.

Смит и Уилсон Б

[ редактировать ]

Этот индекс был предложен Смитом и Уилсоном в 1996 году. [37]

где θ — наклон кривой логарифмического ранга (обилия).

Индекс Ни, Харви и Котгрива

[ редактировать ]

Это наклон логарифмической кривой (изобилия)-ранга.

Булла'с Е

[ редактировать ]

Существует две версии этого индекса — одна для непрерывных распределений ( E c ) и другая для дискретных ( E d ). [38]

где

– индекс Шёнера – Чеканоски, K – количество категорий, а N – размер выборки.

Индекс теории информации Хорна

[ редактировать ]

Этот индекс ( R ik ) основан на энтропии Шеннона. [39] Это определяется как

где

В этих уравнениях x ij и x kj — это количество раз, когда j й тип данных появляется в i й или к й образец соответственно.

Индекс разрежения

[ редактировать ]

В разреженной выборке случайная подвыборка n элементов выбирается из общего числа N . В этой выборке некоторые группы могут обязательно отсутствовать в этой подвыборке. Позволять — количество групп, все еще присутствующих в подвыборке из n элементов. меньше K — количество категорий, если в этой подвыборке отсутствует хотя бы одна группа.

Кривая разрежения , определяется как:

Обратите внимание, что 0 ≤ f ( n ) ≤ K .

Более того,

Несмотря на то, что эти кривые определяются при дискретных значениях n , чаще всего они отображаются как непрерывные функции. [40]

Этот индекс обсуждается далее в разделе «Разрежение (экология)» .

Касвеллс V

[ редактировать ]

Это статистика типа z, основанная на энтропии Шеннона. [41]

где H — энтропия Шеннона, E ( H ) — ожидаемая энтропия Шеннона для нейтральной модели распределения, а SD ( H ) — стандартное отклонение энтропии. Стандартное отклонение оценивается по формуле, полученной Пьелу.

где p i - доля, составляющая i й категория, а N — общее количество в выборке.

Индекс Ллойда и Геларди

[ редактировать ]

Это

где K — количество категорий, а K’ — количество категорий в соответствии с моделью сломанной палки Макартура, дающей наблюдаемое разнообразие.

Средний индекс таксономической отличимости

[ редактировать ]

Этот индекс используется для сравнения взаимоотношений между хозяевами и их паразитами. [42] Он включает информацию о филогенетических отношениях между видами-хозяевами.

где s — количество видов хозяев, используемых паразитом, а ω ij — таксономическое различие между видами хозяев i и j .

Индекс качественной вариации

[ редактировать ]

Было предложено несколько индексов с таким названием.

Один из них

где K — количество категорий, а pi доля выборки, лежащая в i й категория.

Этот индекс также известен как индекс мультигрупповой энтропии или индекс теории информации. Он был предложен Тейлом в 1972 году. [43] Индекс представляет собой средневзвешенное значение энтропии выборки.

Позволять

и

где p i — доля типа i в a й образец, r — общее количество образцов, n i — размер i й выборка, N — размер популяции, из которой были получены выборки, а E — энтропия популяции.

Индексы для сравнения двух или более типов данных в одной выборке.

[ редактировать ]

Некоторые из этих индексов были разработаны для документирования степени, в которой различные типы данных, представляющие интерес, могут сосуществовать в пределах географической области.

Индекс несходства

[ редактировать ]

Пусть A и B — два типа элементов данных. Тогда индекс несходства равен

где

A i — количество типов данных A на сайте выборки i , B i — количество типов данных B на сайте выборки i , K — количество сайтов, выбранных для выборки, и || является абсолютной величиной.

Этот индекс, вероятно, более известен как индекс несходства ( D ). [44] Он тесно связан с индексом Джини.

Этот индекс является смещенным, поскольку его математическое ожидание при равномерном распределении > 0.

Модификация этого индекса была предложена Горардом и Тейлором. [45] Их индекс (GT) составляет

Индекс сегрегации

[ редактировать ]

Индекс сегрегации ( IS ) [46] является

где

и K — количество единиц, A i и t i — количество типов данных A в единице i и общее количество всех типов данных в единице i .

Индекс квадратного корня Хатчена

[ редактировать ]

Этот индекс ( H ) определяется как [47]

где p i — доля выборки, состоящая из i й разнообразный.

Индекс изоляции Либерсона

[ редактировать ]

Этот индекс ( L xy ) был изобретен Либерсоном в 1981 году. [48]

где X i и Y i — интересующие переменные в i й сайт, K — количество исследованных сайтов, а X tot — общее количество вариантов типа X в исследовании.

индекс Белла

[ редактировать ]

Этот индекс определяется как [49]

где p x — доля выборки, состоящая из вариантов типа X и

где N x — общее количество вариаций типа X в исследовании, K — количество выборок в исследовании, а и xi pi количество вариаций и доля вариаций типа X соответственно в i й образец.

Индекс изоляции

[ редактировать ]

Индекс изоляции

где K — количество единиц в исследовании, A i и t i — количество единиц типа A и количество всех единиц в i выборке.

Также был предложен модифицированный индекс изоляции.

MII находится между 0 и 1.

Индекс сегрегации Горара

[ редактировать ]

Этот индекс (GS) определяется как

где

и A i и t i — количество элементов данных типа A и общее количество элементов в i й образец.

Индекс воздействия

[ редактировать ]

Этот индекс определяется как

где

а A i и B i — количество типов A и B в i й категории, а t i — общее количество точек данных в i й категория.

Индекс Очиай

[ редактировать ]

Это двоичная форма индекса косинуса. [50] Он используется для сравнения данных о присутствии/отсутствии двух типов данных (здесь A и B ). Это определяется как

где a — количество единиц выборки, в которых как A , так и B обнаружены , b — количество единиц выборки, в которых A но не B встречается , и c — количество единиц выборки, в которых тип B присутствует , но не тип A. ,

Коэффициент Кульчинского

[ редактировать ]

Этот коэффициент был изобретен Станиславом Кульчинским в 1927 году. [51] и является индексом связи между двумя типами (здесь A и B ). Его значение варьируется от 0 до 1. Оно определяется как

где a — количество единиц выборки, в которых тип A и тип B присутствуют , b — количество единиц выборки, в которых тип A , но не тип B присутствует , и c — количество единиц выборки, в которых тип B присутствует , но не тип A. .

Вопрос Йоля

[ редактировать ]

Этот индекс был изобретен Юлом в 1900 году. [52] Речь идет об ассоциации двух разных типов (здесь А и Б ). Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. Значение Q варьируется от -1 до +1. В порядковом случае Q известен как γ Гудмана-Краскала .

Поскольку знаменатель потенциально может быть равен нулю, Лейнхерт и Спорер рекомендовали добавлять +1 к a , b , c и d . [53]

Йольский Y

[ редактировать ]

Этот индекс определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.

Коэффициент Барони – Урбани – Бузера

[ редактировать ]

Этот индекс был изобретен Барони-Урбани и Бузером в 1976 году. [54] Его значение варьируется от 0 до 1. Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

При d = 0 этот индекс идентичен индексу Жаккара.

Коэффициент Хаммана

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Роджерса – Танимото

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки

Коэффициент Сокала – Снита

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Бинарное расстояние Сокаля

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Рассела – Рао

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Фи

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.

Коэффициент Зергеля

[ редактировать ]

Этот коэффициент определяется как

где b — количество образцов, в которых тип A присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, в которых не ни тип A , ни тип B. присутствуют N — размер выборки.

Коэффициент Симпсона

[ редактировать ]

Этот коэффициент определяется как

где b — количество образцов, в которых тип A присутствует но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A. ,

Коэффициент Денниса

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Форбса

[ редактировать ]

Этот коэффициент был предложен Стивеном Альфредом Форбсом в 1907 году. [55] Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки ( N = a + b + c + d ).

Модификация этого коэффициента, не требующая знания d, была предложена Элроем. [56]

Где n = а + б + с .

Простой коэффициент соответствия

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Фоссума

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Стайла

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B, присутствует но не тип A , d — количество образцов, где ни тип A, ни тип B отсутствуют, n равно a + b + c + d и || – модуль (абсолютное значение) разности.

коэффициент Майкла

[ редактировать ]

Этот коэффициент определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.

Коэффициент Пирса

[ редактировать ]

В 1884 году Чарльз Пирс предложил [57] следующий коэффициент

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют.

Коэффициент Хокина – Дотсона

[ редактировать ]

В 1975 году Хокин и Дотсон предложили следующий коэффициент:

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Коэффициент Бенина

[ редактировать ]

В 1901 году Бенини предложил следующий коэффициент

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует но не тип B , и c — количество образцов, в которых тип B присутствует , но не тип A. , Min( b , c ) — это минимум b и c .

Коэффициент Гилберта

[ редактировать ]

Гилберт предложил следующий коэффициент

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A , и d — количество образцов, где ни тип А , ни тип Б отсутствуют. N — размер выборки.

Индекс Джини

[ редактировать ]

Индекс Джини – это

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует но не тип B , и c — количество образцов, в которых тип B присутствует , но не тип A. ,

Модифицированный индекс Джини

[ редактировать ]

Модифицированный индекс Джини

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует но не тип B , и c — количество образцов, в которых тип B присутствует , но не тип A. ,

индекс Куна

[ редактировать ]

Кун предложил следующий коэффициент в 1965 году

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует но не тип B , и c — количество образцов, в которых тип B присутствует , но не тип A. , К – нормирующий параметр. N — размер выборки.

Этот показатель также известен как коэффициент средних арифметических.

Индекс Эйро

[ редактировать ]

Эйро предложил следующий коэффициент в 1936 году.

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не присутствует тип A , и d — количество образцов где ни A , ни B. нет

Расстояние Зергеля

[ редактировать ]

Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не присутствует тип A , и d — количество образцов где ни A , ни B. нет N — размер выборки.

Индекс Танимото

[ редактировать ]

Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует , но не тип B , c — количество образцов, в которых тип B присутствует , но не присутствует тип A , и d — количество образцов где ни A , ни B. нет N — размер выборки.

Индекс Пятецкого-Шапиро.

[ редактировать ]

Это определяется как

где a — количество образцов, в которых типа A и B присутствуют оба , b тип A — это количество образцов, в которых присутствует но не тип B , c — количество образцов, в которых тип B присутствует , но не тип A. ,

Индексы для сравнения двух или более образцов

[ редактировать ]

Количественный показатель Чекановского

[ редактировать ]

Это также известно как индекс Брея-Кертиса , индекс Шёнера, индекс наименьшего процента, индекс родства или пропорционального сходства. Это связано с индексом сходства Сёренсена .

где x i и x j — количество видов на участках i и j соответственно, а минимум берется из числа общих видов между двумя участками.

Канберрская метрика

[ редактировать ]

Расстояние Канберры — это взвешенная версия метрики L 1 . Он был представлен в 1966 году. [58] и усовершенствован в 1967 г. [59] Г. Н. Ланс и У. Т. Уильямс . Он используется для определения расстояния между двумя векторами — здесь два сайта с K категориями внутри каждого сайта.

Расстояние Канберры d между векторами p и q в K -мерном действительном векторном пространстве равно

где p i и q i — значения i й категория двух векторов.

Коэффициент сообщества Соренсена

[ редактировать ]

Это используется для измерения сходства между сообществами.

где s 1 и s 2 — количество видов в сообществе 1 и 2 соответственно, а c — количество видов, общих для обеих территорий.

индекс Жаккара

[ редактировать ]

Это мера сходства между двумя выборками:

где A — количество точек данных, общих для двух выборок, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.

Этот индекс был изобретен в 1902 году швейцарским ботаником Полем Жаккаром . [60]

При случайном распределении ожидаемое значение J равно [61]

Стандартная ошибка этого индекса в предположении случайного распределения равна

где N — общий размер выборки.

Индекс Дайса

[ редактировать ]

Это мера сходства между двумя выборками:

где A — количество точек данных, общих для двух выборок, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.

Коэффициент матча

[ редактировать ]

Это мера сходства между двумя выборками:

где N — количество точек данных в двух выборках, а B и C — точки данных, обнаруженные только в первой и второй выборках соответственно.

Индекс Мориситы

[ редактировать ]

Индекс дисперсии Мориситы ( I m ) представляет собой масштабированную вероятность того, что две точки, выбранные случайным образом из всей совокупности, попадают в одну и ту же выборку. [62] Более высокие значения указывают на более сгущенное распределение.

Альтернативная формулировка

где n — общий размер выборки, m — среднее значение выборки, а x — отдельные значения с суммой, взятой по всей выборке. Оно также равно

где IMC — индекс скученности Ллойда. [63]

Этот индекс относительно не зависит от плотности населения, но зависит от размера выборки.

Морисита показал, что статистика [62]

распределяется как переменная хи-квадрат с n - 1 степенями свободы.

Альтернативный тест значимости этого индекса был разработан для больших выборок. [64]

где m — общее среднее значение выборки, n — количество единиц выборки, а z нормального распределения — абсцисса . Значимость проверяется путем сравнения значения z со значениями нормального распределения .

Индекс перекрытия Мориситы

[ редактировать ]

Индекс перекрытия Мориситы используется для сравнения перекрытия между выборками. [65] Индекс основан на предположении, что увеличение размера выборки увеличит разнообразие, поскольку оно будет включать разные среды обитания.

x i — количество раз, когда вид i представлен в общем количестве X из одного образца.
y i — количество раз, когда вид i представлен в общем количестве Y из другой выборки.
D x и D y представляют собой значения индекса Симпсона для выборок x и y соответственно.
S — количество уникальных видов

C D = 0, если две выборки не перекрываются по видам, и C D = 1, если виды встречаются в одинаковых пропорциях в обеих выборках.

Horn’s представил модификацию индекса [66]

Стандартизированный индекс Мориситы

[ редактировать ]

Смит-Гилл разработал статистику, основанную на индексе Мориситы, который не зависит ни от размера выборки, ни от плотности населения и ограничен значениями -1 и +1. Эта статистика рассчитывается следующим образом [67]

Сначала определите индекс Мориситы ( I d ) обычным способом. Тогда пусть k — количество единиц, из которых была отобрана совокупность. Рассчитайте два критических значения

где х 2 — значение хи-квадрат для n — 1 степеней свободы при уровнях достоверности 97,5% и 2,5%.

Стандартизированный индекс ( I p ) затем рассчитывается по одной из формул ниже.

Когда I d M c > 1

Когда M c > I d ≥ 1

Когда 1 > I d M u

Когда 1 > M u > I d

I p находится в диапазоне от +1 до –1 с 95% доверительным интервалом ±0,5. I p имеет значение 0, если шаблон случайный; если шаблон однородный, I p < 0, а если шаблон демонстрирует агрегацию, I p > 0.

Индексы ровности Пита

[ редактировать ]

Эти индексы являются мерой равномерности между выборками. [68]

где I — индекс разнообразия, I max и I min — максимальное и минимальное значения I между сравниваемыми образцами.

Коэффициент Левинджера

[ редактировать ]

Левингер предложил коэффициент H, определяемый следующим образом:

где p max и p min — максимальная и минимальная доли в выборке.

Индекс Тверского

[ редактировать ]

Индекс Тверски [69] является асимметричной мерой, лежащей между 0 и 1.

Для образцов А и Б индекс Тверски ( S ) равен

Значения α и β произвольны. Установка значений α и β равными 0,5 дает коэффициент Дайса . Установка обоих значений в 1 дает коэффициент Танимото .

Также предложен симметричный вариант этого индекса. [70]

где

Было предложено несколько подобных индексов.

Моностори и др. предложил индекс SymmetricSimilarity [71]

где d ( X производная от X. ) — некоторая мера ,

Бернштейн и Зобель предложили индексы S2 и S3. [72]

S3 — это просто двойной индекс SymmetricSimilarity. Оба связаны с коэффициентом Дайса.

Используемые метрики

[ редактировать ]

Был предложен ряд метрик (расстояний между выборками).

Евклидово расстояние

[ редактировать ]

Хотя это обычно используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как

где d jk — расстояние между x ij и x ik .

Расстояние Гауэра

[ редактировать ]

Это определяется как

где d i - расстояние между i й образцы, а w i - это взвешивание, придаваемое i й расстояние.

Расстояние Манхэттен

[ редактировать ]

Хотя это чаще используется в количественной работе, его также можно использовать и в качественной работе. Это определяется как

где d jk — расстояние между x ij и x ik и || — абсолютное значение разницы между x ij и x ik .

Модифицированную версию манхэттенского расстояния можно использовать для нахождения нуля ( корня ) многочлена любой степени с помощью метода Лилля .

Расстояние Превости

[ редактировать ]

Это связано с Манхэттенским расстоянием. Это было описано Превости и др. и использовался для сравнения различий между хромосомами . [73] Пусть P и Q — два набора r конечных вероятностных распределений. Пусть эти распределения имеют значения, которые разделены на k категорий. Тогда расстояние D PQ равно

где r — количество дискретных распределений вероятностей в каждой популяции, k j — количество категорий в распределениях P j и Q j , а p ji (соответственно q ji ) — теоретическая вероятность категории i в распределении P j ( Q j ) в популяции P ( Q ).

Его статистические свойства были исследованы Sanchez et al. [74] который рекомендовал процедуру начальной загрузки для оценки доверительных интервалов при проверке различий между выборками.

Другие показатели

[ редактировать ]

Позволять

где min( x , y ) — меньшее значение пары x и y .

Затем

это Манхэттенское расстояние,

— расстояние Брея-Кёртиса,

- расстояние Жаккара (или Ружички) и

расстояние Кульчинского.

Сходства между текстами

[ редактировать ]

ХаКоэн-Кернер и др. предложили множество показателей для сравнения двух или более текстов. [75]

Порядковые данные

[ редактировать ]

Если категории хотя бы порядковые , то можно вычислить ряд других индексов.

Мера дисперсии Лейка ( D ) является одним из таких показателей. [76] Пусть существует K категорий и пусть p i — это f i / N , где fi число в i й категорию и расположите категории в порядке возрастания. Позволять

где а К. ​Пусть d a = c a, если c a ⩽ 0,5, и 1 − c a ⩽ 0,5 в противном случае. Затем

Нормализованная мера Герфиндаля

[ редактировать ]

Это квадрат коэффициента вариации, разделенный на N − 1, где N — размер выборки.

где m — среднее значение, а s — стандартное отклонение.

Индекс конфликтогенности

[ редактировать ]

Индекс потенциального конфликта (PCI) описывает соотношение баллов по обе стороны от центральной точки рейтинговой шкалы. [77] Этот индекс требует как минимум порядковых данных. Это соотношение часто отображается в виде пузырьковой диаграммы .

PCI использует порядковую шкалу с нечетным количеством рейтинговых баллов (от - n до + n ) с центром в 0. Он рассчитывается следующим образом.

где Z знак равно 2 п , |·| – абсолютная величина (модуль), r + – количество ответов на положительной стороне шкалы, r – количество ответов на отрицательной стороне шкалы, X + – ответы на положительной стороне шкалы. , X − – ответы на отрицательной стороне шкалы и

Известно, что с PCI существуют теоретические трудности. PCI можно рассчитать только для шкал с нейтральной центральной точкой и равным количеством вариантов ответа по обе стороны от нее. Кроме того, равномерное распределение ответов не всегда дает среднюю точку статистики PCI, а скорее зависит от количества возможных ответов или значений шкалы. Например, пяти-, семи- и девятибалльная шкалы с равномерным распределением ответов дают ИКП 0,60, 0,57 и 0,50 соответственно.

Первая из этих проблем относительно незначительна, поскольку большинство порядковых шкал с четным числом ответов можно расширить (или уменьшить) на одно значение, чтобы получить нечетное количество возможных ответов. Если это необходимо, масштаб обычно можно отцентрировать. Вторую проблему решить труднее, и она может ограничить применимость PCI.

PCI был продлен [78]

где K — количество категорий, k i — число в i й категории, d ij — расстояние между i й и я й категории, а δ — максимальное расстояние по шкале, умноженное на количество раз, которое оно может встретиться в выборке. Для выборки с четным количеством точек данных

и для выборки с нечетным количеством точек данных

где N — количество точек данных в выборке, а d max — максимальное расстояние между точками на шкале.

Васке и др. предложить ряд возможных мер расстояния для использования с этим индексом. [78]

если знаки (+ или -) r i и r j различаются. Если знаки одинаковые d ij = 0.

где p — произвольное действительное число > 0.

если знак ( r i ) ≠ знак ( r i ) и p — действительное число > 0. Если знаки одинаковы, то d ij = 0. m — это D 1 , D 2 или D 3 .

Разница между D 1 и D 2 состоит в том, что первый не учитывает нейтралы на расстоянии, а второй включает. Например, респонденты, набравшие −2 и +1, будут иметь дистанцию ​​2 при D 1 и 3 при D 2 .

Использование степени ( p ) для расстояний позволяет масштабировать экстремальные реакции. Эти различия можно подчеркнуть при p > 1 или уменьшить при p < 1.

В симуляциях с вариациями, полученными из равномерного распределения, PCI 2 имеет симметричное унимодальное распределение. [78] Хвосты его распределения больше, чем у нормального распределения.

Васке и др. предложите использовать t-критерий для сравнения значений PCI между выборками, если PCI примерно нормально распределены.

Ван дер Эйк А

[ редактировать ]

Эта мера представляет собой средневзвешенное значение степени согласия распределения частот. [79] Диапазон A варьируется от −1 (идеальная бимодальность ) до +1 (идеальная унимодальность ). Это определяется как

где U — унимодальность распределения, S — количество категорий с ненулевой частотой, а K — общее количество категорий.

Значение U равно 1, если распределение имеет любую из трех следующих характеристик:

  • все ответы относятся к одной категории
  • ответы равномерно распределены по всем категориям
  • ответы равномерно распределены между двумя или более смежными категориями, при этом остальные категории имеют нулевые ответы

При других распределениях данные необходимо разделить на «слои». Внутри слоя ответы либо равны, либо равны нулю. Категории не обязательно должны быть смежными. Вычисляется значение A для каждого слоя ( A i ) и определяется средневзвешенное значение для распределения. Веса ( w i ) для каждого слоя — это количество ответов в этом слое. В символах

Равномерное распределение имеет A = 0: когда все ответы попадают в одну категорию A = +1.

Одна теоретическая проблема с этим индексом заключается в том, что он предполагает, что интервалы расположены одинаково. Это может ограничить его применимость.

[ редактировать ]

Проблема с днем ​​рождения

[ редактировать ]

Если n в выборке единиц и они случайным образом распределены по k категориям ( n k ), это можно считать вариантом задачи о дне рождения . [80] Вероятность ( p ) всех категорий, имеющих только одну единицу, равна

Если c велико, а n мало по сравнению с k 2/3 тогда в хорошем приближении

Это приближение следует из точной формулы следующим образом:

Оценка размера выборки

Для p = 0,5 и p следующие оценки n: = 0,05 соответственно могут быть полезны

Этот анализ можно распространить на несколько категорий. Для p = 0,5 и p 0,05 имеем соответственно

где c i - размер i й категория. Этот анализ предполагает, что категории независимы.

Если данные каким-либо образом упорядочены, то по крайней мере для одного события, происходящего в двух категориях, лежащих в пределах j категорий друг от друга, вероятность вероятности 0,5 или 0,05 требует размера выборки ( n ) соответственно [81]

где k — количество категорий.

Проблема дня рождения-смерти

[ редактировать ]

Существует ли связь между днями рождения и днями смерти, исследовали с помощью статистики. [82]

где d — количество дней в году между днем ​​рождения и днем ​​смерти.

Индекс Рэнда

[ редактировать ]

Индекс Рэнда используется для проверки того, согласуются ли две или более системы классификации с набором данных. [83]

Учитывая набор элементы и перегородки две сравнивать, , разбиение S на r подмножества и , разбиение S на s подмножеств, определяют следующее:

  • , количество пар элементов в которые находятся в одном подмножестве в и в том же подмножестве в
  • , количество пар элементов в которые находятся в разных подмножествах и в разных подмножествах в
  • , количество пар элементов в которые находятся в одном подмножестве в и в разных подмножествах в
  • , количество пар элементов в которые находятся в разных подмножествах и в том же подмножестве в

Индекс Рэнда - - определяется как

Интуитивно, можно рассматривать как количество соглашений между и и как количество разногласий между и .

Скорректированный индекс Рэнда

[ редактировать ]

Скорректированный индекс Рэнда представляет собой скорректированную версию индекса Рэнда. [83] [84] [85] Хотя индекс Рэнда может давать значение только от 0 до +1, скорректированный индекс Рэнда может давать отрицательные значения, если индекс меньше ожидаемого. [86]

Таблица непредвиденных обстоятельств

[ редактировать ]

Учитывая набор из элементы и две группы или разделы ( например, кластеры) этих точек, а именно и , перекрытие между и можно свести в таблицу непредвиденных обстоятельств где каждая запись обозначает количество объектов, общих между и  : .

X\Y Суммы
Суммы

Определение

[ редактировать ]

Скорректированная форма индекса Рэнда, скорректированный индекс Рэнда, представляет собой

более конкретно

где являются значениями из таблицы сопряженности.

Поскольку знаменателем является общее количество пар, индекс Рэнда представляет частоту возникновения соглашений по общему числу пар или вероятность того, что и договорятся о случайно выбранной паре.

Оценка индексов

[ редактировать ]

Различные индексы дают разные значения вариации и могут использоваться для разных целей: некоторые из них используются и критикуются, особенно в социологической литературе.

Если кто-то хочет просто провести порядковые сравнения между выборками (является ли одна выборка более или менее разнообразной, чем другая), выбор IQV относительно менее важен, поскольку они часто дают один и тот же порядок.

Если данные являются порядковыми, для сравнения образцов можно использовать метод ORDANOVA .

В некоторых случаях полезно не стандартизировать индекс, чтобы он работал от 0 до 1, независимо от количества категорий или выборок ( Wilcox 1973 , стр. 338), но обычно его стандартизируют таким образом.

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ Это может произойти только в том случае, если количество дел кратно количеству категорий.
  2. ^ Freemen LC (1965) Элементарная прикладная статистика . Нью-Йорк: Джон Уайли и сыновья, стр. 40–43.
  3. ^ Кендал MC, Стюарт А. (1958) Передовая теория статистики. Издательская компания Хафнер с. 46
  4. ^ Мюллер Дж. Э., Шюсслер К. П. (1961) Статистические рассуждения в социологии. Бостон: Компания Houghton Mifflin. стр. 177–179.
  5. ^ Уилкокс (1967) , с. [ нужна страница ] .
  6. ^ Кайзер HF (1968) «Показатель качества населения законодательного распределения». Обзор американской политической науки 62 (1) 208
  7. ^ Джоэл Гомбин (18 августа 2015 г.). «qualvar: Начальная версия (Версия v0.1)» . Зенодо дои : 10.5281/zenodo.28341 .
  8. ^ Гиббс и Постон-младший (1975) .
  9. ^ Либерсон (1969) , с. 851.
  10. ^ IQV в xycoon
  11. ^ Хантер, PR; Гастон, Массачусетс (1988). «Числовой индекс дискриминационной способности систем типизации: применение индекса разнообразия Симпсона» . J Clin Микробиол . 26 (11): 2465–2466. doi : 10.1128/jcm.26.11.2465-2466.1988 . ПМК   266921 . ПМИД   3069867 .
  12. ^ Фридман В.Ф. (1925) Частота совпадений и их применение в криптоанализе. Технический документ. Кабинет начальника связи. Типография правительства США.
  13. ^ Джини CW (1912) Изменчивость и изменчивость, вклад в изучение статистических распределений и отношений. Экономико-правовые исследования Королевского университета Кальяри
  14. ^ Симпсон, Э.Х. (1949). «Измерение разнообразия» . Природа . 163 (4148): 688. Бибкод : 1949Natur.163..688S . дои : 10.1038/163688a0 .
  15. ^ Бачи Р. (1956) Статистический анализ возрождения иврита в Израиле. В: Bachi R (ed) Hierosolymic Scripts, Vol III, Иерусалим: Magnus press, стр. 179–247.
  16. ^ Мюллер Дж. Х., Шюсслер К. Ф. (1961) Статистические рассуждения в социологии. Бостон: Хоутон Миффлин
  17. ^ Гиббс, JP; Мартин, WT (1962). «Урбанизация, технологии и разделение труда: международные закономерности». Американский социологический обзор . 27 (5): 667–677. дои : 10.2307/2089624 . JSTOR   2089624 .
  18. ^ Либерсон (1969) , с. [ нужна страница ] .
  19. ^ Блау П. (1977) Неравенство и неоднородность. Свободная пресса, Нью-Йорк
  20. ^ Перри М., Кадер Г. (2005) Вариация как непохожесть. Статистика преподавания 27 (2) 58–60
  21. ^ Гринберг, Дж. Х. (1956). «Измерение языкового разнообразия». Язык . 32 (1): 109–115. дои : 10.2307/410659 . JSTOR   410659 .
  22. ^ Лотар Э.Х. (1978) Кандидатская диссертация. [ нужна полная цитата ]
  23. ^ Бергер, Вашингтон; Паркер, Флорида (1970). «Разнообразие планктонных фораминифер в глубоководных отложениях». Наука . 168 (3937): 1345–1347. Бибкод : 1970Sci...168.1345B . дои : 10.1126/science.168.3937.1345 . ПМИД   17731043 . S2CID   29553922 .
  24. ^ Jump up to: а б Хилл, Миссури (1973). «Разнообразие и равномерность: объединяющие обозначения и их последствия». Экология . 54 (2): 427–431. Бибкод : 1973Ecol...54..427H . дои : 10.2307/1934352 . JSTOR   1934352 .
  25. ^ Маргалеф Р. (1958) Временная последовательность и пространственная гетерогенность фитопланктона. В: Перспективы морской биологии. Буззати-Траверсо (редактор) Univ Calif Press, Беркли, стр. 323–347.
  26. ^ Менхиник, Э. Ф. (1964). «Сравнение показателей разнообразия некоторых видов и особей применительно к образцам полевых насекомых». Экология . 45 (4): 859–861. Бибкод : 1964Экол...45..859М . дои : 10.2307/1934933 . JSTOR   1934933 .
  27. ^ Курашкевич В. (1951) Накладен Вроцлавского научного общества
  28. ^ Гиро П (1954) Статистические характеристики словарного запаса. Прессы Университетов Франции, Париж
  29. ^ Панас Э (2001) Обобщенный Torquist: Спецификация и оценка новой функции размера словарного текста. Дж. Квант Линг 8 (3) 233–252
  30. ^ Кемптон, РА; Тейлор, Л.Р. (1976). «Модели и статистика видового разнообразия». Природа . 262 (5571): 818–820. Бибкод : 1976Natur.262..818K . дои : 10.1038/262818a0 . ПМИД   958461 . S2CID   4168222 .
  31. ^ Хатчесон К. (1970) Тест для сравнения разнообразия, основанный на формуле Шеннона. Дж. Тео Биол 29: 151–154.
  32. ^ Макинтош Р.П. (1967). Индекс разнообразия и связь некоторых концепций с разнообразием. Экология, 48(3), 392–404.
  33. ^ Фишер Р.А., Корбет А., Уильямс CB (1943) Связь между количеством видов и количеством особей в случайной выборке популяции животных. Школа животных 12: 42–58.
  34. ^ Анскомб (1950) Теория выборки распределений отрицательных биномиальных и логарифмических рядов. Биометрика 37: 358–382.
  35. ^ Стронг, WL (2002). «Оценка неравномерности численности видов внутри растительных сообществ и между ними» (PDF) . Общественная экология . 3 (2): 237–246. дои : 10.1556/comec.3.2002.2.9 .
  36. ^ Камарго Дж. А. (1993) Должно ли доминирование увеличиваться с увеличением числа подчиненных видов в конкурентных взаимодействиях? Дж. Теор Биол 161 537–542
  37. ^ Смит, Уилсон (1996) [ нужна полная цитата ]
  38. ^ Булла, Л. (1994). «Индекс равномерности и связанная с ним мера разнообразия». Ойкос . 70 (1): 167–171. Бибкод : 1994Ойкос..70..167Б . дои : 10.2307/3545713 . JSTOR   3545713 .
  39. ^ Хорн, HS (1966). «Измерение« перекрытия »в сравнительных экологических исследованиях». Я Нат . 100 (914): 419–423. дои : 10.1086/282436 . S2CID   84469180 .
  40. ^ Сигел, Эндрю Ф (2006) «Кривые разрежения». Энциклопедия статистических наук 10.1002/0471667196.ess2195.pub2.
  41. ^ Касвелл Х (1976) Структура сообщества: анализ нейтральной модели. Эколь Моногр 46: 327–354.
  42. ^ Пулен, Р; Муйо, Д. (2003). «Специализация паразита с филогенетической точки зрения: новый индекс специфичности хозяина». Паразитология . 126 (5): 473–480. CiteSeerX   10.1.1.574.7432 . дои : 10.1017/s0031182003002993 . ПМИД   12793652 . S2CID   9440341 ​​.
  43. ^ Тейл Х (1972) Статистический анализ декомпозиции. Амстердам: Издательская компания Северной Голландии>
  44. ^ Дункан О.Д., Дункан Б. (1955) Методологический анализ индексов сегрегации. Am Social Review, 20: 210–217.
  45. ^ Горард С., Тейлор С. (2002b) Что такое сегрегация? Сравнение мер с точки зрения «сильной» и «слабой» композиционной инвариантности. Социология, 36(4), 875–895.
  46. ^ Мэсси, Д.С.; Дентон, Северная Каролина (1988). «Размеры жилищной сегрегации» . Социальные силы . 67 (2): 281–315. дои : 10.1093/sf/67.2.281 .
  47. ^ Хатченс RM (2004) Одна мера сегрегации. Международное экономическое обозрение 45: 555–578.
  48. ^ Либерсон С (1981). «Асимметричный подход к сегрегации». В Пич С., Робинсон В., Смит С. (ред.). Этническая сегрегация в городах . Лондон: Крум Хелм. стр. 61–82.
  49. ^ Белл, В. (1954). «Вероятностная модель для измерения экологической сегрегации». Социальные силы . 32 (4): 357–364. дои : 10.2307/2574118 . JSTOR   2574118 .
  50. ^ Ochiai A (1957) Зоогеографические исследования камолеоидных рыб, обитающих в Японии и соседних регионах. Bull Jpn Soc Sci Fish 22: 526–530
  51. ^ Кульчинский С (1927) Die Pflanzenassoziationen der Pieninen. Международный вестник Польской академии наук и литературы, научный класс
  52. ^ Юл ГУ (1900) Об ассоциации атрибутов в статистике. Филос Транс Рой Сок
  53. ^ Линерт Г.А. и Спорер С.Л. (1982)Взаимосвязь редких симптомов с использованием коэффициентов Юла, скорректированных с помощью нулевого поля. Психологический вклад 24: 411–418.
  54. ^ Барони-Урбани, К; Бузер, М.В. (1976). «сходство двоичных данных». Систематическая биология . 25 (3): 251–259. дои : 10.2307/2412493 . JSTOR   2412493 .
  55. ^ Forbes SA (1907) О местном распространении некоторых рыб Иллинойса: очерк статистической экологии. Бюллетень Лаборатории естественной истории штата Иллинойс 7: 272–303.
  56. ^ Элрой Дж. (2015) Новый поворот в очень старом двоичном коэффициенте подобия. Экология 96 (2) 575-586
  57. ^ Карл Р. Хаусман и Дуглас Р. Андерсон (2012). Беседы о Пирсе: реальность и идеалы . Издательство Фордхэмского университета. п. 221. ИСБН  9780823234677 .
  58. ^ Лэнс, Дж.Н.; Уильямс, WT (1966). «Компьютерные программы иерархической политетической классификации («анализа подобия»)» . Компьютерный журнал . 9 (1): 60–64. дои : 10.1093/comjnl/9.1.60 .
  59. ^ Лэнс, Дж.Н.; Уильямс, WT (1967). «Классификационные программы смешанных данных I.) Агломеративные системы». Австралийский компьютерный журнал : 15–20.
  60. ^ Жаккар П (1902) Законы распространения цветов. Бюллетень Водуазского общества естественных наук 38:67-130
  61. ^ Арчер А.В. и Мэйплс К.Г. (1989) Реакция выбранных биномиальных коэффициентов на различную степень разреженности матрицы и на матрицы с известными взаимосвязями данных. Математическая геология 21: 741–753.
  62. ^ Jump up to: а б Морисита М (1959) Измерение дисперсии и анализ закономерностей распределения. Мемуары факультета естественных наук Университета Кюсю. Серия E. Biol 2: 215–235.
  63. ^ Ллойд М (1967) Средняя скученность. Дж Аним Экол 36: 1–30
  64. ^ Pedigo LP и Buntin GD (1994) Справочник по методам отбора проб членистоногих в сельском хозяйстве. CRC Бока-Ратон, Флорида
  65. ^ Морисита М (1959) Измерение дисперсии и анализ моделей распределения. Мемуары факультета естественных наук Университета Кюсю, Серия E Биология. 2: 215–235
  66. ^ Хорн, HS (1966). «Измерение «перекрытия» в сравнительных экологических исследованиях». Американский натуралист . 100 (914): 419–424. дои : 10.1086/282436 . S2CID   84469180 .
  67. ^ Смит-Гилл С.Дж. (1975). «Цитофизиологические основы разрушительных пигментных паттернов у леопардовой лягушки Rana pipiens . II. Характерные для дикого типа и мутантных клеток паттерны». Дж Морфол . 146 (1): 35–54. дои : 10.1002/jmor.1051460103 . ПМИД   1080207 . S2CID   23780609 .
  68. ^ Пит (1974) Измерения видового разнообразия. Анну Преподобный Ecol Syst 5: 285–307
  69. ^ Тверски, Амос (1977). «Признаки сходства» (PDF) . Психологический обзор . 84 (4): 327–352. дои : 10.1037/0033-295x.84.4.327 .
  70. ^ Хименес С., Бесерра С., Гельбух Ядро SOFTCARDINALITY: улучшение перекрытия текста с помощью мер распределения для семантического текстового сходства. Вторая совместная конференция по лексической и вычислительной семантике (*SEM), Том 1: Материалы основной конференции и общая задача: семантическое текстовое сходство, стр. 194-201. 7–8 июня 2013 г., Атланта, Джорджия, США.
  71. ^ Моностори К., Финкель Р., Заславский А., Ходас Г. и Патке М. (2002) Сравнение методов обнаружения перекрытия. В: Материалы Международной конференции по вычислительной науке 2002 года. Конспекты лекций по информатике 2329: 51-60
  72. ^ Бернштейн Ю. и Зобель Дж. (2004) Масштабируемая система для идентификации производных документов. В: Материалы 11-й Международной конференции по обработке строк и поиску информации (SPIRE) 3246: 55-67.
  73. ^ Превости, А; Рибо, Г; Серра, Л; Агуаде, М; Баланья, Дж; Монклюс, М; Местрес, Ф (1988). «Колонизация Америки Drosophila subobscura : эксперимент в природных популяциях, подтверждающий адаптивную роль хромосомного инверсионного полиморфизма» . Proc Natl Acad Sci США . 85 (15): 5597–5600. Бибкод : 1988PNAS...85.5597P . дои : 10.1073/pnas.85.15.5597 . ПМК   281806 . ПМИД   16593967 .
  74. ^ Санчес, А; Окана, Дж; Уцетб, Ф; Серрак, Л. (2003). «Сравнение генетических расстояний Превости». Журнал статистического планирования и выводов . 109 (1–2): 43–65. дои : 10.1016/s0378-3758(02)00297-5 .
  75. ^ ХаКоэн-Кернер Ю, Тайеб А и Бен-Дрор Н (2010) Обнаружение простого плагиата в статьях по информатике. В: Материалы 23-й Международной конференции по компьютерной лингвистике, стр. 421-429.
  76. ^ Лейк Р. (1966) Мера порядкового консенсуса. Тихоокеанский социологический обзор 9 (2): 85–90
  77. ^ Манфредо М., Васке, Дж. Дж., Тил Т. Л. (2003) Индекс потенциала конфликта: графический подход к практическому значению исследования человеческого измерения. Человеческие измерения дикой природы 8: 219–228.
  78. ^ Jump up to: а б с Васке Дж.Дж., Биман Дж., Баррето Х., Шелби Л.Б. (2010)Расширение и дальнейшая проверка индекса потенциального конфликта. Науки о досуге 32: 240–254.
  79. ^ Ван дер Эйк C (2001) Согласование измерений в упорядоченных рейтинговых шкалах. Качество и количество 35(3): 325–341
  80. ^ Фон Мизес Р (1939) О вероятностях разделения и оккупации. Revue de la Facultd des Sciences de I'Universite d'Lstanbul NS 4: 145−163
  81. ^ Севастьянов Б.А. (1972) Предельный закон Пуассона для схемы сумм зависимых случайных величин. (пер. С. М. Рудольфера) Теория вероятностей и ее приложения, 17: 695−699
  82. ^ Хоаглин, округ Колумбия, Мостеллер, Ф. и Тьюки, Дж.В. (1985) Исследование таблиц данных, тенденций и форм, Нью-Йорк: Джон Уайли
  83. ^ Jump up to: а б В.М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации . 66 (336): 846–850. arXiv : 1704.01036 . дои : 10.2307/2284239 . JSTOR   2284239 .
  84. ^ Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение разделов». Журнал классификации . 2 (1): 193–218. дои : 10.1007/BF01908075 . S2CID   189915041 .
  85. ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Информационные меры для кластерного сравнения: необходима ли поправка на случайность?» (PDF) . ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению . АКМ. стр. 1073–1080. Архивировано из оригинала (PDF) 25 марта 2012 года. PDF .
  86. ^ Вагнер, Силке; Вагнер, Доротея (12 января 2007 г.). «Сравнение кластеров — обзор» (PDF) . Проверено 14 февраля 2018 г.
  • Либерсон, Стэнли (декабрь 1969 г.), «Измерение разнообразия населения», American Sociological Review , 34 (6): 850–862, doi : 10.2307/2095977 , JSTOR   2095977
  • Суонсон, Дэвид А. (сентябрь 1976 г.), «Выборочное распределение и тест значимости различий в качественных вариациях», Social Forces , 55 (1): 182–184, doi : 10.2307/2577102 , JSTOR   2577102
  • Уилкокс, Аллен Р. (июнь 1973 г.). «Индексы качественного разнообразия и политических измерений». Западный политический ежеквартальный журнал . 26 (2): 325–343. дои : 10.2307/446831 . JSTOR   446831 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a43fa6504270ade9263a89005083c6b8__1721615580
URL1:https://arc.ask3.ru/arc/aa/a4/b8/a43fa6504270ade9263a89005083c6b8.html
Заголовок, (Title) документа по адресу, URL1:
Qualitative variation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)