Центральная тенденция

В статистике центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением распределения вероятностей . ^[1]

В разговорной речи меры центральной тенденции часто называют средними значениями . Термин «центральная тенденция» появился в конце 1920-х годов. ^[2]

Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». ^[2]^[3]

Центральной тенденции распределения обычно противопоставляют его дисперсию или изменчивость ; дисперсия и центральная тенденция — часто характеризуемые свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на их дисперсии.

Меры [ править ]

Следующее может быть применено к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры: возведение значений в квадрат или логарифмирование. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее: сумма всех измерений, деленная на количество наблюдений в наборе данных.
медиана: среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода — единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим: наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , имеющими чисто качественные категории.
Обобщенное среднее: Обобщение пифагорейских средних , заданное показателем степени.
Среднее геометрическое: корень n-й степени из произведения значений данных, где их n . Эта мера действительна только для данных, измеряемых по строго положительной шкале.
Гармоническое среднее: обратное . среднее арифметическое обратного значения данных Эта мера действительна только для данных, которые измеряются либо по строго положительной, либо строго отрицательной шкале.
Средневзвешенное арифметическое: среднее арифметическое, включающее взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее: среднее арифметическое значений данных после того, как определенное количество или доля самых высоких и самых низких значений данных были отброшены.
Межквартильное среднее: усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
Средний уровень: среднее арифметическое максимального и минимального значений набора данных.
Мидхиндж: среднее арифметическое первого и третьего квартилей .
Среднее квазиарифметическое: Обобщение обобщенного среднего , заданное непрерывной инъективной функцией .
Тримен: среднее арифметическое взвешенное медианы и двух квартилей.
Винсоризованное среднее: среднее арифметическое, в котором крайние значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут не быть инвариантными к вращениям многомерного пространства.

Геометрическая медиана: точка, минимизирующая сумму расстояний до набора точек выборки. Это то же самое, что медиана применительно к одномерным данным, но это не то же самое, что независимое взятие медианы каждого измерения. Он не инвариантен к различному масштабированию разных измерений.
Среднее квадратичное (часто известное как среднеквадратичное ): полезен в технике, но не часто используется в статистике. Это связано с тем, что распределение, включающее отрицательные значения, не является хорошим индикатором центра распределения.
Симплициальная глубина: вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки: точка, свойство которой состоит в том, что каждое содержащее ее полупространство также содержит множество точек выборки

Решения вариационных задач [ править ]

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , требуется мера центральной тенденции, которая минимизирует вариацию: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. Пошутила: «Рассредоточение предшествует местонахождению». Эти меры изначально определяются в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть уникальным, а может и не быть уникальным. В смысле $Л п$ пробелы , соответствие следующее:

$л п$	дисперсия	центральная тенденция
$л 0$	коэффициент вариации	режим ^[а]
$л 1$	среднее абсолютное отклонение	медиана ( геометрическая медиана ) ^[б]
$л 2$	стандартное отклонение	среднее ( центроид ) ^[с]
$л \infty$	максимальное отклонение	средний уровень ^[д]

Соответствующие функции называются $p$ -нормами : соответственно 0-"норма", 1-норма, 2-норма и ∞-норма. Функция, соответствующая L ⁰ пространство не является нормой, поэтому его часто заключают в кавычки: 0 — «норма».

В уравнениях для данного (конечного) набора данных $X$ , рассматриваемого как вектор $x = (x 1,\dots, x n)$ , дисперсия вокруг точки $c$ представляет собой «расстояние» от $x$ до постоянного вектора $c = (c,\dots, c)$ в p -норме (нормированной на количество точек n ):

f_{p}(c)=\left\|\mathbf {x} -\mathbf {c} \right\|_{p}:={\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-c\right|^{p}{\bigg )}^{1/p}

Для $p = 0$ и $p = \infty$ эти функции определяются путем установления пределов соответственно при $p \to 0$ и $p \to \infty$ . Для $p = 0$ предельные значения равны $0. 0 = 0$ и $а 0 = 0$ или $a \neq 0$ , поэтому разница становится просто равенством, поэтому 0-норма подсчитывает количество неравных точек. При $p = \infty$ доминирует наибольшее число, и, следовательно, ∞-норма является максимальной разностью.

Уникальность [ править ]

Среднее ( L ² центр) и средние частоты ( L ^∞ центр) уникальны (если они существуют), а медиана ( L ¹ центр) и режим ( L ⁰ центр), как правило, не уникальны. Это можно понять с точки зрения выпуклости ассоциированных функций ( коэрцитивных функций ).

2-норма и ∞-норма строго выпуклы , и поэтому (путем выпуклой оптимизации) минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение среднего значения ниже, чем стандартное отклонение любой другой точки, а максимальное отклонение среднего диапазона ниже максимального отклонения любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в этом смысле минимизации) в целом не является уникальной, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0-«норма» не является выпуклой (следовательно, не является нормой). Соответственно, мода не уникальна – например, в равномерном распределении любая модой является точка.

Кластеризация [ править ]

Вместо одной центральной точки можно запросить несколько точек, чтобы отклонение от этих точек было минимальным. Это приводит к кластерному анализу , при котором каждая точка набора данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до k кластеризации -средних , а использование 1-нормы обобщает (геометрическую) медиану до k кластеризации -медианов . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, эту многоцентровую кластеризацию вообще нельзя вычислить в выражении замкнутой формы , а вместо этого ее необходимо вычислять или аппроксимировать итеративным методом ; один общий подход — алгоритмы ожидания-максимизации .

Информационная геометрия [ править ]

Понятие «центра» как минимизирующего вариацию можно обобщить в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемое удивление ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно относительной энтропии , Кульбака – дивергенция Лейблера).

Простым примером этого является центр номинальных данных: вместо использования моды (единственный однозначный «центр») часто используется эмпирическая мера ( частотное распределение, разделенное на размер выборки в качестве «центра» ). . Например, для двоичных данных , скажем, орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим — «орёл», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестная энтропия (полная неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где метод наименьших квадратов находит решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии , оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

между средним значением, медианой модой и Отношения

Для унимодальных распределений известны и точны следующие оценки: ^[4]

{\frac {|\theta -\mu |}{\sigma }}\leq {\sqrt {3}},

{\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {0.6}},

{\frac {|\theta -\nu |}{\sigma }}\leq {\sqrt {3}},

где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.

Для каждого распределения ^[5]^[6]

{\frac {|\nu -\mu |}{\sigma }}\leq 1.

См. также [ править ]

Примечания [ править ]

^ В отличие от других мер, этот режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применим в одном измерении, в нескольких измерениях или даже для категориальных переменных .
^ Медиана определяется только в одном измерении; геометрическая медиана является многомерным обобщением.
^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях, как и для скаляров в одном измерении; многомерную форму часто называют центроидом.
^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является распространенным явлением.

Ссылки [ править ]

^ Weisberg HF (1992) Центральная тенденция и изменчивость , Серия статей Университета Сейджа о количественных приложениях в социальных науках, ISBN 0-8039-4007-6 стр.2
^ Jump up to: ^а ^б Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись «центральная тенденция»)
^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP для Международного статистического института . ISBN 0-19-920613-9 (запись «центральная тенденция»)
^ Джонсон Н.Л., Роджерс Калифорния (1951) «Проблема моментов для унимодальных распределений». Анналы математической статистики , 22 (3) 433–439.
^ Хотеллинг Х, Соломонс Л.М. (1932) Пределы меры асимметрии. Анналы Математическая статистика 3, 141–114
^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142

[4] В отличие от других мер, этот режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применим в одном измерении, в нескольких измерениях или даже для категориальных переменных .

[5] Медиана определяется только в одном измерении; геометрическая медиана является многомерным обобщением.

[6] Среднее значение может быть определено одинаково для векторов в нескольких измерениях, как и для скаляров в одном измерении; многомерную форму часто называют центроидом.

[7] В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является распространенным явлением.

[Weisberg-1] Weisberg HF (1992) Центральная тенденция и изменчивость , Серия статей Университета Сейджа о количественных приложениях в социальных науках, ISBN 0-8039-4007-6 стр.2

[Upton-2] Jump up to: ^а ^б Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN 978-0-19-954145-4 (запись «центральная тенденция»)

[Dodge-3] Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP для Международного статистического института . ISBN 0-19-920613-9 (запись «центральная тенденция»)

[Johnson1951-8] Джонсон Н.Л., Роджерс Калифорния (1951) «Проблема моментов для унимодальных распределений». Анналы математической статистики , 22 (3) 433–439.

[Hotelling1932-9] Хотеллинг Х, Соломонс Л.М. (1932) Пределы меры асимметрии. Анналы Математическая статистика 3, 141–114

[Garver1932-10] Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142

[1]

[2]

[3]

[а]

[б]

[с]

[д]

[4]

[5]

[6]