Jump to content

Центральная тенденция

В статистике центральная тенденция (или мера центральной тенденции ) является центральным или типичным значением распределения вероятностей . [1]

В разговорной речи меры центральной тенденции часто называют средними значениями . Термин «центральная тенденция» появился в конце 1920-х годов. [2]

Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]

Центральной тенденции распределения обычно противопоставляют его дисперсию или изменчивость ; дисперсия и центральная тенденция — часто характеризуемые свойства распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию, основываясь на их дисперсии.

Следующее может быть применено к одномерным данным. В зависимости от обстоятельств может оказаться целесообразным преобразовать данные перед вычислением центральной тенденции. Примеры: возведение значений в квадрат или логарифмирование. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее
сумма всех измерений, деленная на количество наблюдений в наборе данных.
медиана
среднее значение, отделяющее верхнюю половину от нижней половины набора данных. Медиана и мода — единственные меры центральной тенденции, которые можно использовать для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим
наиболее частое значение в наборе данных. Это единственная мера центральной тенденции, которую можно использовать с номинальными данными , имеющими чисто качественные категории.
Обобщенное среднее
Обобщение пифагорейских средних , заданное показателем степени.
Среднее геометрическое
корень n-й степени из произведения значений данных, где их n . Эта мера действительна только для данных, измеряемых по строго положительной шкале.
Гармоническое среднее
обратное . среднее арифметическое обратного значения данных Эта мера действительна только для данных, которые измеряются либо по строго положительной, либо строго отрицательной шкале.
Средневзвешенное арифметическое
среднее арифметическое, включающее взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее
среднее арифметическое значений данных после того, как определенное количество или доля самых высоких и самых низких значений данных были отброшены.
Межквартильное среднее
усеченное среднее значение, основанное на данных в пределах межквартильного диапазона .
Средний уровень
среднее арифметическое максимального и минимального значений набора данных.
Мидхиндж
среднее арифметическое первого и третьего квартилей .
Среднее квазиарифметическое
Обобщение обобщенного среднего , заданное непрерывной инъективной функцией .
Тримен
среднее арифметическое взвешенное медианы и двух квартилей.
Винсоризованное среднее
среднее арифметическое, в котором крайние значения заменяются значениями, близкими к медиане.

Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут не быть инвариантными к вращениям многомерного пространства.

Геометрическая медиана
точка, минимизирующая сумму расстояний до набора точек выборки. Это то же самое, что медиана применительно к одномерным данным, но это не то же самое, что независимое взятие медианы каждого измерения. Он не инвариантен к разным масштабам разных измерений.
Среднее квадратичное (часто известное как среднеквадратичное )
полезен в технике, но не часто используется в статистике. Это связано с тем, что распределение, включающее отрицательные значения, не является хорошим индикатором центра распределения.
Симплициальная глубина
вероятность того, что случайно выбранный симплекс с вершинами из данного распределения будет содержать данный центр
Медиана Тьюки
точка, свойство которой состоит в том, что каждое содержащее ее полупространство также содержит множество точек выборки

Решения вариационных задач

[ редактировать ]

Некоторые меры центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле вариационного исчисления , а именно минимизацию отклонения от центра. То есть, учитывая меру статистической дисперсии , требуется мера центральной тенденции, которая минимизирует вариацию: такая, чтобы отклонение от центра было минимальным среди всех вариантов выбора центра. Как пошутило, «рассеивание предшествует местонахождению». Эти меры изначально определяются в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть уникальным, а может и не быть уникальным. В смысле Л п пробелы , соответствие следующее:

л п дисперсия центральная тенденция
л 0 коэффициент вариации режим [а]
л 1 среднее абсолютное отклонение медиана ( геометрическая медиана ) [б]
л 2 стандартное отклонение среднее ( центроид ) [с]
л максимальное отклонение средний уровень [д]

Соответствующие функции называются p -нормами : соответственно 0-норма, 1-норма, 2-норма и ∞-норма. Функция, соответствующая L 0 пространство не является нормой, поэтому его часто заключают в кавычки: 0 — «норма».

В уравнениях для данного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия вокруг точки c представляет собой «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормированной на количество точек n ):

Для p = 0 и p = ∞ эти функции определяются путем установления пределов соответственно при p → 0 и p → ∞ . Для p = 0 предельные значения равны 0. 0 = 0 и а 0 = 0 или a ≠ 0 , поэтому разница становится просто равенством, поэтому 0-норма подсчитывает количество неравных точек. При p = ∞ доминирует наибольшее число, и, следовательно, ∞-норма является максимальной разницей.

Уникальность

[ редактировать ]

Среднее ( L 2 центр) и средние частоты ( L центр) уникальны (если они существуют), а медиана ( L 1 центр) и режим ( L 0 центр), как правило, не уникальны. Это можно понять с точки зрения выпуклости ассоциированных функций ( коэрцитивных функций ).

2-норма и ∞-норма строго выпуклы , и поэтому (путем выпуклой оптимизации) минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение среднего значения ниже, чем стандартное отклонение любой другой точки, а максимальное отклонение среднего диапазона ниже максимального отклонения любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения единственности минимизатора. Соответственно, медиана (в этом смысле минимизации) в целом не является уникальной, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0-«норма» не является выпуклой (следовательно, не является нормой). Соответственно, мода не уникальна – например, в равномерном распределении любая модой является точка.

Кластеризация

[ редактировать ]

Вместо одной центральной точки можно запросить несколько точек, чтобы отклонение от этих точек было минимальным. Это приводит к кластерному анализу , при котором каждая точка набора данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до k кластеризации -средних , а использование 1-нормы обобщает (геометрическую) медиану до k кластеризации -медианов . Использование 0-нормы просто обобщает режим (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, эту многоцентровую кластеризацию вообще нельзя вычислить в выражении замкнутой формы , а вместо этого ее необходимо вычислять или аппроксимировать итеративным методом ; один общий подход — алгоритмы ожидания-максимизации .

Информационная геометрия

[ редактировать ]

Понятие «центра» как минимизирующего вариацию можно обобщить в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемое удивление ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно относительной энтропии , Кульбака – дивергенция Лейблера).

Простым примером этого является центр номинальных данных: вместо использования режима (единственный однозначный «центр») часто используется эмпирическая мера ( частотное распределение, разделенное на размер выборки в качестве «центра» ). . Например, для двоичных данных , скажем, орла или решки, если набор данных состоит из 2 орлов и 1 решки, то режим — «орёл», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестная энтропия (полная неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где метод наименьших квадратов находит решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии , оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Отношения между средним значением, медианой и модой

[ редактировать ]

Для унимодальных распределений известны и точны следующие оценки: [4]

где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.

Для каждого распределения [5] [6]

См. также

[ редактировать ]

Примечания

[ редактировать ]
  1. ^ В отличие от других мер, этот режим не требует какой-либо геометрии в наборе и, таким образом, одинаково применим в одном измерении, в нескольких измерениях или даже для категориальных переменных .
  2. ^ Медиана определяется только в одном измерении; геометрическая медиана является многомерным обобщением.
  3. ^ Среднее значение может быть определено одинаково для векторов в нескольких измерениях, как и для скаляров в одном измерении; многомерную форму часто называют центроидом.
  4. ^ В нескольких измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является распространенным явлением.
  1. ^ Weisberg HF (1992) Центральная тенденция и изменчивость , Серия статей Университета Сейджа о количественных приложениях в социальных науках, ISBN   0-8039-4007-6 стр.2
  2. ^ Перейти обратно: а б Аптон, Г.; Кук, И. (2008) Оксфордский статистический словарь , OUP ISBN   978-0-19-954145-4 (запись «центральная тенденция»)
  3. ^ Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP для Международного статистического института . ISBN   0-19-920613-9 (запись «центральная тенденция»)
  4. ^ Джонсон Н.Л., Роджерс Калифорния (1951) «Проблема моментов для унимодальных распределений». Анналы математической статистики , 22 (3) 433–439.
  5. ^ Хотеллинг Х, Соломонс Л.М. (1932) Пределы меры асимметрии. Анналы Математическая статистика 3, 141–114
  6. ^ Гарвер (1932) О пределах меры асимметрии. Энн Математическая статистика 3 (4) 141–142
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0bfa1d98eb7a5bc09f573a1bf03d6632__1719132300
URL1:https://arc.ask3.ru/arc/aa/0b/32/0bfa1d98eb7a5bc09f573a1bf03d6632.html
Заголовок, (Title) документа по адресу, URL1:
Central tendency - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)