Средний уровень
В статистике средний диапазон или средний крайний показатель — это мера центральной тенденции выборки , определяемая как среднее арифметическое максимального и минимального значений набора данных : [1]
Средний диапазон тесно связан с диапазоном — мерой статистической дисперсии, определяемой как разница между максимальным и минимальным значениями.Эти две меры дополняют друг друга в том смысле, что если знать средний диапазон и диапазон, можно найти максимальное и минимальное значения выборки.
Средний диапазон редко используется в практическом статистическом анализе, поскольку ему не хватает эффективности в качестве оценки для большинства представляющих интерес распределений , поскольку он игнорирует все промежуточные точки и ему не хватает устойчивости , поскольку выбросы существенно его меняют. Действительно, для многих распределений это одна из наименее эффективных и наименее надежных статистических данных. Однако в особых случаях он находит применение: это максимально эффективная оценка центра равномерного распределения, урезанная устойчивость адреса в среднем диапазоне, а как L-оценщик его легко понять и вычислить.
Надежность
[ редактировать ]Средний диапазон очень чувствителен к выбросам и игнорирует все точки данных, кроме двух. Таким образом, это очень неустойчивая статистика , имеющая точку разбивки 0, что означает, что одно наблюдение может изменить ее произвольно. Кроме того, на него сильно влияют выбросы: увеличение максимума выборки или уменьшение минимума выборки на x изменяет средний диапазон на в то время как это изменяет выборочное среднее, которое также имеет точку пробоя 0, всего на Таким образом, в практической статистике от него мало пользы, если уже не обработаны выбросы.
Обрезанный средний диапазон известен как Midsummary – усеченный средний диапазон n % представляет собой среднее значение процентилей n % и (100− n ) % и является более надежным, имея разбивки точку n %. В середине из них находится средний шарнир , который составляет 25% среднего итога. Медиану ; можно интерпретировать как полностью усеченную (50%) среднюю величину это соответствует соглашению, согласно которому медиана четного числа точек является средним значением двух средних точек.
Эти усеченные средние диапазоны также представляют интерес как описательная статистика или как L-оценка центрального местоположения или асимметрии : различия средних итогов, такие как средний шарнир минус медиана, дают показатели асимметрии в разных точках хвоста. [2]
Эффективность
[ редактировать ]Несмотря на свои недостатки, в некоторых случаях это полезно: средний диапазон является высокоэффективной оценкой μ при небольшой выборке достаточно платикуртического распределения, но он неэффективен для мезокуртических распределений, таких как нормальное.
Например, для непрерывного равномерного распределения с неизвестными максимумом и минимумом средний диапазон представляет собой несмещенную оценку равномерно минимальной дисперсии (UMVU) для среднего значения. Максимум и минимум выборки вместе с размером выборки являются достаточной статистикой для максимума и минимума генеральной совокупности – распределение других выборок, обусловленное заданными максимумом и минимумом, представляет собой просто равномерное распределение между максимумом и минимумом и, таким образом, добавляет никакой информации. См. «Проблему немецких танков» для дальнейшего обсуждения. Таким образом, средний диапазон, который является объективной и достаточной оценкой среднего значения генеральной совокупности, на самом деле является UMVU: использование выборочного среднего просто добавляет шум, основанный на неинформативном распределении точек в этом диапазоне.
И наоборот, для нормального распределения выборочное среднее является оценкой среднего значения UMVU. Таким образом, для платикуртовых распределений, которые часто можно рассматривать как нечто среднее между равномерным и нормальным распределением, информативность средних точек выборки по сравнению со значениями экстремумов варьируется от «равной» для нормального распределения до «неинформативной» для равномерного и для разных распределений. , один или другой (или некоторая их комбинация) может быть наиболее эффективным. Надежным аналогом является тримеан , который усредняет средний шарнир (средний диапазон обрезан на 25%) и медиану.
Небольшие образцы
[ редактировать ]Для небольших размеров выборки ( n от 4 до 20), полученных из достаточно платикуртного распределения (отрицательный эксцесс , определяемый как γ 2 = (μ 4 /(μ 2 )²) − 3), средний диапазон является эффективной оценкой среднее значение μ . В следующей таблице суммированы эмпирические данные, сравнивающие три оценки среднего значения для распределений различного эксцесса; модифицированное среднее значение — это усеченное среднее значение , в котором исключены максимум и минимум. [3] [4]
Избыточный эксцесс (γ 2 ) | Самая эффективная оценка μ |
---|---|
от −1,2 до −0,8 | Средний уровень |
от −0,8 до 2,0 | Иметь в виду |
от 2,0 до 6,0 | Модифицированное среднее значение |
При n = 1 или 2 средний диапазон и среднее значение равны (и совпадают с медианой) и наиболее эффективны для всех распределений. Для n = 3 модифицированное среднее значение является медианой, а вместо этого среднее значение является наиболее эффективной мерой центральной тенденции для значений γ 2 от 2,0 до 6,0, а также от -0,8 до 2,0.
Выборка свойств
[ редактировать ]Для выборки размера n из стандартного нормального распределения средний диапазон M является несмещенным и имеет дисперсию, определяемую следующим образом: [5]
Для выборки размера n из стандартного распределения Лапласа средний диапазон M является несмещенным и имеет дисперсию, определяемую следующим образом: [6]
и, в частности, дисперсия не уменьшается до нуля по мере увеличения размера выборки.
Для выборки размера n с нулевым центром из равномерного распределения среднее значение M несмещено, nM имеет асимптотическое распределение , которое является распределением Лапласа . [7]
Отклонение
[ редактировать ]В то время как среднее значение набора значений минимизирует сумму квадратов отклонений , а медиана минимизирует среднее абсолютное отклонение , средний диапазон минимизирует максимальное отклонение (определяемое как ): это решение вариационной задачи .
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Додж 2003 .
- ^ Веллеман и Хоглин 1981 .
- ^ Винсон, Уильям Дэниел (1951). Исследование мер центральной тенденции, используемых в контроле качества (магистратура). Университет Северной Каролины в Чапел-Хилл. Таблица (4.1), стр. 32–34.
- ^ Кауден, Дадли Джонстон (1957). Статистические методы в контроле качества . Прентис-Холл. стр. 67–68 .
- ^ Кендалл и Стюарт 1969 , Пример 14.4.
- ^ Кендалл и Стюарт 1969 , Пример 14.5.
- ^ Кендалл и Стюарт 1969 , Пример 14.12.
- Додж, Ю. (2003). Оксфордский словарь статистических терминов . Издательство Оксфордского университета. ISBN 0-19-920613-9 .
- Кендалл, Миннесота; Стюарт, А. (1969). Передовая теория статистики, Том 1 . Грифон. ISBN 0-85264-141-9 .
- Веллеман, П.Ф.; Хоглин, округ Колумбия (1981). Приложения, основы и вычисления исследовательского анализа данных . Даксбери Пресс. ISBN 0-87150-409-Х .