Пятизначное резюме
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2013 г. ) |
Пятизначная сводка представляет собой набор описательной статистики , предоставляющей информацию о наборе данных. Он состоит из пяти наиболее важных выборочных процентилей :
- ( минимум выборки наименьшее наблюдение)
- нижний квартиль или первый квартиль
- медиана ) (среднее значение
- верхний квартиль или третий квартиль
- ( максимум выборки самое большое наблюдение)
В дополнение к медиане одного набора данных существуют две связанные статистики, называемые верхним и нижним квартилем. Если данные расположены по порядку, то нижний квартиль занимает центральное место в нижней половине данных, а верхний квартиль — в центре верхней половины данных. Эти квартили используются для расчета межквартильного диапазона, который помогает описать разброс данных и определить, являются ли какие-либо точки данных выбросами.
Чтобы такая статистика существовала, наблюдения должны быть основаны на одномерной переменной, которую можно измерить по порядковой, интервальной шкале или шкале отношений .
Использование и представление
[ редактировать ]Сводка из пяти цифр представляет собой краткое изложение распределения наблюдений . Представление пяти цифр позволяет избежать необходимости выбирать наиболее подходящую сводную статистику. Пятизначная сводка дает информацию о местоположении (от медианы), разбросе (от квартилей) и диапазоне (от минимума и максимума выборки) наблюдений. Поскольку он сообщает статистику порядка (а не, скажем, среднее значение), пятизначная сводка подходит для порядковых измерений , а также для измерений интервалов и отношений.
Можно быстро сравнить несколько наборов наблюдений, сравнивая их пятизначные сводки, которые можно представить графически с помощью коробчатой диаграммы .
Помимо самих точек, многие L-оценки могут быть вычислены на основе пятизначной сводки, включая межквартильный размах , средний шарнир , размах , средний диапазон и тримин .
Сводка из пяти цифр иногда представляется в виде следующей таблицы:
медиана | |
1-й квартиль | 3-й квартиль |
Минимум | Максимум |
Пример
[ редактировать ]В этом примере вычисляется пятизначная сводка для следующего набора наблюдений: 0, 0, 1, 2, 63, 61, 27, 13. Это количество спутников каждой планеты Солнечной системы .
Это помогает расположить наблюдения в порядке возрастания: 0, 0, 1, 2, 13, 27, 61, 63. Всего наблюдений восемь, поэтому медиана представляет собой среднее значение двух средних чисел (2 + 13)/2. = 7,5. Разделение наблюдений по обе стороны от медианы дает две группы по четыре наблюдения. Медиана первой группы является нижним или первым квартилем и равна (0 + 1)/2 = 0,5. Медиана второй группы представляет собой верхний или третий квартиль и равна (27 + 61)/2 = 44. Самые маленькие и самые большие наблюдения — 0 и 63.
Таким образом, сводка из пяти чисел будет 0, 0,5, 7,5, 44, 63.
Пример в R
[ редактировать ]Вычислить пятизначную сводку на языке программирования R можно с помощью fivenum
функция. summary
Функция при применении к вектору отображает пятизначную сводку вместе со средним значением (которое само по себе не является частью пятизначной сводки). fivenum
использует другой метод для расчета процентилей, чем summary
функция.
> moons <- c(0, 0, 1, 2, 63, 61, 27, 13)
> fivenum(moons)
[1] 0.0 0.5 7.5 44.0 63.0
> summary(moons)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 0.75 7.50 20.88 35.50 63.00
Пример на Python
[ редактировать ]В этом примере Python используется percentile
функция из числовой библиотеки numpy
и работает в Python 2 и 3.
import numpy as np
def fivenum(data):
"""Five-number summary."""
return np.percentile(data, [0, 25, 50, 75, 100], method="midpoint")
>>> moons = [0, 0, 1, 2, 63, 61, 27, 13]
>>> print(fivenum(moons))
[ 0. 0.5 7.5 44. 63. ]
Пример в SAS
[ редактировать ]Вы можете использовать PROC UNIVARIATE
в SAS, чтобы получить сводку из пяти чисел:
data fivenum;
input x @@;
datalines;
1 2 3 4 20 202 392 4 38 20
;
run;
ods select Quantiles;
proc univariate data = fivenum;
output out = fivenums min = min Q1 = Q1 Q2 = median Q3 = Q3 max = max;
run;
proc print data = fivenums;
run;
Пример в Стате
[ редактировать ]input byte y
0
0
1
2
63
61
27
13
end
list
tabstat y, statistics (min q max)
См. также
[ редактировать ]Ссылки
[ редактировать ]- Хоглин, Дэвид К.; Мостеллер, Фредерик ; Тьюки, Джон В. , ред. (21 декабря 1982 г.). Понимание надежного и исследовательского анализа данных . Серия Уайли по вероятности и статистике (1-е изд.). Уайли . ISBN 978-0471097778 . LCCN 82008528 . OCLC 473252998 . OL 3488838M – через Интернет-архив .
- Гринвуд, Дэвид; Вулли, Сара; Гудман, Дженни; Вон, Дженнифер; Палмер, Стюарт (8 ноября 2019 г.). «Глава 9: Статистика». Основная математика для 10-го класса австралийской учебной программы (3-е изд.). Издательство Кембриджского университета . ISBN 978-1108773461 . OCLC 1231440374 . ОЛ 33037157М .