Сгруппированные данные
Сгруппированные данные — это данные , сформированные путем объединения отдельных наблюдений переменной . в группы, так что частотное распределение этих групп служит удобным средством обобщения или анализа данных Существует два основных типа группировки: объединение данных одномерной переменной с заменой отдельных чисел количеством в интервалах; и группирование многомерных переменных по некоторым измерениям (особенно по независимым переменным ), получение распределения несгруппированных измерений (особенно по зависимым переменным ).
Пример [ править ]
Идею сгруппированных данных можно проиллюстрировать, рассмотрев следующий набор необработанных данных:
20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 | 11 | 16 | 21 | 17 | 11 | 34 | 14 | 15 | 21 | 18 | 17 |
Приведенные выше данные можно сгруппировать для построения частотного распределения любым из нескольких способов. Один из методов — использовать интервалы в качестве основы.
Наименьшее значение в приведенных выше данных — 8, а наибольшее — 34. Интервал от 8 до 34 разбивается на более мелкие подинтервалы (называемые интервалами классов ). Для каждого интервала класса подсчитывается количество элементов данных, попадающих в этот интервал. Это число называется частотой интервала этого класса. Результаты сведены в таблицу частот следующим образом:
Затраченное время (в секундах) | Частота |
---|---|
5 ≤ т < 10 | 1 |
10 ≤ т < 15 | 4 |
15 ≤ т < 20 | 6 |
20 ≤ т < 25 | 4 |
25 ≤ т < 30 | 2 |
30 ≤ т < 35 | 3 |
Другой метод группировки данных заключается в использовании вместо числовых интервалов некоторых качественных характеристик. Например, предположим, что в приведенном выше примере есть три типа учащихся: 1) ниже нормы, если время ответа составляет от 5 до 14 секунд, 2) нормальные, если оно составляет от 15 до 24 секунд, и 3) выше нормы, если составляет 25 секунд или более, то сгруппированные данные будут выглядеть так:
Частота | |
---|---|
Ниже нормы | 5 |
Нормальный | 10 |
Выше нормы | 5 |
Еще одним примером группировки данных является использование некоторых часто используемых числовых значений, которые на самом деле являются «именами», которые мы присваиваем категориям. Например, давайте посмотрим на возрастное распределение учеников в классе. Учащимся может быть 10, 11 или 12 лет. Это возрастные группы: 10, 11 и 12. Обратите внимание, что учащимся в возрастной группе 10 от 10 лет и 0 дней до 10 лет и 364 дней, а их средний возраст составляет 10,5 лет, если мы посмотрим на возраст. в непрерывном масштабе. Сгруппированные данные выглядят так:
Возраст | Частота |
---|---|
10 | 10 |
11 | 20 |
12 | 10 |
данных значение Среднее сгруппированных
Оценка, , среднего значения генеральной совокупности, из которой взяты данные, можно рассчитать на основе сгруппированных данных как:
В этой формуле x относится к середине интервалов классов, а f — частота классов. Обратите внимание, что результат этого будет отличаться от выборочного среднего значения несгруппированных данных. Среднее значение сгруппированных данных в приведенном выше примере можно рассчитать следующим образом:
Интервалы занятий | Частота ( ф ) | Средняя точка ( х ) | валюта |
---|---|---|---|
5 и выше, ниже 10 | 1 | 7.5 | 7.5 |
10 ≤ т < 15 | 4 | 12.5 | 50 |
15 ≤ т < 20 | 6 | 17.5 | 105 |
20 ≤ т < 25 | 4 | 22.5 | 90 |
25 ≤ т < 30 | 2 | 27.5 | 55 |
30 ≤ т < 35 | 3 | 32.5 | 97.5 |
ОБЩИЙ | 20 | 405 |
Таким образом, среднее значение сгруппированных данных равно
Среднее значение сгруппированных данных в примере 4 выше можно рассчитать следующим образом:
Возрастная группа | Частота ( ф ) | Средняя точка ( х ) | валюта |
---|---|---|---|
10 | 10 | 10.5 | 105 |
11 | 20 | 11.5 | 230 |
12 | 10 | 12.5 | 125 |
ОБЩИЙ | 40 | 460 |
Таким образом, среднее значение сгруппированных данных равно
См. также [ править ]
- Совокупные данные
- Цензура (статистика)
- Объединение данных
- Раздел набора
- Уровень измерения
- Распределение частот
- Дискретизация непрерывных функций
- Логистическая регрессия § Минимальная оценка хи-квадрат для сгруппированных данных
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( июнь 2010 г. ) |
Ссылки [ править ]
- Ньюболд, П.; Карлсон, В.; Торн, Б. (2009). Статистика бизнеса и экономики (Седьмое изд.). Пирсон Образование. ISBN 978-0-13-507248-6 .