Сгруппированные данные

Сгруппированные данные — это данные , сформированные путем объединения отдельных наблюдений переменной . в группы, так что частотное распределение этих групп служит удобным средством обобщения или анализа данных Существует два основных типа группировки: объединение данных одномерной переменной с заменой отдельных чисел количеством в интервалах; и группирование многомерных переменных по некоторым измерениям (особенно по независимым переменным ), получение распределения несгруппированных измерений (особенно по зависимым переменным ).

Пример [ править ]

Идею сгруппированных данных можно проиллюстрировать, рассмотрев следующий набор необработанных данных:

Таблица 1. Время (в секундах), затраченное группой учащихся на ответ на простой математический вопрос
20 25 24 33 13 26 8 19 31 11 16 21 17 11 34 14 15 21 18 17

Приведенные выше данные можно сгруппировать для построения частотного распределения любым из нескольких способов. Один из методов — использовать интервалы в качестве основы.

Наименьшее значение в приведенных выше данных — 8, а наибольшее — 34. Интервал от 8 до 34 разбивается на более мелкие подинтервалы (называемые интервалами классов ). Для каждого интервала класса подсчитывается количество элементов данных, попадающих в этот интервал. Это число называется частотой интервала этого класса. Результаты сведены в таблицу частот следующим образом:

Таблица 2. Частотное распределение времени (в секундах), затраченного группой учащихся на ответ на простой математический вопрос.
Затраченное время (в секундах) Частота
5 ≤ т < 10 1
10 ≤ т < 15 4
15 ≤ т < 20 6
20 ≤ т < 25 4
25 ≤ т < 30 2
30 ≤ т < 35 3

Другой метод группировки данных заключается в использовании вместо числовых интервалов некоторых качественных характеристик. Например, предположим, что в приведенном выше примере есть три типа учащихся: 1) ниже нормы, если время ответа составляет от 5 до 14 секунд, 2) нормальные, если оно составляет от 15 до 24 секунд, и 3) выше нормы, если составляет 25 секунд или более, то сгруппированные данные будут выглядеть так:

Таблица 3: Частотное распределение трех типов студентов
Частота
Ниже нормы 5
Нормальный 10
Выше нормы 5

Еще одним примером группировки данных является использование некоторых часто используемых числовых значений, которые на самом деле являются «именами», которые мы присваиваем категориям. Например, давайте посмотрим на возрастное распределение учеников в классе. Учащимся может быть 10, 11 или 12 лет. Это возрастные группы: 10, 11 и 12. Обратите внимание, что учащимся в возрастной группе 10 от 10 лет и 0 дней до 10 лет и 364 дней, а их средний возраст составляет 10,5 лет, если мы посмотрим на возраст. в непрерывном масштабе. Сгруппированные данные выглядят так:

Таблица 4: Возрастное распределение учеников класса
Возраст Частота
10 10
11 20
12 10

данных значение Среднее сгруппированных

Оценка, , среднего значения генеральной совокупности, из которой взяты данные, можно рассчитать на основе сгруппированных данных как:

В этой формуле x относится к середине интервалов классов, а f — частота классов. Обратите внимание, что результат этого будет отличаться от выборочного среднего значения несгруппированных данных. Среднее значение сгруппированных данных в приведенном выше примере можно рассчитать следующим образом:

Интервалы занятий Частота ( ф ) Средняя точка ( х ) валюта
5 и выше, ниже 10 1 7.5 7.5
10 ≤ т < 15 4 12.5 50
15 ≤ т < 20 6 17.5 105
20 ≤ т < 25 4 22.5 90
25 ≤ т < 30 2 27.5 55
30 ≤ т < 35 3 32.5 97.5
ОБЩИЙ 20 405


Таким образом, среднее значение сгруппированных данных равно


Среднее значение сгруппированных данных в примере 4 выше можно рассчитать следующим образом:

Возрастная группа Частота ( ф ) Средняя точка ( х ) валюта
10 10 10.5 105
11 20 11.5 230
12 10 12.5 125
ОБЩИЙ 40 460


Таким образом, среднее значение сгруппированных данных равно

См. также [ править ]

Ссылки [ править ]

  • Ньюболд, П.; Карлсон, В.; Торн, Б. (2009). Статистика бизнеса и экономики (Седьмое изд.). Пирсон Образование. ISBN  978-0-13-507248-6 .