Гистограмма
Гистограмма — это визуальное представление распределения количественных данных. Этот термин был впервые введен Карлом Пирсоном . [1] Чтобы построить гистограмму, первым шагом является «группировка» (или «группировка») диапазона значений — разделение всего диапазона значений на ряд интервалов — а затем подсчет количества значений, попадающих в каждый интервал. Бины обычно указываются как последовательные непересекающиеся интервалы переменной. Бины (интервалы) являются смежными и обычно (но не обязательно) имеют одинаковый размер. [2]
Гистограммы дают грубое представление о плотности основного распределения данных и часто для оценки плотности : оценки функции плотности вероятности базовой переменной. Общая площадь гистограммы, используемой для определения плотности вероятности, всегда нормируется к 1. Если все интервалы по оси x равны 1, то гистограмма идентична графику относительной частоты .
Гистограммы иногда путают с гистограммами . В гистограмме каждый интервал соответствует разному диапазону значений, поэтому гистограмма в целом иллюстрирует распределение значений. Но в гистограмме каждый столбец предназначен для отдельной категории наблюдений (например, каждый столбец может относиться к разной совокупности), поэтому в целом гистограмму можно использовать для сравнения разных категорий. Некоторые авторы рекомендуют, чтобы гистограммы всегда имели промежутки между столбцами, чтобы было понятно, что они не являются гистограммами. [3] [4]
Примеры
[ редактировать ]Это данные для гистограммы справа, состоящей из 500 элементов:
Бин/Интервал | Количество/частота |
---|---|
от −3,5 до −2,51 | 9 |
от −2,5 до −1,51 | 32 |
от −1,5 до −0,51 | 109 |
от −0,5 до 0,49 | 180 |
от 0,5 до 1,49 | 132 |
от 1,5 до 2,49 | 34 |
от 2,5 до 3,49 | 4 |
Для описания закономерностей на гистограмме используются следующие слова: «симметричный», «наклон влево» или «право», «унимодальный», «бимодальный» или «мультимодальный».
- Симметричный, унимодальный
- Бимодальный
- Мультимодальный
- Симметричный
Чтобы узнать больше об этом, рекомендуется построить график данных, используя несколько интервалов разной ширины. Вот пример чаевых, данных в ресторане.
- Советы по использованию интервала шириной 1 доллар, наклоненного вправо, унимодального
- Советы с использованием ширины интервала 10 центов, по-прежнему смещены вправо, мультимодальные с режимами по суммам в долларах США и 50 центов, указано округление, а также некоторые выбросы.
Бюро переписи населения США обнаружило, что 124 миллиона человек работают вне дома. [5] Используя их данные о времени, потраченном на дорогу до работы, в приведенной ниже таблице показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. Вероятно, это связано с тем, что люди округляют заявленное время в пути. [ нужна ссылка ] Проблема представления значений в виде произвольно округленных чисел является распространенным явлением при сборе данных от людей. [ нужна ссылка ]
Данные в абсолютных цифрах Интервал Ширина Количество Количество/ширина 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Эта гистограмма показывает количество случаев на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа, где Q выражается в тысячах.
Данные по пропорциям Интервал Ширина Количество (К) Q/всего/ширина 0 5 4180 0.0067 5 5 13687 0.0221 10 5 18618 0.0300 15 5 19634 0.0316 20 5 17981 0.0290 25 5 7190 0.0116 30 5 16369 0.0264 35 5 3212 0.0052 40 5 4122 0.0066 45 15 9200 0.0049 60 30 6461 0.0017 90 60 3435 0.0005
Эта гистограмма отличается от первой только вертикальным масштабом . Площадь каждого блока представляет собой долю от общей суммы, которую представляет каждая категория, а общая площадь всех столбцов равна 1 (доля означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.
Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них представляет собой среднюю плотность частот для интервала. Интервалы расположены вместе, чтобы показать, что данные, представленные гистограммой, хотя и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представляются пустыми и не пропускаются.) [6]
Математические определения
[ редактировать ]Данные, используемые для построения гистограммы, генерируются с помощью функции m i , которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ). Таким образом, если мы позволим n быть общим количеством наблюдений, а k — общим количеством интервалов, данные гистограммы m i удовлетворяют следующим условиям:
Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро для сглаживания частот по интервалам. Это дает более гладкую функцию плотности вероятности, которая, как правило, более точно отражает распределение базовой переменной. Оценку плотности можно построить как альтернативу гистограмме, и она обычно изображается в виде кривой, а не набора прямоугольников. Тем не менее, гистограммы предпочтительнее в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как для гистограммы это просто, где каждый интервал изменяется независимо.
Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения, [7] который быстро вычисляется и дает плавную кривую оценки плотности без использования ядер.
Совокупная гистограмма
[ редактировать ]Кумулятивная гистограмма — это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:
Количество бункеров и ширина
[ редактировать ]Не существует «лучшего» количества ячеек, а разные размеры ячеек могут выявить разные особенности данных. Данные о группировке, по крайней мере, так же стары, как работа Граунта в 17 веке, но никаких систематических указаний не было дано. [8] до . работы Стерджеса в 1926 году [9]
Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины интервала внутри гистограммы может быть полезным. Тем не менее, широко используются контейнеры одинаковой ширины.
Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа могут подходить разные ширины интервалов, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [10]
Количество ячеек k может быть назначено напрямую или рассчитано на основе предлагаемой ширины ячейки h следующим образом:
Фигурные скобки обозначают функцию потолка .
Выбор квадратного корня
[ редактировать ]который извлекает квадратный корень из количества точек данных в выборке и округляет до следующего целого числа . Это правило предлагается в ряде учебников по элементарной статистике. [11] и широко реализован во многих пакетах программного обеспечения. [12]
Формула Стерджеса
[ редактировать ]Правило Стерджеса [9] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.
Формула Стерджеса неявно основывает размеры интервалов на диапазоне данных и может работать плохо, если n < 30 , поскольку количество интервалов будет небольшим — менее семи — и вряд ли сможет хорошо отображать тенденции в данных. С другой стороны, формула Стерджеса может переоценивать ширину интервала для очень больших наборов данных, что приводит к чрезмерно сглаженным гистограммам. [13] Он также может работать плохо, если данные не распределяются нормально.
По сравнению с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для ячеек гистограммы, результат формулы Стерджеса наиболее близок, когда n ≈ 100 . [13]
Правило риса
[ редактировать ]Правило Райса [14] представлено как простая альтернатива правилу Стерджеса.
Формула Доана
[ редактировать ]Формула Доана [15] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее эффективность при работе с ненормальными данными.
где – предполагаемая асимметрия распределения в 3-й момент и
Нормальное эталонное правило Скотта
[ редактировать ]Ширина бункера дается
где — выборочное стандартное отклонение . Нормальное эталонное правило Скотта [16] оптимален для случайных выборок нормально распределенных данных в том смысле, что он минимизирует интегральную среднеквадратическую ошибку оценки плотности. [8] Это правило по умолчанию, используемое в Microsoft Excel. [17]
Правило Террелла-Скотта
[ редактировать ]Правило Террелла -Скотта [13] [18] не является обычным ссылочным правилом. Это дает минимальное количество интервалов, необходимое для асимптотически оптимальной гистограммы, где оптимальность измеряется интегрированной среднеквадратической ошибкой. Граница получается путем нахождения «самой гладкой» возможной плотности, которая оказывается равной . Любая другая плотность потребует большего количества ячеек, поэтому приведенная выше оценка также называется правилом «чрезмерного сглаживания». Сходство формул и тот факт, что Террел и Скотт были в Университете Райса, когда они предложили эту формулу, позволяют предположить, что это также является источником правила Райса.
Правило Фридмана-Диакониса
[ редактировать ]Правило Фридмана-Диакониса дает ширину ячейки. как: [19] [8]
который основан на межквартильном размахе , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение, к выбросам в данных.
Минимизация квадратичной ошибки перекрестной проверки
[ редактировать ]Этот подход к минимизации интегральной среднеквадратической ошибки из правила Скотта можно обобщить за пределы нормального распределения, используя перекрестную проверку с исключением одного: [20] [21]
Здесь, — это количество точек данных в k -м интервале, и выбор значения h , которое минимизирует J, минимизирует интегрированную среднеквадратическую ошибку.
Выбор Симадзаки и Синомото
[ редактировать ]Выбор основан на минимизации оценочного L 2 функция риска [22]
где и являются средней и смещенной дисперсией гистограммы с шириной интервала , и .
Переменная ширина бункера
[ редактировать ]Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых применений предпочтительнее варьировать ширину бункеров. Это позволяет избежать ячеек с малым количеством. Распространенным случаем является выбор равновероятных интервалов , при которых ожидается, что количество образцов в каждом интервале будет примерно равным. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы каждая ячейка имела образцы. При построении гистограммы плотность частот в качестве зависимой оси используется . Хотя все ячейки имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.
Для равновероятных бинов предлагается следующее правило количества бинов: [23]
Такой выбор ячеек мотивирован максимизацией эффективности теста хи-квадрат Пирсона , проверяющего, содержат ли ячейки одинаковое количество образцов. Точнее, для заданного доверительного интервала рекомендуется выбирать от 1/2 до 1 раза следующего уравнения: [24]
Где — пробит- функция. Следуя этому правилу для дал бы между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.
Примечание
[ редактировать ]Веская причина, почему количество бункеров должно быть пропорционально заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремится к бесконечности. Если - это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), тогда количество единиц в интервале (частота) имеет порядок и относительная стандартная ошибка имеет порядок . По сравнению со следующим интервалом относительное изменение частоты имеет порядок. при условии, что производная плотности не равна нулю. Эти два имеют один и тот же порядок, если в порядке , так что в порядке . Этот простой выбор кубического корня также можно применить к интервалам непостоянной ширины. [ нужна ссылка ]
Приложения
[ редактировать ]- В гидрологии гистограмма и расчетная функция плотности данных об осадках и расходе рек, проанализированные с помощью распределения вероятностей , используются для понимания их поведения и частоты появления. [26] Пример показан на синем рисунке.
- Во многих программах цифровой обработки изображений есть инструмент гистограммы, который показывает распределение контрастности / яркости пикселей .
См. также
[ редактировать ]- Визуализация данных и информации
- Объединение данных
- Оценка плотности
- Оценка плотности ядра , более плавный, но более сложный метод оценки плотности.
- Оценка энтропии
- Правило Фридмана-Диакониса
- Гистограмма изображения
- Диаграмма Парето
- Семь основных инструментов качества
- V-оптимальные гистограммы
Ссылки
[ редактировать ]- ^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» . Философские труды Королевского общества A: Математические, физические и технические науки . 186 : 343–414. Бибкод : 1895RSPTA.186..343P . дои : 10.1098/rsta.1895.0010 .
- ^ Ховитт, Д.; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN 978-0-13-205161-3 .
- ^ Наоми, Роббинс. «Гистограмма — это НЕ гистограмма» . Форбс . Проверено 31 июля 2018 г.
- ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластичник становится статистиком» . Новозеландский журнал истории и философии науки и техники . 1 том. OCLC 682200824 .
- ^ Перепись США 2000 года .
- ^ Дин С. и Илловски Б. (19 февраля 2009 г.). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/.
- ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная сдвинутая гистограмма» . Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (2): 160–164. дои : 10.1002/wics.54 . S2CID 122986682 .
- ^ Jump up to: а б с Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Уайли.
- ^ Jump up to: а б Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161 . JSTOR 2965501 .
- ^ например, § 5.6 «Оценка плотности», В. Н. Венейблс и Б. Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN 0-387-95457-0 .
- ^ Лохака, ХО (2007). «Составление таблицы частот сгруппированных данных: разработка и исследование итерационного алгоритма» . Докторская диссертация, Университет Огайо. п. 87.
- ^ «MathWorks: Гистограмма» .
- ^ Jump up to: а б с Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID 197483064 .
- ^ Онлайн-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
- ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
- ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605 .
- ^ «Excel: Создать гистограмму» .
- ^ Террелл, Г.Р. и Скотт, Д.В., 1985. Сглаженные непараметрические оценки плотности. Журнал Американской статистической ассоциации, 80 (389), стр. 209–214.
- ^ Фридман, Дэвид; Диаконис, П. (1981). как средстве оценки плотности: L2 «О гистограмме теория » (PDF) . Журнал теории вероятностей и смежных областей . 57 (4): 453–476. CiteSeerX 10.1.1.650.2473 . дои : 10.1007/BF01025868 . S2CID 14437088 .
- ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ИСБН 978-1-4419-2322-6 .
- ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
- ^ Симадзаки, Х.; Синомото, С. (2007). «Метод выбора размера интервала временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX 10.1.1.304.6404 . дои : 10.1162/neco.2007.19.6.1503 . ПМИД 17444758 . S2CID 7781236 .
- ^ Джек Принс; Дон МакКормак; Ди Майкельсон; Карен Хоррелл. «Тест соответствия хи-квадрат» . Электронный справочник NIST/SEMATECH по статистическим методам . НИСТ/СЕМАТЕХ. п. 7.2.1.1 . Проверено 29 марта 2019 г.
- ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, штат Нью-Йорк, США: Marcel Dekker Inc., с. 70. ИСБН 0-8247-7487-6 .
- ^ Калькулятор распределений вероятностей и функций плотности.
- ^ Иллюстрация гистограмм и функций плотности вероятности.
Дальнейшее чтение
[ редактировать ]- Ланкастер, Х.О. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974. ISBN 0-471-51250-8
Внешние ссылки
[ редактировать ]- Исследование гистограмм , эссе Арана Лунцера и Амелии Макнамара
- Дорога на работу и место работы (местоположение переписного документа указано в примере)
- Гладкая гистограмма для сигналов и изображений из нескольких образцов
- Гистограммы: построение, анализ и понимание с внешними ссылками и приложением к физике элементарных частиц.
- Метод выбора размера интервала гистограммы
- Гистограммы: теория и практика — несколько замечательных иллюстраций некоторых концепций ширины интервала, выведенных выше.
- Гистограммы – правильный путь
- Интерактивный генератор гистограмм
- Функция Matlab для построения красивых гистограмм
- Динамическая гистограмма в MS Excel
- гистограмм Построение и манипулирование ими с использованием Java-апплетов и диаграмм на SOCR.
- Набор инструментов для построения лучших гистограмм