Гистограмма

Из Википедии, бесплатной энциклопедии

Гистограмма это визуальное представление распределения количественных данных. Этот термин был впервые введен Карлом Пирсоном . [1] Чтобы построить гистограмму, первым шагом является «группировка» (или «группировка») диапазона значений — разделение всего диапазона значений на ряд интервалов — а затем подсчет количества значений, попадающих в каждый интервал. Ячейки обычно указываются как последовательные непересекающиеся интервалы переменной. Бины (интервалы) являются смежными и обычно (но не обязательно) имеют одинаковый размер. [2]

Гистограммы дают грубое представление о плотности основного распределения данных и часто для оценки плотности : оценки функции плотности вероятности базовой переменной. Общая площадь гистограммы, используемая для определения плотности вероятности, всегда нормируется к 1. Если все интервалы по оси x равны 1, то гистограмма идентична графику относительной частоты .

Гистограммы иногда путают с гистограммами . В гистограмме каждый интервал соответствует разному диапазону значений, поэтому гистограмма в целом иллюстрирует распределение значений. Но на гистограмме каждый столбец предназначен для отдельной категории наблюдений (например, каждый столбец может относиться к разной совокупности), поэтому в целом гистограмму можно использовать для сравнения разных категорий. Некоторые авторы рекомендуют, чтобы гистограммы всегда имели промежутки между столбцами, чтобы было понятно, что они не являются гистограммами. [3] [4]

Примеры [ править ]

Это данные для гистограммы справа, состоящей из 500 элементов:

Бин/Интервал Количество/частота
от −3,5 до −2,51 9
от −2,5 до −1,51 32
от −1,5 до −0,51 109
от −0,5 до 0,49 180
от 0,5 до 1,49 132
от 1,5 до 2,49 34
от 2,5 до 3,49 4

Для описания закономерностей на гистограмме используются следующие слова: «симметричный», «наклон влево» или «право», «унимодальный», «бимодальный» или «мультимодальный».

Чтобы узнать больше об этом, рекомендуется построить график данных, используя несколько интервалов разной ширины. Вот пример чаевых, данных в ресторане.

Бюро переписи населения США обнаружило, что 124 миллиона человек работают вне дома. [5] Используя их данные о времени, потраченном на дорогу до работы, в таблице ниже показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. Вероятно, это связано с тем, что люди округляют заявленное время в пути. [ нужна цитата ] Проблема представления значений в виде произвольно округленных чисел является распространенным явлением при сборе данных от людей. [ нужна цитата ]

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна общему числу случаев. На этой диаграмме используется Q/ширина из таблицы.
Данные в абсолютных цифрах
Интервал Ширина Количество Количество/ширина
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Эта гистограмма показывает количество случаев на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа, где Q выражается в тысячах.

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q/total/width (скопление) из таблицы. Высота блока представляет собой скученность, которая определяется как - процент на горизонтальную единицу.
Данные по пропорциям
Интервал Ширина Количество (К) Q/всего/ширина
0 5 4180 0.0067
5 5 13687 0.0221
10 5 18618 0.0300
15 5 19634 0.0316
20 5 17981 0.0290
25 5 7190 0.0116
30 5 16369 0.0264
35 5 3212 0.0052
40 5 4122 0.0066
45 15 9200 0.0049
60 30 6461 0.0017
90 60 3435 0.0005

Эта гистограмма отличается от первой только вертикальным масштабом . Площадь каждого блока представляет собой долю от общей суммы, которую представляет каждая категория, а общая площадь всех столбцов равна 1 (доля означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них представляет собой среднюю плотность частот для интервала. Интервалы расположены вместе, чтобы показать, что данные, представленные гистограммой, хотя и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представляются пустыми и не пропускаются.) [6]

Математические определения

Обычная и накопительная гистограмма одних и тех же данных. Показанные данные представляют собой случайную выборку из 10 000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

Данные, используемые для построения гистограммы, генерируются с помощью функции m i , которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ). Таким образом, если мы позволим n быть общим количеством наблюдений, а k — общим количеством интервалов, данные гистограммы m i удовлетворяют следующим условиям:

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро ​​для сглаживания частот по интервалам. Это дает более гладкую функцию плотности вероятности, которая, как правило, более точно отражает распределение базовой переменной. Оценку плотности можно построить как альтернативу гистограмме, и она обычно изображается в виде кривой, а не набора прямоугольников. Тем не менее, гистограммы предпочтительнее в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, тогда как для гистограммы, где каждый интервал изменяется независимо, это просто.

Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения, [7] который быстро вычисляется и дает плавную кривую оценки плотности без использования ядер.

Совокупная гистограмма [ править ]

Кумулятивная гистограмма — это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:

Количество бункеров и ширина [ править ]

Не существует «лучшего» количества ячеек, а разные размеры ячеек могут выявить разные характеристики данных. Данные о группировке по крайней мере так же стары, как работа Граунта в 17 веке, но никаких систематических указаний не было дано. [8] до . работы Стерджеса в 1926 году [9]

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины интервала внутри гистограммы может быть полезным. Тем не менее, широко используются контейнеры одинаковой ширины.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа могут подходить разные ширины интервалов, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [10]

Количество ячеек k может быть назначено напрямую или рассчитано на основе предлагаемой ширины ячейки h следующим образом:

Данные гистограммы представлены с разной шириной интервала.

Фигурные скобки обозначают функцию потолка .

Выбор квадратного корня [ править ]

который извлекает квадратный корень из числа точек данных в выборке и округляет до следующего целого числа . Это правило предлагается в ряде учебников по элементарной статистике. [11] и широко реализован во многих пакетах программного обеспечения. [12]

Формула Стерджеса [ править ]

Правило Стерджеса [9] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Формула Стерджеса неявно основывает размеры интервалов на диапазоне данных и может работать плохо, если n < 30 , поскольку количество интервалов будет небольшим — менее семи — и вряд ли сможет хорошо отображать тенденции в данных. С другой стороны, формула Стерджеса может переоценивать ширину интервала для очень больших наборов данных, что приводит к чрезмерно сглаженным гистограммам. [13] Он также может работать плохо, если данные не распределяются нормально.

По сравнению с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для ячеек гистограммы, результат формулы Стерджеса наиболее близок, когда n ≈ 100 . [13]

Правило риса [ править ]

Райса Правило [14] представлено как простая альтернатива правилу Стерджеса.

Формула Доана [ править ]

Формула Доана [15] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее эффективность при работе с ненормальными данными.

где – предполагаемая асимметрия распределения в 3-й момент и

Нормальное правило Скотта [ править ]

Ширина бункера дан кем-то

где — выборочное стандартное отклонение . Нормальное эталонное правило Скотта [16] оптимален для случайных выборок нормально распределенных данных в том смысле, что он минимизирует интегральную среднеквадратическую ошибку оценки плотности. [8] Это правило по умолчанию, используемое в Microsoft Excel. [17]

Правило Террелла-Скотта [ править ]

Правило Террелла -Скотта [13] [18] не является обычным ссылочным правилом. Это дает минимальное количество интервалов, необходимое для асимптотически оптимальной гистограммы, где оптимальность измеряется интегрированной среднеквадратической ошибкой. Граница получается путем нахождения «самой гладкой» возможной плотности, которая оказывается равной . Любая другая плотность потребует большего количества ячеек, поэтому приведенная выше оценка также называется правилом «чрезмерного сглаживания». Сходство формул и тот факт, что Террел и Скотт были в Университете Райса, когда они предложили эту формулу, позволяют предположить, что это также является источником правила Райса.

Правило Фридмана-Дикона [ править ]

Правило Фридмана -Диакониса дает ширину ячейки. как: [19] [8]

который основан на межквартильном размахе , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение, к выбросам в данных.

Минимизация квадратичной ошибки перекрестной проверки [ править ]

Этот подход к минимизации интегральной среднеквадратической ошибки из правила Скотта можно обобщить за пределы нормального распределения, используя перекрестную проверку с исключением одного: [20] [21]

Здесь, — это количество точек данных в k -м интервале, и выбор значения h , которое минимизирует J, минимизирует интегрированную среднеквадратическую ошибку.

Синомото Выбор Симадзаки и

Выбор основан на минимизации оценочного L 2 функция риска [22]

где и являются средней и смещенной дисперсией гистограммы с шириной интервала , и .

Переменная ширина бункера [ править ]

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых применений предпочтительнее варьировать ширину бункеров. Это позволяет избежать ячеек с малым количеством. Распространенным случаем является выбор равновероятных интервалов , при которых ожидается, что количество образцов в каждом интервале будет примерно равным. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы каждая ячейка имела образцы. При построении гистограммы плотность частот в качестве зависимой оси используется . Хотя все ячейки имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных бинов предлагается следующее правило количества бинов: [23]

Такой выбор ячеек мотивирован максимизацией эффективности теста хи-квадрат Пирсона, проверяющего, содержат ли ячейки одинаковое количество образцов. Точнее, для заданного доверительного интервала рекомендуется выбирать от 1/2 до 1 раза следующего уравнения: [24]

Где пробит- функция. Следуя этому правилу для дал бы между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Примечание [ править ]

Веская причина, почему количество бункеров должно быть пропорционально заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремится к бесконечности. Если - это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), тогда количество единиц в интервале (частота) имеет порядок и относительная стандартная ошибка имеет порядок . По сравнению со следующим интервалом относительное изменение частоты имеет порядок. при условии, что производная плотности не равна нулю. Эти два имеют один и тот же порядок, если в порядке , так что в порядке . Этот простой выбор кубического корня также можно применить к интервалам непостоянной ширины. [ нужна цитата ]

Гистограмма и функция плотности распределения Гамбеля [25]

Приложения [ править ]

См. также [ править ]

Ссылки [ править ]

  1. ^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» . Философские труды Королевского общества A: Математические, физические и технические науки . 186 : 343–414. Бибкод : 1895RSPTA.186..343P . дои : 10.1098/rsta.1895.0010 .
  2. ^ Ховитт, Д.; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN  978-0-13-205161-3 .
  3. ^ Наоми, Роббинс. «Гистограмма — это НЕ гистограмма» . Форбс . Проверено 31 июля 2018 г.
  4. ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластичник становится статистиком» . Новозеландский журнал истории и философии науки и техники . 1 том. OCLC   682200824 .
  5. ^ Перепись США 2000 года .
  6. ^ Дин С. и Илловски Б. (19 февраля 2009 г.). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/.
  7. ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная сдвинутая гистограмма» . Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (2): 160–164. дои : 10.1002/wics.54 . S2CID   122986682 .
  8. ^ Перейти обратно: а б с Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Уайли.
  9. ^ Перейти обратно: а б Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161 . JSTOR   2965501 .
  10. ^ например, § 5.6 «Оценка плотности», В. Н. Венейблс и Б. Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN   0-387-95457-0 .
  11. ^ Лохака, ХО (2007). «Составление таблицы частот сгруппированных данных: разработка и исследование итерационного алгоритма» . Докторская диссертация, Университет Огайо. п. 87.
  12. ^ «MathWorks: Гистограмма» .
  13. ^ Перейти обратно: а б с Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID   197483064 .
  14. ^ Онлайн-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
  15. ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
  16. ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605 .
  17. ^ «Excel: Создать гистограмму» .
  18. ^ Террелл, Г.Р. и Скотт, Д.В., 1985. Сглаженные непараметрические оценки плотности. Журнал Американской статистической ассоциации, 80 (389), стр. 209–214.
  19. ^ Фридман, Дэвид; Диаконис, П. (1981). «О гистограмме как средстве оценки плотности: теория L2 » (PDF) . Журнал теории вероятностей и смежных областей . 57 (4): 453–476. CiteSeerX   10.1.1.650.2473 . дои : 10.1007/BF01025868 . S2CID   14437088 .
  20. ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ИСБН  978-1-4419-2322-6 .
  21. ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
  22. ^ Симадзаки, Х.; Синомото, С. (2007). «Метод выбора размера интервала временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX   10.1.1.304.6404 . дои : 10.1162/neco.2007.19.6.1503 . ПМИД   17444758 . S2CID   7781236 .
  23. ^ Джек Принс; Дон МакКормак; Ди Майкельсон; Карен Хоррелл. «Тест соответствия хи-квадрат» . Электронный справочник NIST/SEMATECH по статистическим методам . НИСТ/СЕМАТЕХ. п. 7.2.1.1 . Проверено 29 марта 2019 г.
  24. ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, штат Нью-Йорк, США: Marcel Dekker Inc., с. 70. ИСБН  0-8247-7487-6 .
  25. ^ Калькулятор распределений вероятностей и функций плотности.
  26. ^ Иллюстрация гистограмм и функций плотности вероятности.

Дальнейшее чтение [ править ]

  • Ланкастер, Х.О. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974. ISBN   0-471-51250-8

Внешние ссылки [ править ]