Jump to content

Гистограмма

(Перенаправлено с размера корзины )

Гистограмма это визуальное представление распределения количественных данных. Этот термин был впервые введен Карлом Пирсоном . [1] Чтобы построить гистограмму, первым шагом является «группировка» (или «группировка») диапазона значений — разделение всего диапазона значений на ряд интервалов — а затем подсчет количества значений, попадающих в каждый интервал. Бины обычно указываются как последовательные непересекающиеся интервалы переменной. Бины (интервалы) являются смежными и обычно (но не обязательно) имеют одинаковый размер. [2]

Гистограммы дают грубое представление о плотности основного распределения данных и часто для оценки плотности : оценки функции плотности вероятности базовой переменной. Общая площадь гистограммы, используемой для определения плотности вероятности, всегда нормируется к 1. Если все интервалы по оси x равны 1, то гистограмма идентична графику относительной частоты .

Гистограммы иногда путают с гистограммами . В гистограмме каждый интервал соответствует разному диапазону значений, поэтому гистограмма в целом иллюстрирует распределение значений. Но в гистограмме каждый столбец предназначен для отдельной категории наблюдений (например, каждый столбец может относиться к разной совокупности), поэтому в целом гистограмму можно использовать для сравнения разных категорий. Некоторые авторы рекомендуют, чтобы гистограммы всегда имели промежутки между столбцами, чтобы было понятно, что они не являются гистограммами. [3] [4]

Это данные для гистограммы справа, состоящей из 500 элементов:

Бин/Интервал Количество/частота
от −3,5 до −2,51 9
от −2,5 до −1,51 32
от −1,5 до −0,51 109
от −0,5 до 0,49 180
от 0,5 до 1,49 132
от 1,5 до 2,49 34
от 2,5 до 3,49 4

Для описания закономерностей на гистограмме используются следующие слова: «симметричный», «наклон влево» или «право», «унимодальный», «бимодальный» или «мультимодальный».

Чтобы узнать больше об этом, рекомендуется построить график данных, используя несколько интервалов разной ширины. Вот пример чаевых, данных в ресторане.

Бюро переписи населения США обнаружило, что 124 миллиона человек работают вне дома. [5] Используя их данные о времени, потраченном на дорогу до работы, в приведенной ниже таблице показано абсолютное количество людей, которые ответили, что время в пути «не менее 30, но менее 35 минут» выше, чем цифры для категорий выше и ниже. Вероятно, это связано с тем, что люди округляют заявленное время в пути. [ нужна ссылка ] Проблема представления значений в виде произвольно округленных чисел является распространенным явлением при сборе данных от людей. [ нужна ссылка ]

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна общему числу случаев. На этой диаграмме используется Q/ширина из таблицы.
Данные в абсолютных цифрах
Интервал Ширина Количество Количество/ширина
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Эта гистограмма показывает количество случаев на единицу интервала как высоту каждого блока, так что площадь каждого блока равна количеству людей в опросе, которые попадают в его категорию. Площадь под кривой представляет общее количество случаев (124 миллиона). Этот тип гистограммы показывает абсолютные числа, где Q выражается в тысячах.

Гистограмма времени в пути (на работу), перепись населения США 2000 года. Площадь под кривой равна 1. На этой диаграмме используются значения Q/total/width (скопление) из таблицы. Высота блока представляет собой скученность, которая определяется как - процент на горизонтальную единицу.
Данные по пропорциям
Интервал Ширина Количество (К) Q/всего/ширина
0 5 4180 0.0067
5 5 13687 0.0221
10 5 18618 0.0300
15 5 19634 0.0316
20 5 17981 0.0290
25 5 7190 0.0116
30 5 16369 0.0264
35 5 3212 0.0052
40 5 4122 0.0066
45 15 9200 0.0049
60 30 6461 0.0017
90 60 3435 0.0005

Эта гистограмма отличается от первой только вертикальным масштабом . Площадь каждого блока представляет собой долю от общей суммы, которую представляет каждая категория, а общая площадь всех столбцов равна 1 (доля означает «все»). Отображаемая кривая представляет собой простую оценку плотности . Эта версия показывает пропорции и также известна как гистограмма единичной площади.

Другими словами, гистограмма представляет распределение частот с помощью прямоугольников, ширина которых представляет интервалы классов, а площади пропорциональны соответствующим частотам: высота каждого из них представляет собой среднюю плотность частот для интервала. Интервалы расположены вместе, чтобы показать, что данные, представленные гистограммой, хотя и являются исключительными, но также являются смежными. (Например, на гистограмме можно иметь два соединительных интервала 10,5–20,5 и 20,5–33,5, но не два соединительных интервала 10,5–20,5 и 22,5–32,5. Пустые интервалы представляются пустыми и не пропускаются.) [6]

Математические определения

[ редактировать ]
Обычная и накопительная гистограмма одних и тех же данных. Показанные данные представляют собой случайную выборку из 10 000 точек нормального распределения со средним значением 0 и стандартным отклонением 1.

Данные, используемые для построения гистограммы, генерируются с помощью функции m i , которая подсчитывает количество наблюдений, попадающих в каждую из непересекающихся категорий (известных как интервалы ). Таким образом, если мы позволим n быть общим количеством наблюдений, а k — общим количеством интервалов, данные гистограммы m i удовлетворяют следующим условиям:

Гистограмму можно рассматривать как упрощенную оценку плотности ядра , которая использует ядро ​​для сглаживания частот по интервалам. Это дает более гладкую функцию плотности вероятности, которая, как правило, более точно отражает распределение базовой переменной. Оценку плотности можно построить как альтернативу гистограмме, и она обычно изображается в виде кривой, а не набора прямоугольников. Тем не менее, гистограммы предпочтительнее в приложениях, когда необходимо моделировать их статистические свойства. Коррелированное изменение оценки плотности ядра очень сложно описать математически, в то время как для гистограммы это просто, где каждый интервал изменяется независимо.

Альтернативой оценке плотности ядра является гистограмма со смещением среднего значения, [7] который быстро вычисляется и дает плавную кривую оценки плотности без использования ядер.

Совокупная гистограмма

[ редактировать ]

Кумулятивная гистограмма — это отображение, которое подсчитывает совокупное количество наблюдений во всех интервалах до указанного интервала. То есть совокупная гистограмма M i гистограммы m j определяется как:

Количество бункеров и ширина

[ редактировать ]

Не существует «лучшего» количества ячеек, а разные размеры ячеек могут выявить разные особенности данных. Данные о группировке, по крайней мере, так же стары, как работа Граунта в 17 веке, но никаких систематических указаний не было дано. [8] до . работы Стерджеса в 1926 году [9]

Использование более широких интервалов с низкой плотностью базовых точек данных снижает шум из-за случайности выборки; использование более узких интервалов с высокой плотностью (поэтому сигнал заглушает шум) дает большую точность оценки плотности. Таким образом, изменение ширины интервала внутри гистограммы может быть полезным. Тем не менее, широко используются контейнеры одинаковой ширины.

Некоторые теоретики пытались определить оптимальное количество интервалов, но эти методы обычно делают строгие предположения о форме распределения. В зависимости от фактического распределения данных и целей анализа могут подходить разные ширины интервалов, поэтому для определения подходящей ширины обычно необходимы эксперименты. Однако существуют различные полезные рекомендации и практические правила. [10]

Количество ячеек k может быть назначено напрямую или рассчитано на основе предлагаемой ширины ячейки h следующим образом:

Данные гистограммы представлены с разной шириной интервала.

Фигурные скобки обозначают функцию потолка .

Выбор квадратного корня

[ редактировать ]

который извлекает квадратный корень из количества точек данных в выборке и округляет до следующего целого числа . Это правило предлагается в ряде учебников по элементарной статистике. [11] и широко реализован во многих пакетах программного обеспечения. [12]

Формула Стерджеса

[ редактировать ]

Правило Стерджеса [9] выводится из биномиального распределения и неявно предполагает приблизительно нормальное распределение.

Формула Стерджеса неявно основывает размеры интервалов на диапазоне данных и может работать плохо, если n < 30 , поскольку количество интервалов будет небольшим — менее семи — и вряд ли сможет хорошо отображать тенденции в данных. С другой стороны, формула Стерджеса может переоценивать ширину интервала для очень больших наборов данных, что приводит к чрезмерно сглаженным гистограммам. [13] Он также может работать плохо, если данные не распределяются нормально.

По сравнению с правилом Скотта и правилом Террелла-Скотта, двумя другими широко распространенными формулами для ячеек гистограммы, результат формулы Стерджеса наиболее близок, когда n ≈ 100 . [13]

Правило риса

[ редактировать ]

Правило Райса [14] представлено как простая альтернатива правилу Стерджеса.

Формула Доана

[ редактировать ]

Формула Доана [15] представляет собой модификацию формулы Стерджеса, которая пытается улучшить ее эффективность при работе с ненормальными данными.

где – предполагаемая асимметрия распределения в 3-й момент и

Нормальное эталонное правило Скотта

[ редактировать ]

Ширина бункера дается

где — выборочное стандартное отклонение . Нормальное эталонное правило Скотта [16] оптимален для случайных выборок нормально распределенных данных в том смысле, что он минимизирует интегральную среднеквадратическую ошибку оценки плотности. [8] Это правило по умолчанию, используемое в Microsoft Excel. [17]

Правило Террелла-Скотта

[ редактировать ]

Правило Террелла -Скотта [13] [18] не является обычным ссылочным правилом. Это дает минимальное количество интервалов, необходимое для асимптотически оптимальной гистограммы, где оптимальность измеряется интегрированной среднеквадратической ошибкой. Граница получается путем нахождения «самой гладкой» возможной плотности, которая оказывается равной . Любая другая плотность потребует большего количества ячеек, поэтому приведенная выше оценка также называется правилом «чрезмерного сглаживания». Сходство формул и тот факт, что Террел и Скотт были в Университете Райса, когда они предложили эту формулу, позволяют предположить, что это также является источником правила Райса.

Правило Фридмана-Диакониса

[ редактировать ]

Правило Фридмана-Диакониса дает ширину ячейки. как: [19] [8]

который основан на межквартильном размахе , обозначаемом IQR. Он заменяет 3,5σ правила Скотта на 2 IQR, что менее чувствительно, чем стандартное отклонение, к выбросам в данных.

Минимизация квадратичной ошибки перекрестной проверки

[ редактировать ]

Этот подход к минимизации интегральной среднеквадратической ошибки из правила Скотта можно обобщить за пределы нормального распределения, используя перекрестную проверку с исключением одного: [20] [21]

Здесь, — это количество точек данных в k -м интервале, и выбор значения h , которое минимизирует J, минимизирует интегрированную среднеквадратическую ошибку.

Выбор Симадзаки и Синомото

[ редактировать ]

Выбор основан на минимизации оценочного L 2 функция риска [22]

где и являются средней и смещенной дисперсией гистограммы с шириной интервала , и .

Переменная ширина бункера

[ редактировать ]

Вместо того, чтобы выбирать равномерно расположенные бункеры, для некоторых применений предпочтительнее варьировать ширину бункеров. Это позволяет избежать ячеек с малым количеством. Распространенным случаем является выбор равновероятных интервалов , при которых ожидается, что количество образцов в каждом интервале будет примерно равным. Ячейки могут быть выбраны в соответствии с некоторым известным распределением или могут быть выбраны на основе данных так, чтобы каждая ячейка имела образцы. При построении гистограммы плотность частот в качестве зависимой оси используется . Хотя все ячейки имеют примерно одинаковую площадь, высота гистограммы приблизительно соответствует распределению плотности.

Для равновероятных бинов предлагается следующее правило количества бинов: [23]

Такой выбор ячеек мотивирован максимизацией эффективности теста хи-квадрат Пирсона , проверяющего, содержат ли ячейки одинаковое количество образцов. Точнее, для заданного доверительного интервала рекомендуется выбирать от 1/2 до 1 раза следующего уравнения: [24]

Где пробит- функция. Следуя этому правилу для дал бы между и ; коэффициент 2 выбран как легко запоминающееся значение из этого широкого оптимума.

Примечание

[ редактировать ]

Веская причина, почему количество бункеров должно быть пропорционально заключается в следующем: предположим, что данные получены как независимые реализации ограниченного распределения вероятностей с гладкой плотностью. Тогда гистограмма остается столь же «неровной», как и стремится к бесконечности. Если - это «ширина» распределения (например, стандартное отклонение или межквартильный диапазон), тогда количество единиц в интервале (частота) имеет порядок и относительная стандартная ошибка имеет порядок . По сравнению со следующим интервалом относительное изменение частоты имеет порядок. при условии, что производная плотности не равна нулю. Эти два имеют один и тот же порядок, если в порядке , так что в порядке . Этот простой выбор кубического корня также можно применить к интервалам непостоянной ширины. [ нужна ссылка ]

Гистограмма и функция плотности распределения Гамбеля [25]

Приложения

[ редактировать ]

См. также

[ редактировать ]
  1. ^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» . Философские труды Королевского общества A: Математические, физические и технические науки . 186 : 343–414. Бибкод : 1895RSPTA.186..343P . дои : 10.1098/rsta.1895.0010 .
  2. ^ Ховитт, Д.; Крамер, Д. (2008). Введение в статистику в психологии (Четвертое изд.). Прентис Холл. ISBN  978-0-13-205161-3 .
  3. ^ Наоми, Роббинс. «Гистограмма — это НЕ гистограмма» . Форбс . Проверено 31 июля 2018 г.
  4. ^ М. Эйлин Магнелло (декабрь 2006 г.). «Карл Пирсон и истоки современной статистики: эластичник становится статистиком» . Новозеландский журнал истории и философии науки и техники . 1 том. OCLC   682200824 .
  5. ^ Перепись США 2000 года .
  6. ^ Дин С. и Илловски Б. (19 февраля 2009 г.). Описательная статистика: гистограмма. Получено с веб-сайта Connexions: http://cnx.org/content/m16298/1.11/.
  7. ^ Дэвид В. Скотт (декабрь 2009 г.). «Усредненная сдвинутая гистограмма» . Междисциплинарные обзоры Wiley: вычислительная статистика . 2 (2): 160–164. дои : 10.1002/wics.54 . S2CID   122986682 .
  8. ^ Jump up to: а б с Скотт, Дэвид В. (1992). Многомерная оценка плотности: теория, практика и визуализация . Нью-Йорк: Джон Уайли.
  9. ^ Jump up to: а б Стерджес, HA (1926). «Выбор классного интервала». Журнал Американской статистической ассоциации . 21 (153): 65–66. дои : 10.1080/01621459.1926.10502161 . JSTOR   2965501 .
  10. ^ например, § 5.6 «Оценка плотности», В. Н. Венейблс и Б. Д. Рипли, Современная прикладная статистика с S (2002), Springer, 4-е издание. ISBN   0-387-95457-0 .
  11. ^ Лохака, ХО (2007). «Составление таблицы частот сгруппированных данных: разработка и исследование итерационного алгоритма» . Докторская диссертация, Университет Огайо. п. 87.
  12. ^ «MathWorks: Гистограмма» .
  13. ^ Jump up to: а б с Скотт, Дэвид В. (2009). «Правило Стерджеса». ПРОВОДА Вычислительная статистика . 1 (3): 303–306. дои : 10.1002/wics.35 . S2CID   197483064 .
  14. ^ Онлайн-статистическое образование: мультимедийный курс обучения ( http://onlinestatbook.com/ ). Руководитель проекта: Дэвид М. Лейн, Университет Райса (глава 2 «Графические распределения», раздел «Гистограммы»)
  15. ^ Доан Д. П. (1976) Классификация эстетических частот. Американский статистик, 30: 181–183.
  16. ^ Скотт, Дэвид В. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. дои : 10.1093/biomet/66.3.605 .
  17. ^ «Excel: Создать гистограмму» .
  18. ^ Террелл, Г.Р. и Скотт, Д.В., 1985. Сглаженные непараметрические оценки плотности. Журнал Американской статистической ассоциации, 80 (389), стр. 209–214.
  19. ^ Фридман, Дэвид; Диаконис, П. (1981). как средстве оценки плотности: L2 «О гистограмме теория » (PDF) . Журнал теории вероятностей и смежных областей . 57 (4): 453–476. CiteSeerX   10.1.1.650.2473 . дои : 10.1007/BF01025868 . S2CID   14437088 .
  20. ^ Вассерман, Ларри (2004). Вся статистика . Нью-Йорк: Спрингер. п. 310. ИСБН  978-1-4419-2322-6 .
  21. ^ Стоун, Чарльз Дж. (1984). «Асимптотически оптимальное правило выбора гистограммы» (PDF) . Материалы конференции в Беркли в честь Ежи Неймана и Джека Кифера .
  22. ^ Симадзаки, Х.; Синомото, С. (2007). «Метод выбора размера интервала временной гистограммы». Нейронные вычисления . 19 (6): 1503–1527. CiteSeerX   10.1.1.304.6404 . дои : 10.1162/neco.2007.19.6.1503 . ПМИД   17444758 . S2CID   7781236 .
  23. ^ Джек Принс; Дон МакКормак; Ди Майкельсон; Карен Хоррелл. «Тест соответствия хи-квадрат» . Электронный справочник NIST/SEMATECH по статистическим методам . НИСТ/СЕМАТЕХ. п. 7.2.1.1 . Проверено 29 марта 2019 г.
  24. ^ Мур, Дэвид (1986). «3». В Д'Агостино, Ральф; Стивенс, Майкл (ред.). Методы согласия . Нью-Йорк, штат Нью-Йорк, США: Marcel Dekker Inc., с. 70. ИСБН  0-8247-7487-6 .
  25. ^ Калькулятор распределений вероятностей и функций плотности.
  26. ^ Иллюстрация гистограмм и функций плотности вероятности.

Дальнейшее чтение

[ редактировать ]
  • Ланкастер, Х.О. Введение в медицинскую статистику. Джон Уайли и сыновья. 1974. ISBN   0-471-51250-8
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cab921f40d70074eff9f8a470d18d243__1716822420
URL1:https://arc.ask3.ru/arc/aa/ca/43/cab921f40d70074eff9f8a470d18d243.html
Заголовок, (Title) документа по адресу, URL1:
Histogram - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)