Гистограмма

Из Википедии, бесплатной энциклопедии
Пример сгруппированной (кластеризованной) гистограммы с горизонтальными полосами.

Гистограмма гистограмма или , — это диаграмма или график, на котором категориальные данные представлены в виде прямоугольных столбцов с высотой или длиной пропорциональными значениям, которые они представляют. Столбцы могут быть построены вертикально или горизонтально. Вертикальную гистограмму иногда называют гистограммой .

Гистограмма показывает сравнение между отдельными категориями . Одна ось диаграммы показывает конкретные сравниваемые категории, а другая ось представляет измеренное значение. На некоторых гистограммах столбцы сгруппированы в группы по несколько штук, показывая значения более чем одной измеряемой переменной.

История [ править ]

Многие источники считают, Уильям Плейфэр (1759-1824) изобрел гистограмму, а также график экспорта и импорта Шотландии в разные части и обратно за один год с Рождества 1780 года по Рождество 1781 года из своего «Коммерческого и политического атласа». что график в истории. Диаграммы зависимости скорости постоянно ускоряющегося объекта от времени, опубликованные в «Широте форм» (приписываемые Якобусу де Санкто Мартино или, возможно, Николь Ореме ) [1] примерно за 300 лет до этого можно интерпретировать как «протостолбчатые диаграммы». [2] [3]

Использование [ править ]

Вертикальная гистограмма с накоплением и положительными значениями.
Вертикальная гистограмма с накоплением и отрицательными значениями.
Горизонтальная гистограмма с накоплением
Вертикальная сгруппированная (кластеризованная) трехмерная гистограмма.

Гистограммы/диаграммы обеспечивают визуальное представление категориальных данных. [4] Категориальные данные — это группировка данных в отдельные группы, такие как месяцы года, возрастная группа, размеры обуви и животные. Эти категории обычно носят качественный характер. В столбчатой ​​(вертикальной) гистограмме категории отображаются вдоль горизонтальной оси, а высота столбца соответствует значению каждой категории.

Гистограммы имеют отдельную область категорий и обычно масштабируются так, чтобы все данные могли поместиться на диаграмме. При отсутствии естественного порядка сравниваемых категорий столбцы на диаграмме могут располагаться в любом порядке. Гистограммы, расположенные от наибольшей к наименьшей частоте, называются диаграммами Парето.

Сгруппированы (кластеризованы) и сложены [ править ]

Гистограммы также можно использовать для более сложных сравнений данных со сгруппированными (или «кластеризованными») гистограммами и столбчатыми диаграммами с накоплением. [4]

В сгруппированных (кластеризованных) гистограммах для каждой категориальной группы есть две или более полоски с цветовой кодировкой, обозначающей определенную группу. Например, владелец бизнеса с двумя магазинами может создать сгруппированную гистограмму с полосами разного цвета для обозначения каждого магазина: горизонтальная ось будет отображать месяцы года, а вертикальная ось — доход.

Альтернативно, гистограммы с накоплением (также известные как составные гистограммы ) столбцы складываются друг на друга так, чтобы высота полученного стека отображала объединенный результат. В отличие от сгруппированной гистограммы, где каждый фактор отображается рядом с другим, каждый со своей собственной полосой, составная гистограмма отображает несколько точек данных, расположенных в одной строке или столбце. Это может, например, иметь форму полос одинаковой высоты, отображающих временной ряд , с внутренними наложенными цветами, указывающими процентное участие подтипа данных. Другим примером может быть временной ряд, отображающий общие числа, с внутренними цветами, обозначающими участие в общем количестве по подтипам. Гистограммы с накоплением не подходят для наборов данных, имеющих как положительные, так и отрицательные значения.

Сгруппированные гистограммы обычно представляют информацию в одном и том же порядке в каждой группе. Столбчатые диаграммы с накоплением представляют информацию в одной и той же последовательности на каждом столбце.

Переменная ширина (разная ширина) [ править ]

Пример: гистограмма переменной ширины, относящаяся к:
* население соответствующих стран (по оси x ),
* Выбросы CO2 на душу населения (по оси Y ) и
* общие выбросы для этой страны (площадь прямоугольника = продукт x*y длин сторон)

Столбчатые диаграммы переменной ширины, иногда сокращенно называемые столбчатыми диаграммами различной ширины , представляют собой гистограммы, имеющие столбцы неравномерной ширины. В целом:

  • Столбцы обозначают величины с соответствующими прямоугольниками областей A , которые являются соответствующими арифметическими произведениями связанных пар чисел.
— величины по вертикальной оси ( A/X ) и
— величины по горизонтальной оси ( X ).
  • Арифметически площадь каждого бруска (прямоугольника) определяется произведением длин сторон:
(A/X)*X = Область A для каждого столбца

Роли вертикальной и горизонтальной осей могут меняться местами в зависимости от желаемого применения.

Примеры гистограмм переменной ширины показаны на Wikimedia Commons .

Преимущества [ править ]

  1. Легко читать и интерпретировать. Гистограммы легко читать и интерпретировать даже людям, не имеющим опыта работы со статистикой или визуализацией данных. Столбцы позволяют легко сравнивать значения и видеть тенденции, что делает их полезным инструментом для передачи информации широкому кругу аудиторий.
  2. Могут обрабатывать большие объемы данных. Гистограммы могут обрабатывать большие объемы данных и при этом обеспечивать четкое представление информации. Столбцы можно сделать узкими или широкими, чтобы они соответствовали большому количеству категорий или точек данных, а использование цвета или шаблонов может облегчить различие между ними.
  3. Настраиваемость: гистограммы можно настроить в соответствии с потребностями пользователя. Например, можно настроить цвет, ширину и высоту столбцов, чтобы сделать диаграмму более визуально привлекательной, а также можно добавить метки и аннотации для предоставления дополнительной информации.
  4. Полезно для сравнения значений. Гистограммы особенно полезны для сравнения значений между категориями или точками данных. Они позволяют быстро выявить различия и сходства, облегчая делать выводы и принимать решения. [5] [6]

Ограничения [ править ]

  1. Ограниченное использование для непрерывных данных. Гистограммы бесполезны для отображения непрерывных данных, таких как температура или время. Для непрерывных данных более подходящими могут быть линейная диаграмма или точечная диаграмма. Гистограммы непрерывных данных с полосами ошибок иногда называют диаграммами динамита. [7] [8]
  2. Ограниченное использование для небольших размеров выборки. Столбчатые диаграммы могут быть бесполезны для отображения небольших размеров выборок, поскольку столбцы могут неточно отражать данные. В таких случаях более подходящим может быть гистограмма или ящичная диаграмма.
  3. Могут вводить в заблуждение: гистограммы могут вводить в заблуждение, если масштаб не подходит или если данные представлены таким образом, чтобы ввести зрителя в заблуждение. Например, если ось Y обрезана, различия между столбцами могут оказаться больше, чем они есть на самом деле.
  4. Ограниченные возможности для многомерных данных: гистограммы могут отображать только одну или две переменные одновременно, что делает их менее полезными для отображения многомерных данных. В таких случаях более подходящим может быть точечный график или тепловая карта. [5] [6]

См. также [ править ]

Ссылки [ править ]

  1. ^ Кладжетт, Маршалл (1968), Николь Орем и средневековая геометрия качеств и движений , Мэдисон: Univ. Wisconsin Press, стр. 85–99, ISBN.  0-299-04880-2
  2. ^ Бенигер, Джеймс Р .; Робин, Дороти Л. (1978), «Количественная графика в статистике: краткая история», The American Statistician , 32 (1), Taylor & Francisco, Ltd.: 1–11, doi : 10.1080/00031305.1978.10479235 , JSTOR   2683467
  3. ^ Дер, Джефф; Эверитт, Брайан С. (2014). Справочник по статистической графике с использованием SAS ODS . Чепмен и Холл – CRC. ISBN  978-1-584-88784-3 .
  4. ^ Перейти обратно: а б Келли, WM; Доннелли, Р.А. (2009) Огромная книга статистических задач . Нью-Йорк, штат Нью-Йорк: Alpha Books ISBN   1592578659
  5. ^ Перейти обратно: а б Рид, Натали (12 января 2018 г.). «Визуализация данных: руководство по визуальному рассказыванию историй для библиотек» . Журнал Ассоциации медицинских библиотек . 106 (1): 135. doi : 10.5195/jmla.2018.346 . ISSN   1558-9439 . ПМЦ   5764581 .
  6. ^ Перейти обратно: а б Хили, Киран Джозеф (2019). Визуализация данных: практическое введение . Принстон, Нью-Джерси. ISBN  978-0-691-18161-5 . OCLC   1032356534 . {{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  7. ^ Ридель, Нико; Шульц, Роберт; Казезян, Вартан; Вайсгербер, Трейси (15 марта 2022 г.). Замена гистограмм непрерывных данных более информативными графиками: добиваемся ли мы прогресса? (Отчет). Научная коммуникация и образование. дои : 10.1101/2022.03.14.484206 .
  8. ^ Доггетт, Томас Дж; Уэй, Коннор (08 января 2024 г.). «Динамитные сюжеты в хирургических исследованиях за 10 лет: метаисследование с использованием анализа машинного обучения» . Последипломный медицинский журнал . дои : 10.1093/postmj/qgad134 . ISSN   0032-5473 .

Внешние ссылки [ править ]

  • Графики в Curlie (каталог графического программного обеспечения и онлайн-инструментов; многие из них могут работать с гистограммами)