Дисплей стеблей и листьев
Отображение стебля и листа или и листа — это устройство для представления количественных данных в графическом формате, аналогичном гистограмме , для помощи в визуализации формы распределения график стебля . Они произошли от Артура Боули работ в начале 1900-х годов и являются полезными инструментами для исследовательского анализа данных . Шаблоны стали более широко использоваться в 1980-х годах после публикации книги Джона Тьюки по исследовательскому анализу данных в 1977 году. [1] Популярность в те годы объясняется использованием моноширинных шрифтов (пишущих машинок), которые позволяли компьютерным технологиям того времени легко создавать графику. Превосходные графические возможности современных компьютеров привели к тому, что эти методы используются реже.
Этот сюжет был реализован в Octave [2] и Р. [3]
Диаграмма «стебель-листок» также называется диаграммой-стеблем , но последний термин часто относится к другому типу диаграммы. Простой график основы может относиться к нанесению матрицы значений y на общую ось x и обозначению общего значения x вертикальной линией, а отдельных значений y - символами на линии. [4]
В отличие от гистограмм, отображение стеблей и листьев сохраняет исходные данные как минимум до двух значащих цифр и упорядочивает данные, тем самым облегчая переход к порядковому выводу и непараметрической статистике .
Строительство
[ редактировать ]Чтобы построить отображение стеблей и листьев, наблюдения сначала необходимо отсортировать в порядке возрастания: это можно сделать проще всего, если работать вручную, построив черновик изображения стебля и листьев с неотсортированными листьями, а затем отсортировав листья, чтобы создать окончательный вариант стебля и листьев. Вот отсортированный набор значений данных, который будет использоваться в следующем примере:
- 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106
Далее необходимо определить, что будут изображать стебли, а что — листья. Обычно лист содержит последнюю цифру числа, а стебель — все остальные цифры. В случае очень больших чисел значения данных могут быть округлены до определенного разряда (например, разряда сотен), который будет использоваться для листьев. Остальные цифры слева от округленного разряда используются в качестве основы.
В этом примере лист представляет единицу, а стебель — остальную часть числа (десятки и выше).
Отображение стеблей и листьев отображается в виде двух столбцов, разделенных вертикальной линией. Основы перечислены слева от вертикальной линии. Важно, чтобы каждый стебель был указан только один раз и чтобы никакие номера не были пропущены, даже если это означает, что у некоторых стеблей нет листьев. Листья перечислены в порядке возрастания справа от каждого стебля.
Если в данных есть повторяющееся число (например, два числа 72), график должен это отражать (чтобы график выглядел как 7 | 2 2 5 6 7, если на нем есть числа 72 72 75 76 77).
- Ключ:
- Листовой блок: 1,0
- Шток блока: 10,0
Округление может потребоваться для создания изображения стеблей и листьев. На основе следующего набора данных будет создан приведенный ниже график:
- −23.678758, −12.45, −3.4, 4.43, 5.5, 5.678, 16.87, 24.7, 56.8
Для отрицательных чисел перед основной единицей ставится отрицательный знак, который по-прежнему равен значению X/10. Нецелые числа округляются. Это позволяет графику стебля и листа сохранять свою форму даже для более сложных наборов данных. Как в этом примере ниже:
- Ключ:
Использование
[ редактировать ]Отображение стеблей и листьев полезно для отображения относительной плотности и формы данных, давая читателю быстрый обзор распределения. Они сохраняют (большую часть) необработанных числовых данных, часто с идеальной целостностью. Они также полезны для выделения выбросов и поиска режима . Однако отображение стеблей и листьев полезно только для наборов данных среднего размера (около 15–150 точек данных). При очень небольших наборах данных отображение стеблей и листьев может оказаться малополезным, поскольку для установления окончательных свойств распределения требуется разумное количество точек данных. . точечная диаграмма Для таких данных лучше подойдет При очень больших наборах данных отображение стеблей и листьев станет очень загроможденным, поскольку каждая точка данных должна быть представлена в числовом виде. или Ящиковая диаграмма гистограмма могут стать более подходящими по мере увеличения размера данных.
Нечисловое использование
[ редактировать ]Дисплеи в виде стеблей и листьев также можно использовать для передачи нечисловой информации. В этом примере допустимых двухбуквенных слов в Collins Scrabble Words (список слов, используемый в турнирах по Scrabble за пределами США) с инициалами в качестве основы можно легко увидеть, что три наиболее распространенных инициала: о , а и и . [5]
Примечания
[ редактировать ]- ^ Тьюки, Джон В. (1977). Исследовательский анализ данных (1-е изд.). Пирсон. ISBN 0-201-07616-0 .
- ^ Функция в октаве
- ^ Функция в R
- ^ Примеры: основные функции MATLAB и Matplotlib . Они не создают эффект стебля и листьев.
- ^ Гидеон Голдин, Двухбуквенные слова-скрэббл, визуализированные как график стебля и листа , 1 октября 2020 г.
Ссылки
[ редактировать ]- Уайлд, К. и Себер, Г. (2000) Случайные встречи: первый курс анализа данных и выводов, стр. 49–54 Джон Уайли и сыновья. ISBN 0-471-32936-3
- Эллиотт, Джейн; Кэтрин Марш (2008). Исследование данных: введение в анализ данных для социологов (2-е изд.). Политическая пресса. ISBN 0-7456-2282-8 .