Компактный буквенный дисплей

Компактное буквенное отображение ( CLD ) — это статистический метод, позволяющий уточнить результаты проверки нескольких гипотез при использовании дисперсионного анализа и . тестов диапазона Тьюки CLD также можно применять после нового многодиапазонного теста Дункана (который аналогичен тесту дальности Тьюки). CLD облегчает идентификацию переменных или факторов , которые имеют статистически разные средние значения (или средние значения) по сравнению с теми, которые не имеют статистически различных средних значений (или средних значений).

Основной метод компактного отображения букв заключается в маркировке переменных одной или несколькими буквами, чтобы переменные были статистически неотличимы тогда и только тогда, когда они имеют хотя бы одну общую букву. Проблему использования как можно меньшего количества различных букв можно комбинаторно представить как задачу вычисления рёберного кликового покрытия графа, представляющего пары неразличимых переменных. ^[1]

Помимо маркировки различимости таким способом, CLD также ранжирует переменные или факторы по их соответствующему среднему (или среднему) значению в порядке убывания. Методологию CLD можно применять к табличным данным ( электронная таблица , фрейм данных ) или визуальным данным ( ящичная диаграмма и гистограмма ).

Основы CLD

CLD идентифицирует переменные, которые статистически отличаются от тех, которые таковыми не являются.

Каждая переменная, имеющая среднее значение, статистически не отличающееся от другой, будет иметь одну и ту же букву. ^[2]^[3]^[4] Например:

”а” “аб” “б”

Вышеупомянутое указывает на то, что первая переменная «а» имеет среднее значение (или среднее значение), которое статистически отличается от третьей «b». Но вторая переменная «ab» имеет среднее значение, которое статистически не отличается ни от первой, ни от третьей переменной. Давайте посмотрим на другой пример:

«а» «аб» «б» «в»

Вышеупомянутое указывает на то, что первая переменная «а» имеет среднее значение (или среднее значение), которое статистически отличается от третьей переменной «bc» и четвертой переменной «c». Но эта первая переменная «а» статистически не отличается от второй «ab».

Учитывая структуру латинского алфавита, методология CLD позволяет легко сравнивать до 26 различных переменных или факторов. Это ограничение обычно намного выше, чем при подавляющем большинстве проверок множественных гипотез, проводимых с использованием ANOVA и тестов диапазона Тьюки.

CLD ранжирует переменные в порядке убывания среднего (или среднего) значения.

Итак, переменная с наибольшим средним (или средним) будет называться «а» (если она статистически отличается от всех остальных, в противном случае ее можно назвать «аб» и т. д.). И переменная с наименьшим средним (или средним) будет иметь высшую букву среди тестируемых переменных. ^[2]^[3]^[4]

Пример CLD

Мы собираемся проверить, различается ли среднее количество осадков в пяти городах Западного побережья статистически. Эти города:

Юджин (Орегон)
Портленд (Орегон)
Сан-Франциско (Калифорния)
Сиэтл (Вашингтон)
Спокан (Вашингтон)

Данные представляют собой годовое количество осадков в дюймах (1951–2021 гг.).

Источником данных является NOAA .

Сначала мы улучшим табличные данные с помощью CLD.

Далее мы улучшим визуальные данные с помощью CLD.

Улучшение табличных данных с помощью CLD

Вот данные об осадках в пяти городах Западного побережья до применения методологии CLD.

Как показано выше, данные об осадках для пяти городов Западного побережья отсортированы в алфавитном порядке. Данный приказ не является информативным. Трудно выяснить, какие средние или средние показатели городов отличаются друг от друга.

Затем мы воспроизводим ту же таблицу, но сортируем города, используя методологию CLD, после того как мы провели тест диапазона Тьюки.

Приведенная выше таблица с использованием методологии CLD гораздо более информативна. Он ранжировал города по их среднему или среднему количеству осадков в порядке убывания. Кроме того, он также сгруппировал города с одинаковым средним количеством осадков (без статистических различий при использовании значения альфа 0,05).

Как показано, средние уровни осадков в Сиэтле и Портленде статистически не отличаются друг от друга. Они оба относятся к категории «В». Кроме того, в Сан-Франциско и Спокане средние уровни осадков статистически не отличаются друг от друга. Они оба относятся к категории «c». Но средний уровень осадков в Юджине статистически отличается и выше, чем в Сиэтле и Портленде или Сан-Франциско и Спокане. А в Сиэтле и Портленде средний уровень осадков статистически отличается и выше, чем в Сан-Франциско и Спокане.

Улучшение визуальных данных с помощью CLD

Вот первый блок-график с городами, отсортированными в алфавитном порядке слева направо.

Приведенная выше диаграмма не совсем ясна. Трудно отличить города, которые в чем-то похожи (среднее или среднее значение статистически не отличается), от городов, которые различаются (среднее или среднее значение статистически различается). Теперь давайте рассмотрим тот же коробчатый график, используя методологию CLD.

Приведенная выше блочная диаграмма с использованием методологии CLD теперь гораздо более информативна. Города отсортированы по убыванию слева направо. Плотность цвета разделена на несколько уровней: города с большим количеством осадков окрашены в более плотные или непрозрачные тона; в то время как города с меньшим количеством осадков имеют менее плотные или более прозрачные тона. Кроме того, мы можем легко определить города, которые имеют схожие средние значения количества осадков (не различающиеся статистически), например, Сиэтл и Портленд, оба обозначены буквой «b». Кроме того, в Сан-Франциско и Спокане также есть аналогичные значения количества осадков, поскольку они оба обозначены буквой «c». С другой стороны, в Юджине самый высокий средний уровень осадков из всех; и статистически он отличается (выше) от всех других городов, поскольку это единственный город, обозначенный буквой «а».

Преимущества КЛД

В отсутствие методологии CLD основным способом выявления статистической разницы в средних значениях между парными переменными является упомянутый тест диапазона Тьюки. Последний представляет собой очень информативный тест, предназначенный для статистики. За пределами такой специализированной аудитории результаты теста, показанные ниже, довольно сложно интерпретировать.

Тест диапазона Тьюки показал, что в Сан-Франциско и Спокане не было статистически различных средних значений количества осадков (на уровне альфа = 0,05) со значением p 0,08. В Сиэтле и Портленде также не было статистически разных средних значений количества осадков, разница была связана со значением p 0,54.

Как было показано ранее, гораздо проще передать разницу между средними значениями количества осадков в городах, используя методологию CLD. Кроме того, расширенная информация CLD может быть легко интерпретирована гораздо более широкой аудиторией, чем в противном случае (передача результатов без использования методологии CLD, включая непосредственное сообщение результатов теста дальности Тьюки).

Как построить коробчатую диаграмму в R с помощью Compact Letter Display

Компактное отображение букв в R с использованием ggplot2 ^[5]

Настройте компактное буквенное отображение всех парных сравнений. ^[6]

Ссылки

^ Грамм, Йенс; Го, Цзюн; Хюффнер, Фальк; Нидермайер, Рольф; Пьефо, Ханс-Петер; Шмид, Рамона (2008). «Алгоритмы компактного отображения букв: сравнение и оценка». Вычислительная статистика и анализ данных . 52 (2): 725–736. дои : 10.1016/j.csda.2006.09.035 . МР 2418523 .
^ Jump up to: ^а ^б «Компактный буквенный дисплей (CLD)» . schmidtpaul.github.io . Проверено 4 сентября 2022 г.
^ Jump up to: ^а ^б Пьефо, Ханс-Петер (1 июня 2004 г.). «Алгоритм буквенного представления всех парных сравнений» . Журнал вычислительной и графической статистики . 13 (2): 456–466. дои : 10.1198/1061860043515 . ISSN 1061-8600 . S2CID 122068627 .
^ Jump up to: ^а ^б Пьефо, Ханс-Петер (март 2018 г.). «Буквы в сравнении средних значений: что они означают и не означают» . Researchgate.com . Проверено 3 сентября 2022 г.
^ «Компактные буквенные дисплеи» . Блог Джона Квенсена . 15 января 2020 г. Проверено 4 сентября 2022 г.
^ «cld: Настройте компактное буквенное отображение всех парных сравнений в multcomp: Одновременный вывод в общих параметрических моделях» . rdrr.io. Проверено 4 сентября 2022 г.

Дальнейшее чтение

Грамм, Йенс; Го, Цзюн; Хюффнер, Фальк; Нидермайер, Рольф; Пьефо, Ханс-Петер; Шмид, Рамона (15 октября 2007 г.). «Алгоритмы компактного отображения букв: сравнение и оценка» . Вычислительная статистика и анализ данных . 52 (2): 725–736. дои : 10.1016/j.csda.2006.09.035 . ISSN 0167-9473 .

Гринвуд, Марк; Баннер, Кэтрин. «Множественные (парные) сравнения с использованием HSD Тьюки и компактного буквенного дисплея - Марк Гринвуд и Кэтрин Баннер» . Библиотека Университета штата Монтана (МГУ) . Проверено 05 сентября 2022 г.

[1] Грамм, Йенс; Го, Цзюн; Хюффнер, Фальк; Нидермайер, Рольф; Пьефо, Ханс-Петер; Шмид, Рамона (2008). «Алгоритмы компактного отображения букв: сравнение и оценка». Вычислительная статистика и анализ данных . 52 (2): 725–736. дои : 10.1016/j.csda.2006.09.035 . МР 2418523 .

[:0-2] Jump up to: ^а ^б «Компактный буквенный дисплей (CLD)» . schmidtpaul.github.io . Проверено 4 сентября 2022 г.

[:1-3] Jump up to: ^а ^б Пьефо, Ханс-Петер (1 июня 2004 г.). «Алгоритм буквенного представления всех парных сравнений» . Журнал вычислительной и графической статистики . 13 (2): 456–466. дои : 10.1198/1061860043515 . ISSN 1061-8600 . S2CID 122068627 .

[:2-4] Jump up to: ^а ^б Пьефо, Ханс-Петер (март 2018 г.). «Буквы в сравнении средних значений: что они означают и не означают» . Researchgate.com . Проверено 3 сентября 2022 г.

[5] «Компактные буквенные дисплеи» . Блог Джона Квенсена . 15 января 2020 г. Проверено 4 сентября 2022 г.

[6] «cld: Настройте компактное буквенное отображение всех парных сравнений в multcomp: Одновременный вывод в общих параметрических моделях» . rdrr.io. Проверено 4 сентября 2022 г.

[1]

[2]

[3]

[4]

[5]

[6]