Порядковые данные
Порядковые данные — это категориальный статистический тип данных , в котором переменные имеют естественные, упорядоченные категории, а расстояния между категориями неизвестны. [1] : 2 Эти данные существуют в порядковой шкале , одном из четырех уровней измерения, описанных С.С. Стивенсом в 1946 году. Порядковая шкала отличается от номинальной шкалы наличием ранжирования . [2] Он также отличается от шкалы интервалов и шкалы отношений тем, что в нем нет ширины категорий, которая представляет равные приращения базового атрибута. [3]
Примеры порядковых данных
[ редактировать ]Хорошо известным примером порядковых данных является шкала Лайкерта . Пример шкалы Лайкерта: [4] : 685
Нравиться | Что-то вроде | Нейтральный | Что-то не нравится | Не нравится |
---|---|---|---|---|
1 | 2 | 3 | 4 | 5 |
Примеры порядковых данных часто встречаются в анкетах: например, вопрос опроса «Является ли ваше общее состояние здоровья плохим, удовлетворительным, хорошим или отличным?» эти ответы могут быть закодированы соответственно как 1, 2, 3 и 4. Иногда данные по интервальной шкале или шкале отношений группируются по порядковой шкале: например, лица, чей доход известен, могут быть сгруппированы по категориям дохода от 0 до 19 999 долларов США. , 20 000–39 999 долларов США, 40 000–59 999 долларов США, ..., которые затем могут быть закодированы как 1, 2, 3, 4, .... Другие примеры порядковых данных включают социально-экономический статус, воинские звания и буквенные оценки за курсовую работу. [5]
Способы анализа порядковых данных
[ редактировать ]Анализ порядковых данных требует другого набора анализов, чем другие качественные переменные. Эти методы включают естественный порядок переменных, чтобы избежать потери мощности. [1] : 88 Вычисление среднего значения выборки порядковых данных не рекомендуется; другие меры центральной тенденции, включая медиану или моду, обычно более подходят. [6]
Общий
[ редактировать ]Стивенс (1946) утверждал, что, поскольку предположение о равном расстоянии между категориями не справедливо для порядковых данных, использование средних значений и стандартных отклонений для описания порядковых распределений и статистических выводов, основанных на средних значениях и стандартных отклонениях, нецелесообразно. Вместо этого следует использовать позиционные показатели, такие как медиана и процентили, в дополнение к описательной статистике, подходящей для номинальных данных (количество случаев, режим, корреляция непредвиденных обстоятельств). [3] : 678 Непараметрические методы были предложены как наиболее подходящие процедуры для статистики вывода, включающей порядковые данные (например, W Кендалла , коэффициент ранговой корреляции Спирмена и т. д.), особенно те, которые разработаны для анализа ранжированных измерений. [5] : 25–28 Однако использование параметрической статистики для порядковых данных может быть допустимо с некоторыми оговорками, чтобы воспользоваться преимуществами более широкого диапазона доступных статистических процедур. [7] [8] [4] : 90
Одномерная статистика
[ редактировать ]Вместо средних значений и стандартных отклонений одномерная статистика, подходящая для порядковых данных, включает медиану, [9] : 59–61 другие процентили (например, квартили и децили), [9] : 71 и квартильное отклонение. [9] : 77 Одновыборочные тесты для порядковых данных включают одновыборочный критерий Колмогорова-Смирнова , [5] : 51–55 образцом тест с одним , [5] : 58–64 и тест точки перехода. [5] : 64–71
Двумерная статистика
[ редактировать ]Вместо проверки различий в средних значениях с помощью t -тестов различия в распределениях порядковых данных из двух независимых выборок можно проверить с помощью Манна-Уитни , [9] : 259–264 бежит , [9] : 253–259 Смирнов , [9] : 266–269 и подписали звания [9] : 269–273 тесты. Тест для двух связанных или совпадающих образцов включает тест на знак. [5] : 80–87 и тест на звание Уилкоксона . [5] : 87–95 Анализ дисперсии с рангами [9] : 367–369 и тест Джонкхира для упорядоченных альтернатив [5] : 216–222 может проводиться с порядковыми данными вместо независимых выборок ANOVA . Тесты для более чем двух связанных выборок включают двусторонний дисперсионный анализ Фридмана по рангам. [5] : 174–183 и тест Пейджа для упорядоченных альтернатив . [5] : 184–188 Меры корреляции, подходящие для двух переменных порядкового масштаба, включают тау Кендалла , [9] : 436–439 гамма , [9] : 442–443 р с , [9] : 434–436 и d yx /d xy . [9] : 443
Регрессионные приложения
[ редактировать ]Порядковые данные можно рассматривать как количественную переменную. В логистической регрессии уравнение
является моделью, а c принимает назначенные уровни категориальной шкалы. [1] : 189 В регрессионном анализе результаты ( зависимые переменные ), которые являются порядковыми переменными, могут быть предсказаны с использованием варианта порядковой регрессии , такого как упорядоченный логит или упорядоченный пробит .
При множественном регрессионном/корреляционном анализе порядковые данные могут быть учтены с использованием степенных полиномов и нормализации оценок и рангов. [10]
Линейные тенденции
[ редактировать ]Линейные тренды также используются для поиска связей между порядковыми данными и другими категориальными переменными, обычно в таблицах сопряженности . корреляция r Между переменными обнаруживается , где r находится между -1 и 1. Чтобы проверить тенденцию, используется тестовая статистика:
используется, где n — размер выборки. [1] : 87
R можно найти, положив быть баллами строк и быть баллами столбца. Позволять быть средним значением строк, в то время как . Затем - предельная вероятность строки и - предельная вероятность столбца. R рассчитывается по формуле:
Методы классификации
[ редактировать ]Методы классификации также были разработаны для порядковых данных. Данные разделены на разные категории, так что каждое наблюдение похоже на другие. Дисперсия измеряется и минимизируется в каждой группе, чтобы максимизировать результаты классификации. Дисперсионная функция используется в теории информации . [11]
Статистические модели для порядковых данных
[ редактировать ]Существует несколько различных моделей, которые можно использовать для описания структуры порядковых данных. [12] Ниже описаны четыре основных класса моделей, каждый из которых определен для случайной величины. , с уровнями, индексированными .
Обратите внимание, что в определениях модели ниже значения и не будет одинаковым для всех моделей для одного и того же набора данных, но эта запись используется для сравнения структуры разных моделей.
Модель пропорциональных шансов
[ редактировать ]Наиболее часто используемой моделью для порядковых данных является модель пропорциональных шансов, определяемая формулой где параметры описать базовое распределение порядковых данных, являются ковариатами и — коэффициенты, описывающие влияние ковариат.
Эту модель можно обобщить, определив модель с помощью вместо , и это сделает модель подходящей для номинальных данных (в которых категории не имеют естественного порядка), а также для порядковых данных. Однако такое обобщение может значительно затруднить сопоставление модели с данными.
Логит-модель базовой категории
[ редактировать ]Модель базовой категории определяется
Эта модель не накладывает порядок на категории и поэтому может применяться как к номинальным, так и к порядковым данным.
Упорядоченная стереотипная модель
[ редактировать ]Упорядоченная модель стереотипа определяется формулой где параметры оценки ограничены так, что .
Это более экономная и более специализированная модель, чем логит-модель базовой категории: можно рассматривать как аналог .
Неупорядоченная стереотипная модель имеет ту же форму, что и упорядоченная стереотипная модель, но без налагаемой на нее упорядоченности. . Эту модель можно применить к номинальным данным.
Обратите внимание, что подобранные оценки, , указывают, насколько легко различать разные уровни . Если то это означает, что текущий набор данных для ковариат не предоставляют много информации для различения уровней и , но это не обязательно означает, что фактические значения и находятся далеко друг от друга. И если значения ковариат изменяются, то для этих новых данных подобранные оценки и тогда они могут быть далеко друг от друга.
Логит-модель смежных категорий
[ редактировать ]Модель смежных категорий определяется формулой хотя это наиболее распространенная форма, упомянутая у Агрести (2010). [12] поскольку «форма пропорциональных шансов» определяется формулой
Эту модель можно применять только к порядковым данным, поскольку моделирование вероятностей перехода из одной категории в следующую подразумевает, что существует упорядочение этих категорий.
Логит-модель смежных категорий можно рассматривать как частный случай логит-модели базовой категории, где . Логит-модель смежных категорий также можно рассматривать как частный случай модели упорядоченного стереотипа, где , то есть расстояния между определяются заранее, а не оцениваются на основе данных.
Сравнение моделей
[ редактировать ]Модель пропорциональных шансов имеет совершенно другую структуру, чем три другие модели, а также другой основной смысл. Обратите внимание, что размер эталонной категории в модели пропорциональных шансов варьируется в зависимости от , с сравнивается с , тогда как в других моделях размер эталонной категории остается фиксированным, т.к. сравнивается с или .
Различные функции ссылок
[ редактировать ]Существуют варианты всех моделей, которые используют различные функции связи, такие как пробит-ссылка или дополнительная ссылка лог-логарифм.
Статистические тесты
[ редактировать ]Различия в порядковых данных можно проверить с помощью ранговых тестов .
Визуализация и отображение
[ редактировать ]Порядковые данные можно визуализировать несколькими различными способами. Обычными визуализациями являются гистограмма или круговая диаграмма . Таблицы также могут быть полезны для отображения порядковых данных и частот. Мозаичные графики можно использовать для отображения взаимосвязи между порядковой переменной и номинальной или порядковой переменной. [13] Резонаторная диаграмма — линейная диаграмма, показывающая относительный ранжирование элементов от одного момента времени к другому — также подходит для порядковых данных. [14]
Градацию цвета или оттенков серого можно использовать для представления упорядоченного характера данных. Однонаправленную шкалу, например диапазоны доходов, можно представить в виде гистограммы, где увеличение (или уменьшение) насыщенности или яркости одного цвета указывает на более высокий (или более низкий) доход. Порядковое распределение переменной, измеренной по двунаправленной шкале, например шкале Лайкерта, также можно проиллюстрировать цветом на составной гистограмме. Нейтральный цвет (белый или серый) может использоваться для средней (нулевой или нейтральной) точки, а контрастные цвета используются в противоположных направлениях от средней точки, где увеличение насыщенности или темноты цветов может указывать на категории, находящиеся на увеличении расстояния от средней точки. . [15] Картограммы также используют цветную или полутоновую заливку для отображения порядковых данных. [16]
Приложения
[ редактировать ]Использование порядковых данных можно встретить в большинстве областей исследований, где генерируются категориальные данные. Среды, в которых часто собираются порядковые данные, включают социальные и поведенческие науки, а также правительственные и деловые учреждения, где измерения собираются у людей путем наблюдения, тестирования или анкетирования . Некоторые общие контексты для сбора порядковых данных включают опросные исследования ; [17] [18] интеллект способности , , тестирование личности принятие и решений . [2] [4] : 89–90
рассчитывать «размер эффекта» (дельта Клиффа d ) с использованием порядковых данных. В качестве меры статистического доминирования рекомендуется [19]
См. также
[ редактировать ]- Список анализов категориальных данных
- Порядковый приоритетный подход
- Порядковый номер
- Порядковое пространство
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Агрести, Алан (2013). Категориальный анализ данных (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-0-470-46363-5 .
- ^ Jump up to: а б Атаи, Юнес; Махмуди, Амин; Фейлизаде, Мохаммад Реза; Ли, Дэн-Фэн (январь 2020 г.). «Подход с порядковым приоритетом (OPA) при принятии решений по множественным атрибутам» . Прикладные мягкие вычисления . 86 : 105893. doi : 10.1016/j.asoc.2019.105893 . ISSN 1568-4946 . S2CID 209928171 .
- ^ Jump up to: а б Стивенс, СС (1946). «К теории шкал измерения». Наука . Новая серия. 103 (2684): 677–680. Бибкод : 1946Sci...103..677S . дои : 10.1126/science.103.2684.677 . ПМИД 17750512 .
- ^ Jump up to: а б с Коэн, Рональд Джей; Свердик, Марк Э.; Филлипс, Сюзанна М. (1996). Психологическое тестирование и оценка: введение в тесты и измерения (3-е изд.). Маунтин-Вью, Калифорния: Мэйфилд. стр. 685 . ISBN 1-55934-427-Х .
- ^ Jump up to: а б с д и ж г час я дж Сигел, Сидни; Кастеллан, Н. Джон младший (1988). Непараметрическая статистика для поведенческих наук (2-е изд.). Бостон: МакГроу-Хилл. стр. 25–26. ISBN 0-07-057357-3 .
- ^ Джеймисон, Сьюзен (декабрь 2004 г.). «Шкалы Лайкерта: как их (ab) использовать» (PDF) . Медицинское образование . 38 (12): 1212–1218. дои : 10.1111/j.1365-2929.2004.02012.x . ПМИД 15566531 . S2CID 42509064 .
- ^ Сарл, Уоррен С. (14 сентября 1997 г.). «Теория измерений: Часто задаваемые вопросы» .
- ^ ван Белль, Джеральд (2002). Практические статистические правила . Нью-Йорк: Джон Уайли и сыновья. стр. 23–24. ISBN 0-471-40227-3 .
- ^ Jump up to: а б с д и ж г час я дж к л Блэлок, Хьюберт М. младший (1979). Социальная статистика (2-е изд.). Нью-Йорк: МакГроу-Хилл. ISBN 0-07-005752-4 .
- ^ Коэн, Джейкоб; Коэн, Патрисия (1983). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (2-е изд.). Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates. п. 273. ИСБН 0-89859-268-2 .
- ^ Лэрд, Нэн М. (1979). «Примечание о классификации данных порядкового масштаба». Социологическая методология . 10 : 303–310. дои : 10.2307/270775 . JSTOR 270775 .
- ^ Jump up to: а б Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0470082898 .
- ^ «Техника нанесения изображения» .
- ^ Беринато, Скотт (2016). Хорошие диаграммы: Руководство HBR по созданию более умной и убедительной визуализации данных . Бостон: Harvard Business Review Press. п. 228. ИСБН 978-1633690707 .
- ^ Кирк, Энди (2016). Визуализация данных: Руководство по проектированию, управляемому данными (1-е изд.). Лондон: SAGE. п. 269. ИСБН 978-1473912144 .
- ^ Каир, Альберто (2016). Правдивое искусство: данные, диаграммы и карты для общения (1-е изд.). Сан-Франциско: Новые гонщики. п. 280. ИСБН 978-0321934079 .
- ^ Элвин, Дуэйн Ф. (2010). «Оценка надежности и обоснованности обследований». В Марсдене, Питер В.; Райт, Джеймс Д. (ред.). Справочник по обзорным исследованиям . Howard House, Wagon Lane, Bingley BD16 1WA, Великобритания: Изумрудный дом. п. 420. ИСБН 978-1-84855-224-1 .
{{cite book}}
: CS1 maint: местоположение ( ссылка ) - ^ Фаулер, Флойд младший (1995). Улучшение вопросов опроса: разработка и оценка . Таузенд-Оукс, Калифорния: Сейдж. стр. 156–165 . ISBN 0-8039-4583-3 .
- ^ Клифф, Норман (ноябрь 1993 г.). «Статистика доминирования: порядковый анализ для ответа на порядковые вопросы» . Психологический вестник . 114 (3): 494–509. дои : 10.1037/0033-2909.114.3.494 . ISSN 1939-1455 .
Дальнейшее чтение
[ редактировать ]- Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0470082898 .