Шкала оценок

Рейтинговая шкала — это набор категорий, предназначенный для получения информации о количественном или качественном признаке. В социальных науках , особенно в психологии , распространенными примерами являются шкала ответов Лайкерта и рейтинговые шкалы от 0 до 10, где человек выбирает число, отражающее воспринимаемое качество продукта .

Фон

Рейтинговая шкала — это метод, который требует от оценщика присвоить оцениваемому объекту значение, иногда числовое, как меру некоторого оцениваемого атрибута.

Виды рейтинговых шкал

Все рейтинговые шкалы можно отнести к одному из следующих типов:

Числовая рейтинговая шкала (NRS)
Вербальная рейтинговая шкала (VRS)
Визуально-аналоговая шкала (ВАШ)
Лайкерт
Графическая шкала оценок
Описательная графическая рейтинговая шкала

Некоторые данные измеряются на порядковом уровне . Числа указывают относительное положение предметов, но не величину разницы. Шкалы отношения и мнения обычно являются порядковыми; Одним из примеров является шкала ответа Лайкерта :

Заявление

например: «Я не мог жить без компьютера».

Варианты ответа

Категорически не согласен
Не согласен
Нейтральный
Соглашаться
Полностью согласен

Некоторые данные измеряются на уровне интервалов . Числа указывают величину разницы между элементами, но абсолютного нуля не существует. Хорошим примером является температурная шкала Фаренгейта/Цельсия, где разница между числами имеет значение, а расположение нуля — нет.

Некоторые данные измеряются на уровне соотношения . Числа обозначают величину разницы и имеют фиксированную нулевую точку. Коэффициенты можно рассчитать. Примеры включают возраст, доход, цену, затраты, выручку от продаж, объем продаж и долю рынка.

отношения или восприятия требуется более одного вопроса по рейтинговой шкале Для измерения из-за необходимости статистических сравнений между категориями в политомической модели Раша для упорядоченных категорий. ^[1] В классической теории тестирования для получения индекса внутренней надежности, такого как альфа Кронбаха , требуется более одного вопроса. ^[2] что является основным критерием оценки эффективности рейтинговой шкалы.

Рейтинговые шкалы, используемые в Интернете

Рейтинговые шкалы широко используются в Интернете в попытке оценить мнение потребителей о продуктах. Примерами сайтов, использующих шкалы рейтингов, являются IMDb , Epinions.com , Yahoo! Movies , Amazon.com , BoardGameGeek и TV.com, которые используют рейтинговую шкалу от 0 до 100 для получения «персонализированных рекомендаций фильмов».

Почти во всех случаях онлайн-шкалы рейтингов допускают только одну оценку для каждого пользователя для каждого продукта, хотя есть исключения, такие как Ratings.net , который позволяет пользователям оценивать продукты по нескольким качествам. Большинство онлайновых рейтинговых агентств также предоставляют мало или вообще не предоставляют качественных описаний рейтинговых категорий, хотя, опять же, есть исключения, такие как Yahoo! Movies , в котором каждая из категорий помечена между F и A +, и BoardGameGeek, в котором даются подробные описания каждой категории от 1 до 10. Часто описываются только верхняя и нижняя категории, например, в IMDb онлайн-рейтинге .

Срок действия

Валидность означает, насколько хорошо инструмент измеряет то, что он намеревается измерить.Поскольку каждый пользователь оценивает продукт только один раз, например, в категории от 1 до 10, нет возможности оценить внутреннюю надежность с использованием такого индекса, как альфа Кронбаха . Поэтому невозможно оценить достоверность рейтингов как меры зрительского восприятия. Для установления достоверности потребуется установить как надежность, так и точность (т.е. того, что рейтинги представляют то, что они должны представлять). Степень достоверности инструмента определяется посредством применения логических/или статистических процедур. «Процедура измерения действительна в той степени, в которой она измеряет то, что она предполагает измерить».

Еще одна фундаментальная проблема заключается в том, что онлайн-рейтинги обычно включают в себя удобную выборку, подобно телевизионным опросам, т.е. они отражают только мнения тех, кто склонен выставлять рейтинги.

Валидность касается различных аспектов процесса измерения. Каждый из этих типов использует логику, статистическую проверку или и то, и другое для определения степени достоверности и имеет особую ценность при определенных условиях. Типы валидности включают валидность содержания, прогнозируемую валидность и конструктную валидность.

Выборка

Ошибки выборки могут привести к результатам, которые имеют определенную предвзятость или относятся только к определенной подгруппе. Рассмотрим такой пример: предположим, что фильм нравится только узкоспециализированной аудитории: 90% из них — поклонники этого жанра, и только 10% — люди с общим интересом к кино. Предположим, что фильм очень популярен среди зрителей, которые его смотрят, и что только те, кто относится к нему наиболее сильно, склонны оценивать его в Интернете; следовательно, все оценщики набираются из числа преданных. Эта комбинация может привести к очень высоким рейтингам фильма, которые не выходят за рамки людей, которые действительно смотрят фильм (или, возможно, даже за пределы тех, кто действительно его оценивает).

Качественное описание

Качественное описание категорий повышает полезность рейтинговой шкалы. Например, если без описания даны только баллы 1–10, некоторые люди могут выбирать 10 редко, тогда как другие могут выбирать категорию часто. Если вместо этого цифра «10» описывается как «почти безупречная», эта категория, скорее всего, будет означать одно и то же для разных людей. Это касается всех категорий, а не только крайних точек.

Вышеупомянутые проблемы усугубляются, когда для списков и рейтингов продуктов используются агрегированные статистические данные, такие как средние значения. Рейтинги пользователей представляют собой в лучшем случае порядковую категоризацию. Хотя для таких данных нередко рассчитывают средние значения или средние значения, это не может быть оправдано, поскольку при вычислении средних значений требуются равные интервалы, чтобы представить одну и ту же разницу между уровнями воспринимаемого качества. Ключевые проблемы с агрегированными данными, основанными на типах рейтинговых шкал, обычно используемых в Интернете, заключаются в следующем:

Средние значения не следует рассчитывать для собранных данных.
Обычно невозможно оценить надежность или обоснованность оценок пользователей.
Продукты не сравниваются по явным, не говоря уже об общих ^{[ нужны разъяснения ]}, критерии.
Это делают только пользователи, склонные выставлять оценку продукту.
Данные обычно не публикуются в форме, позволяющей оценить рейтинги продуктов.

Более развитые методологии включают методы моделирования выбора или максимальной разницы , причем последний связан с моделью Раша из-за связи между законом сравнительного суждения Терстоуна. ^{[ нужны разъяснения ]} и модель Раша.

Снижение рейтинговой шкалы

Международное совместное исследовательское усилие ^[3] представила управляемый данными алгоритм снижения рейтинговой шкалы. Он основан на площади под рабочей характеристикой приемника .

Происхождение

Историческое происхождение рейтинговых шкал было переоценено после важного археологического открытия в Тбилиси (Грузия) в 2010 году. Экскаваторы обнаружили табличку, относящуюся к периоду раннего средневековья, с надписью древней грузинской письменности. ^[4] На этом планшете имелся ряд линейных отметок, интерпретируемых как ранняя форма рейтинговой шкалы. Надписи дали представление о средневековых методах количественного определения и оценки, предполагая зачаточную версию современных рейтинговых шкал. Это открытие в настоящее время хранится в Национальном музее Грузии . ^[5]

См. также

Ссылки

^ Андрич, Дэвид (декабрь 1978 г.). «Формулировка рейтинга для упорядоченных категорий ответов». Психометрика . 43 (4): 561–573. дои : 10.1007/BF02293814 . S2CID 120687848 .
^ Кронбах, Ли Дж. (сентябрь 1951 г.). «Коэффициент альфа и внутренняя структура тестов». Психометрика . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . дои : 10.1007/BF02310555 . S2CID 13820448 .
^ Кочкодай, Вальдемар В; Какиашвили Т.; Шиманская, А.; Монтеро-Марин, Дж.; Арайя, Р.; Гарсиа-Кампайо, Дж.; Рутковски, К.; Стшалка, Д. (2017). «Как сократить количество пунктов рейтинговой шкалы без потери предсказуемости?» . Наукометрия . 111 (2): 581–593 (2017). дои : 10.1007/s11192-017-2283-4 . ПМК 5400800 . ПМИД 28490822 .
^ «Открыватели одного из древнейших зубов в мире спорят: где находится зуб Орозмана?» . Радио Свобода (на грузинском языке). 21 сентября 2022 г. Проверено 17 января 2024 г.
^ « Не обязательно проводить раскопки по всей Грузии одновременно» — археологи не могут получить право на раскопки . Радио Свобода (на грузинском языке). 21 июня 2022 г. Проверено 17 января 2024 г.

Внешние ссылки

Семантический дифференциал UEQ для измерения пользовательского опыта

[1] Андрич, Дэвид (декабрь 1978 г.). «Формулировка рейтинга для упорядоченных категорий ответов». Психометрика . 43 (4): 561–573. дои : 10.1007/BF02293814 . S2CID 120687848 .

[2] Кронбах, Ли Дж. (сентябрь 1951 г.). «Коэффициент альфа и внутренняя структура тестов». Психометрика . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . дои : 10.1007/BF02310555 . S2CID 13820448 .

[3] Кочкодай, Вальдемар В; Какиашвили Т.; Шиманская, А.; Монтеро-Марин, Дж.; Арайя, Р.; Гарсиа-Кампайо, Дж.; Рутковски, К.; Стшалка, Д. (2017). «Как сократить количество пунктов рейтинговой шкалы без потери предсказуемости?» . Наукометрия . 111 (2): 581–593 (2017). дои : 10.1007/s11192-017-2283-4 . ПМК 5400800 . ПМИД 28490822 .

[4] «Открыватели одного из древнейших зубов в мире спорят: где находится зуб Орозмана?» . Радио Свобода (на грузинском языке). 21 сентября 2022 г. Проверено 17 января 2024 г.

[5] « Не обязательно проводить раскопки по всей Грузии одновременно» — археологи не могут получить право на раскопки . Радио Свобода (на грузинском языке). 21 июня 2022 г. Проверено 17 января 2024 г.

[1]

[2]

[3]

[4]

[5]