Рейтинг (статистика)
В статистике , ранжирование — это преобразование данных при котором числовые или порядковые значения заменяются их рангом при сортировке данных. Например, наблюдаются числовые данные 3.4, 5.1, 2.6, 7.3, ранги этих элементов данных будут 2, 3, 1 и 4 соответственно. Например, порядковые данные горячий, холодный, теплый будут заменены на 3, 1, 2. В этих примерах ранги присваиваются значениям в порядке возрастания. (В некоторых других случаях используются нисходящие ранги.) Ранги связаны с индексированным списком статистики порядка , который состоит из исходного набора данных, переупорядоченного в возрастающем порядке.
Использовать для тестирования
[ редактировать ]Некоторые виды статистических тестов используют расчеты на основе рангов. Примеры включают в себя:
- тест Фридмана
- Тест Краскала-Уоллиса
- Рейтинг продуктов
- Коэффициент ранговой корреляции Спирмена
- U-тест Манна-Уитни
- Знаковый тест Уилкоксона
- Тест Ван дер Вардена
Распределение значений в порядке убывания ранга часто представляет интерес, когда значения сильно различаются по масштабу; это распределение рангов по размерам (или распределение рангов по частоте), например, для размеров городов или частот слов. Они часто подчиняются степенному закону .
Некоторые ранги могут иметь нецелочисленные значения для связанных значений данных. Например, если существует четное количество копий одного и того же значения данных, дробный статистический ранг связанных данных заканчивается на ½. Процентильный ранг — это еще один тип статистического рейтинга.
Вычисление
[ редактировать ]Microsoft Excel предоставляет две функции ранжирования: Rank.EQ , которая присваивает рейтинги соревнований («1224») и Функция Функция Rank.AVG , присваивающая дробные ранги («1 2,5 2,5 4»). Функции имеют порядка , аргумент [1] для которого по умолчанию установлено значение по убыванию , т. е. наибольшее число будет иметь ранг 1. Обычно это необычно для статистики, где рейтинг обычно находится в порядке возрастания, где наименьшее число имеет ранг 1.
Сравнение рейтингов
[ редактировать ]Ранговая корреляция может использоваться для сравнения двух рейтингов одного и того же набора объектов. Например, коэффициент ранговой корреляции Спирмена полезен для измерения статистической зависимости между рейтингами спортсменов в двух турнирах. Еще одним подходом является коэффициент ранговой корреляции Кендалла . В качестве альтернативы подходы, основанные на пересечении/перекрытии, обеспечивают дополнительную гибкость. Одним из примеров является подход «Ранг-ранговое гипергеометрическое перекрытие», [2] который предназначен для сравнения ранжирования генов, находящихся на «верху» двух упорядоченных списков дифференциально экспрессируемых генов. Похожий подход используется в «Rank Biased Overlap (RBO)». [3] который также реализует регулируемую вероятность p для настройки веса, присвоенного на желаемой глубине ранжирования. Эти подходы имеют преимущества, связанные с рассмотрением непересекающихся наборов , наборов разных размеров и максимальной взвешенности (принимая во внимание абсолютную позицию в рейтинге, которую можно игнорировать в стандартных подходах невзвешенной ранговой корреляции).
Определение
[ редактировать ]Позволять быть набором случайных величин. Сортируя их по порядку, мы определили статистику их порядка. [4]
Если все значения уникальны, ранг числа переменных это уникальное решение к уравнению .При наличии связей мы можем либо использовать средний ранг (соответствующий упомянутому выше «дробному рангу»), определяемый как среднее всех индексов. такой, что или рейтинг (соответствующий «модифицированному рейтингу соревнований» ), определяемый .
Ссылки
[ редактировать ]- ^ «Справка Excel РАНГ.AVG» . Поддержка офиса . Майкрософт . Проверено 21 января 2021 г.
- ^ Плезье, Сима Б.; Ташеро, Ричард; Вонг, Джастин А.; Гребер, Томас Г. (сентябрь 2010 г.). «Ранг-ранговое гипергеометрическое перекрытие: выявление статистически значимого совпадения между сигнатурами экспрессии генов» . Исследования нуклеиновых кислот . 38 (17): е169. дои : 10.1093/nar/gkq636 . ПМЦ 2943622 . ПМИД 20660011 .
- ^ Уэббер, Уильям; Моффат, Алистер; Зобель, Джастин (ноябрь 2010 г.). «Мера сходства для неопределенных рейтингов». Транзакции ACM в информационных системах . 28 (4): 1–38. дои : 10.1145/1852102.1852106 . S2CID 16050561 .
- ^ Ваарт, А.В. ван дер (1998). Асимптотическая статистика . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 9780521784504 .