Винсоризация
Винсоризация или винсоризация — это преобразование статистики путем ограничения экстремальных значений в статистических данных, чтобы уменьшить влияние возможных ложных выбросов . Он назван в честь инженера, ставшего биостатистиком Чарльза П. Винзора (1895–1951). Эффект тот же, что и при клиппинге при обработке сигнала.
На распределение многих статистических данных могут сильно влиять выбросы. Типичная стратегия состоит в том, чтобы установить все выбросы в соответствии с указанным процентилем данных; например, при винсоризации 90% все данные ниже 5-го процентиля будут установлены в 5-й процентиль, а данные выше 95-го процентиля будут установлены в 95-й процентиль. Винсоризованные оценки обычно более устойчивы к выбросам, чем их более стандартные формы, хотя существуют альтернативы, такие как обрезка , которые достигают аналогичного эффекта.
Пример
[ редактировать ]Рассмотрим набор данных, состоящий из:
- {92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, -40 , 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 20, среднее = 101,5)
Данные ниже 5-го процентиля лежат в диапазоне от -40 до -5, а данные выше 95-го процентиля лежат в диапазоне от 101 до 1053 (соответствующие значения выделены жирным шрифтом); соответственно, винсоризация на 90% приведет к следующему:
- {92, 19, 101 , 58, 101 , 91, 26, 78, 10, 13, -5 , 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 20, среднее = 55,65)
После винсоризации среднее значение упало почти до половины предыдущего значения и, следовательно, больше соответствует данным, которые оно представляет.
Python может обрабатывать данные с помощью SciPy библиотеки :
import numpy as np
from scipy.stats.mstats import winsorize
winsorize(np.array([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41]), limits=[0.05, 0.05])
R может обрабатывать данные с помощью пакета DescTools: [1]
library(DescTools)
a<-c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)
DescTools::Winsorize(a, probs = c(0.05, 0.95))
Отличие от обрезки
[ редактировать ]Обратите внимание, что винсоризация не эквивалентна простому исключению данных (это более простая процедура, называемая обрезкой или усечением ), а является методом цензурирования данных.
В усеченной оценке экстремальные значения отбрасываются; в оценщике с винсоризацией экстремальные значения вместо этого заменяются определенными процентилями (обрезанными минимумом и максимумом).
Таким образом, винсоризованное среднее — это не то же самое, что усеченное среднее . Например, усеченное среднее значение 10 % представляет собой среднее значение от 5 до 95 процентилей данных, в то время как винсоризованное среднее значение 90 % устанавливает нижние 5 % в 5-й процентиль, верхние 5 % в 95-й процентиль, а затем усредняет данные. В предыдущем примере усеченное среднее значение будет получено из меньшего набора:
- {92, 19, 101 , 58, 91, 26, 78, 10, 13, 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 18, среднее = 56,5)
В этом случае винсоризованное среднее может быть эквивалентно выражено как средневзвешенное значение усеченного среднего и 5-го и 95-го процентилей (для 10%-ного винсоризованного среднего, 0,05-кратного 5-го процентиля, 0,9-кратного 10%-ного усеченного среднего и 0,05-кратного 95-й процентиль), хотя в целом винсоризованная статистика не обязательно должна быть выражена через соответствующую усеченную статистику.
Более формально они различны, поскольку статистика порядков не является независимой.
Использование
[ редактировать ]Винсоризация используется в контексте методологии опроса , чтобы «обрезать» крайние веса неполучения ответов в опросе. [2]
Он также используется при построении некоторых фондовых индексов при рассмотрении ряда определенных факторов (например, роста и стоимости) для конкретных акций. [3]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Андри Синьорелл и др. (2021). DescTools: инструменты для описательной статистики. Версия пакета R 0.99.41.
- ^ Ли, Брайан К., Джастин Лесслер и Элизабет А. Стюарт. «Уменьшение веса и взвешивание оценки склонности». PLOS ONE 6.3 (2011): e18174. связь
- ^ MSCI Global Investable Market Value и методология индекса роста 2.2.1, ссылка
- Гастингс-младший, Сесил; Мостеллер, Фредерик; Тьюки, Джон В.; Винзор, Чарльз П. (1947). «Низкие моменты для небольших выборок: сравнительное исследование статистики заказов» . Анналы математической статистики . 18 (3): 413–426. дои : 10.1214/aoms/1177730388 .
- Диксон, WJ (1960). «Упрощенная оценка на основе цензурированных нормальных выборок» . Анналы математической статистики . 31 (2): 385–391. дои : 10.1214/aoms/1177705900 .
- Тьюки, JW (1962). «Будущее анализа данных» . Анналы математической статистики . 33 (1): 1–67 [с. 18]. дои : 10.1214/aoms/1177704711 . JSTOR 2237638 .
Внешние ссылки
[ редактировать ]- «Винсоризация» . R-блогеры . 30 июня 2011 г.