Jump to content

Винсоризация

Винсоризация или винсоризация — это преобразование статистики путем ограничения экстремальных значений в статистических данных, чтобы уменьшить влияние возможных ложных выбросов . Он назван в честь инженера, ставшего биостатистиком Чарльза П. Винзора (1895–1951). Эффект тот же, что и при клиппинге при обработке сигнала.

На распределение многих статистических данных могут сильно влиять выбросы. Типичная стратегия состоит в том, чтобы установить все выбросы в соответствии с указанным процентилем данных; например, при винсоризации 90% все данные ниже 5-го процентиля будут установлены в 5-й процентиль, а данные выше 95-го процентиля будут установлены в 95-й процентиль. Винсоризованные оценки обычно более устойчивы к выбросам, чем их более стандартные формы, хотя существуют альтернативы, такие как обрезка , которые достигают аналогичного эффекта.

Рассмотрим набор данных, состоящий из:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, -40 , 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 20, среднее = 101,5)

Данные ниже 5-го процентиля лежат в диапазоне от -40 до -5, а данные выше 95-го процентиля лежат в диапазоне от 101 до 1053 (соответствующие значения выделены жирным шрифтом); соответственно, винсоризация на 90% приведет к следующему:

{92, 19, 101 , 58, 101 , 91, 26, 78, 10, 13, -5 , 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 20, среднее = 55,65)

После винсоризации среднее значение упало почти до половины предыдущего значения и, следовательно, больше соответствует данным, которые оно представляет.

Python может обрабатывать данные с помощью SciPy библиотеки :

import numpy as np
from scipy.stats.mstats import winsorize
winsorize(np.array([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41]), limits=[0.05, 0.05])

R может обрабатывать данные с помощью пакета DescTools: [1]

library(DescTools)
a<-c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)
DescTools::Winsorize(a, probs = c(0.05, 0.95))

Отличие от обрезки

[ редактировать ]

Обратите внимание, что винсоризация не эквивалентна простому исключению данных (это более простая процедура, называемая обрезкой или усечением ), а является методом цензурирования данных.

В усеченной оценке экстремальные значения отбрасываются; в оценщике с винсоризацией экстремальные значения вместо этого заменяются определенными процентилями (обрезанными минимумом и максимумом).

Таким образом, винсоризованное среднее — это не то же самое, что усеченное среднее . Например, усеченное среднее значение 10 % представляет собой среднее значение от 5 до 95 процентилей данных, в то время как винсоризованное среднее значение 90 % устанавливает нижние 5 % в 5-й процентиль, верхние 5 % в 95-й процентиль, а затем усредняет данные. В предыдущем примере усеченное среднее значение будет получено из меньшего набора:

{92, 19, 101 , 58, 91, 26, 78, 10, 13, 101 , 86, 85, 15, 89, 89, 28, -5 , 41} (N = 18, среднее = 56,5)

В этом случае винсоризованное среднее может быть эквивалентно выражено как средневзвешенное значение усеченного среднего и 5-го и 95-го процентилей (для 10%-ного винсоризованного среднего, 0,05-кратного 5-го процентиля, 0,9-кратного 10%-ного усеченного среднего и 0,05-кратного 95-й процентиль), хотя в целом винсоризованная статистика не обязательно должна быть выражена через соответствующую усеченную статистику.

Более формально они различны, поскольку статистика порядков не является независимой.

Использование

[ редактировать ]

Винсоризация используется в контексте методологии опроса , чтобы «обрезать» крайние веса неполучения ответов в опросе. [2]

Он также используется при построении некоторых фондовых индексов при рассмотрении ряда определенных факторов (например, роста и стоимости) для конкретных акций. [3]

См. также

[ редактировать ]
  1. ^ Андри Синьорелл и др. (2021). DescTools: инструменты для описательной статистики. Версия пакета R 0.99.41.
  2. ^ Ли, Брайан К., Джастин Лесслер и Элизабет А. Стюарт. «Уменьшение веса и взвешивание оценки склонности». PLOS ONE 6.3 (2011): e18174. связь
  3. ^ MSCI Global Investable Market Value и методология индекса роста 2.2.1, ссылка
  • Гастингс-младший, Сесил; Мостеллер, Фредерик; Тьюки, Джон В.; Винзор, Чарльз П. (1947). «Низкие моменты для небольших выборок: сравнительное исследование статистики заказов» . Анналы математической статистики . 18 (3): 413–426. дои : 10.1214/aoms/1177730388 .
  • Диксон, WJ (1960). «Упрощенная оценка на основе цензурированных нормальных выборок» . Анналы математической статистики . 31 (2): 385–391. дои : 10.1214/aoms/1177705900 .
  • Тьюки, JW (1962). «Будущее анализа данных» . Анналы математической статистики . 33 (1): 1–67 [с. 18]. дои : 10.1214/aoms/1177704711 . JSTOR   2237638 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c92949f09a4449ff059a8ce01941886c__1714859940
URL1:https://arc.ask3.ru/arc/aa/c9/6c/c92949f09a4449ff059a8ce01941886c.html
Заголовок, (Title) документа по адресу, URL1:
Winsorizing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)