Jump to content

Межквартильный размах

Блок-график (с межквартильным диапазоном) и функция плотности вероятности (pdf) нормального N(0,σ 2 ) Население

В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также можно назвать средним спредом , средним 50% , четвертым спредом или H-спредом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части посредством линейной интерполяции. [1] Эти квартили обозначаются Q 1 (также называемым нижним квартилем), Q 2 ( медиана ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 Q 1. [1] .

IQR является примером усеченного оценщика , определяемого как усеченный диапазон 25 % , который повышает точность статистики набора данных за счет исключения более низкого вклада, отдаленных точек. [5] Он также используется в качестве надежной меры масштаба. [5] Это можно наглядно представить с помощью прямоугольника на коробчатой ​​диаграмме . [1]

Использовать

[ редактировать ]

В отличие от общего размаха , межквартильный размах имеет точку пробоя 25%. [6] и поэтому часто предпочтительнее общего диапазона.

IQR используется для построения коробчатых диаграмм , простых графических представлений распределения вероятностей .

IQR используется в бизнесе как маркер уровня доходов .

Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей), половина IQR равна медианному абсолютному отклонению (MAD).

Медиана является соответствующей мерой центральной тенденции .

IQR можно использовать для выявления выбросов (см. ниже ). IQR также может указывать на асимметрию набора данных. [1]

Квартильное отклонение или полуинтерквартильный размах определяется как половина IQR. [7]

Алгоритм

[ редактировать ]

IQR набора значений рассчитывается как разница между верхним и нижним квартилем Q 3 и Q 1 . Каждый квартиль представляет собой медиану [8] рассчитывается следующим образом.

Учитывая четное 2n или нечетное 2n+1 количество значений

первый квартиль Q 1 = медиана n наименьших значений
третий квартиль Q 3 = медиана n наибольших значений [8]

Второй квартиль Q 2 аналогичен обычной медиане. [8]

Набор данных в таблице

[ редактировать ]

Следующая таблица состоит из 13 строк и соответствует правилам для нечетного числа записей.

я х[я] медиана Квартиль
1 7 Вопрос 2 =87
(медиана всей таблицы)
Вопрос 1 =31
(медиана нижней половины, с 1 по 6 ряд)
2 7
3 31
4 31
5 47
6 75
7 87
8 115 Q 3 =119
(медиана верхней половины, с 8 по 13 ряд)
9 116
10 119
11 119
12 155
13 177

Для данных этой таблицы межквартильный размах составляет IQR = Q 3 − Q 1 = 119 – 31 = 88.

Набор данных в текстовом поле

[ редактировать ]
                    
                             +−−−−−+−+     
               * |−−−−−−−−−−−|     | |−−−−−−−−−−−|
                             +−−−−−+−+    
                    
 +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+   number line
 0   1   2   3   4   5   6   7   8   9   10  11  12
  

Для набора данных в этом коробчатом графике :

  • Нижний (первый) квартиль Q 1 = 7
  • Медиана (второй квартиль) Q 2 = 8,5
  • Верхний (третий) квартиль Q 3 = 9
  • Межквартильный размах, IQR = Q 3 - Q 1 = 2
  • Нижний 1,5*ус IQR = Q 1–1,5 * IQR = 7–3 = 4. (Если нет точки данных в 4, то самая нижняя точка больше 4.)
  • Верхний 1,5*ус IQR = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Если нет точки данных на уровне 12, то самая высокая точка меньше 12.)
  • Схема последних двух пунктов списка: если в истинных квартилях нет точек данных, используйте точки данных немного «внутри» (ближе к медиане) от фактических квартилей.

Это означает, что усы 1,5*IQR могут быть разной длины. Медиана, минимум, максимум, а также первый и третий квартиль составляют пятизначную сводку . [9]

Распределения

[ редактировать ]

Межквартильный диапазон непрерывного распределения можно рассчитать путем интегрирования функции плотности вероятности (которая дает кумулятивную функцию распределения — любые другие способы расчета CDF также подойдут). Нижний квартиль, Q 1 , представляет собой число такое, что интеграл PDF от -∞ до Q 1 равен 0,25, а верхний квартиль, Q 3 , представляет собой такое число, что интеграл от -∞ до Q 3 равен 0,75; с точки зрения CDF квартили можно определить следующим образом:

где CDF −1 функция квантиля .

Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.

Распределение медиана IQR
Нормальный м 2 Ф −1 (0,75)σ ≈ 1,349σ ≈ (27/20)σ
Лаплас м 2 б ln(2) ≈ 1,386 б
Коши м

Тест межквартильного размаха на нормальность распределения

[ редактировать ]

IQR, среднее значение и стандартное отклонение популяции P ли P можно использовать в простой проверке того, является нормально распределенным или гауссовым. Если P нормально распределено, то стандартная оценка первого квартиля z 1 равна -0,67, а стандартная оценка третьего квартиля z 3 равна +0,67. Учитывая среднее значение = и стандартное отклонение = σ для P , если P нормально распределено, первый квартиль

и третий квартиль

Если фактические значения первого или третьего квартилей существенно различаются [ нужны разъяснения ] Судя по рассчитанным значениям, P не имеет нормального распределения. Однако нормальное распределение можно тривиально нарушить, чтобы сохранить стандартные значения Q1 и Q2. оценки равны 0,67 и -0,67 и не имеют нормального распределения (поэтому приведенный выше тест даст ложноположительный результат). Здесь можно было бы указать лучший критерий нормальности, такой как график Q–Q .

Диаграмма «коробка с усами» с четырьмя умеренными выбросами и одним экстремальным выбросом. На этой диаграмме выбросы определяются как умеренные выше Q3 + 1,5 IQR и экстремальные выше Q3 + 3 IQR.

Межквартильный размах часто используется для обнаружения выбросов в данных. Выбросы здесь определяются как наблюдения, которые находятся ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На коробчатой ​​диаграмме наибольшее и наименьшее значения, встречающиеся в этом пределе, обозначаются усами прямоугольника (часто с дополнительной полосой на конце уса) и любыми выбросами в виде отдельных точек.

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д и Репортаж, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хен Пауль; Мастер, Людольф Эрвин (2005). Современное введение в теорию вероятности и статистики . Тексты Спрингера в статистике. Лондон: Спрингер Лондон. дои : 10.1007/1-84628-168-7 . ISBN  978-1-85233-896-1 .
  2. ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики . Издательство Оксфордского университета. п. 55. ИСБН  0-19-914391-9 .
  3. ^ Цвиллингер, Д., Кокоска, С. (2000) Таблицы и формулы стандартной вероятности и статистики CRC , CRC Press. ISBN   1-58488-059-7, стр. 18.
  4. ^ Росс, Шелдон (2010). Вводная статистика . Берлингтон, Массачусетс: Elsevier. стр. 103–104. ISBN  978-0-12-374388-6 .
  5. ^ Jump up to: а б Кальтенбах, Ганс Михаэль (2012). Краткое руководство по статистике . Гейдельберг: Спрингер. ISBN  978-3-642-23502-3 . OCLC   763157853 .
  6. ^ Руссиу, Питер Дж.; Кру, Кристоф (1992). Ю. Додж (ред.). «Явные оценщики масштаба с высокой точкой пробоя» (PDF) . L1-статистический анализ и родственные методы . Амстердам: Северная Голландия. стр. 77–92.
  7. ^ Юле, Г. Удный (1911). Введение в теорию статистики . Чарльз Гриффин и компания. стр. 147–148 .
  8. ^ Jump up to: а б с Бертил., Вестергрен (1988). Бета[бета]Справочник по математике: понятия, теоремы, методы, алгоритмы, формулы, графики, таблицы . Студенческая литература . п. 348. ИСБН  9144250517 . OCLC   18454776 .
  9. ^ Деккинг, Краайкамп, Лопухаа и Мистер, стр. 235–237
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1c946c23f6a08adcd967f1517456ced2__1713628980
URL1:https://arc.ask3.ru/arc/aa/1c/d2/1c946c23f6a08adcd967f1517456ced2.html
Заголовок, (Title) документа по адресу, URL1:
Interquartile range - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)