Межквартильный размах

В описательной статистике межквартильный размах ( IQR ) является мерой статистической дисперсии , которая представляет собой разброс данных. [1] IQR также можно назвать средним спредом , средним 50% , четвертым спредом или H-спредом. Он определяется как разница между 75-м и 25-м процентилями данных. [2] [3] [4] Для расчета IQR набор данных делится на квартили или четыре упорядоченные по рангу четные части посредством линейной интерполяции. [1] Эти квартили обозначаются Q 1 (также называемым нижним квартилем), Q 2 ( медиана ) и Q 3 (также называемым верхним квартилем). Нижний квартиль соответствует 25-му процентилю, а верхний квартиль соответствует 75-му процентилю, поэтому IQR = Q 3 − Q 1. [1] .
IQR — это пример усеченного оценщика , определяемого как усеченный диапазон 25 % , который повышает точность статистики набора данных за счет исключения более низкого вклада, отдаленных точек. [5] Он также используется в качестве надежной меры масштаба. [5] Это можно наглядно представить с помощью прямоугольника на коробчатой диаграмме . [1]
Используйте [ править ]
В отличие от общего размаха , межквартильный размах имеет точку пробоя 25%. [6] и поэтому часто предпочтительнее общего диапазона.
IQR используется для построения коробчатых диаграмм , простых графических представлений распределения вероятностей .
IQR используется в бизнесе как маркер уровня доходов .
Для симметричного распределения (где медиана равна середине , среднему значению первого и третьего квартилей), половина IQR равна медианному абсолютному отклонению (MAD).
Медиана является соответствующей мерой центральной тенденции .
IQR можно использовать для выявления выбросов (см. ниже ). IQR также может указывать на асимметрию набора данных. [1]
Квартильное отклонение или полуинтерквартильный размах определяется как половина IQR. [7]
Алгоритм [ править ]
IQR набора значений рассчитывается как разница между верхним и нижним квартилем Q 3 и Q 1 . Каждый квартиль представляет собой медиану [8] рассчитывается следующим образом.
Учитывая четное 2n или нечетное 2n+1 количество значений
- первый квартиль Q 1 = медиана n наименьших значений
- третий квартиль Q 3 = медиана n наибольших значений [8]
Второй квартиль Q 2 аналогичен обычной медиане. [8]
Примеры [ править ]
Набор данных в таблице [ править ]
Следующая таблица состоит из 13 строк и соответствует правилам для нечетного числа записей.
я | х[я] | медиана | Квартиль |
---|---|---|---|
1 | 7 | Вопрос 2 =87 (медиана всей таблицы) |
Вопрос 1 =31 (медиана нижней половины, с 1 по 6 ряд) |
2 | 7 | ||
3 | 31 | ||
4 | 31 | ||
5 | 47 | ||
6 | 75 | ||
7 | 87 | ||
8 | 115 | Q 3 =119 (медиана верхней половины, с 8 по 13 ряд) | |
9 | 116 | ||
10 | 119 | ||
11 | 119 | ||
12 | 155 | ||
13 | 177 |
Для данных этой таблицы межквартильный размах составляет IQR = Q 3 − Q 1 = 119 – 31 = 88.
Набор данных в текстовом поле [ править ]
+−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ number line 0 1 2 3 4 5 6 7 8 9 10 11 12
Для набора данных в этом коробчатом графике :
- Нижний (первый) квартиль Q 1 = 7
- Медиана (второй квартиль) Q 2 = 8,5
- Верхний (третий) квартиль Q 3 = 9
- Межквартильный размах, IQR = Q 3 - Q 1 = 2
- Нижний 1,5*ус IQR = Q 1–1,5 * IQR = 7–3 = 4. (Если нет точки данных в 4, то самая нижняя точка больше 4.)
- Верхний 1,5*ус IQR = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Если нет точки данных на уровне 12, то самая высокая точка меньше 12.)
- Схема последних двух пунктов списка: если в истинных квартилях нет точек данных, используйте точки данных немного «внутри» (ближе к медиане) от фактических квартилей.
Это означает, что усы 1,5*IQR могут быть разной длины. Медиана, минимум, максимум, а также первый и третий квартиль составляют пятизначную сводку . [9]
Распределения [ править ]
Межквартильный диапазон непрерывного распределения можно рассчитать путем интегрирования функции плотности вероятности (которая дает кумулятивную функцию распределения — любые другие способы расчета CDF также подойдут). Нижний квартиль, Q 1 , представляет собой такое число, что интеграл от PDF от -∞ до Q 1 равен 0,25, а верхний квартиль, Q 3 , представляет собой такое число, что интеграл от -∞ до Q 3 равен 0,75; с точки зрения CDF квартили можно определить следующим образом:
где CDF −1 — функция квантиля .
Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.
Распределение | медиана | IQR |
---|---|---|
Нормальный | м | 2 Ж −1 (0,75)σ ≈ 1,349σ ≈ (27/20)σ |
Лаплас | м | 2 б ln(2) ≈ 1,386 б |
Коши | м | 2с |
распределения нормальность межквартильного размаха на Тест
IQR, среднее значение и стандартное отклонение популяции P ли P можно использовать в простой проверке того, является нормально распределенным или гауссовым. Если P нормально распределено, то стандартная оценка первого квартиля z 1 равна -0,67, а стандартная оценка третьего квартиля z 3 равна +0,67. Учитывая среднее значение = и стандартное отклонение = σ для P , если P нормально распределено, первый квартиль
и третий квартиль
Если фактические значения первого или третьего квартилей существенно различаются [ нужны разъяснения ] Судя по рассчитанным значениям, P не имеет нормального распределения. Однако нормальное распределение можно тривиально нарушить, чтобы сохранить стандартные значения Q1 и Q2. оценки равны 0,67 и -0,67 и не имеют нормального распределения (поэтому приведенный выше тест даст ложноположительный результат). Здесь можно было бы указать лучший критерий нормальности, такой как график Q–Q .
Выбросы [ править ]

Межквартильный размах часто используется для обнаружения выбросов в данных. Выбросы здесь определяются как наблюдения, которые находятся ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На коробчатой диаграмме наибольшее и наименьшее значения, встречающиеся в этом пределе, обозначаются усами прямоугольника (часто с дополнительной полосой на конце уса) и любыми выбросами в виде отдельных точек.
См. также [ править ]
- Междецильный диапазон - Статистическая мера
- Midhinge – среднее значение первого и третьего квартилей.
- Возможная ошибка
- Надежные меры масштаба . Статистические показатели отклонения выборки.
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д и Репортаж, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хен Пауль; Мастер, Людольф Эрвин (2005). Современное введение в теорию вероятности и статистики . Тексты Спрингера в статистике. Лондон: Спрингер Лондон. дои : 10.1007/1-84628-168-7 . ISBN 978-1-85233-896-1 .
- ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики . Издательство Оксфордского университета. п. 55. ИСБН 0-19-914391-9 .
- ^ Цвиллингер, Д., Кокоска, С. (2000) Таблицы и формулы стандартной вероятности и статистики CRC , CRC Press. ISBN 1-58488-059-7, стр. 18.
- ^ Росс, Шелдон (2010). Вводная статистика . Берлингтон, Массачусетс: Elsevier. стр. 103–104. ISBN 978-0-12-374388-6 .
- ↑ Перейти обратно: Перейти обратно: а б Кальтенбах, Ганс Михаэль (2012). Краткое руководство по статистике . Гейдельберг: Спрингер. ISBN 978-3-642-23502-3 . OCLC 763157853 .
- ^ Руссиу, Питер Дж.; Кру, Кристоф (1992). Ю. Додж (ред.). «Явные оценщики масштаба с высокой точкой пробоя» (PDF) . L1-статистический анализ и родственные методы . Амстердам: Северная Голландия. стр. 77–92.
- ^ Юле, Г. Удный (1911). Введение в теорию статистики . Чарльз Гриффин и компания. стр. 147–148 .
- ↑ Перейти обратно: Перейти обратно: а б с Бертил., Вестергрен (1988). Бета[бета]Справочник по математике: понятия, теоремы, методы, алгоритмы, формулы, графики, таблицы . Студенческая литература . п. 348. ИСБН 9144250517 . OCLC 18454776 .
- ^ Деккинг, Краайкамп, Лопухаа и Мистер, стр. 235–237
Внешние ссылки [ править ]
СМИ, связанные с межквартильным диапазоном, на Викискладе?