Межквартильный диапазон

В описательной статистике ( межквартильный диапазон IQR ) является мерой статистической дисперсии , которая является распространением данных. [ 1 ] IQR также можно назвать средним , средним 50% , четвертым распространением или H -Spread. Это определяется как разница между 75 -м и 25 -м процентилем данных. [ 2 ] [ 3 ] [ 4 ] Для расчета IQR набор данных делится на квартили , или четыре ровных ровных частях через линейную интерполяцию. [ 1 ] Эти квартили обозначены Q 1 (также называемый нижним квартилем), Q 2 ( медиана ) и Q 3 (также называемый верхним квартилем). Нижний квартиль соответствует 25 -м процентилю, а верхний квартиль соответствует 75 -м процентилу, поэтому IQR = Q 3 - Q 1 [ 1 ] .
IQR является примером обрезанной оценки , определяемой как 25% обрезанный диапазон , который повышает точность статистики наборов наборов путем снижения более низких вкладов, отдаленных точек. [ 5 ] Он также используется в качестве надежной меры масштаба [ 5 ] Это может быть четко визуализировано коробкой на графике коробки . [ 1 ]
Использовать
[ редактировать ]В отличие от общего диапазона , межквартильный диапазон имеет точку разбивки 25% [ 6 ] и, таким образом, часто предпочтительнее общего диапазона.
IQR используется для создания графиков коробок , простых графических представлений распределения вероятностей .
IQR используется в предприятиях в качестве маркера для их ставок доходов .
Для симметричного распределения (где медиана равняется мили , среднее значение первого и третьего квартилей), половина IQR равна среднему абсолютному отклонению (безумно).
Медиана является соответствующей мерой центральной тенденции .
IQR можно использовать для идентификации выбросов (см. Ниже ). IQR также может указывать на асимметрию набора данных. [ 1 ]
Квартильное отклонение или полупреквартильный диапазон определяются как половина IQR. [ 7 ]
Алгоритм
[ редактировать ]IQR набора значений рассчитывается как разница между верхним и нижним квартилями, Q 3 и Q 1 . Каждый квартиль - медиана [ 8 ] рассчитано следующим образом.
Учитывая даже 2n или нечетное число +1 значений
- Первый квартиль Q 1 = медиана самых маленьких значений
- Третий квартиль Q 3 = медиана самых больших значений [ 8 ]
Второй квартиль Q 2 такой же, как у обычной медианы. [ 8 ]
Примеры
[ редактировать ]Набор данных в таблице
[ редактировать ]Следующая таблица имеет 13 строк и следует правилам нечетного количества записей.
я | x [i] | Медиана | Квартиль |
---|---|---|---|
1 | 7 | Q 2 = 87 (Медиана цельной таблицы) |
Q 1 = 31 (Медиана нижней половины, от ряда 1 до 6) |
2 | 7 | ||
3 | 31 | ||
4 | 31 | ||
5 | 47 | ||
6 | 75 | ||
7 | 87 | ||
8 | 115 | Q 3 =119 (Медиана верхней половины, с ряда 8 до 13) | |
9 | 116 | ||
10 | 119 | ||
11 | 119 | ||
12 | 155 | ||
13 | 177 |
Для данных в этой таблице межквартильный диапазон IQR = Q 3 - Q 1 = 119 - 31 = 88.
Набор данных в словом текстовом поле.
[ редактировать ]+−−−−−+−+ * |−−−−−−−−−−−| | |−−−−−−−−−−−| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Number line 0 1 2 3 4 5 6 7 8 9 10 11 12
Для набора данных в этом заговоре :
- Нижний (первый) квартиль Q 1 = 7
- Медиана (второй квартиль) Q 2 = 8,5
- Верхний (третий) квартиль Q 3 = 9
- Межквартильный диапазон, IQR = Q 3 - Q 1 = 2
- Снимите 1,5 * IQR Whisker = Q 1 - 1,5 * IQR = 7 - 3 = 4. (Если нет точки данных при 4, то самая низкая точка больше 4.)
- Верхний 1.5 * IQR Whisker = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Если нет точки данных в 12, то самая высокая точка меньше 12.)
- Образец последних двух пулевых точек: если в истинных квартилях нет точек данных, слегка используйте точки данных «Внутреннее» (ближе к медиане) из фактических квартилей.
Это означает, что усы 1,5*IQR могут быть неровными по длине. Средний, минимум, максимум и первый и третий квартиль составляют из пяти номеров . [ 9 ]
Распределения
[ редактировать ]Межквартильный диапазон непрерывного распределения может быть рассчитана путем интеграции функции плотности вероятности (которая дает функцию совокупного распределения - все другие средства расчета CDF также будут работать). Нижний квартиль, Q 1 , является числом, таким образом, что интеграл PDF от -∞ до Q 1 равен 0,25, в то время как верхний квартиль, Q 3 , является таким числом, что интеграл от -∞ до Q 3 равен 0,75; С точки зрения CDF, квартили можно определить следующим образом:
где CDF −1 это квантильная функция .
Межкварная диапазон и медиана некоторых общих распределений показаны ниже
Распределение | Медиана | IQR |
---|---|---|
Нормальный | м | 2 φ −1 (0,75) S ≈ 1,349s ≈ (27/20) σ |
Лаплас | м | 2 b ln (2) ≈ 1,386 b |
Коши | м | 2C |
Межквартильный тест диапазона для нормальности распределения
[ редактировать ]IQR, среднее и стандартное отклонение популяции P можно использовать в простом испытании того, или P обычно распределяется нет . Если P обычно распределяется, то стандартная оценка первого квартиля, z 1 , составляет -0,67, а стандартная оценка третьего квартиля, z 3 , составляет +0,67. Дано среднее = и стандартное отклонение = σ для p , если P обычно распределяется, первый квартиль
и третий квартиль
Если фактические значения первого или третьего квартала существенно различаются [ нужно разъяснения ] Из рассчитанных значений P обычно не распределяется. Однако нормальное распределение может быть тривиально возмущено для поддержания своего Q1 и Q2 STD. баллы в 0,67 и -0,67 и не будут обычно распределены (поэтому вышеупомянутый тест даст ложный положительный). Лучший тест нормальности, такой как график Q - Q, будет указан здесь.
Выбросы
[ редактировать ]
Межквартильный диапазон часто используется для поиска выбросов в данных. Выбросы здесь определены как наблюдения, которые падают ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На сфере коробки наиболее высокое и самое низкое значение в пределах этого предела указывается усы коробки (часто с дополнительной панелью в конце Whisker) и любыми выбросами в качестве отдельных точек.
Смотрите также
[ редактировать ]- Междецильный диапазон - статистическая мера
- Midhinge - среднее из первого и третьего квартала
- Вероятная ошибка
- Надежные меры масштаба - статистические показатели отклонения образца
Ссылки
[ редактировать ]- ^ Jump up to: а беременный в дюймовый и Обложка, Фредерик Мишель; Kraaikamp, Cornelis; Лопухаа, Хен Павел; Мастер, Людольф Эрвин (2005). Современное введение в вероятность и статистику . Спрингерские тексты в статистике. Лондон: Springer London. Doi : 10,1007/1-84628-168-7 . ISBN 978-1-85233-896-1 .
- ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики . Издательство Оксфордского университета. п. 55. ISBN 0-19-914391-9 .
- ^ Zwillinger, D., Kokoska, S. (2000) Стандартные таблицы вероятности и статистики CRC , CRC Press. ISBN 1-58488-059-7 Page 18.
- ^ Росс, Шелдон (2010). Вступительная статистика . Берлингтон, Массачусетс: Elsevier. С. 103–104. ISBN 978-0-12-374388-6 .
- ^ Jump up to: а беременный Калтенбах, Ганс-Майкл (2012). Краткое руководство по статистике . Гейдельберг: Спрингер. ISBN 978-3-642-23502-3 Полем OCLC 763157853 .
- ^ Rousseeuw, Peter J.; Кроу, Кристоф (1992). Y. Dodge (ed.). «Оценки явных масштабов с высокой точкой разбивки» (PDF) . Статистический анализ L1 и связанные с ними методы . Амстердам: Северная Голландия. С. 77–92.
- ^ Йул, Г. Удни (1911). Введение в теорию статистики . Чарльз Гриффин и компания. С. 147 –148.
- ^ Jump up to: а беременный в Bertil., Westergren (1988). Бета [бета] Справочник по математике: концепции, теоремы, методы, алгоритмы, формулы, графики, таблицы . Студенческая литература . п. 348. ISBN 9144250517 Полем OCLC 18454776 .
- ^ Обложка, Kraaikamp, Lopuhaä & Meester, стр. 235–237
Внешние ссылки
[ редактировать ]СМИ, связанные с межквартильным диапазоном в Wikimedia Commons