Квартиль
В статистике квартили — это тип квантилей , которые делят количество точек данных на четыре части или четверти более или менее одинакового размера. Для расчета квартилей данные должны быть упорядочены от наименьшего к наибольшему; как таковые, квартили представляют собой форму порядковой статистики . Три квартиля, приводящие к четырем делениям данных, выглядят следующим образом:
- Первый квартиль ( Q 1 ) определяется как 25-й процентиль , где самые низкие 25% данных находятся ниже этой точки. Его также называют нижним квартилем.
- Второй квартиль ( Q 2 ) — это медиана набора данных; таким образом, 50% данных лежат ниже этой точки.
- Третий квартиль ( Q 3 ) — это 75-й процентиль, где самые низкие 75% данных находятся ниже этой точки. Он известен как верхний квартиль, поскольку 75% данных находятся ниже этой точки. [1]
Наряду с минимумом и максимумом данных (которые также являются квартилями), три квартиля, описанные выше, представляют собой пятизначную сводку данных. Это резюме важно в статистике, поскольку оно предоставляет информацию как о центре , так и о распространении данных. Знание нижнего и верхнего квартиля дает информацию о том, насколько велик разброс и смещен ли набор данных в одну сторону. Поскольку квартили делят количество точек данных поровну, диапазон между соседними квартилями обычно неодинаков (т.е. обычно ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). Межквартильный размах (IQR) определяется как разница между 75-м и 25-м процентилями или Q 3 - Q 1 . Хотя максимум и минимум также показывают разброс данных, верхний и нижний квартиль могут предоставить более подробную информацию о расположении конкретных точек данных, наличии выбросов в данных и разнице в разбросе между средними 50% данные и внешние точки данных. [2]
Определения
[ редактировать ]Символ | Имена | Определение |
---|---|---|
Вопрос 1 |
| Отделяет самые низкие 25% данных от самых высоких 75% |
QQ2 |
| Сокращает набор данных вдвое |
Q 3 |
| Отделяет самые высокие 25% данных от самых низких 75% |
Вычислительные методы
[ редактировать ]Дискретные распределения
[ редактировать ]Для дискретных распределений не существует универсального соглашения о выборе значений квартилей. [3]
Способ 1
[ редактировать ]- Используйте медиану , чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
- Если в исходном упорядоченном наборе данных нечетное количество точек данных, не включайте медиану (центральное значение в упорядоченном списке) ни в одну половину.
- Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
- Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.
Это правило используется TI-83 калькулятора коробчатой диаграммой и функциями «1-Var Stats».
Способ 2
[ редактировать ]- Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
- Если в исходном упорядоченном наборе данных нечетное количество точек данных, включите медиану (центральное значение в упорядоченном списке) в обе половины.
- Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
- Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.
Значения, найденные этим методом, также известны как « Тьюки »; петли [4] см. также средний шарнир .
Способ 3
[ редактировать ]- Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
- Если имеется нечетное количество точек данных, перейдите к следующему шагу.
- Если имеется четное количество точек данных, то метод 3 начинается так же, как метод 1 или метод 2, описанный выше, и вы можете включить или не включать медиану в качестве новой точки данных. Если вы решите включить медиану в качестве новой точки данных, перейдите к шагу 2 или 3 ниже, поскольку теперь у вас есть нечетное количество точек данных. Если вы не выберете медиану в качестве новой точки данных, продолжайте использовать метод 1 или 2, с которого вы начали.
- Если имеется (4 n +1) точек данных, то нижний квартиль составляет 25 % n- го значения данных плюс 75 % ( n +1)-го значения данных; верхний квартиль составляет 75% (3 n +1)-й точки данных плюс 25% (3 n +2)-й точки данных.
- Если имеется (4 n +3) точек данных, то нижний квартиль составляет 75 % ( n +1)-го значения данных плюс 25 % ( n +2)-го значения данных; верхний квартиль составляет 25% (3 n +2)-й точки данных плюс 75% (3 n +3)-й точки данных.
Способ 4
[ редактировать ]Если у нас есть упорядоченный набор данных , то мы можем интерполировать между точками данных, чтобы найти эмпирический квантиль, если находится в квантиль. Если обозначить целую часть числа к , то эмпирическая функция квантиля определяется выражением:
,
где и . [1]
Чтобы найти первый, второй и третий квартиль набора данных, мы должны оценить , , и соответственно.
Пример 1
[ редактировать ]Упорядоченный набор данных (из нечетного числа точек данных): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.
Жирное число (40) — это медиана, разделяющая набор данных на две половины с равным количеством точек данных.
Способ 1 | Способ 2 | Способ 3 | Способ 4 | |
---|---|---|---|---|
Вопрос 1 | 15 | 25.5 | 20.25 | 15 |
QQ2 | 40 | 40 | 40 | 40 |
Q 3 | 43 | 42.5 | 42.75 | 43 |
Пример 2
[ редактировать ]Упорядоченный набор данных (из четного числа точек данных): 7, 15, 36, 39 , 40, 41.
Цифры, выделенные жирным шрифтом (36, 39), используются для расчета медианы как их среднего значения. Поскольку имеется четное количество точек данных, первые три метода дают одинаковые результаты. (Метод 3 выполняется таким образом, что медиана не выбирается в качестве новой точки данных и запускается метод 1.)
Способ 1 | Способ 2 | Способ 3 | Способ 4 | |
---|---|---|---|---|
Вопрос 1 | 15 | 15 | 15 | 13 |
QQ2 | 37.5 | 37.5 | 37.5 | 37.5 |
Q 3 | 40 | 40 | 40 | 40.25 |
Непрерывные распределения вероятностей
[ редактировать ]Если мы определим непрерывное распределение вероятностей как где является вещественной случайной величиной , ее кумулятивная функция распределения (CDF) определяется выражением
. [1]
CDF величина дает вероятность того, что случайная меньше или равно значению . Следовательно, первый квартиль — это значение когда , второй квартиль когда , а третий квартиль когда . [5] Значения можно найти с помощью функции квантиля где для первого квартиля, для второго квартиля и для третьего квартиля. Функция квантиля является обратной функцией кумулятивной функции распределения, если кумулятивная функция распределения монотонно возрастает , поскольку сохраняется взаимно однозначное соответствие между входными и выходными данными кумулятивной функции распределения.
Выбросы
[ редактировать ]Существуют методы проверки выбросов в области статистики и статистического анализа. Выбросы могут быть результатом изменения местоположения (среднего значения) или масштаба (изменчивости) интересующего процесса. [6] Выбросы также могут свидетельствовать о том, что выборочная совокупность имеет ненормальное распределение или о загрязненном наборе данных о совокупности. Следовательно, в соответствии с основной идеей описательной статистики , при обнаружении выброса мы должны объяснить это значение путем дальнейшего анализа причины или происхождения выброса. В случаях экстремальных наблюдений, которые являются нередким явлением, необходимо анализировать типичные значения. Межквартильный размах (IQR), определяемый как разница между верхним и нижним квартилем ( ), может использоваться для характеристики данных, когда могут быть крайности, которые искажают данные; Межквартильный размах представляет собой относительно надежный статистический показатель (также иногда называемый «сопротивлением») по сравнению с размахом и стандартным отклонением . Существует также математический метод проверки выбросов и определения «заборов», верхних и нижних пределов, от которых можно проверять выбросы.
После определения первого (нижнего) и третьего (верхнего) квартилей ( и соответственно) и межквартильный размах ( ), как указано выше, тогда ограждения рассчитываются по следующей формуле:
Нижний предел — это «нижний предел», а верхний — «верхний предел» данных, и любые данные, лежащие за пределами этих определенных границ, могут считаться выбросами. Ограждения служат ориентиром для определения выброса , который можно определить другими способами. Ограждения определяют «диапазон», за пределами которого существует выброс; способ представить это - граница забора. Нижние и верхние границы вместе с выбросами обычно представляются в виде коробчатой диаграммы . Для коробчатой диаграммы, показанной справа, только вертикальная высота соответствует визуализируемому набору данных, тогда как горизонтальная ширина коробки не имеет значения. Выбросы, расположенные за пределами границ на коробчатой диаграмме, можно пометить любым символом, например «x» или «o». Заборы иногда также называют «усами», а весь визуальный сюжет называется сюжетом «коробка с усами».
При обнаружении выброса в наборе данных путем расчета межквартильных размахов и особенностей коробчатой диаграммы можно легко ошибочно рассматривать его как свидетельство того, что популяция ненормальна или что выборка загрязнена. Однако этот метод не должен заменять проверку гипотезы для определения нормальности популяции. Значимость выбросов варьируется в зависимости от размера выборки. Если выборка небольшая, то более вероятно получить нерепрезентативно малые межквартильные размахи, что приведет к более узким границам. Следовательно, с большей вероятностью будут найдены данные, помеченные как выбросы. [7]
Компьютерная программа для квартилей
[ редактировать ]Среда | Функция | Квартильный метод |
---|---|---|
Microsoft Excel | КВАРТИЛЬ.ИСКЛ. | Способ 4 |
Microsoft Excel | QUARTILE.INC | Способ 3 |
Калькуляторы серии TI-8X | 1-Где статистика | Способ 1 |
Р | пять цифр | Способ 2 |
Питон | numpy.percentile | Способ 3 |
Питон | pandas.DataFrame.describe | Способ 3 |
Эксель
[ редактировать ]Функция Excel КВАРТИЛЬ(массив, кварт) предоставляет желаемое значение квартиля для данного массива данных, используя метод 3, описанный выше. В функции КВАРТИЛЬ (устаревшая функция из Excel 2007 или более ранней версии, дающая тот же результат, что и функция КВАРТИЛЬ.ВКЛ .), массив — это анализируемый набор чисел, а кварт — любое из следующих 5 значений в зависимости от того, какой квартиль является рассчитывается. [8]
Кварта | Выходное значение КВАРТИЛЬ |
---|---|
0 | Минимальное значение |
1 | Нижний квартиль (25-й процентиль) |
2 | медиана |
3 | Верхний квартиль (75-й процентиль) |
4 | Максимальное значение |
МАТЛАБ
[ редактировать ]Для расчета квартилей в Matlab функцию квантиль ( A , p можно использовать ). Где A — вектор анализируемых данных, а p — процент, относящийся к квартилям, как указано ниже. [9]
п | Выходное значение КВАРТИЛЬ |
---|---|
0 | Минимальное значение |
0.25 | Нижний квартиль (25-й процентиль) |
0.5 | медиана |
0.75 | Верхний квартиль (75-й процентиль) |
1 | Максимальное значение |
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с Деккинг, Мишель (2005). Современное введение в вероятность и статистику: понимание почему и как . Лондон: Спрингер. стр. 236-238 . ISBN 978-1-85233-896-1 . OCLC 262680588 .
- ^ Кнох, Джессика (23 февраля 2018 г.). «Как квартили используются в статистике?» . Магуш . Архивировано из оригинала 10 декабря 2019 года . Проверено 24 февраля 2023 г.
- ^ Гайндман, Роб Дж ; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . 50 (4): 361–365. дои : 10.2307/2684934 . JSTOR 2684934 .
- ^ Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных . ISBN 978-0-201-07616-5 .
- ^ «6. Функции распределения и квантиля» (PDF) . math.bme.hu .
- ^ Уолфиш, Стивен (ноябрь 2006 г.). «Обзор метода статистических выбросов» . Фармацевтическая технология .
- ^ Доусон, Роберт (1 июля 2011 г.). «Насколько значителен выброс коробчатой диаграммы?» . Журнал статистического образования . 19 (2). дои : 10.1080/10691898.2011.11889610 .
- ^ «Как использовать функцию Excel КВАРТИЛЬ | Exceljet» . Exceljet.net . Проверено 11 декабря 2019 г.
- ^ «Квантили набора данных – квантиль MATLAB» . www.mathworks.com . Проверено 11 декабря 2019 г.
Внешние ссылки
[ редактировать ]- Квартиль – из MathWorld. Включает ссылки и сравнивает различные методы вычисления квартилей.
- Квартили – с сайта MathForum.org.
- Калькулятор квартилей – простой калькулятор квартилей
- Квартили – пример, как их рассчитать
- Калькулятор квартилей – онлайн-калькулятор квартилей и межквартильных размахов