Jump to content

Квартиль

В статистике квартили это тип квантилей , которые делят количество точек данных на четыре части или четверти более или менее одинакового размера. Для расчета квартилей данные должны быть упорядочены от наименьшего к наибольшему; как таковые, квартили представляют собой форму порядковой статистики . Три квартиля, приводящие к четырем делениям данных, выглядят следующим образом:

  • Первый квартиль ( Q 1 ) определяется как 25-й процентиль , где самые низкие 25% данных находятся ниже этой точки. Его также называют нижним квартилем.
  • Второй квартиль ( Q 2 ) — это медиана набора данных; таким образом, 50% данных лежат ниже этой точки.
  • Третий квартиль ( Q 3 ) — это 75-й процентиль, где самые низкие 75% данных находятся ниже этой точки. Он известен как верхний квартиль, поскольку 75% данных находятся ниже этой точки. [1]

Наряду с минимумом и максимумом данных (которые также являются квартилями), три квартиля, описанные выше, представляют собой пятизначную сводку данных. Это резюме важно в статистике, поскольку оно предоставляет информацию как о центре , так и о распространении данных. Знание нижнего и верхнего квартиля дает информацию о том, насколько велик разброс и смещен ли набор данных в одну сторону. Поскольку квартили делят количество точек данных поровну, диапазон между соседними квартилями обычно неодинаков (т.е. обычно ( Q 3 - Q 2 ) ≠ ( Q 2 - Q 1 )). Межквартильный размах (IQR) определяется как разница между 75-м и 25-м процентилями или Q 3 - Q 1 . Хотя максимум и минимум также показывают разброс данных, верхний и нижний квартиль могут предоставить более подробную информацию о расположении конкретных точек данных, наличии выбросов в данных и разнице в разбросе между средними 50% данные и внешние точки данных. [2]

Определения

[ редактировать ]
Boxplot (с квартилями и межквартильным диапазоном ) и функция плотности вероятности (pdf) нормального N(0,1σ 2 ) население
Символ Имена Определение
Вопрос 1
Отделяет самые низкие 25% данных от самых высоких 75%
QQ2
Сокращает набор данных вдвое
Q 3
  • Третий квартиль
  • Верхний квартиль
  • 75-й процентиль
Отделяет самые высокие 25% данных от самых низких 75%

Вычислительные методы

[ редактировать ]

Дискретные распределения

[ редактировать ]

Для дискретных распределений не существует универсального соглашения о выборе значений квартилей. [3]

  1. Используйте медиану , чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
    • Если в исходном упорядоченном наборе данных нечетное количество точек данных, не включайте медиану (центральное значение в упорядоченном списке) ни в одну половину.
    • Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
  2. Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.

Это правило используется TI-83 калькулятора коробчатой ​​диаграммой и функциями «1-Var Stats».

  1. Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
    • Если в исходном упорядоченном наборе данных нечетное количество точек данных, включите медиану (центральное значение в упорядоченном списке) в обе половины.
    • Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
  2. Значение нижнего квартиля представляет собой медиану нижней половины данных. Значение верхнего квартиля представляет собой медиану верхней половины данных.

Значения, найденные этим методом, также известны как « Тьюки »; петли [4] см. также средний шарнир .

  1. Используйте медиану, чтобы разделить упорядоченный набор данных на две половины. Медиана становится вторым квартилем.
    1. Если имеется нечетное количество точек данных, перейдите к следующему шагу.
    2. Если имеется четное количество точек данных, то метод 3 начинается так же, как метод 1 или метод 2, описанный выше, и вы можете включить или не включать медиану в качестве новой точки данных. Если вы решите включить медиану в качестве новой точки данных, перейдите к шагу 2 или 3 ниже, поскольку теперь у вас есть нечетное количество точек данных. Если вы не выберете медиану в качестве новой точки данных, продолжайте использовать метод 1 или 2, с которого вы начали.
  2. Если имеется (4 n +1) точек данных, то нижний квартиль составляет 25 % n- го значения данных плюс 75 % ( n +1)-го значения данных; верхний квартиль составляет 75% (3 n +1)-й точки данных плюс 25% (3 n +2)-й точки данных.
  3. Если имеется (4 n +3) точек данных, то нижний квартиль составляет 75 % ( n +1)-го значения данных плюс 25 % ( n +2)-го значения данных; верхний квартиль составляет 25% (3 n +2)-й точки данных плюс 75% (3 n +3)-й точки данных.

Если у нас есть упорядоченный набор данных , то мы можем интерполировать между точками данных, чтобы найти эмпирический квантиль, если находится в квантиль. Если обозначить целую часть числа к , то эмпирическая функция квантиля определяется выражением:

,

где и . [1]

Чтобы найти первый, второй и третий квартиль набора данных, мы должны оценить , , и соответственно.

Упорядоченный набор данных (из нечетного числа точек данных): 6, 7, 15, 36, 39, 40 , 41, 42, 43, 47, 49.

Жирное число (40) — это медиана, разделяющая набор данных на две половины с равным количеством точек данных.

Способ 1 Способ 2 Способ 3 Способ 4
Вопрос 1 15 25.5 20.25 15
QQ2 40 40 40 40
Q 3 43 42.5 42.75 43

Упорядоченный набор данных (из четного числа точек данных): 7, 15, 36, 39 , 40, 41.

Цифры, выделенные жирным шрифтом (36, 39), используются для расчета медианы как их среднего значения. Поскольку имеется четное количество точек данных, первые три метода дают одинаковые результаты. (Метод 3 выполняется таким образом, что медиана не выбирается в качестве новой точки данных и запускается метод 1.)

Способ 1 Способ 2 Способ 3 Способ 4
Вопрос 1 15 15 15 13
QQ2 37.5 37.5 37.5 37.5
Q 3 40 40 40 40.25

Непрерывные распределения вероятностей

[ редактировать ]
Квартили кумулятивной функции распределения нормального распределения

Если мы определим непрерывное распределение вероятностей как где является вещественной случайной величиной , ее кумулятивная функция распределения (CDF) определяется выражением

. [1]

CDF величина дает вероятность того, что случайная меньше или равно значению . Следовательно, первый квартиль — это значение когда , второй квартиль когда , а третий квартиль когда . [5] Значения можно найти с помощью функции квантиля где для первого квартиля, для второго квартиля и для третьего квартиля. Функция квантиля является обратной функцией кумулятивной функции распределения, если кумулятивная функция распределения монотонно возрастает , поскольку сохраняется взаимно однозначное соответствие между входными и выходными данными кумулятивной функции распределения.

Существуют методы проверки выбросов в области статистики и статистического анализа. Выбросы могут быть результатом изменения местоположения (среднего значения) или масштаба (изменчивости) интересующего процесса. [6] Выбросы также могут свидетельствовать о том, что выборочная совокупность имеет ненормальное распределение или о загрязненном наборе данных о совокупности. Следовательно, в соответствии с основной идеей описательной статистики , при обнаружении выброса мы должны объяснить это значение путем дальнейшего анализа причины или происхождения выброса. В случаях экстремальных наблюдений, которые являются нередким явлением, необходимо анализировать типичные значения. Межквартильный размах (IQR), определяемый как разница между верхним и нижним квартилем ( ), может использоваться для характеристики данных, когда могут быть крайности, которые искажают данные; Межквартильный размах представляет собой относительно надежный статистический показатель (также иногда называемый «сопротивлением») по сравнению с размахом и стандартным отклонением . Существует также математический метод проверки выбросов и определения «заборов», верхних и нижних пределов, от которых можно проверять выбросы.

После определения первого (нижнего) и третьего (верхнего) квартилей ( и соответственно) и межквартильный размах ( ), как указано выше, тогда ограждения рассчитываются по следующей формуле:

Диаграмма Boxplot с выбросами

Нижний предел — это «нижний предел», а верхний — «верхний предел» данных, и любые данные, лежащие за пределами этих определенных границ, могут считаться выбросами. Ограждения служат ориентиром для определения выброса , который можно определить другими способами. Ограждения определяют «диапазон», за пределами которого существует выброс; способ представить это - граница забора. Нижние и верхние границы вместе с выбросами обычно представляются в виде коробчатой ​​диаграммы . Для коробчатой ​​диаграммы, показанной справа, только вертикальная высота соответствует визуализируемому набору данных, тогда как горизонтальная ширина коробки не имеет значения. Выбросы, расположенные за пределами границ на коробчатой ​​диаграмме, можно пометить любым символом, например «x» или «o». Заборы иногда также называют «усами», а весь визуальный сюжет называется сюжетом «коробка с усами».

При обнаружении выброса в наборе данных путем расчета межквартильных размахов и особенностей коробчатой ​​диаграммы можно легко ошибочно рассматривать его как свидетельство того, что популяция ненормальна или что выборка загрязнена. Однако этот метод не должен заменять проверку гипотезы для определения нормальности популяции. Значимость выбросов варьируется в зависимости от размера выборки. Если выборка небольшая, то более вероятно получить нерепрезентативно малые межквартильные размахи, что приведет к более узким границам. Следовательно, с большей вероятностью будут найдены данные, помеченные как выбросы. [7]

Компьютерная программа для квартилей

[ редактировать ]
Среда Функция Квартильный метод
Microsoft Excel КВАРТИЛЬ.ИСКЛ. Способ 4
Microsoft Excel QUARTILE.INC Способ 3
Калькуляторы серии TI-8X 1-Где статистика Способ 1
Р пять цифр Способ 2
Питон numpy.percentile Способ 3
Питон pandas.DataFrame.describe Способ 3

Функция Excel КВАРТИЛЬ(массив, кварт) предоставляет желаемое значение квартиля для данного массива данных, используя метод 3, описанный выше. В функции КВАРТИЛЬ (устаревшая функция из Excel 2007 или более ранней версии, дающая тот же результат, что и функция КВАРТИЛЬ.ВКЛ .), массив — это анализируемый набор чисел, а кварт — любое из следующих 5 значений в зависимости от того, какой квартиль является рассчитывается. [8]

Кварта Выходное значение КВАРТИЛЬ
0 Минимальное значение
1 Нижний квартиль (25-й процентиль)
2 медиана
3 Верхний квартиль (75-й процентиль)
4 Максимальное значение

Для расчета квартилей в Matlab функцию квантиль ( A , p можно использовать ). Где A — вектор анализируемых данных, а p — процент, относящийся к квартилям, как указано ниже. [9]

п Выходное значение КВАРТИЛЬ
0 Минимальное значение
0.25 Нижний квартиль (25-й процентиль)
0.5 медиана
0.75 Верхний квартиль (75-й процентиль)
1 Максимальное значение

См. также

[ редактировать ]
  1. ^ Jump up to: а б с Деккинг, Мишель (2005). Современное введение в вероятность и статистику: понимание почему и как . Лондон: Спрингер. стр. 236-238 . ISBN  978-1-85233-896-1 . OCLC   262680588 .
  2. ^ Кнох, Джессика (23 февраля 2018 г.). «Как квартили используются в статистике?» . Магуш . Архивировано из оригинала 10 декабря 2019 года . Проверено 24 февраля 2023 г.
  3. ^ Гайндман, Роб Дж ; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . 50 (4): 361–365. дои : 10.2307/2684934 . JSTOR   2684934 .
  4. ^ Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных . ISBN  978-0-201-07616-5 .
  5. ^ «6. Функции распределения и квантиля» (PDF) . math.bme.hu .
  6. ^ Уолфиш, Стивен (ноябрь 2006 г.). «Обзор метода статистических выбросов» . Фармацевтическая технология .
  7. ^ Доусон, Роберт (1 июля 2011 г.). «Насколько значителен выброс коробчатой ​​диаграммы?» . Журнал статистического образования . 19 (2). дои : 10.1080/10691898.2011.11889610 .
  8. ^ «Как использовать функцию Excel КВАРТИЛЬ | Exceljet» . Exceljet.net . Проверено 11 декабря 2019 г.
  9. ^ «Квантили набора данных – квантиль MATLAB» . www.mathworks.com . Проверено 11 декабря 2019 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1031c22b218d90d6555dadd05b6cb872__1720055040
URL1:https://arc.ask3.ru/arc/aa/10/72/1031c22b218d90d6555dadd05b6cb872.html
Заголовок, (Title) документа по адресу, URL1:
Quartile - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)