Jump to content

Квантиль

(Перенаправлено с Квантилей )
Плотность вероятности нормального распределения с показанными квантилями. Площадь под красной кривой одинакова в интервалах (−∞, Q 1 ) , ( Q 1 , Q 2 ) , ( Q 2 , Q 3 ) и ( Q 3 ,+∞) .

В статистике и вероятности диапазон квантили — это точки разреза, делящие распределения вероятностей на непрерывные интервалы с равными вероятностями или разделяющие наблюдения в выборке таким же образом. На один квантиль меньше, чем количество созданных групп. Общие квантили имеют специальные названия, такие как квартили (четыре группы), децили (десять групп) и процентили (100 групп). Созданные группы называются половинками, третями, четвертями и т. д., хотя иногда термины квантиля используются для созданных групп, а не для точек отсечения.

q - квантили — это значения, которые делят конечное множество значений на q подмножеств (почти) равных размеров. Существует q - 1 разделов q -квантилей, по одному для каждого целого числа k, удовлетворяющего условию 0 < k < q . В некоторых случаях значение квантиля не может быть определено однозначно, как это может быть в случае медианы ( 2-квантиля) равномерного распределения вероятностей на наборе четного размера. Квантили также можно применять к непрерывным распределениям, предоставляя возможность обобщить ранговую статистику на непрерывные переменные (см. процентильный ранг ). Когда кумулятивная функция распределения известна случайной величины , q -квантили представляют собой применение функции квантиля ( обратной функции кумулятивной функции распределения ) к значениям {1/ q , 2/ q , …, ( q − 1)/ q }.

Квантили популяции

[ редактировать ]

Как и при вычислении, например, стандартного отклонения , оценка квантиля зависит от того, оперируете ли вы со статистической совокупностью или с выборкой, полученной из нее. Для популяции с дискретными значениями или для непрерывной плотности населения k - й q -квантиль представляет собой значение данных, при котором кумулятивная функция распределения пересекает k / q . То есть x является k q -квантилем переменной X, если

Pr[ X < x ] ≤ k / q или, что то же самое, Pr[ X x ] ≥ 1 − k / q

и

Пр x] ≥ k/q[

Для конечной популяции из N равновероятных значений, пронумерованных 1, …, N от наименьшего к наибольшему, k q -квантиль этой совокупности может быть эквивалентно вычислен через значение I p = N k / q . Если I p не является целым числом, округляем до следующего целого числа, чтобы получить соответствующий индекс; соответствующее значение данных представляет собой k q -квантиль. С другой стороны, если I p — целое число, то любое число от значения данных в этом индексе до значения данных следующего индекса может быть принято в качестве квантиля, и общепринято (хотя и произвольно) брать среднее значение этих чисел. два значения (см. Оценка квантилей по выборке ).

Если вместо использования целых чисел k и q « p -квантиль» основан на действительном числе p с 0 < p <1 , тогда p заменяет k / q в приведенных выше формулах. Эта более широкая терминология используется, когда квантили используются для параметризации непрерывных распределений вероятностей . Более того, некоторые программы (включая Microsoft Excel ) рассматривают минимум и максимум как 0-й и 100-й процентиль соответственно. Однако эта более широкая терминология выходит за рамки традиционных статистических определений.

В следующих двух примерах используется определение квантиля ближайшего ранга с округлением. Объяснение этого определения см. в разделе «Процентили» .

Равномерное население

[ редактировать ]

Рассмотрим упорядоченную совокупность из 10 значений данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Квартиль Расчет Результат
Нулевой квартиль Хотя это и не является общепринятым, можно также говорить о нулевом квартиле. Это минимальное значение набора, поэтому нулевой квартиль в этом примере будет равен 3. 3
Первый квартиль Ранг первого квартиля равен 10×(1/4) = 2,5, что округляется до 3, что означает, что 3 — это ранг в совокупности (от наименьшего к наибольшему значениям), при котором примерно 1/4 значений меньше чем значение первого квартиля. Третье значение в популяции — 7. 7
Второй квартиль Ранг второго квартиля (тот же, что и медиана) равен 10×(2/4) = 5, что является целым числом, а количество значений (10) является четным числом, поэтому среднее значение как пятого, так и шестого квартиля принимаются значения — то есть (8+10)/2 = 9, хотя любое значение от 8 до 10 можно принять за медиану. 9
Третий квартиль Ранг третьего квартиля равен 10×(3/4) = 7,5, что округляется до 8. Восьмое значение в совокупности равно 15. 15
Четвертый квартиль Хотя это и не является общепринятым, можно также говорить о четвертом квартиле. Это максимальное значение набора, поэтому четвертый квартиль в этом примере будет равен 20. В соответствии с определением квантиля ближайшего ранга ранг четвертого квартиля является рангом самого большого числа, поэтому ранг четвертого квартиля будет быть 10. 20

Таким образом, первый, второй и третий 4-квантили («квартили») набора данных [3, 6, 7, 8, 8, 10, 13, 15, 16, 20] равны [7, 9, 15]. Если также необходимо, нулевой квартиль равен 3, а четвертый квартиль — 20.

Население странного размера

[ редактировать ]

Рассмотрим упорядоченную совокупность из 11 значений данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20]. Каковы 4-квантили («квартили») этого набора данных?

Квартиль Расчет Результат
Нулевой квартиль Хотя это и не является общепринятым, можно также говорить о нулевом квартиле. Это минимальное значение набора, поэтому нулевой квартиль в этом примере будет равен 3. 3
Первый квартиль Первый квартиль определяется как 11×(1/4) = 2,75, которое округляется до 3, что означает, что 3 — это ранг в совокупности (от наименьшего к наибольшему значениям), при котором примерно 1/4 значений меньше, чем значение первого квартиля. Третье значение в популяции — 7. 7
Второй квартиль Значение второго квартиля (то же, что и медиана) определяется как 11×(2/4) = 5,5, которое округляется до 6. Следовательно, 6 — это ранг в совокупности (от наименьшего к наибольшему значениям), при котором примерно 2/ 4 значения меньше значения второго квартиля (или медианы). Шестое значение в популяции — 9. 9
Третий квартиль Значение третьего квартиля для исходного примера, приведенного выше, определяется как 11×(3/4) = 8,25, что округляется до 9. Девятое значение в совокупности равно 15. 15
Четвертый квартиль Хотя это и не является общепринятым, можно также говорить о четвертом квартиле. Это максимальное значение набора, поэтому четвертый квартиль в этом примере будет равен 20. В соответствии с определением квантиля ближайшего ранга ранг четвертого квартиля является рангом самого большого числа, поэтому ранг четвертого квартиля будет быть 11. 20

Таким образом, первый, второй и третий 4-квантиль («квартили») набора данных [3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20] равны [7, 9, 15] . Если также необходимо, нулевой квартиль равен 3, а четвертый квартиль — 20.

Отношение к среднему значению

[ редактировать ]

Для любого распределения вероятностей совокупности для конечного числа значений и, как правило, для любого распределения вероятностей со средним значением и дисперсией, это тот случай, когда где Q(p) — значение p -квантиля для 0 < p <1 (или, что то же самое, — это k q -квантиль для p = k / q ), где μ распределения — среднее арифметическое , и где σ — распределения стандартное отклонение . [1] В частности, медиана ( p = k / q = 1/2) никогда не превышает одного стандартного отклонения от среднего значения.

Приведенную выше формулу можно использовать для оценки значения μ + в квантилях.Когда z ≥ 0 , значение, которое на z стандартных отклонений выше среднего, имеет нижнюю границу. Например, значение, которое на z = 1 стандартное отклонение выше среднего, всегда больше или равно Q ( p = 0,5) , медиане, а значение, которое на z = 2 стандартных отклонения выше среднего, всегда больше или равно. равен Q ( p = 0,8) , четвертый квинтиль.

Когда z ≤ 0 , вместо этого существует верхняя граница Например, значение µ + для z = −3 никогда не превысит Q ( p = 0,1) – первый дециль.

Оценка квантилей по выборке

[ редактировать ]

Одной из часто возникающих проблем является оценка квантиля (очень большой или бесконечной) популяции на основе конечной выборки N. размера

Современные статистические пакеты используют ряд методов оценки квантилей.

Гайндман и Фан составили таксономию девяти алгоритмов. [2] используется различными пакетами программного обеспечения. Все методы вычисляют Q p , оценку p -квантиля ( k -го q -квантиля, где p = k / q ) из выборки размера N путем вычисления вещественного индекса h . Когда h является целым числом, h -ое наименьшее из N значений x h является оценкой квантиля. используется схема округления или интерполяции В противном случае для вычисления квантильной оценки по h , x h и x h . (Обозначения см. в разделе «Функции пола и потолка» ).

индекс h, Первые три являются кусочно-постоянными и резко изменяются в каждой точке данных, а последние шесть используют линейную интерполяцию между точками данных и отличаются только тем, как выбирается используемый для выбора точки на кривой кусочно-линейной интерполяции.

Математика , [3] Матлаб , [4] Р [5] и GNU Октава [6] языки программирования поддерживают все девять примеров квантильных методов. SAS включает пять выборочных квантильных методов, SciPy [7] и клен [8] оба включают восемь, EViews [9] и Джулия [10] включают шесть кусочно-линейных функций Stata [11] включает два, Python [12] включает два, а Microsoft Excel включает два. Mathematica, SciPy и Julia поддерживают произвольные параметры для методов, которые допускают использование других, нестандартных методов.

Используемые типы оценок и схемы интерполяции включают:

Тип час Q п Примечания
Р‑1, САС‑3, Клен‑1 Например x h Обратная эмпирическая функция распределения .
Р‑2, САС‑5, Клен‑2, Стата Например , + 1/2 ( x h – 1/2⌉ + x h + 1/2⌋ ) / 2 То же, что Р-1, но с усреднением на разрывах.
Р‑3, САС‑2 Например , − 1/2 x h Наблюдение имело номер, наиболее близкий к Np . Здесь h указывает округление до ближайшего целого числа, выбирая четное целое число в случае ничьей .
R‑4, SAS‑1, SciPy‑(0,1), Julia‑(0,1), Maple‑3 Например Икс час + ( час - ⌊ час ⌋) ( Икс час - Икс час ) Линейная интерполяция обратной эмпирической функции распределения.
R‑5, SciPy‑(1/2,1/2), Джулия‑(1/2,1/2), Клен‑4 Например , + 1/2 Кусочно-линейная функция, где узлы представляют собой значения на полпути через шаги эмпирической функции распределения.
R‑6, Excel, Python, SAS‑4, SciPy‑(0,0), Julia-(0,0), Maple‑5, Stata‑altdef ( Н + 1) п Линейная интерполяция ожиданий статистики порядка для равномерного распределения на [0,1]. То есть, это линейная интерполяция между точками ( ph N , x h ) , где ph h = / ( N +1) — это вероятность того, что последнее из ( +1 ) случайно выбранных значений не превысит h — наименьшее из первых N случайно выбранных значений.
R‑7, Excel, Python, SciPy‑(1,1), Julia-(1,1), Maple‑6, NumPy ( N - 1) п + 1 Линейная интерполяция мод для статистики порядка для равномерного распределения на [0,1].
R‑8, SciPy‑(1/3,1/3), Джулия‑(1/3,1/3), Клен‑7 ( Н + 1/3) р + 1/3 Линейная интерполяция приблизительных медиан для статистики заказов.
R‑9, SciPy‑(3/8,3/8), Джулия‑(3/8,3/8), Клен‑8 ( Н + 1/4) р + 3/8 Полученные квантильные оценки приблизительно несмещены для статистики ожидаемого порядка, если x имеет нормальное распределение.

Примечания:

  • R-1–R-3 кусочно-постоянны с разрывами.
  • R-4 и последующие являются кусочно-линейными, без разрывов, но отличаются способом h . вычисления
  • R‑3 и R‑4 не симметричны в том смысле, что они не дают h = ( N + 1)/2 при p = 1/2 .
  • PERCENTILE.EXC в Excel и «эксклюзивный» метод Python по умолчанию эквивалентны R‑6.
  • ПРОЦЕНТИЛЬ и ПРОЦЕНТИЛЬ.INC Excel, а также дополнительный «инклюзивный» метод Python эквивалентны R-7. Это метод по умолчанию для R и Julia.
  • Пакеты различаются тем, как они оценивают квантили за пределами самых низких и самых высоких значений в выборке, т. е. p < 1/ N и p > ( N − 1)/ N . Возможные варианты включают возврат значения ошибки, вычисление линейной экстраполяции или принятие постоянного значения.

Из методов Гайндман и Фан рекомендуют R-8, но большинство пакетов статистического программного обеспечения в качестве метода по умолчанию выбирают R-6 или R-7. [13]

Стандартную ошибку квантильной оценки, как правило, можно оценить с помощью бутстрапа . Также можно использовать метод Марица-Джаррета. [14]

Асимптотическое распределение выборочной медианы

[ редактировать ]

Медиана выборки является наиболее изученной среди квантилей и является альтернативой оценке параметра местоположения, когда ожидаемое значение распределения не существует и, следовательно, среднее значение выборки не является значимой оценкой характеристики совокупности. Более того, выборочная медиана является более надежной оценкой, чем выборочное среднее.

Одной из особенностей выборочной медианы является ее асимптотическое распределение: когда выборка имеет непрерывное распределение, тогда выборочная медиана имеет ожидаемое нормальное асимптотическое распределение:

Это распространяется и на другие квантили,

где f ( xp p ) — значение плотности распределения в квантиле населения ( ). [15]

Но когда распределение дискретно, тогда распределение выборочной медианы и других квантилей не может быть нормальным (см. примеры в https://stats.stackexchange.com/a/86638/28746 ).

Решением этой проблемы является использование альтернативного определения квантилей выборки с помощью концепции функции «среднего распределения», которая определяется как

Определение выборочных квантилей с помощью концепции функции среднего распределения можно рассматривать как обобщение, которое может охватывать в качестве особых случаев непрерывные распределения. Для дискретных распределений выборочная медиана, определенная с помощью этой концепции, имеет асимптотически нормальное распределение, см. Ma, Y., Genton, MG и Parzen, E. (2011). Асимптотические свойства выборочных квантилей дискретных распределений. Анналы Института статистической математики, 63(2), 227–243.

Приблизительные квантили из потока

[ редактировать ]

Вычисление приблизительных квантилей на основе данных, поступающих из потока, может быть эффективно выполнено с использованием сжатых структур данных. Наиболее популярные методы — t-digest. [16] и КЛЛ. [17] Эти методы считывают поток значений непрерывно, и в любой момент можно запросить приблизительное значение указанного квантиля.

Оба алгоритма основаны на схожей идее: сжатии потока значений путем суммирования идентичных или похожих значений с учетом веса. Если поток состоит из повторений 100 раз v1 и 100 раз v2, нет смысла хранить отсортированный список из 200 элементов, достаточно сохранить два элемента и два счетчика, чтобы иметь возможность восстановить квантили. При большем количестве значений эти алгоритмы поддерживают компромисс между количеством хранимых уникальных значений и точностью результирующих квантилей. Некоторые значения могут быть исключены из потока и добавлены к весу соседнего значения без слишком сильного изменения результатов квантиля. T-дайджест поддерживает структуру данных ограниченного размера, используя подход, основанный на кластеризации k -средних для группировки схожих значений. Алгоритм KLL использует более сложный метод «компактора», который приводит к лучшему контролю границ ошибок за счет требования неограниченного размера, если ошибки должны быть ограничены относительно p .

Оба метода принадлежат к семейству эскизов данных , которые являются подмножествами алгоритмов потоковой передачи с полезными свойствами: эскизы t-digest или KLL можно комбинировать. Вычисление эскиза для очень большого вектора значений можно разделить на тривиально параллельные процессы, в которых эскизы вычисляются для разделов вектора параллельно и позже объединяются.

Обсуждение

[ редактировать ]

Например, результаты стандартизированных тестов обычно указываются как баллы учащихся «в 80-м процентиле». Здесь используется альтернативное значение слова «процентиль» как интервал между (в данном случае) 80-м и 81-м скалярным процентилем. [18] Это отдельное значение процентиля также используется в рецензируемых научных статьях. [19] Используемое значение может быть получено из контекста.

Если распределение симметрично, то медиана — это среднее значение (при условии, что последнее существует). Но в целом медиана и среднее значение могут различаться. Например, для случайной величины, имеющей экспоненциальное распределение , любая конкретная выборка этой случайной величины будет иметь примерно 63% вероятность оказаться меньше среднего значения. Это связано с тем, что экспоненциальное распределение имеет длинный хвост для положительных значений и равен нулю для отрицательных чисел.

Квантили являются полезными мерами, поскольку они менее восприимчивы, чем средние значения, к распределениям с длинным хвостом и выбросам. Эмпирически, если анализируемые данные на самом деле не распределены в соответствии с предполагаемым распределением или если существуют другие потенциальные источники выбросов, которые далеки от среднего значения, то квантили могут быть более полезной описательной статистикой, чем средние значения и другие статистические данные, связанные с моментами. .

Тесно связан вопрос наименьших абсолютных отклонений — метод регрессии, который более устойчив к выбросам, чем метод наименьших квадратов, в котором вместо квадрата ошибки используется сумма абсолютных значений наблюдаемых ошибок. Связь заключается в том, что среднее значение — это единственная оценка распределения, которая минимизирует ожидаемую квадратичную ошибку, в то время как медиана минимизирует ожидаемую абсолютную ошибку. Наименьшие абсолютные отклонения обладают способностью быть относительно нечувствительными к большим отклонениям в отдаленных наблюдениях, хотя еще более эффективные методы устойчивой регрессии доступны .

Квантили случайной величины сохраняются при возрастающих преобразованиях в том смысле, что, например, если m — медиана случайной величины X , то 2 м это медиана 2 Х , если только не был сделан произвольный выбор из диапазона значений для указания конкретного квантиля. (Примеры такой интерполяции см. выше в квантильной оценке.) Квантили также можно использовать в тех случаях, когда только порядковые доступны данные.

Другие количественные оценки

[ редактировать ]

Значения, которые делят отсортированные данные на равные подмножества, отличные от четырех, имеют разные имена.

См. также

[ редактировать ]
  1. ^ Баги, С.; Бхаумик, Д. (2004). «Взгляд на неравенства в вероятности и статистике» (PDF) . Международный журнал статистических наук . 3 :9–15. ISSN   1683-5603 . Архивировано из оригинала (PDF) 12 августа 2021 г. Проверено 12 августа 2021 г.
  2. ^ Гайндман, Роб Дж .; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . 50 (4). Американская статистическая ассоциация: 361–365. дои : 10.2307/2684934 . JSTOR   2684934 .
  3. ^ Документация Mathematica. См. раздел «Подробности».
  4. ^ «Квантильный расчет» . uk.mathworks.com .
  5. ^ Фроне, Иван; Гайндман, Роб Дж. (2009). Примеры квантилей . Р-проект. ISBN  978-3-900051-07-5 .
  6. ^ «Справочник по функциям: квантиль – Octave-Forge – SourceForge» . Проверено 6 сентября 2013 г.
  7. ^ «scipy.stats.mstats.mquantiles — Справочное руководство SciPy v1.4.1» . docs.scipy.org .
  8. ^ «Статистика – Помощь по программированию на Maple» . www.maplesoft.com .
  9. ^ «Справка по EViews 9» . Архивировано из оригинала 16 апреля 2016 года . Проверено 4 апреля 2016 г.
  10. ^ «Статистика – Документация Юлии» . Проверено 17 июня 2023 г.
  11. ^ Документация по Stata для команд pctile и xtile. См. раздел «Методы и формулы».
  12. ^ «статистика — Функции математической статистики — документация Python 3.8.3rc1» . docs.python.org .
  13. ^ Гайндман, Роб Дж. (28 марта 2016 г.). «Выборочные квантили 20 лет спустя» . Блог Hyndsignt . Проверено 30 ноября 2020 г.
  14. ^ Уилкокс, Рэнд Р. (2010). Введение в робастную оценку и проверку гипотез . Академическая пресса. ISBN  978-0-12-751542-7 .
  15. ^ Стюарт, Алан; Орд, Кейт (1994). Продвинутая теория статистики Кендалла . Лондон: Арнольд. ISBN  0340614307 .
  16. ^ Даннинг, Тед; Эртль, Отмар (февраль 2019 г.). «Вычисление чрезвычайно точных квантилей с использованием t-дайджестов». arXiv : 1902.04023 [ stat.CO ].
  17. ^ Зохар Карнин; Кевин Лэнг; Эдо Либерти (2016). «Оптимальное квантильное приближение в потоках». arXiv : 1603.05346 [ cs.DS ].
  18. ^ «процентиль» . Оксфордский справочник . Проверено 17 августа 2020 г.
  19. ^ Крюгер, Дж.; Даннинг, Д. (декабрь 1999 г.). «Неквалифицированный и не осознающий этого: как трудности с признанием собственной некомпетентности приводят к завышенным самооценкам» . Журнал личности и социальной психологии . 77 (6): 1121–1134. дои : 10.1037/0022-3514.77.6.1121 . ISSN   0022-3514 . ПМИД   10626367 . S2CID   2109278 .
  20. ^ Уокер, Хелен Мэри; Лев, Джозеф (1969). Элементарные статистические методы . Холт, Райнхарт и Уинстон. ISBN  978-0-03-081130-2 .
  21. ^ Стивен Б. Вардеман (1992). «А как насчет других интервалов?». Американский статистик . 46 (3): 193–197. дои : 10.2307/2685212 . JSTOR   2685212 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 24b86f952b7246c0f017e44a240080d5__1715955960
URL1:https://arc.ask3.ru/arc/aa/24/d5/24b86f952b7246c0f017e44a240080d5.html
Заголовок, (Title) документа по адресу, URL1:
Quantile - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)