Jump to content

процентиль

(Перенаправлено с Процентилей )

В статистике k процентиль , также известный как процентиль или центиль , представляет собой балл , ниже которого падает заданный процент k баллов в его частотном распределении исключительное » определение), или балл, на котором или ниже падает данный процент. (« инклюзивное » определение). Процентили выражаются в тех же единицах измерения, что и входные оценки, а не в процентах ; например, если баллы относятся к весу человека , соответствующие процентили будут выражены в килограммах или фунтах.В пределе бесконечного размера выборки процентиль аппроксимирует функцию процентиля , обратную кумулятивной функции распределения .

Процентили — это разновидность квантилей , получаемых путем разделения на 100 групп.25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль как медиана или второй квартиль ( Q 2 ), а 75-й процентиль как третий квартиль ( Q 3 ).Например, 50-й процентиль (медиана) — это оценка ниже (или на уровне или ниже , в зависимости от определения), которой соответствует 50% оценок в распределении.

Соответствующей величиной является процентильный ранг оценки, выраженный в процентах , который представляет собой долю оценок в его распределении, меньших ее (исключительное определение).Процентильные оценки и процентильные ранги часто используются при составлении отчетов о результатах тестов , соответствующих нормам , но, как только что отмечалось, они не одно и то же. Для процентильных рангов дается балл и вычисляется процент. Процентильные ранги являются исключительными: если процентильный ранг для определенного балла составляет 90%, то 90% баллов были ниже. Напротив, для процентилей указывается процент и определяется соответствующая оценка, которая может быть как исключающей, так и инклюзивной. Оценка для определенного процента (например, 90-е место) указывает оценку, ниже которой (исключительное определение) или на уровне или ниже которого (инклюзивное определение) находятся другие оценки в распределении.

Определения

[ редактировать ]

Стандартного определения процентиля не существует; [1] [2] [3] однако все определения дают схожие результаты, когда количество наблюдений очень велико и распределение вероятностей непрерывно. [4] В пределе, когда размер выборки приближается к бесконечности, 100 p й процентиль (0< p <1) аппроксимирует обратную величину сформированной таким образом кумулятивной функции распределения (CDF), оцениваемой при p , поскольку p аппроксимирует CDF. Это можно рассматривать как следствие теоремы Гливенко – Кантелли . Некоторые методы расчета процентилей приведены ниже.

Нормальное распределение и процентили

[ редактировать ]
Представление правила трех сигм . Темно-синяя зона представляет наблюдения в пределах одного стандартного отклонения (σ) по обе стороны от среднего значения (μ), что составляет около 68,3% населения. Два стандартных отклонения от среднего значения (темно- и средне-синий) составляют около 95,4%, а три стандартных отклонения (темно-средний и светло-синий) — около 99,7%.

Методы, приведенные в разделе «Методы расчета» (ниже), представляют собой приближения для использования в статистике малой выборки. В общих чертах, для очень больших групп населения, имеющих нормальное распределение , процентили часто могут быть представлены с помощью графика нормальной кривой. Нормальное распределение строится вдоль оси, масштабированной до стандартных отклонений или сигмы ( ) единицы. Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Однако обратите внимание, что лишь очень небольшая часть особей в популяции выйдет за пределы диапазона от -3 σ до +3 σ . Например, при росте человека очень немногие люди имеют выше +3 σ высоту .

Процентили представляют собой площадь под нормальной кривой, увеличивающуюся слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух десятичных знаков, −3 σ — 0,13-й процентиль, −2 σ — 2,28-й процентиль, −1 σ — 15,87-й процентиль, 0 σ — 50-й процентиль (как среднее, так и медиана распределения), + 1 σ — 84,13-й процентиль, +2 σ — 97,72-й процентиль и +3 σ — 99,87-й процентиль. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль приходится на отрицательную бесконечность, а 100-й процентиль на положительную бесконечность, хотя во многих практических приложениях, таких как результаты испытаний, применяются естественные нижние и/или верхние пределы.

Приложения

[ редактировать ]

Когда интернет-провайдеры выставляют счета за «повышенную» пропускную способность Интернета , 95-й или 98-й процентиль обычно отсекают верхние 5% или 2% пиковой пропускной способности каждого месяца, а затем выставляют счета по ближайшему тарифу. Таким образом, нечастые пики игнорируются, и с клиента взимается более справедливая плата. Причина, по которой эта статистика настолько полезна при измерении пропускной способности данных, заключается в том, что она дает очень точную картину стоимости полосы пропускания. 95-й процентиль говорит, что в 95 % случаев использование ниже этого значения: следовательно, в оставшиеся 5 % времени использование превышает это значение.

Врачи часто используют вес и рост младенцев и детей для оценки их роста по сравнению со средними показателями по стране и процентилями, которые можно найти в диаграммах роста .

Скорость движения на дороге, составляющая 85-й процентиль, часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такой предел слишком высоким или низким. [5] [6]

В финансах стоимость под риском — это стандартная мера для оценки (в зависимости от модели) величины, ниже которой ожидается, что стоимость портфеля не упадет в течение заданного периода времени и с учетом доверительного значения.

Методы расчета

[ редактировать ]
Interpolated and nearest-rank, exclusive and inclusive, percentiles for 10-score distribution
Интерполированные и ближайшего ранга, исключительные и инклюзивные, процентили для распределения по 10 баллам

Существует множество формул и алгоритмов. [7] для процентильного балла. Гайндман и Фан [1] идентифицировано девять, и большинство статистических программ и программ для работы с электронными таблицами используют один из описанных ими методов. [8] Алгоритмы либо возвращают значение оценки, которая существует в наборе оценок (методы ближайшего ранга), либо интерполируют между существующими оценками и являются либо исключающими, либо инклюзивными.

Методы ближайшего ранга (исключающий/включающий)
ПК: указан процентиль 0.10 0.25 0.50 0.75 0.90
N: количество баллов 10 10 10 10 10
ИЛИ: порядковый номер = PC × N 1 2.5 5 7.5 9
Ранг: >ИЛИ / ≥ИЛИ 2/1 3/3 6/5 8/8 10/9
Оценка по рангу (искл./вкл.) 2/1 3/3 4/3 5/5 7/5

На рисунке показано распределение по 10 баллам, иллюстрируются процентильные оценки, полученные в результате этих различных алгоритмов, и служит введением к примерам, приведенным далее. Самыми простыми являются методы ближайшего ранга, которые возвращают оценку из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. В таблице «Методы ближайшего ранга» показаны этапы вычислений для исключающих и инклюзивных методов.

Интерполированные методы (исключающие/инклюзивные)
ПК: указан процентиль 0.10 0.25 0.50 0.75 0.90
N: количество баллов 10 10 10 10 10
ИЛИ: ПК×(N+1) / ПК×(N-1)+1 1.1/1.9 2.75/3.25 5.5/5.5 8.25/7.75 9.9/9.1
LoRank: ИЛИ усечено 1/1 2/3 5/5 8/7 9/9
HIRank: ИЛИ округляется в большую сторону 2/2 3/4 6/6 9/8 10/10
LoScore: оценка на LoRank 1/1 2/3 3/3 5/4 5/5
HiScore: оценка на HiRank 2/2 3/3 4/4 5/5 7/7
Разница: HiScore − LoScore 1/1 1/0 1/1 0/1 2/2
Мод: дробная часть OR 0.1/0.9 0.75/0.25 0.5/0.5 0.25/0.75 0.9/0.1
Интерполированный балл (искл./вкл.)
= LoScore + Mod × Разница
1.1/1.9 2.75/3 3.5/3.5 5/4.75 6.8/5.2

Методы интерполяции, как следует из названия, могут возвращать оценку, находящуюся между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например функции Percentile.exc и Percentile.inc в Microsoft Excel. В таблице «Интерполированные методы» показаны этапы вычислений.

Метод ближайшего ранга

[ редактировать ]
Значения процентиля для упорядоченного списка {15, 20, 35, 40, 50}

Одно из определений процентиля, часто даваемое в текстах, состоит в том, что P -й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) — это наименьшее значение в списке, такое, что не более P процентов данных строго меньше значения и по крайней мере P процентов данных меньше или равно до этого значения. Это получается путем сначала вычисления порядкового ранга, а затем взятия значения из упорядоченного списка, соответствующего этому рангу. Порядковый n ранг формуле рассчитывается по этой

  • Использование метода ближайшего ранга в списках, содержащих менее 100 различных значений, может привести к тому, что одно и то же значение будет использоваться более чем для одного процентиля.
  • Процентиль, рассчитанный с использованием метода ближайшего ранга, всегда будет членом исходного упорядоченного списка.
  • 100-й процентиль определяется как наибольшее значение в упорядоченном списке.

Метод линейной интерполяции между ближайшими рангами

[ редактировать ]

Альтернативой округлению, используемому во многих приложениях, является использование линейной интерполяции между соседними рангами.

Все следующие варианты имеют следующее общее. Учитывая статистику заказов

мы ищем линейную интерполяционную функцию, проходящую через точки . Это достигается просто

где использует функцию пола для представления целой части положительного x , тогда как использует функцию mod для представления своей дробной части (остатка после деления на 1). (Обратите внимание, что хотя в конечной точке , не определено, это не обязательно, потому что оно умножается на .) Как мы видим, x — это непрерывная версия индекса i , линейно интерполирующая v между соседними узлами.

Вариантные подходы различаются двумя способами. Первый заключается в линейной зависимости между рангом x и процентным рангом. и константа, которая является функцией размера выборки N :

Существует дополнительное требование, чтобы средняя точка диапазона , соответствующие медиане , происходят при :

и наша пересмотренная функция теперь имеет только одну степень свободы и выглядит так:

Второе различие между вариантами заключается в определении функции вблизи границ диапазон р : должен производить или быть вынужден производить результат в диапазоне , что может означать отсутствие взаимно однозначного соответствия в более широком регионе. Один автор предложил выбрать где ξ — форма обобщенного распределения экстремальных значений , которое является пределом экстремальных значений выборочного распределения.

Первый вариант, С = 1/2

[ редактировать ]
Результат использования каждого из трех вариантов в упорядоченном списке {15, 20, 35, 40, 50}

(Источники: функция «prctile» Matlab, [9] [10] )

где

Кроме того, пусть

Обратная зависимость ограничена более узкой областью:

Второй вариант, C = 1

[ редактировать ]

[Источник: некоторые пакеты программного обеспечения, включая NumPy. [11] и Microsoft Excel [3] (до версии 2013 включительно с помощью функции ПРОЦЕНТИЛЬ.ВКЛ). Отмечен как альтернатива NIST . [8] ]

Обратите внимание, что отношения один к одному для , единственный из трех вариантов с этим свойством; отсюда и суффикс «INC», обозначающий «включительно» , в функции Excel.

Третий вариант, С = 0

[ редактировать ]

(Основной вариант, рекомендованный NIST . [8] Принято Microsoft Excel с 2010 года с помощью функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т.е. , тогда как версия «INC», второй вариант, этого не делает; фактически, любое число меньше также исключено и приведет к ошибке.)

Обратное ограничено более узкой областью:

Метод взвешенного процентиля

[ редактировать ]

Помимо функции процентиля, существует еще взвешенный процентиль , где вместо общего числа подсчитывается процент от общего веса. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет описанный выше подход.

Предположим, у нас есть положительные веса связаны, соответственно, с нашими N отсортированными значениями выборки. Позволять

сумма весов. Тогда приведенные выше формулы обобщаются, взяв

когда ,

или

для общего ,

и

Взвешенный процентиль 50% известен как взвешенная медиана .

См. также

[ редактировать ]
  1. ^ Jump up to: а б Гайндман, Роб Дж .; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах» . Американский статистик . 50 (4). Американская статистическая ассоциация: 361–365. дои : 10.2307/2684934 . JSTOR   2684934 .
  2. ^ Лейн, Дэвид. «Процентили» . Проверено 15 сентября 2007 г.
  3. ^ Jump up to: а б Поттель, Ганс. «Статистические ошибки в Excel» (PDF) . Архивировано из оригинала (PDF) 4 июня 2013 г. Проверено 25 марта 2013 г.
  4. ^ Шунджанс Ф., Де Баккер Д., Шмид П. (2011). «Оценка процентилей населения» . Эпидемиология . 22 (5): 750–751. дои : 10.1097/EDE.0b013e318225c1de . ПМК   3171208 . ПМИД   21811118 .
  5. ^ Джонсон, Роберт; Куби, Патриция (2007), «Прикладной пример 2.15, Ограничение скорости 85-го процентиля: движение с 85% потока», Элементарная статистика (10-е изд.), Cengage Learning, стр. 102, ISBN  9781111802493 .
  6. ^ «Рациональные ограничения скорости и скорость 85-го процентиля» (PDF) . lsp.org . Полиция штата Луизиана. Архивировано из оригинала (PDF) 23 сентября 2018 года . Проверено 28 октября 2018 г.
  7. ^ Весса, П. (2021). «Процентили в бесплатном статистическом программном обеспечении» . Управление по развитию исследований и образования . Проверено 13 ноября 2021 г.
  8. ^ Jump up to: а б с «Справочник по инженерной статистике: процентиль» . НИСТ . Проверено 18 февраля 2009 г.
  9. ^ «Пакет инструментов статистики Matlab – процентили» . Проверено 15 сентября 2006 г. , Это эквивалентно методу 5, обсуждаемому здесь.
  10. ^ Лэнгфорд, Э. (2006). «Квартили в элементарной статистике» . Журнал статистического образования . 14 (3). дои : 10.1080/10691898.2006.11910589 .
  11. ^ «Документация NumPy 1.12» . SciPy . Проверено 19 марта 2017 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c7641c85c63840edbdd496ff34abdafc__1703196840
URL1:https://arc.ask3.ru/arc/aa/c7/fc/c7641c85c63840edbdd496ff34abdafc.html
Заголовок, (Title) документа по адресу, URL1:
Percentile - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)