Jump to content

Статистика заказов

Функции плотности вероятности статистики порядка для выборки объемом n = 5 из экспоненциального распределения с параметром единичного масштаба

В статистике статистической выборки равна статистика k-го порядка k ее - му наименьшему значению. [1] Вместе со статистикой рангов статистика порядков является одним из наиболее фундаментальных инструментов непараметрической статистики и вывода .

Важными особыми случаями порядковой статистики являются минимальное и максимальное значение выборки, а также (с некоторыми оговорками, обсуждаемыми ниже) медиана выборки и другие квантили выборки .

При использовании теории вероятностей для анализа статистики порядка случайных выборок из непрерывного распределения используется кумулятивная функция распределения , чтобы свести анализ к случаю статистики порядка равномерного распределения .

Обозначения и примеры [ править ]

Например, предположим, что наблюдаются или записываются четыре числа, в результате чего получается выборка размером 4. Если значения выборки равны

6, 9, 3, 8,

статистика заказов будет обозначаться

где индекс ( i ), заключенный в круглые скобки, указывает статистику i -го порядка выборки.

Статистика первого порядка (или статистика наименьшего порядка ) всегда является минимумом выборки, то есть

где, следуя общепринятому соглашению, мы используем прописные буквы для обозначения случайных величин и строчные буквы (как указано выше) для обозначения их фактических наблюдаемых значений.

Аналогично, для выборки размера n статистика n- го порядка (или статистика наибольшего порядка ) является максимальной , то есть

Диапазон выборки — это разница между максимальным и минимальным значением. Это функция статистики заказов:

Аналогичная важная статистика в исследовательском анализе данных , которая просто связана со статистикой порядка, — это выборочный межквартильный размах .

Выборочная медиана может быть или не быть порядковой статистикой, поскольку единственное среднее значение существует только тогда, когда число n наблюдений нечетно . Точнее, если n = 2 m +1 для некоторого целого числа m , то выборочная медиана равна и такова статистика заказов. С другой стороны, когда n = 2 n четно, м и имеются два средних значения, и , а выборочная медиана является некоторой функцией этих двух значений (обычно средней) и, следовательно, не является порядковой статистикой. Подобные замечания применимы ко всем квантилям выборки.

Вероятностный анализ [ править ]

Учитывая любые случайные величины X 1 , X 2 ..., X n , статистика порядка X (1) , X (2) , ..., X ( n ) также является случайными величинами, определяемыми путем сортировки значений ( реализаций ) X в 1 , ..., X n порядке возрастания.

Когда случайные величины X 1 , X 2 ..., X n образуют выборку, они независимы и одинаково распределены . Именно этот случай рассматривается ниже. В общем, случайные величины X 1 , ..., X n могут возникнуть в результате выборки из более чем одной совокупности. Тогда они независимы , но не обязательно одинаково распределены, а их совместное распределение вероятностей задается теоремой Бапата-Бега .

В дальнейшем мы будем предполагать, что рассматриваемые случайные величины непрерывны , а там, где это удобно, будем также предполагать, что они имеют функцию плотности вероятности (PDF), то есть абсолютно непрерывны . особенности анализа распределений, присваивающих массу точкам (в частности, дискретных распределений В конце обсуждаются ).

Кумулятивная функция распределения статистики заказов [ править ]

Для случайной выборки, как указано выше, с кумулятивным распределением , статистика заказов для этой выборки имеет кумулятивное распределение следующим образом: [2] (где r указывает статистику какого порядка):

соответствующая функция плотности вероятности может быть получена из этого результата и оказывается равной

Более того, есть два особых случая, в которых CDF легко вычислить.

Что можно получить путем тщательного рассмотрения вероятностей.

статистики Распределение вероятностей заказов

распределения выбранная из равномерного заказов , Статистика

В этом разделе мы показываем, что порядковая статистика равномерного распределения на единичном интервале имеет маргинальные распределения, принадлежащие семейству бета-распределений . Мы также даем простой метод получения совместного распределения любого количества статистик порядка и, наконец, переводим эти результаты в произвольные непрерывные распределения с помощью cdf .

На протяжении всего этого раздела мы предполагаем, что это случайная выборка, полученная из непрерывного распределения с помощью cdf . Обозначая мы получаем соответствующую случайную выборку из стандартного равномерного распределения . Обратите внимание, что статистика заказов также удовлетворяет .

Функция плотности вероятности статистики порядка равно [3]

то есть статистика k -го порядка равномерного распределения представляет собой случайную величину с бета-распределением . [3] [4]

Доказательство этих утверждений состоит в следующем. Для Чтобы находиться между u и u + du , необходимо, чтобы ровно k − 1 элементов выборки были меньше u и чтобы хотя бы один находился между u и u + d u . Вероятность того, что в этом последнем интервале окажется более одного, уже равна , поэтому нам нужно вычислить вероятность того, что ровно k − 1, 1 и n k наблюдений попадут в интервалы , и соответственно. см. Полиномиальное распределение Это равно ( подробнее )

и результат следующий.

Среднее значение этого распределения равно k /( n + 1).

Совместное распределение статистики заказов равномерного распределения [ править ]

Аналогично, для i < j , что совместная функция плотности вероятности статистики двух порядков U ( i ) < U ( j ) можно показать равна

что (с точностью до членов более высокого порядка, чем ) вероятность того, что i − 1, 1, j − 1 − i , 1 и n j элементов выборки попадают в интервалы , , , , соответственно.

Совершенно аналогичным образом можно рассуждать и о выводе совместных распределений более высокого порядка. Возможно, это удивительно, но совместная плотность статистики n-го порядка оказывается постоянной :

Один из способов понять это состоит в том, что неупорядоченный образец действительно имеет постоянную плотность, равную 1, и что существует n ! разные перестановки выборки, соответствующие одной и той же последовательности статистики порядка. Это связано с тем, что 1/ n ! это объем региона . Это связано также с другой особенностью порядковой статистики однородных случайных величин: из BRS-неравенства следует , что максимальное ожидаемое число однородных U(0,1] случайных величин, которое можно выбрать из выборки размера n с суммой не превышающий ограничено сверху , который, таким образом, инвариантен на множестве всех с постоянным продуктом .

Используя приведенные выше формулы, можно вывести распределение диапазона статистики порядка, то есть распределение , то есть максимум минус минимум. В более общем смысле для , также есть бета-дистрибутив:

Из этих формул мы можем вывести ковариацию между статистиками двух порядков:
Формула следует из того, что
и сравнивая это с
где , что является фактическим распределением разницы.

заказов, полученная из распределения экспоненциального Статистика

Для случайная выборка размером n из экспоненциального распределения с параметром λ , статистика порядка X ( i ) для i = 1,2,3, ..., n имеет распределение

где Z j — стандартные экспоненциальные случайные величины iid (т.е. с параметром скорости 1). Этот результат был впервые опубликован Альфредом Реньи . [5] [6]

взятая из дистрибутива Erlang заказов , Статистика

Преобразование Лапласа статистики порядка можно выбрать из распределения Эрланга с помощью метода подсчета путей. [ нужны разъяснения ] . [7]

Совместное распределение статистики заказов абсолютно непрерывного распределения [ править ]

Если F X , абсолютно непрерывен он имеет такую ​​плотность, что , и мы можем использовать замены

и

чтобы получить следующие функции плотности вероятности для статистики порядка выборки размера n, взятой из распределения X :

где
где

: доверительные интервалы квантилей для Приложение

Интересный вопрос заключается в том, насколько хорошо статистика порядка выполняет функцию оценки квантилей основного распределения.

Пример небольшого размера выборки [ править ]

Самый простой случай, который следует рассмотреть, — это то, насколько хорошо медиана выборки оценивает медиану совокупности.

В качестве примера рассмотрим случайную выборку размером 6. В этом случае медиана выборки обычно определяется как середина интервала, ограниченного статистикой 3-го и 4-го порядка. Однако из предыдущего обсуждения мы знаем, что вероятность того, что этот интервал действительно содержит медиану совокупности, равна [ нужны разъяснения ]

Хотя выборочная медиана, вероятно, является одной из лучших точечных оценок медианы совокупности, не зависящих от распределения, этот пример иллюстрирует то, что она не особенно хороша в абсолютном выражении. В данном конкретном случае лучшим доверительным интервалом для медианы является интервал, ограниченный статистикой 2-го и 5-го порядка, который содержит медиану совокупности с вероятностью

При таком небольшом размере выборки, если кто-то хочет иметь уверенность не менее 95%, приходится говорить, что медиана находится между минимумом и максимумом из 6 наблюдений с вероятностью 31/32 или примерно 97%. Размер 6 фактически представляет собой наименьший размер выборки, при котором интервал, определяемый минимумом и максимумом, составляет как минимум 95% доверительный интервал для медианы генеральной совокупности.

Большие размеры выборки [ править ]

Для равномерного распределения, когда n стремится к бесконечности, p й Квантиль выборки асимптотически нормально распределен , поскольку он аппроксимируется выражением

Для общего распределения F с непрерывной ненулевой плотностью в F  −1 ( p ), применяется аналогичная асимптотическая нормальность:

где f функция плотности , а F  −1 функция квантиля, с F. связанная Одним из первых, кто упомянул и доказал этот результат, был Фредерик Мостеллер в своей основополагающей статье 1946 года. [8] Дальнейшие исследования привели в 1960-х годах к представлению Бахадура , которое предоставляет информацию о границах ошибок. Сходимость к нормальному распределению также имеет место в более сильном смысле, например, сходимость по относительной энтропии или КЛ-дивергенция . [9]

Интересное наблюдение можно сделать в случае, когда распределение симметрично, а медиана населения равна среднему значению населения. В этом случае выборочное среднее по центральной предельной теореме также асимптотически нормально распределено, но с дисперсией σ 2 /n вместо этого. Этот асимптотический анализ предполагает, что среднее значение превосходит медиану в случаях низкого эксцесса , и наоборот. Например, медиана обеспечивает лучшие доверительные интервалы для распределения Лапласа , в то время как среднее работает лучше для X , которые имеют нормальное распределение.

Доказательство [ править ]

Можно показать, что

где

где Z i являются независимыми одинаково распределенными экспоненциальными случайными величинами с частотой 1. Поскольку X / n и Y / n асимптотически нормально распределяются с помощью CLT, наши результаты получены на основе применения дельта-метода .

Непараметрическая оценка плотности Приложение :

Моменты распределения статистики первого порядка можно использовать для разработки непараметрической оценки плотности. [10] Предположим, мы хотим оценить плотность в точку . Рассмотрим случайные величины , которые являются iid с функцией распределения . В частности, .

Ожидаемое значение статистики первого порядка дали образец общая доходность наблюдений,

где - функция квантиля, связанная с распределением , и . Это уравнение в сочетании с методом складного ножа становится основой для следующего алгоритма оценки плотности:

  Input: A sample of  observations.  points of density evaluation. Tuning parameter  (usually 1/3).
  Output:  estimated density at the points of evaluation.
  1: Set 
  2: Set 
  3: Create an  matrix  which holds  subsets with  observations each.
  4: Create a vector  to hold the density evaluations.
  5: for  do
  6:     for  do
  7:         Find the nearest distance  to the current point  within the th subset
  8:      end for
  9:      Compute the subset average of distances to 
 10:      Compute the density estimate at 
 11:  end for
 12: return 

В отличие от параметров настройки на основе полосы пропускания/длины для подходов на основе гистограммы и ядра , параметром настройки для оценки плотности на основе статистики порядка является размер подмножеств выборки. Такая оценка более надежна, чем подходы, основанные на гистограмме и ядре, например, такие плотности, как распределение Коши (в котором отсутствуют конечные моменты), можно вывести без необходимости специальных модификаций, таких как пропускная способность на основе IQR . Это связано с тем, что первый момент статистики порядка всегда существует, если существует ожидаемое значение базового распределения, но обратное не обязательно верно. [11]

Работа с дискретными переменными [ править ]

Предполагать являются iid случайными величинами из дискретного распределения с кумулятивной функцией распределения и функция массы вероятности . Чтобы найти вероятности статистика порядка, сначала нужны три значения, а именно

Кумулятивная функция распределения Статистику порядка можно вычислить, отметив, что

Сходным образом, дается

Обратите внимание, что функция массы вероятности это просто разница этих значений, то есть

Вычисление статистики заказов [ править ]

Задача вычисления k -го наименьшего (или наибольшего) элемента списка называется проблемой выбора и решается с помощью алгоритма выбора. Хотя эта проблема сложна для очень больших списков, были созданы сложные алгоритмы выбора, которые могут решить эту проблему за время, пропорциональное количеству элементов в списке, даже если список совершенно неупорядочен. Если данные хранятся в определенных специализированных структурах данных, это время можно сократить до O(log n ). Во многих приложениях требуется вся статистика по порядку, и в этом случае можно использовать алгоритм сортировки , а затрачиваемое на это время составляет O( n log n ).

См. также [ править ]

Примеры статистики заказов [ править ]

Ссылки [ править ]

  1. ^ Дэвид, ХА; Нагараджа, Х.Н. (2003). Статистика заказов . Ряд Уайли по вероятности и статистике. дои : 10.1002/0471722162 . ISBN  9780471722168 .
  2. ^ Казелла, Джордж; Бергер, Роджер (2002). Статистический вывод (2-е изд.). Cengage Обучение. п. 229. ИСБН  9788131503942 .
  3. ^ Jump up to: Перейти обратно: а б Джентл, Джеймс Э. (2009), Вычислительная статистика , Springer, стр. 63, ISBN  9780387981444 .
  4. ^ Джонс, MC (2009), «Распределение Кумарасвами: распределение бета-типа с некоторыми преимуществами управляемости», Статистическая методология , 6 (1): 70–81, doi : 10.1016/j.stamet.2008.04.001 , Как хорошо известно , бета-распределение — это распределение статистики m -го порядка из случайной выборки размера n из равномерного распределения (по (0,1)).
  5. ^ Дэвид, ХА; Нагараджа, Х.Н. (2003), «Глава 2. Основная теория распределения», Статистика порядков , Ряды Вили по вероятности и статистике, стр. 9, дои : 10.1002/0471722162.ch2 , ISBN  9780471722168
  6. ^ Реньи, Альфред (1953). «К теории порядковой статистики» . Acta Mathematica Hungarica . 4 (3): 191–231. дои : 10.1007/BF02127580 .
  7. ^ Глинка, М.; Брилл, штат Пенсильвания; Хорн, В. (2010). «Метод получения преобразований Лапласа порядковой статистики случайных величин Эрланга». Статистика и вероятностные буквы . 80 : 9–18. дои : 10.1016/j.spl.2009.09.006 .
  8. ^ Мостеллер, Фредерик (1946). «О некоторой полезной «неэффективной» статистике» . Анналы математической статистики . 17 (4): 377–408. дои : 10.1214/aoms/1177730881 . Проверено 26 февраля 2015 г.
  9. ^ М. Кардоне, А. Дитсо и К. Раш, «Энтропийная центральная предельная теорема для статистики заказов», в IEEE Transactions on Information Theory, vol. 69, нет. 4, стр. 2193–2205, апрель 2023 г., doi: 10.1109/TIT.2022.3219344.
  10. ^ Гарг, Викрам В.; Тенорио, Луис; Уиллкокс, Карен (2017). «Оценка минимальной локальной плотности расстояний». Коммуникации в статистике - теория и методы . 46 (1): 148–164. arXiv : 1412.2851 . дои : 10.1080/03610926.2014.988260 . S2CID   14334678 .
  11. ^ Дэвид, ХА; Нагараджа, Х.Н. (2003), «Глава 3. Ожидаемые значения и моменты», Статистика заказов , Ряды Вили в вероятности и статистике, стр. 34, номер домена : 10.1002/0471722162.ch3 , ISBN  9780471722168

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 5312e872708bcfeb588164e5141064e8__1717454520
URL1:https://arc.ask3.ru/arc/aa/53/e8/5312e872708bcfeb588164e5141064e8.html
Заголовок, (Title) документа по адресу, URL1:
Order statistic - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)