Непараметрический доверительный интервал на основе CDF
В статистике . непараметрические доверительные интервалы на основе кумулятивной функции распределения (CDF) представляют собой общий класс доверительных интервалов вокруг статистических функционалов распределения Для расчета этих доверительных интервалов все, что требуется, — это независимо и одинаково распределенная (iid) выборка из распределения и известные границы поддержки распределения. Последнее требование просто означает, что вся ненулевая вероятностная масса распределения должна содержаться в некотором известном интервале. .
Интуиция
[ редактировать ]Интуиция подхода, основанного на CDF, заключается в том, что границы CDF распределения можно перевести в границы статистических функционалов этого распределения. Учитывая верхнюю и нижнюю границы CDF, этот подход предполагает нахождение CDF в пределах, которые максимизируют и минимизируют интересующий статистический функционал.
Свойства границ
[ редактировать ]В отличие от подходов, которые делают асимптотические предположения, включая бутстрап-подходы и те, которые полагаются на центральную предельную теорему , границы на основе CDF действительны для конечных размеров выборки. И в отличие от границ, основанных на неравенствах, таких как неравенства Хоффдинга и МакДиармида , границы на основе CDF используют свойства всей выборки и, таким образом, часто дают значительно более жесткие границы.
Границы CDF
[ редактировать ]При создании границ CDF мы должны различать точечные и одновременные полосы .

Поточечная полоса
[ редактировать ]Поточечная граница CDF - это граница, которая гарантирует только вероятность покрытия процентов в любой отдельной точке эмпирического CDF. Из-за смягченных гарантий эти интервалы могут быть намного меньше.
Один из методов их генерации основан на биномиальном распределении. Учитывая одну точку CDF стоимости , то эмпирическое распределение в этой точке будет распределяться пропорционально биномиальному распределению с и устанавливают равным количеству выборок в эмпирическом распределении. Таким образом, любой из методов, доступных для создания доверительного интервала биномиальной пропорции, также можно использовать для создания границы CDF.
Одновременный диапазон
[ редактировать ]Доверительные интервалы на основе CDF требуют вероятностной границы CDF распределения, на основе которого была создана выборка. Существует множество методов создания доверительных интервалов для CDF распределения. , учитывая выборку iid, взятую из распределения. Все эти методы основаны на эмпирической функции распределения (эмпирический CDF). Учитывая выборку iid размером n , , эмпирический CDF определяется как
где – индикатор события A. Неравенство Дворецкого–Кифера–Вольфовица , [1] чья точная константа была определена Массартом, [2] помещает доверительный интервал вокруг статистики Колмогорова – Смирнова между CDF и эмпирическим CDF. Учитывая выборку iid размером n из , связанные состояния
Это можно рассматривать как доверительный интервал, который проходит параллельно эмпирическому CDF и находится в равной степени выше и ниже него.
Интервал, содержащий истинный CDF, , с вероятностью часто указывается как

Равноотстоящий доверительный интервал вокруг эмпирического CDF допускает различную частоту нарушений в зависимости от поддержки распределения. В частности, CDF чаще находится за пределами границы CDF, оцененной с использованием неравенства Дворецкого – Кифера – Вольфовица вблизимедиана распределения, чем вблизи конечных точек распределения. Напротив, граница, основанная на статистике заказов, введенная Лернед-Миллером и ДеСтефано. [3] допускает равную ставкунарушений по всей статистике заказов. Это, в свою очередь, приводит к тому, что граница становится более жесткой на концах опоры распределения и более слабой в середине опоры. Другие типы границ могут быть созданы путем изменения степени нарушения статистики заказов. Например, если в верхней части опоры требуется более жесткая граница распределения, то в верхней части опоры можно допустить более высокую степень нарушений за счет более низкой степени нарушений и, следовательно, более слабого ограничения. связанный для нижней части опоры.
Непараметрическая граница среднего значения
[ редактировать ]Предположим без ограничения общности, что носитель распределения содержится в Учитывая конверт доверия для CDF легко вывести соответствующий доверительный интервал для среднего значения . Это можно показать [4] что CDF, который максимизируетсреднее значение — это то, которое проходит по нижней границе доверительного интервала, , а CDF, который минимизирует среднее значение, проходит вдоль верхней огибающей, . Использование личности
доверительный интервал для среднего значения можно рассчитать как
Непараметрическая граница дисперсии
[ редактировать ]Предположим без ограничения общности, что поддержка распределения процентов , содержится в . Учитывая конверт доверия для , это можно показать [5] что CDF внутри конверта, который минимизирует дисперсию, начинается в нижнем конверте, имеет скачок к верхнему конверту и затем продолжается вдоль верхнего конверта. Кроме того, можно показать, что эта CDF, минимизирующая дисперсию, F ', должна удовлетворять ограничению, согласно которому разрыв скачка происходит при . CDF, максимизирующий дисперсию, начинается с верхнего конверта, горизонтально переходит в нижний конверт, а затем продолжается вдоль нижнего конверта. Явные алгоритмы для расчета этих CDF, максимизирующих и минимизирующих дисперсию, предложены Романо и Вольфом. [5]
Границы других статистических функционалов
[ редактировать ]Основанная на CDF структура для создания доверительных интервалов является очень общей и может применяться к множеству других статистических функций, включая
- Энтропия [3]
- Взаимная информация [6]
- Произвольные процентили
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ А., Дворецкий; Кифер, Дж.; Вулфовиц, Дж. (1956). «Асимптотический минимаксный характер выборочной функции распределения и классической полиномиальной оценки» . Анналы математической статистики . 27 (3): 642–669. дои : 10.1214/aoms/1177728174 .
- ^ Массарт, П. (1990). «Точная константа в неравенстве Дворецкого – Кифера – Вольфовица» . Анналы вероятности . 18 (3): 1269–1283. дои : 10.1214/aop/1176990746 .
- ^ Перейти обратно: а б Лирден-Миллер, Э.; ДеСтефано, Дж. (2008). «Вероятностная верхняя граница дифференциальной энтропии». Транзакции IEEE по теории информации . 54 (11): 5223–5230. arXiv : cs/0504091 . дои : 10.1109/тит.2008.929937 . S2CID 1696031 .
- ^ Андерсон, Т.В. (1969). «Доверительные пределы значения произвольной ограниченной случайной величины с непрерывной функцией распределения». Бюллетень Международного статистического института . 43 : 249–251.
- ^ Перейти обратно: а б Романо, Япония; М., Вольф (2002). «Явные непараметрические доверительные интервалы для дисперсии с гарантированным покрытием». Коммуникации в статистике - теория и методы . 31 (8): 1231–1250. CiteSeerX 10.1.1.202.3170 . дои : 10.1081/sta-120006065 . S2CID 14330754 .
- ^ ВандерКраатс, Северная Дакота; Банерджи, А. (2011). «Вероятностная нижняя граница взаимной информации без распределения с конечной выборкой». Нейронные вычисления . 23 (7): 1862–1898. дои : 10.1162/neco_a_00144 . ПМИД 21492010 . S2CID 1736014 .