Эмпирическая функция распределения
В статистике эмпирическая функция распределения (обычно также называемая эмпирической кумулятивной функцией распределения , eCDF) — это функция распределения, с эмпирической мерой выборки связанная . [1] Эта кумулятивная функция распределения представляет собой ступенчатую функцию , которая увеличивается на 1/ n в каждой из n точек данных. Его значение при любом заданном значении измеряемой переменной представляет собой долю наблюдений измеряемой переменной, которые меньше или равны указанному значению.
Эмпирическая функция распределения — это оценка кумулятивной функции распределения, которая сформировала точки в выборке. Согласно теореме Гливенко – Кантелли , оно сходится с вероятностью 1 к основному распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения.
Определение
[ редактировать ]Пусть ( X 1 , …, X n ) — независимые, одинаково распределенные вещественные случайные величины с общей кумулятивной функцией распределения F ( t ) . Тогда эмпирическая функция распределения определяется как [2]
где является индикатором события А. При фиксированном t показатель — случайная величина Бернулли с параметром p = F ( t ) ; следовательно — биномиальная случайная величина со средним значением nF ( t ) и дисперсией nF ( t )(1 — F ( t )) . Это означает, что является несмещенной оценкой F ( t ) .
Однако в некоторых учебниках определение дается как
Асимптотические свойства
[ редактировать ]Поскольку отношение ( n + 1)/ n приближается к 1 при стремлении n к бесконечности, асимптотические свойства двух приведенных выше определений одинаковы.
По усиленному закону больших чисел оценка сходится к F ( t ) при n → ∞ почти наверняка для любого значения t : [2]
таким образом, оценщик является последовательным . Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Существует более сильный результат, называемый теоремой Гливенко–Кантелли , который утверждает, что сходимость на самом деле происходит равномерно по t : [5]
Суп-норма в этом выражении называется статистикой Колмогорова – Смирнова для проверки согласия между эмпирическим распределением предполагаемая истинная кумулятивная функция распределения F. и другие функции нормы Вместо суп-нормы здесь могут быть разумно использованы . Например, буква Л 2 -норма порождает статистику Крамера-фон Мизеса .
Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во-первых, центральная предельная теорема утверждает, что поточечно , имеет асимптотически нормальное распределение со стандартом скорость сходимости: [2]
Этот результат расширяется теоремой Донскера , которая утверждает, что эмпирический процесс , рассматриваемый как функция, индексированная , сходится по распределению в пространстве Скорохода к средненулевому гауссовскому процессу , где B — стандартный броуновский мост . [5] Ковариационная структура этого гауссовского процесса имеет вид
Равномерную скорость сходимости в теореме Донскера можно количественно оценить с помощью результата, известного как венгерское вложение : [6]
Альтернативно, скорость сходимости также может быть выражено количественно с точки зрения асимптотического поведения суп-нормы этого выражения. На этом форуме существует множество результатов, например, неравенство Дворецкого – Кифера – Вольфовица дает ограничение на хвостовые вероятности : [6]
Фактически Колмогоров показал, что если кумулятивная функция распределения F непрерывна, то выражение сходится по распределению к , которое имеет распределение Колмогорова , не зависящее от формы F .
Другой результат, следующий из закона повторного логарифма , состоит в том, что [6]
и
Доверительные интервалы
[ редактировать ]Согласно неравенству Дворецкого – Кифера – Вольфовица интервал, содержащий истинную CDF, , с вероятностью указывается как
В соответствии с приведенными выше границами мы можем построить эмпирический CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций.
Статистическая реализация
[ редактировать ]Неисчерпывающий список программных реализаций функции эмпирического распределения включает:
- В программном обеспечении R мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения графика, печати и вычислений с использованием такого объекта «ecdf».
- В MATLAB мы можем использовать график эмпирической кумулятивной функции распределения (cdf).
- jmp из SAS , график CDF создает график эмпирической кумулятивной функции распределения.
- Minitab , создайте эмпирический CDF
- Mathwave , мы можем подогнать распределение вероятностей к нашим данным
- Dataplot , мы можем построить эмпирический график CDF
- Scipy , мы можем использовать scipy.stats.ecdf
- Statsmodels , мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib с использованием функции matplotlib.pyplot.ecdf (новая версия 3.8.0) [7]
- Seaborn с использованием функции seaborn.ecdfplot
- Plotly с использованием функцииplotly.express.ecdf.
- Excel , мы можем построить эмпирический график CDF
- ArviZ , используя az.plot_ecdf функцию
См. также
[ редактировать ]- Càdlàg Функции
- Данные подсчета
- Распределительная арматура
- Неравенство Дворецкого – Кифера – Вольфовица.
- Эмпирическая вероятность
- Эмпирический процесс
- Оценка квантилей по выборке
- Частота (статистика)
- Эмпирическая вероятность
- Оценка Каплана – Мейера для цензурированных процессов
- Функция выживания
- График вопросов-вопросов
Ссылки
[ редактировать ]- ^ Современное введение в вероятность и статистику: понимание почему и как . Мишель Деккинг. Лондон: Спрингер. 2005. с. 219. ИСБН 978-1-85233-896-1 . OCLC 262680588 .
{{cite book}}
: CS1 maint: другие ( ссылка ) - ^ Jump up to: а б с ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 265 . ISBN 0-521-78450-6 .
- ^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений . Спрингер, с. 36, Определение 2.4. ISBN 978-1-4471-3675-0 .
- ^ Мэдсен, Х.О., Кренк, С., Линд, С.С. (2006) Методы структурной безопасности . Дуврские публикации. п. 148-149. ISBN 0486445976
- ^ Jump up to: а б ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 266 . ISBN 0-521-78450-6 .
- ^ Jump up to: а б с ван дер Ваарт, AW (1998). Асимптотическая статистика . Издательство Кембриджского университета. п. 268 . ISBN 0-521-78450-6 .
- ^ «Что нового в Matplotlib 3.8.0 (13 сентября 2023 г.) — документация Matplotlib 3.8.3» .
Дальнейшее чтение
[ редактировать ]- Шорак, Греция ; Веллнер, Дж. А. (1986). Эмпирические процессы с приложениями к статистике . Нью-Йорк: Уайли. ISBN 0-471-86725-Х .
Внешние ссылки
[ редактировать ]- СМИ, связанные с эмпирическими функциями распределения, на Викискладе?