Кумулятивная функция распределения
Эта статья нуждается в дополнительных цитатах для проверки . ( март 2010 г. ) |
В теории вероятностей и статистике — кумулятивная функция распределения ( CDF ) вещественной случайной величины. или просто распределения функция , оцененный в , – вероятность того, что примет значение меньше или равное . [1]
Каждое распределение вероятностей, поддерживаемое действительными числами, дискретными или «смешанными», а также непрерывными , однозначно идентифицируется непрерывной справа монотонно возрастающей функцией ( функцией càdlàg ). удовлетворяющий и .
В случае скалярного непрерывного распределения это дает площадь под функцией плотности вероятности от отрицательной бесконечности до . Кумулятивные функции распределения также используются для определения распределения многомерных случайных величин .
Определение
[ редактировать ]Кумулятивная функция распределения действительной случайной величины это функция, заданная [2] : с. 77
( Уравнение 1 ) |
где правая часть представляет вероятность того, что случайная величина принимает значение меньше или равное .
Вероятность того, что лежит в полузамкнутом интервале , где , поэтому [2] : с. 84
( Уравнение 2 ) |
В приведенном выше определении знак «меньше или равно», «≤», является соглашением, а не общепринятым (например, в венгерской литературе используется «<»), но это различие важно для дискретных распределений. Правильное использование таблиц биномиального распределения и распределения Пуассона зависит от этого соглашения. Более того, важные формулы, такие как Поля Леви формула обращения для характеристической функции, также основаны на формулировке «меньше или равно».
Если рассматривать несколько случайных величин и т. д. соответствующие буквы используются в качестве нижних индексов, тогда как, если рассматривается только одна, нижний индекс обычно опускается. Традиционно используют заглавную букву для кумулятивной функции распределения, в отличие от строчной используется для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные общепринятые обозначения, например, нормальное распределение использует и вместо и , соответственно.
Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования [3] использование Фундаментальной теоремы исчисления ; т.е. данный , пока существует производная.
CDF непрерывной случайной величины может быть выражено как интеграл от его функции плотности вероятности следующее: [2] : с. 86
В случае случайной величины который имеет распределение, имеющее дискретную составляющую со значением ,
Если является непрерывным в , это равно нулю и дискретная составляющая при .
Характеристики
[ редактировать ]Каждая кумулятивная функция распределения уменьшается не [2] : с. 78 и непрерывной справа , [2] : с. 79 что делает его функцией кадлага . Более того,
Каждая функция с этими тремя свойствами представляет собой CDF, т. е. для каждой такой функции можно определить случайную величину , которая будет кумулятивной функцией распределения этой случайной величины.
Если является чисто дискретной случайной величиной , то она принимает значения с вероятностью и CDF будет разрывным в точках :
Если ВПР действительной случайной величины является непрерывным , то — непрерывная случайная величина ; если кроме того , абсолютно непрерывна то существует интегрируемая по Лебегу функция такой, что для всех действительных чисел и . Функция равна производной почти всюду , и она называется функцией плотности вероятности распределения .
Если имеет конечную L1-норму , т. е. математическое ожидание конечно, то математическое ожидание задается интегралом Римана–Стилтьеса и для любого ,
как показано на схеме.
В частности, у нас есть
Примеры
[ редактировать ]В качестве примера предположим на равномерно распределено единичном интервале .
Тогда CDF дается
Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью.
Тогда CDF дается
Предполагать имеет экспоненциальное распределение . Тогда CDF дается
Здесь λ > 0 — параметр распределения, часто называемый параметром скорости.
Предполагать нормально распределен . Тогда CDF дается
Здесь параметр среднее или ожидание распределения; и это его стандартное отклонение.
Таблица CDF стандартного нормального распределения часто используется в статистических приложениях, где ее называют стандартной нормальной таблицей , единичной нормальной таблицей или Z-таблицей .
Предполагать имеет биномиальное распределение . Тогда CDF дается
Здесь — вероятность успеха, а функция обозначает дискретное распределение вероятностей числа успехов в последовательности независимые эксперименты и это «пол» под , т.е. наибольшее целое число, меньшее или равное .
Производные функции
[ редактировать ]Дополнительная кумулятивная функция распределения (хвостовое распределение)
[ редактировать ]Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина находится выше определенного уровня. Это называется дополнительная кумулятивная функция распределения ( ccdf ) или просто распределение хвоста или превышение и определяется как
Это имеет применение, например, при проверке статистических гипотез , потому что одностороннее значение p представляет собой вероятность наблюдения тестовой статистики, по крайней мере, столь же экстремальной, как и наблюдаемая. Таким образом, при условии, что тестовая статистика T имеет непрерывное распределение, одностороннее значение p просто задается ccdf: для наблюдаемого значения статистики теста
В анализе выживания называется функцией выживания и обозначается часто используется термин «функция надежности» , тогда как в технике .
- Характеристики
- Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что [4]
- Как , и в самом деле при условии, что конечно.
Доказательство: [ нужна ссылка ]
Предполагая имеет функцию плотности , для любого Затем, признав и перестановка терминов, как заявлено. - Для случайной величины, имеющей математическое ожидание, а для неотрицательной случайной величины второй член равен 0.
Если случайная величина может принимать только неотрицательные целые значения, это эквивалентно
Свернутое кумулятивное распределение
[ редактировать ]Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является свернутое кумулятивное распределение или горный график , который сгибает верхнюю половину графика, [5] [6] то есть
где обозначает индикаторную функцию , а второе слагаемое — функцию выживаемости , таким образом используются две шкалы: одна для подъема, другая для спада. Эта форма иллюстрации подчеркивает медиану , дисперсию (в частности, среднее абсолютное отклонение от медианы). [7] ) и асимметрия распределения или эмпирических результатов.
Обратная функция распределения (функция квантиля)
[ редактировать ]Если CDF F строго возрастающая и непрерывная, то это уникальное действительное число такой, что . Это определяет обратную функцию распределения или функцию квантиля .
Некоторые распределения не имеют уникального обратного (например, если для всех , вызывая быть постоянным). В этом случае можно использовать обобщенную обратную функцию распределения , которая определяется как
- Пример 1. Медиана равна .
- Пример 2: Поместите . Затем мы позвоним 95-й процентиль.
Некоторые полезные свойства обратной функции распределения (которые также сохраняются в определении обобщенной обратной функции распределения):
- не убывает [8]
- тогда и только тогда, когда
- Если имеет распространение тогда распространяется как . Это используется при генерации случайных чисел с использованием метода выборки обратного преобразования .
- Если представляет собой совокупность независимых -распределенные случайные величины определены в одном и том же выборочном пространстве, то существуют случайные величины такой, что распространяется как и с вероятностью 1 для всех . [ нужна ссылка ]
Обратный CDF можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.
Эмпирическая функция распределения
[ редактировать ]Эмпирическая функция распределения — это оценка кумулятивной функции распределения, которая сформировала точки в выборке. Оно сходится с вероятностью 1 к этому основному распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к базовой кумулятивной функции распределения. [9]
Многомерный случай
[ редактировать ]Определение двух случайных величин
[ редактировать ]При одновременной работе с более чем одной случайной величиной совместную кумулятивную функцию распределения также можно определить . Например, для пары случайных величин , совместный CDF дается [2] : с. 89
( Уравнение 3 ) |
где правая часть представляет вероятность того, что случайная величина принимает значение меньше или равное и это принимает значение меньше или равное .
Пример совместной кумулятивной функции распределения:
Для двух непрерывных переменных X и Y :
Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример: [10]
учитывая совместную функцию массы вероятности в табличной форме, определите совместную кумулятивную функцию распределения.
Y = 2 | Д = 4 | Д = 6 | Д = 8 | |
Х = 1 | 0 | 0.1 | 0 | 0.1 |
Х = 3 | 0 | 0 | 0.2 | 0 |
Х = 5 | 0.3 | 0 | 0 | 0.15 |
Х = 7 | 0 | 0 | 0.15 | 0 |
Решение: используя приведенную таблицу вероятностей для каждого потенциального диапазона X и Y , можно построить совместную кумулятивную функцию распределения в табличной форме:
Д < 2 | Y ≤ 2 | Y ≤ 4 | Y ≤ 6 | Y ≤ 8 | |
Х < 1 | 0 | 0 | 0 | 0 | 0 |
Х ≤ 1 | 0 | 0 | 0.1 | 0.1 | 0.2 |
Х ≤ 3 | 0 | 0 | 0.1 | 0.3 | 0.4 |
Х ≤ 5 | 0 | 0.3 | 0.4 | 0.6 | 0.85 |
Х ≤ 7 | 0 | 0.3 | 0.4 | 0.75 | 1 |
Определение для более чем двух случайных величин
[ редактировать ]Для случайные величины , совместный CDF дается
( Уравнение 4 ) |
Интерпретация случайные величины как случайный вектор дает более короткое обозначение:
Характеристики
[ редактировать ]Каждый многомерный CDF – это:
- Монотонно неубывающая для каждой из своих переменных,
- Непрерывен справа по каждой из своих переменных,
Не каждая функция, удовлетворяющая четырем вышеперечисленным свойствам, является многомерной CDF, в отличие от одномерного случая. Например, пусть для или или и пусть в противном случае. Легко видеть, что указанные выше условия выполняются, и тем не менее не является CDF, поскольку если бы это было так, то как объяснено ниже.
Вероятность того, что точка принадлежит гиперпрямоугольнику, аналогична одномерному случаю: [11]
Сложный случай
[ редактировать ]Сложная случайная величина
[ редактировать ]Обобщение кумулятивной функции распределения от вещественных случайных величин к комплексным неочевидно, поскольку выражения вида не имеет смысла. Однако выражения вида имеет смысл. Поэтому мы определяем кумулятивное распределение комплексных случайных величин через совместное распределение их действительной и мнимой частей:
Комплексный случайный вектор
[ редактировать ]Обобщение уравнения 4 дает как определение CDS комплексного случайного вектора .
Использование в статистическом анализе
[ редактировать ]Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (похожими) способами. Кумулятивный частотный анализ – это анализ частоты появления значений явления меньше эталонного значения. Эмпирическая функция распределения представляет собой формальную прямую оценку кумулятивной функции распределения, для которой можно вывести простые статистические свойства и которая может лечь в основу различных проверок статистических гипотез . Такие тесты позволяют оценить, имеются ли доказательства против выборки данных, полученных из данного распределения, или доказательства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.
Тесты Колмогорова–Смирнова и тесты Койпера.
[ редактировать ]Тест Колмогорова-Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различны ли два эмпирических распределения или отличается ли эмпирическое распределение от идеального распределения. Близко связанный тест Койпера полезен, если область распределения циклична, как в случае дней недели. Например, тест Койпера можно использовать, чтобы увидеть, меняется ли количество торнадо в течение года или меняются ли продажи продукта в зависимости от дня недели или дня месяца.
См. также
[ редактировать ]- Описательная статистика
- Распределительная арматура
- Огив (статистика)
- Модифицированное полунормальное распределение [12] с PDF-файлом на дается как , где обозначает Пси-функцию Фокса–Райта .
Ссылки
[ редактировать ]- ^ Дейзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения . Издательство Кембриджского университета. п. 181. ИСБН 9781108455145 .
- ^ Jump up to: а б с д и ж Пак, Кун Иль (2018). Основы теории вероятности и случайных процессов с приложениями к средствам связи . Спрингер. ISBN 978-3-319-68074-3 .
- ^ Монтгомери, Дуглас К.; Рангер, Джордж К. (2003). Прикладная статистика и вероятность для инженеров (PDF) . John Wiley & Sons, Inc. с. 104. ИСБН 0-471-20454-4 . Архивировано (PDF) из оригинала 30 июля 2012 г.
- ^ Цвиллингер, Дэниел; Кокоска, Стивен (2010). Таблицы и формулы стандартной вероятности и статистики CRC . ЦРК Пресс. п. 49. ИСБН 978-1-58488-059-2 .
- ^ Нежный, Дж. Э. (2009). Вычислительная статистика . Спрингер . ISBN 978-0-387-98145-1 . Проверено 6 августа 2010 г. [ нужна страница ]
- ^ Монти, КЛ (1995). «Сложенные кривые эмпирической функции распределения (горные графики)». Американский статистик . 49 (4): 342–345. дои : 10.2307/2684570 . JSTOR 2684570 .
- ^ Сюэ, Дж. Х.; Титтерингтон, DM (2011). «Кумулятивная функция распределения в p-складке и среднее абсолютное отклонение от p-квантиля» (PDF) . Статистика и вероятностные буквы . 81 (8): 1179–1182. дои : 10.1016/j.spl.2011.03.014 .
- ^ Чан, Стэнли Х. (2021). Введение в вероятность в науке о данных . Мичиганское издательство. п. 18. ISBN 978-1-60785-746-4 .
- ^ Гессен, К. (1990). «Скорость сходимости эмпирической функции распределения и эмпирической характеристической функции широкого класса линейных процессов». Журнал многомерного анализа . 35 (2): 186–202. дои : 10.1016/0047-259X(90)90024-C .
- ^ «Совместная кумулятивная функция распределения (CDF)» . math.info . Проверено 11 декабря 2019 г.
- ^ «Архивная копия» (PDF) . www.math.wustl.edu . Архивировано из оригинала (PDF) 22 февраля 2016 года . Проверено 13 января 2022 г.
{{cite web}}
: CS1 maint: архивная копия в заголовке ( ссылка ) - ^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки» . Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700 . ISSN 0361-0926 . S2CID 237919587 .
Внешние ссылки
[ редактировать ]- СМИ, связанные с функциями совокупного распределения, на Викискладе?