Квантильно-параметрическое распределение

Квантильно -параметризованное распределение (QPD) — это распределение вероятностей, которое напрямую параметризуется данными. Они были созданы для удовлетворения потребности в простых в использовании непрерывных распределениях вероятностей, достаточно гибких, чтобы отражать широкий спектр неопределенностей, например, тех, которые обычно встречаются в бизнесе, экономике, технике и науке. Поскольку QPD напрямую параметризуются данными, у них есть практическое преимущество, заключающееся в том, что они позволяют избежать промежуточного этапа оценки параметров — трудоемкого процесса, который обычно требует нелинейных итерационных методов для оценки параметров распределения вероятностей на основе данных. Некоторые QPD обладают практически неограниченной гибкостью формы, а также моментами замкнутой формы.

История

Разработка квантильно-параметризованных распределений была вдохновлена практической потребностью в гибких непрерывных распределениях вероятностей, которые легко адаптировать к данным. Исторически Пирсон ^[1] и Джонсон ^[2]^[3] семейства распределений использовались, когда требовалась гибкость формы. Это связано с тем, что оба семейства могут сопоставить первые четыре момента (среднее значение, дисперсию, асимметрию и эксцесс) любого набора данных. Однако во многих случаях эти распределения либо сложно подогнать под данные, либо они недостаточно гибки, чтобы соответствующим образом подогнать данные.

Например, бета-распределение — это гибкое распределение Пирсона, которое часто используется для моделирования процентной доли населения. Однако если характеристики этой совокупности таковы, что желаемая кумулятивная функция распределения (CDF) должна проходить через определенные конкретные точки CDF, может не быть бета-распределения, отвечающего этой потребности. Поскольку бета-распределение имеет только два параметра формы, оно, как правило, не может соответствовать даже трем заданным точкам CDF. Более того, бета-параметры, наилучшим образом соответствующие таким данным, можно найти только нелинейными итерационными методами.

Специалисты по анализу решений , нуждающиеся в распределениях, которые можно легко параметризовать тремя или более точками CDF (например, потому, что такие точки были указаны в результате процесса выявления экспертов ), первоначально изобрели для этой цели распределения, параметризованные квантилем. Килин и Паули (2011) ^[4] дал первоначальное определение. Впоследствии Килин (2016) ^[5] разработал металогические распределения — семейство распределений, параметризованных квантилем, которые имеют практически неограниченную гибкость формы, простые уравнения и моменты замкнутой формы.

Определение

Килин и Паули ^[4] определить параметризованное квантилем распределение как распределение, функция квантиля которого (обратный CDF) может быть записана в виде

F^{-1}(y)=\left\{{\begin{array}{cl}L_{0}&{\text{for }}y=0\\\sum _{i=1}^{n}a_{i}g_{i}(y)&{\text{for }}0<y<1\\L_{1}&{\mbox{for }}y=1\end{array}}\right.

где

{\begin{array}{rcl}L_{0}&=&\lim _{y\rightarrow 0^{+}}F^{-1}(y)\\L_{1}&=&\lim _{y\rightarrow 1^{-}}F^{-1}(y)\end{array}}

и функции $g_{i}(y)$ являются непрерывно дифференцируемыми и линейно независимыми базисными функциями. Здесь, по сути, $L_{0}$ и $L_{1}$ — нижняя и верхняя границы (если они существуют) случайной величины с функцией квантиля $F^{-1}(y)$ . Эти распределения называются квантильно-параметризованными, поскольку для заданного набора пар квантилей $\{(x_{i},y_{i})\mid i=1,\ldots ,n\}$ , где $x_{i}=F^{-1}(y_{i})$ и набор $n$ базисные функции $g_{i}(y)$ , коэффициенты $a_{i}$ можно определить, решив систему линейных уравнений. ^[4] Если кто-то желает использовать больше пар квантилей, чем базисные функции, то коэффициенты $a_{i}$ может быть выбран так, чтобы минимизировать сумму квадратов ошибок между указанными квантилями $x_{i}$ и $F^{-1}(y_{i})$ . Килин и Паули ^[4] проиллюстрируйте эту концепцию для конкретного выбора базисных функций, который является обобщением функции квантиля нормального распределения , $x=\mu +\sigma \Phi ^{-1}(y)$ , для которого среднее $\mu$ и стандартное отклонение $\sigma$ являются линейными функциями кумулятивной вероятности $y$ :

\mu (y)=a_{1}+a_{4}y

\sigma (y)=a_{2}+a_{3}y

Результатом является распределение с четырьмя параметрами, которое можно точно подогнать к набору из четырех пар квантиль/вероятность или к любому числу таких пар с помощью линейного метода наименьших квадратов . Килин и Паули ^[4] назовите это простым Q-нормальным распределением. Некоторые перекошенные и симметричные файлы Simple Q-Normal PDF показаны на рисунках ниже.

Простые симметричные Q-нормальные PDF-файлы — Симметричные простые Q-нормальные PDF-файлы

Характеристики

QPD, соответствующие определению Килина и Паули, обладают следующими свойствами.

Функция плотности вероятности

Дифференциация $x=F^{-1}(y)=\sum _{i=1}^{n}a_{i}g_{i}(y)$ относительно $y$ урожайность $dx/dy$ . обратная этой величине, $dy/dx$ , — функция плотности вероятности (PDF)

f(y)=\left(\sum _{i=1}^{n}a_{i}{{dg_{i}(y)} \over {dy}}\right)^{-1}

где $0<y<1$ . Обратите внимание, что эта PDF выражается как функция кумулятивной вероятности. $y$ скорее, чем $x$ . Чтобы построить его, как показано на рисунках, измените $y\in (0,1)$ параметрически. Сюжет $x=F^{-1}(y)$ по горизонтальной оси и $f(y)$ на вертикальной оси.

Технико-экономическое обоснование

Функция формы $F^{-1}(y)$ является допустимым распределением вероятностей тогда и только тогда, когда $f(y)>0$ для всех $y\in (0,1)$ . ^[4] Это подразумевает ограничение осуществимости набора коэффициентов ${\boldsymbol {a}}=(a_{1},\ldots ,a_{n})\in \mathbb {R} ^{n}$ :

\sum _{i=1}^{n}a_{i}{{dg_{i}(y)} \over {dy}}>0

для всех

y\in (0,1)

В практических приложениях осуществимость обычно следует проверять, а не предполагать.

Выпуклость

Набор допустимых коэффициентов QPD $S_{\boldsymbol {a}}=\{{\boldsymbol {a}}\in \mathbb {R} ^{n}\mid \sum _{i=1}^{n}a_{i}dg_{i}(y)/dy>0$ для всех $y\in (0,1)\}$ является выпуклым . Поскольку выпуклая оптимизация требует выпуклых допустимых множеств, это свойство упрощает приложения оптимизации, включающие QPD.

Подгонка к данным

Коэффициенты ${\boldsymbol {a}}$ может быть определена по данным линейным методом наименьших квадратов . Данный $m$ точки данных $(x_{i},y_{i})$ которые предназначены для характеристики CDF QPD, и $m\times n$ матрица ${\boldsymbol {Y}}$ элементы которого состоят из $g_{j}(y_{i})$ , тогда, пока ${\boldsymbol {Y}}^{T}{\boldsymbol {Y}}$ обратим, вектор-столбец коэффициентов ${\boldsymbol {a}}$ может быть определен как ${\boldsymbol {a}}=({\boldsymbol {Y}}^{T}{\boldsymbol {Y}})^{-1}{\boldsymbol {Y}}^{T}{\boldsymbol {x}}$ , где $m\geq n$ и вектор-столбец ${\boldsymbol {x}}=(x_{1},\ldots ,x_{m})$ . Если $m=n$ , это уравнение сводится к ${\boldsymbol {a}}={\boldsymbol {Y}}^{-1}{\boldsymbol {x}}$ , где результирующий CDF проходит точно по всем точкам данных. Альтернативный метод, реализованный в виде линейной программы, определяет коэффициенты путем минимизации суммы абсолютных расстояний между CDF и данными, на которые распространяются ограничения осуществимости. ^[6]

Гибкость формы

QPD с $n$ термины, где $n\geq 2$ , имеет $n-2$ параметры формы. Таким образом, КФД могут быть гораздо более гибкими, чем распределения Пирсона , которые имеют не более двух параметров формы. десятичленные металогические распределения, Например, было показано, что параметризованные 105 точками CDF из 30 традиционных исходных распределений (включая нормальное, распределение Стьюдента, логнормальное, гамма, бета и экстремальное значение), аппроксимируют каждое такое исходное распределение в пределах K – S. расстояние 0,001 или меньше. ^[7]

Преобразования

Преобразования КПД подчиняются общему свойству функций квантиля: для любой функции квантиля $x=Q(y)$ и повышение функции $t(x),x=t^{-1}(Q(y))$ является квантильной функцией . ^[8] Например, функция квантиля нормального распределения , $x=\mu +\sigma \Phi ^{-1}(y)$ , является КПД по определению Килина и Паули. Натуральный логарифм, $t(x)=\ln(x-b_{l})$ , является возрастающей функцией, поэтому $x=b_{l}+e^{\mu +\sigma \Phi ^{-1}(y)}$ - функция квантиля логнормального распределения с нижней границей $b_{l}$ . Важно отметить, что это преобразование преобразует неограниченную КФД в полуограниченную КФД. Аналогично, применяя это логарифмическое преобразование к неограниченному металогическому распределению ^[9] дает полуограниченное (логарифмическое) металогическое распределение ; ^[10] аналогично, применяя логит-преобразование, $t(x)=\ln((x-b_{l})/(b_{u}-x))$ , дает ограниченное (логит) металогическое распределение ^[10] с нижней и верхней границей $b_{l}$ и $b_{u}$ , соответственно. Более того, рассматривая $t(x)$ быть $F^{-1}(y)$ распределено, где $F^{-1}(y)$ представляет собой любую QPD, соответствующую определению Килина и Паули, преобразованная переменная сохраняет вышеуказанные свойства осуществимости, выпуклости и соответствия данным. Такие преобразованные QPD имеют большую гибкость формы, чем лежащие в их основе $F^{-1}(y)$ , который имеет $n-2$ параметры формы; преобразование журнала имеет $n-1$ параметры формы, а логит-преобразование имеет $n$ параметры формы. Более того, такие преобразованные QPD имеют тот же набор допустимых коэффициентов, что и базовый непреобразованный QPD. ^[11]

Моменты

The $k^{th}$ момент КПД равен: ^[4]

E[x^{k}]=\int _{0}^{1}\left(\sum _{i=1}^{n}a_{i}g_{i}(y)\right)^{k}dy

Существуют ли такие моменты в замкнутой форме, зависит от выбора базисных функций КФД. $g_{i}(y)$ . Неограниченное металогическое распределение и полиномиальные КФД являются примерами КФД, для которых моменты существуют в замкнутой форме как функции коэффициентов $a_{i}$ .

Моделирование

Поскольку функция квантиля $x=F^{-1}(y)$ выражается в закрытой форме, QPD Килина и Паули облегчают моделирование методом Монте-Карло . Подставляя в равномерно распределенные случайные выборки $y$ производит случайные выборки $x$ в закрытой форме, тем самым устраняя необходимость инвертировать CDF, выраженный как $y=F(x)$ .

Связанные дистрибутивы

Следующие распределения вероятностей являются QPD согласно определению Килина и Паули:

Квантильная функция нормального распределения , $x=\mu +\sigma \Phi ^{-1}(y)$ .
Квантильная функция распределения Гамбеля , $x=\mu -\beta \ln(-\ln(y))$ .
Квантильная функция распределения Коши , $x=x_{0}+\gamma \tan[\pi (y-0.5)]$ .
Квантильная функция логистического распределения , $x=\mu +s\ln(y/(1-y))$ .
Неограниченное металогическое распределение , которое представляет собой разложение в степенной ряд $\mu$ и $s$ параметры логистической квантильной функции.
Полуограниченное и ограниченное металогическое распределение , которые являются логарифмическим и логит-преобразованием соответственно неограниченного металогового распределения.
, Неограниченные, полуограниченные и ограниченные металогические распределения SPT (триплет симметричных процентилей) которые параметризуются тремя точками CDF и дополнительными верхними и нижними границами.
Простое Q-нормальное распределение ^[12]
Метараспределения, включая метанормальные ^[13]
Квантильные функции, выраженные как полиномиальные функции кумулятивной вероятности $y$ , включая Чебышева . полиномиальные функции

Подобно металогическим распределениям SPT, квантильно-параметризованные распределения Джонсона ^[14]^[15] (JQPD) параметризуются тремя квантилями. JQPD не соответствуют определению QPD Килина и Паули, а имеют свои собственные свойства. JQPD осуществимы для всех наборов параметров SPT, которые соответствуют правилам вероятности .

Приложения

Первоначально QPD применялись аналитиками решений, желающими удобно преобразовать оцененные экспертами квантили (например, 10-й, 50-й и 90-й квантили) в плавные непрерывные распределения вероятностей. QPD также использовались для подбора выходных данных моделирования, чтобы представить эти результаты (как CDF, так и PDF) в виде непрерывных распределений в закрытой форме. ^[16] При таком использовании они обычно более стабильны и плавны, чем гистограммы. Аналогичным образом, поскольку QPD могут накладывать меньше ограничений по форме, чем традиционные распределения, они использовались для соответствия широкому диапазону эмпирических данных, чтобы представить эти наборы данных как непрерывные распределения (например, прямо отражая бимодальность, которая может существовать в данных). ^[17]). Квантильная параметризация позволяет представить QPD в закрытой форме известных распределений, чьи CDF в противном случае не имеют выражения в закрытой форме. Килин и др. (2019) ^[18] примените это к сумме независимых одинаково распределенных логнормальных распределений, где квантили суммы могут быть определены с помощью большого количества симуляций. Девять таких квантилей используются для параметризации полуограниченного металогического распределения, которое проходит точно через каждый из этих девяти квантилей. QPD также применялись для оценки рисков воздействия астероидов. ^[19] кибербезопасность, ^[6]^[20] отклонения в прогнозах добычи нефти на месторождениях по сравнению с наблюдаемой добычей постфактум, ^[21] и будущие прогнозы численности населения Канады, основанные на объединении вероятностных взглядов нескольких экспертов. ^[22] См. дистрибутивы металогов и Килин (2016). ^[5] для дополнительных приложений дистрибутива металога.

Внешние ссылки

Дистрибутивы Metalog, www.metalogs.org

Ссылки

^ Джонсон Н.Л., Коц С., Балакришнан Н. Непрерывные одномерные распределения, Том 1, второе издание, John Wiley & Sons, Ltd, 1994, стр. 15–25.
^ Джонсон, Нидерланды (1949). «Системы частотных кривых, порожденные методами трансляции» . Биометрика . 36 (1/2): 149–176. дои : 10.2307/2332539 . JSTOR 2332539 . ПМИД 18132090 .
^ Тадикамалла, Панду Р.; Джонсон, Норман Л. (1982). «Системы частотных кривых, порожденные преобразованиями логистических переменных» . Биометрика . 69 (2): 461–465. дои : 10.1093/biomet/69.2.461 . JSTOR 2335422 .
^ Jump up to: ^а ^б ^с ^д ^и ^ж ^г Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3): 206–219. дои : 10.1287/дека.1110.0213 .
^ Jump up to: ^а ^б Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 243–277. дои : 10.1287/дека.2016.0338 .
^ Jump up to: ^а ^б Фабер, Исаак Джастин; Пате-Корнелл, М. Элизабет; Лин, Герберт; Шахтер, Росс Д. (2019). Управление киберрисками: предупреждения об угрозах, генерируемые искусственным интеллектом (Диссертация). Стэнфордский университет.
^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Таблица 8. doi : 10.1287/декабрь 2016.0338 .
^ Гилкрист, В., 2000. Статистическое моделирование с использованием квантильных функций. ЦРК Пресс.
^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 3, стр. 249–257. дои : 10.1287/дека.2016.0338 .
^ Jump up to: ^а ^б Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 4. doi : 10.1287/deca.2016.0338 .
^ Паули, BW (2013). «Методы квантильных функций для анализа решений». Следствие 12, стр. 30. Кандидатская диссертация, Стэнфордский университет.
^ Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3). стр. 208–210. дои : 10.1287/дека.1110.0213 .
^ Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 253. doi : 10.1287/декабрь 2016.0338 .
^ Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2017). «Квантильно-параметризованные распределения Джонсона» . Анализ решений . 14 : 35–64. дои : 10.1287/дека.2016.0343 .
^ Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2019). «Обобщенная квантильно-параметризованная система распределения Джонсона» . Анализ решений . 16 : 67–85. дои : 10.1287/дека.2018.0376 . S2CID 159339224 .
^ Килин, TW (2016), раздел 6.2.2, стр. 271–274.
^ Килин, TW (2016), Раздел 6.1.1, Рисунок 10, стр. 266–267.
^ Мустафи, Н. (18 мая 2020 г.). Металогические распределения и чрезвычайно точные суммы логнормальных чисел в замкнутой форме . Институт инженеров по электротехнике и электронике (IEEE). стр. 3074–3085. ISBN 9781728132839 .
^ Рейнхардт, Джейсон С.; Чен, Си; Лю, Вэньхао; Манчев, Петар; Пате-Корнелл, М. Элизабет (2016). «Оценка астероидного риска: вероятностный подход» . Анализ рисков . 36 (2): 244–261. Бибкод : 2016РискА..36..244Р . дои : 10.1111/risa.12453 . ПМИД 26215051 . S2CID 23308354 .
^ Ван, Цзяли; Нил, Мартин; Фентон, Норман (2020). «Байесовский сетевой подход для оценки рисков кибербезопасности, реализация и расширение модели FAIR» . Компьютеры и безопасность . 89 : 101659. doi : 10.1016/j.cose.2019.101659 . S2CID 209099797 .
^ Братволд, Рейдар Б.; Мохус, Эрленд; Петушниг, Дэвид; Бикель, Эрик (2020). «Прогнозирование производства: оптимистичное и самоуверенное — снова и снова» . Spe Оценка и проектирование резервуаров . 23 (3): 0799–0810. дои : 10.2118/195914-PA . S2CID 219661316 .
^ Развитие демографического прогнозирования (PDF) . Серия Springer по демографическим методам и демографическому анализу. Том. 49. 2020. С. 43–62. дои : 10.1007/978-3-030-42472-5 . hdl : 20.500.12657/42565 . ISBN 978-3-030-42471-8 . S2CID 226615299 .

[1] Джонсон Н.Л., Коц С., Балакришнан Н. Непрерывные одномерные распределения, Том 1, второе издание, John Wiley & Sons, Ltd, 1994, стр. 15–25.

[2] Джонсон, Нидерланды (1949). «Системы частотных кривых, порожденные методами трансляции» . Биометрика . 36 (1/2): 149–176. дои : 10.2307/2332539 . JSTOR 2332539 . ПМИД 18132090 .

[3] Тадикамалла, Панду Р.; Джонсон, Норман Л. (1982). «Системы частотных кривых, порожденные преобразованиями логистических переменных» . Биометрика . 69 (2): 461–465. дои : 10.1093/biomet/69.2.461 . JSTOR 2335422 .

[KeelinPowley-4] Jump up to: ^а ^б ^с ^д ^и ^ж ^г Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3): 206–219. дои : 10.1287/дека.1110.0213 .

[Keelin2016-5] Jump up to: ^а ^б Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 243–277. дои : 10.1287/дека.2016.0338 .

[Faber-6] Jump up to: ^а ^б Фабер, Исаак Джастин; Пате-Корнелл, М. Элизабет; Лин, Герберт; Шахтер, Росс Д. (2019). Управление киберрисками: предупреждения об угрозах, генерируемые искусственным интеллектом (Диссертация). Стэнфордский университет.

[7] Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Таблица 8. doi : 10.1287/декабрь 2016.0338 .

[8] Гилкрист, В., 2000. Статистическое моделирование с использованием квантильных функций. ЦРК Пресс.

[UnboundedMetalog-9] Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 3, стр. 249–257. дои : 10.1287/дека.2016.0338 .

[KeelinSec4-10] Jump up to: ^а ^б Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4). Раздел 4. doi : 10.1287/deca.2016.0338 .

[11] Паули, BW (2013). «Методы квантильных функций для анализа решений». Следствие 12, стр. 30. Кандидатская диссертация, Стэнфордский университет.

[12] Килин, Томас В.; Паули, Брэдфорд В. (2011). «Квантильно-параметризованные распределения». Анализ решений . 8 (3). стр. 208–210. дои : 10.1287/дека.1110.0213 .

[13] Килин, Томас В. (2016). «Распределения металогов». Анализ решений . 13 (4): 253. doi : 10.1287/декабрь 2016.0338 .

[14] Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2017). «Квантильно-параметризованные распределения Джонсона» . Анализ решений . 14 : 35–64. дои : 10.1287/дека.2016.0343 .

[15] Хэдлок, Кристофер С.; Бикель, Дж. Эрик (2019). «Обобщенная квантильно-параметризованная система распределения Джонсона» . Анализ решений . 16 : 67–85. дои : 10.1287/дека.2018.0376 . S2CID 159339224 .

[16] Килин, TW (2016), раздел 6.2.2, стр. 271–274.

[17] Килин, TW (2016), Раздел 6.1.1, Рисунок 10, стр. 266–267.

[18] Мустафи, Н. (18 мая 2020 г.). Металогические распределения и чрезвычайно точные суммы логнормальных чисел в замкнутой форме . Институт инженеров по электротехнике и электронике (IEEE). стр. 3074–3085. ISBN 9781728132839 .

[19] Рейнхардт, Джейсон С.; Чен, Си; Лю, Вэньхао; Манчев, Петар; Пате-Корнелл, М. Элизабет (2016). «Оценка астероидного риска: вероятностный подход» . Анализ рисков . 36 (2): 244–261. Бибкод : 2016РискА..36..244Р . дои : 10.1111/risa.12453 . ПМИД 26215051 . S2CID 23308354 .

[20] Ван, Цзяли; Нил, Мартин; Фентон, Норман (2020). «Байесовский сетевой подход для оценки рисков кибербезопасности, реализация и расширение модели FAIR» . Компьютеры и безопасность . 89 : 101659. doi : 10.1016/j.cose.2019.101659 . S2CID 209099797 .

[21] Братволд, Рейдар Б.; Мохус, Эрленд; Петушниг, Дэвид; Бикель, Эрик (2020). «Прогнозирование производства: оптимистичное и самоуверенное — снова и снова» . Spe Оценка и проектирование резервуаров . 23 (3): 0799–0810. дои : 10.2118/195914-PA . S2CID 219661316 .

[22] Развитие демографического прогнозирования (PDF) . Серия Springer по демографическим методам и демографическому анализу. Том. 49. 2020. С. 43–62. дои : 10.1007/978-3-030-42472-5 . hdl : 20.500.12657/42565 . ISBN 978-3-030-42471-8 . S2CID 226615299 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]