Копула приближается
Лоза — это графический инструмент для маркировки ограничений в многомерных распределениях вероятностей . Обычная лоза — это частный случай, для которого все ограничения двумерны или условно двумерны. Обычные лозы обобщают деревья и сами являются специализацией дерева Кантора . [1]
В сочетании с двумерными копулами обычные лозы оказались гибким инструментом в моделировании многомерных зависимостей. Копулы [2] [3] представляют собой многомерные распределения с равномерными одномерными границами. Представление совместного распределения в виде одномерных полей плюс копул позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку одномерные распределения во многих случаях можно адекватно оценить на основе данных, тогда как информация о зависимости примерно неизвестна и включает сводные показатели и суждения. [4] [5] Хотя число параметрических семейств многомерных копул с гибкой зависимостью ограничено, существует множество параметрических семейств двумерных копул. Обычные лозы обязаны своей растущей популярностью тому факту, что они используют двумерные связки и позволяют расширять их до произвольных размеров. Теория выборки и теория оценки для обычных виноградных лоз хорошо развиты. [6] [7] и модельный вывод покинул пост. [8] [9] [7] Обычные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]
Например, в сфере финансов было показано, что копулы Vine эффективно моделируют хвостовой риск в приложениях по оптимизации портфеля. [14]
Историческое происхождение
[ редактировать ]Первую регулярную лозу avant la lettre представил Гарри Джо. [15] Мотивом было расширение семейств параметрических двумерных копул с экстремальными значениями до более высоких измерений. С этой целью он представил то, что позже будет названо D-vine . Джо [16] меня интересовал класс распределений с n-вариантами с заданными одномерными границами и n ( n параметрами зависимости - 1), при этом n - 1 параметров соответствуют двумерным полям, а остальные соответствуют условным двумерным полям. В случае многомерного нормального распределения параметрами будут n - 1 корреляций и ( n - 1)( n - 2)/2 частичные корреляции , которые, как было отмечено, алгебраически независимы в (-1, 1).
Совершенно иная мотивация легла в основу первого формального определения виноградной лозы у Кука. [17] Анализ неопределенности крупных моделей риска, например, проведенный для Европейского Союза и Комиссии по ядерному регулированию США при авариях на атомных электростанциях, предполагает количественную оценку и распространение неопределенности на сотни переменных. [18] [19] [20] Информация о зависимостях для таких исследований была получена с помощью деревьев Маркова . [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерные связки. Для n переменных существует не более n − 1 ребер, для которых можно задать зависимость. Новые методы того времени включали получение распределений неопределенностей параметров моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенностей возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто отображали структуру зависимостей, которую невозможно было отобразить в виде дерева Маркова.
Графические модели, называемые виноградными лозами, были представлены в 1997 году и доработаны Роджером М. Куком , Тимом Бедфордом и Доротой Куровицкой. [17] [1] [8] Важной особенностью лоз является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, что, как правило, слишком экономно для суммирования зависимости между переменными.
Обычные лозы (R-лозы)
[ редактировать ]


Лоза V на n переменных — это вложенный набор связанных деревьев, где ребра первого дерева являются узлами второго дерева, ребра второго дерева — узлами третьего дерева и т. д. или Регулярная лоза R -лоза на n переменных — это лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1, только если эти ребра имеют общий узел, j = 1, ..., n − 2. Узлы первого дерева представляют собой одномерные случайные величины. Края — это ограничения или условные ограничения, поясняемые следующим образом.
Напомним, что ребро дерева — это неупорядоченный набор из двух узлов. Каждое ребро лозы связано с набором ограничений , представляющим собой набор переменных (узлов в первом дереве), достижимых с помощью отношения принадлежности к множеству. Для каждого ребра набор ограничений представляет собой объединение наборов ограничений двух членов ребра, называемых наборами ограничений компонентов (для ребра в первом дереве наборы ограничений компонентов пусты). Ограничение, связанное с каждым ребром, теперь представляет собой симметричную разность наборов ограничений его компонентов, обусловленную пересечением его наборов ограничений. Можно показать, что для обычной лозы симметричная разность наборов ограничений компонентов всегда представляет собой дублетон и что каждая пара переменных встречается ровно один раз в качестве переменных с ограничениями. Другими словами, все ограничения являются двумерными или условно двумерными.
Степень узла — это количество ребер, присоединяющихся к нему. Простейшие регулярные лозы имеют простейшую ступенчатую структуру; D-Vine присваивает каждому узлу степень 1 или 2, C-Vine присваивает одному узлу в каждом дереве максимальную степень. Для крупных лиан удобнее рисовать каждое дерево отдельно.
Число правильных лоз от n переменных быстро растёт по n : имеется 2 п -3 способов расширить обычную лозу одной дополнительной переменной, и существует n ( n − 1)( n − 2)!2 ( п - 2)( п - 3)/2 /2 помеченные обычные лозы от n переменных [22] . [23]
Ограничения на регулярную лозу могут быть связаны с частичными корреляциями или с условной двумерной копулой . В первом случае мы говорим о частичной корреляционной лозе , а во втором случае о лозе-связке .
Лозы частичной корреляции
[ редактировать ]Бедфорд и Кук [1] покажите, что любое присвоение значений в открытом интервале (-1, 1) ребрам в любой лозе частичной корреляции согласовано, назначения алгебраически независимы и между всеми такими присвоениями и множеством существует взаимно-однозначное отношение. корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которых имеют интуитивную интерпретацию. При этом определителем корреляционной матрицы является произведение по ребрам (1 − ρ 2 ок ; D ( ik ) ), где ρ ik ; D ( ik ) — это частичная корреляция, присвоенная ребру с условными переменными i , k и кондиционирующими переменными D ( ik ). Подобное разложение характеризует взаимную информацию , обобщающую определитель корреляционной матрицы. [17] Эти функции использовались при ограниченной выборке корреляционных матриц. [10] построение непараметрических непрерывных байесовских сетей [12] [13] и решение проблемы расширения частично заданных матриц до положительно определенных матриц. [24] . [25]
Виноградные копулы или конструкция парных связок
[ редактировать ]При подходящих условиях дифференцируемости любая многомерная плотность f 1... n от n переменных с одномерными плотностями f 1 ,..., f n может быть представлена в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копул на любая R-лоза V
f 1...n знак равно f 1 ...f n Π eاE( V ) C e 1 ,e 2 |D e ( F e 1 |D e , F e 2 |D e )
где ребра e = (e 1 , e 2 ) с набором обусловленности D e находятся в множестве ребер E( V ) любой регулярной лозы V . Условные плотности копул C e 1 ,e 2 |D e в этом представлении зависят от кумулятивных условных функций распределения условных переменных F e 1 |D e , F e 2 |D e , и потенциально от значений кондиционирующие переменные. Когда условные связки не зависят от значений обуславливающих переменных, говорят об упрощающем предположении о постоянных условных связках. Хотя большинство приложений используют это предположение, исследование свободы моделирования, полученной за счет отказа от этого предположения, уже началось. [27] [28] . [29] Когда двумерные гауссовы копулы присваиваются краям лозы, результирующая многомерная плотность представляет собой гауссову плотность, параметризованную лозой частичной корреляции, а не корреляционной матрицей.
Конструкция пары-связки лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанной дискретной/непрерывной реакции. [30] . [31] Также были предложены факторные копулы, в которых к лозе добавлялись скрытые переменные (например, [32] ).
Исследователи виноградной лозы разработали алгоритмы для оценки максимального правдоподобия и моделирования копул лоз, поиска усеченных лоз, которые суммируют зависимость в данных, перебора лоз и т. д. Глава 6 Моделирование зависимостей с помощью копул [33] обобщает эти алгоритмы в псевдокоде.
Усеченные копулы лозы (представленные Э. К. Брехманном в его докторской диссертации) - это копулы лозы, которые имеют копулы независимости на последних деревьях. Таким образом, усеченные связки лозы кодируют в своей структуре условные независимости. Усеченные лозы очень полезны, поскольку содержат гораздо меньше параметров, чем обычные лозы. Важный вопрос – каким должно быть дерево на самом высоком уровне. Интересная связь между укороченными лозами и копулами вишневого дерева представлена в ( [34] )Представления графов вишневого дерева были введены как альтернатива обычным графическим представлениям копул лозы, причем здесь также выделены условные независимости, кодируемые последним деревом (первым деревом после усечения) ( [35] )и в ( [36] )Представление копул виноградной лозы в виде последовательности вишневого дерева дает новый способ взглянуть на усеченные копулы, основанный на условной независимости, вызванной усечением.
Оценка параметров
[ редактировать ]Для параметрических копул лозы с двумерным семейством копул на каждом краю лозы доступны алгоритмы и программное обеспечение для оценки максимального правдоподобия параметров копулы, при условии, что данные были преобразованы в однородные оценки после подгонки одномерных полей. Существуют также доступные алгоритмы (например, [37] ) для выбора хороших усеченных правильных лоз, где за условную независимость принимаются края высокоуровневых деревьев. Эти алгоритмы присваивают переменным с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Таким образом, для большого числа переменных получаются экономные усеченные лозы. Доступно программное обеспечение с пользовательским интерфейсом на R (например, [38] ).
Выборка и кондиционализация
[ редактировать ]Порядок выборки для n переменных представляет собой последовательность условных плотностей, в которой первая плотность является безусловной, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевает представление плотности в виде обычной лозы, если каждая условная плотность может быть записана как произведение плотностей копул в лозе и одномерных полей. [23]
Подразумеваемый порядок выборки создается с помощью вложенной последовательности ветвей, где каждая веточка в последовательности содержит одну новую переменную, отсутствующую в предыдущей ветке. Для любой обычной лозы от n переменных существует 2 n−1 подразумеваемые порядки выборки. Подразумеваемые порядки выборки являются небольшими.подмножество всех n! заказы, но они значительно облегчают отбор проб. Обуславливание регулярной лозы значениями произвольного подмножества переменных — сложная операция. Однако создание условий для начальной последовательности подразумеваемого порядка выборки тривиально: нужно просто подставить начальные условные значения и продолжить выборку. Общей теории кондиционализации в настоящее время не существует.
Дальнейшее чтение
[ редактировать ]- Куровицка, Д.; Джо, Х., ред. (2010). Моделирование зависимостей: Справочник Vine Copula . Сингапур: World Scientific. стр. 43–84. ISBN 978-981-4299-87-9 .
Ссылки
[ редактировать ]- ^ Перейти обратно: а б с Бедфорд, ТиДжей; Кук, РМ (2002). «Лозы — новая графическая модель зависимых случайных величин». Анналы статистики . 30 (4): 1031–1068. CiteSeerX 10.1.1.26.8965 . дои : 10.1214/aos/1031689016 .
- ^ Джо, Х. (1997). Многомерные модели и концепции зависимостей . Лондон: Чепмен и Холл.
- ^ Нельсен, РБ (2006). Введение в копулы, 2-е изд . Нью-Йорк: Спрингер.
- ^ Краан, Британская Колумбия; Кук, РМ (2000). «Обработка экспертных заключений при моделировании последствий аварий». Радиационная защита Дозиметрия . 90 (3): 311–315. doi : 10.1093/oxfordjournals.rpd.a033153 .
- ^ Але, БЖМ; Беллами, Эл Джей; ван дер Бум, Р.; Купер, Дж.; Кук, Р.М.; Гуссенс, LHJ; Хейл, Арканзас; Куровицка, Д.; Моралес, О.; Роелен, ОДО; Спудж, Дж. (2009). «Дальнейшее развитие причинно-следственной модели безопасности воздушного транспорта (CATS): построение математического ядра». Журнал «Техника надежности и системная безопасность» . 94 (9): 1433–1441. дои : 10.1016/j.ress.2009.02.024 .
- ^ Куровицка, Д.; Кук, РМ (2007). «Алгоритмы выборки для создания совместных равномерных распределений с использованием метода лозы-связки». Вычислительная статистика и анализ данных . 51 (6): 2889–2906. дои : 10.1016/j.csda.2006.11.043 .
- ^ Перейти обратно: а б Аас, К.; Чадо, К. ; Фригесси, А.; Баккен, Х. (2009). «Парно-связочные конструкции множественной зависимости». Страхование: Математика и Экономика . 44 (2): 182–198. CiteSeerX 10.1.1.61.3984 . doi : 10.1016/j.insmatheco.2007.02.001 . S2CID 18320750 .
- ^ Перейти обратно: а б с Куровицка, Д.; Кук, РМ (2006). Анализ неопределенностей с моделированием многомерных зависимостей . Уайли.
- ^ Куровицка, Д.; Кук, Р.М.; Кэллис, У. (2007). «Вывод виноградной лозы». Бразильский журнал вероятности и статистики .
- ^ Перейти обратно: а б Левандовски, Д.; Куровицка, Д.; Джо, Х. (2009). «Генерация случайных корреляционных матриц на основе виноградных лоз и расширенного метода лука» . Журнал многомерного анализа . 100 (9): 1989–2001. дои : 10.1016/j.jmva.2009.04.008 .
- ^ Куровицка, Д. (2014). «Генерация случайных корреляционных матриц на основе виноградных лоз и расширенного метода лука» . Совместная плотность корреляций в корреляционной матрице с шаблонами хордальной разреженности . 129 (С): 160–170. дои : 10.1016/j.jmva.2014.04.006 .
- ^ Перейти обратно: а б Ханеа, AM (2008). Алгоритмы для непараметрических байесовских сетей доверия (доктор философии). Делфтский институт прикладной математики Делфтского технологического университета.
- ^ Перейти обратно: а б Ханеа, AM; Куровицка, Д.; Кук, Р.М.; Абабей, Д.А. (2010). «Извлечение и визуализация порядковых данных с помощью непараметрических непрерывных BBN». Вычислительная статистика и анализ данных . 54 (3): 668–687. дои : 10.1016/j.csda.2008.09.032 .
- ^ Лоу, РКЮ; Алкок, Дж.; Фафф, Р.; Брэйлсфорд, Т. (2013). «Канонические связки виноградной лозы в контексте современного управления портфелем: стоят ли они того?». Журнал банковского дела и финансов . 37 (8): 3085–3099. дои : 10.1016/j.jbankfin.2013.02.036 . S2CID 154138333 .
- ^ Джо, Х. (1994). «Многомерные распределения экстремальных значений с применением в данных об окружающей среде». Канадский статистический журнал . 22 (1): 47–64. дои : 10.2307/3315822 . JSTOR 3315822 .
- ^ Джо, Х. (1996), «Семейства распределений с m-вариантами с заданными пределами и параметрами двумерной зависимости m (m-1)/2», в Рюшендорфе, Л.; Швейцер, Б.; Тейлор, доктор медицинских наук (ред.), Распределения с фиксированными маргинальными значениями и смежные темы , вып. 28, стр. 120–141.
- ^ Перейти обратно: а б с Кук, Р.М. (1997). «Марковские и энтропийные свойства переменных, зависящих от дерева и виноградной лозы». Учеб. ASA Секция байесовской статистической науки .
- ^ Перейти обратно: а б Гуссенс, LHJ; Харпер, штат Форт; Краан, Британская Колумбия; Метивье, Х. (2000). «Экспертное заключение по вероятностному анализу неопределенности последствий аварий». Радиационная защита Дозиметрия . 90 (3): 295–301. doi : 10.1093/oxfordjournals.rpd.a033151 .
- ^ Харпер, Ф.; Гуссенс, LHJ; Кук, Р.М.; Хора, С.; Янг, М.; Паслер-Ссауэр, Дж.; Миллер, Л.; Краан, Британская Колумбия; Луи, К.; Маккей, М.; Хелтон, Дж.; Джонс, А. (1994), Совместное исследование неопределенности последствий USNRC CEC: Краткое изложение целей, подхода, применения и результатов для оценки неопределенности последствий рассеяния и осаждения , том. III, НУРЕГ/CR-6244, EUR 15755 EN, ПЕСОК94-1453
- ^ Геган, Д.; Хассани, Б.К. (2013), «Многомерные VaR для расчета капитала операционного риска: подход к структуре лозы», International Journal of Risk Assessment and Management , 17 (2): 148–170, CiteSeerX 10.1.1.686.4277 , doi : 10.1504/ IJRAM.2013.057104 , S2CID 4989901
- ^ Уиттакер, Дж. (1990). Графические модели в прикладной многомерной статистике . Чичестер: Уайли.
- ^ Моралес Наполес, О.; Кук, Р.М.; Куровицка, Д. (2008), Число виноградных лоз и обычных лоз на n узлах , вып. Технический отчет, Делфтский институт прикладной математики, Делфтский технологический университет
- ^ Перейти обратно: а б Кук, Р.М.; Куровицка, Д.; Уилсон, К. (2015). «Отбор проб, кондиционирование, подсчет, объединение, поиск обычных лоз» . Журнал многомерного анализа . 138 : 4–18. дои : 10.1016/j.jmva.2015.02.001 .
- ^ Куровицка, Д.; Кук, РМ (2003). «Параметризация положительно определенных матриц с точки зрения частных корреляционных лоз» . Линейная алгебра и ее приложения . 372 : 225–251. дои : 10.1016/s0024-3795(03)00507-x .
- ^ Куровицка, Д.; Кук, РМ (2006). «Проблема завершения с лозами частичной корреляции». Линейная алгебра и ее приложения . 418 (1): 188–200. дои : 10.1016/j.laa.2006.01.031 .
- ^ Бефорд, Ти Джей; Кук, РМ (2001). «Разложение плотности вероятности для условно зависимых случайных величин, моделируемых лозами». Анналы математики и искусственного интеллекта . 32 : 245–268. дои : 10.1023/А:1016725902970 . S2CID 42550420 .
- ^ Хобек Хафф, И.; Аас, К.; Фригесси, А. (2010). «Об упрощенной парно-связочной конструкции – просто полезно или слишком упрощенно?». Журнал многомерного анализа . 101 (5): 1296–1310. дои : 10.1016/j.jmva.2009.12.001 . hdl : 10852/34736 .
- ^ Акар, ЭФ; Дженест, К.; Нешлехова, Ю. (2012). «За пределами упрощенных парно-связочных конструкций» . Журнал многомерного анализа . 110 : 74–90. дои : 10.1016/j.jmva.2012.02.001 .
- ^ Стобер, Дж.; Джо, Х.; Чадо, К. (2013). «Упрощенные парные конструкции связки, ограничения и расширения» . Журнал многомерного анализа . 119 : 101–118. дои : 10.1016/j.jmva.2013.04.014 .
- ^ Панагиотелис, А.; Чадо, К. ; Джо, Х. (2012). «Регулярные распределения виноградной лозы для дискретных данных». Журнал Американской статистической ассоциации . 105 (499): 1063–1072. дои : 10.1080/01621459.2012.682850 . S2CID 123502012 .
- ^ Стобер, Дж.; Хонг, ХГ; Чадо, К. ; Гош, П. (2015). «Коморбидность хронических заболеваний у пожилых людей: закономерности, выявленные с помощью конструкции связки для смешанных ответов». Вычислительная статистика и анализ данных . 88 : 28–39. дои : 10.1016/j.csda.2015.02.001 .
- ^ Крупский П.; Джо, Х. (2013). «Модели факторной копулы для многомерных данных». Журнал многомерного анализа . 120 : 85–101. дои : 10.1016/j.jmva.2013.05.001 .
- ^ Джо, Х. (2014). Моделирование зависимостей с помощью копул . Чепмен Холл. ISBN 978-1-4665-8322-1 .
- ^ Ковач, Э.; Сантай, Т. (2017). «О связи копул вишневого дерева и усеченных копул R-лозы». Кибернетика . 53 (3): 437–460. arXiv : 1604.03269 . дои : 10.14736/kyb-2017-3-0437 . S2CID 45343495 .
- ^ Ковач, Э.; Сантай, Т. (2012), «Вайн-копулы как средство построения многомерного распределения вероятностей, связанного с марковской сетью», arXiv : 1105.1697 [ math.ST ]
- ^ Ковач, Э.; Сантай, Т. (2012). «Гиперграфы в характеристике структур копулы правильной лозы». Учеб. 13-я Международная конференция по математике и ее приложениям, Тимишоара . 2012(а): 335–344.
- ^ Брехманн, ЕС; Чадо, К. ; Аас, К. (2012). «Усеченные обычные лозы в больших размерах с применением к финансовым данным». Канадский статистический журнал . 40 (1): 68–85. CiteSeerX 10.1.1.185.2933 . дои : 10.1002/cjs.10141 . S2CID 2155236 .
- ^ Шепсмайер, У.; Стобер, Дж.; Брехманн, ЕС; Грелер, Б. (2014). «Винная копула: статистический вывод виноградных копул, пакет R, версия 1.3» .
Внешние ссылки
[ редактировать ]- Роджер М. Кук
- «Модели связки виноградной лозы» . Кафедра математической статистики . - Программное обеспечение для оценки и отбора проб обычных виноградных лоз, литература и уведомления о мероприятиях.
- «Негауссовы многомерные статистические модели и их приложения (13w5146)» . Мастерская. БИРС . Май 2013.
- «Международный семинар по многомерной зависимости и копулам: теория, моделирование и приложения» . КУФЕ . Январь 2014 г. Архивировано из оригинала 9 апреля 2017 г.
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка )