Модели случайных графов экспоненциального семейства
Часть серии о | ||||
Сетевая наука | ||||
---|---|---|---|---|
Типы сетей | ||||
Графики | ||||
| ||||
Модели | ||||
| ||||
| ||||
Экспоненциальные модели случайных графов (ERGM) — это семейство статистических моделей для анализа данных из социальных и других сетей . [1] [2] Примеры сетей, исследованных с использованием ERGM, включают сети знаний, [3] организационные сети, [4] сети коллег, [5] социальные сети, сети научных разработок, [6] и другие.
Фон
[ редактировать ]Существует множество метрик для описания структурных особенностей наблюдаемой сети, таких как плотность, центральность или ассортативность. [7] [8] Однако эти метрики описывают наблюдаемую сеть, которая является лишь одним экземпляром большого количества возможных альтернативных сетей. Этот набор альтернативных сетей может иметь схожие или разные структурные особенности. Для поддержки статистических выводов о процессах, влияющих на формирование сетевой структуры, статистическая модель должна учитывать набор всех возможных альтернативных сетей, взвешенных по их сходству с наблюдаемой сетью. Однако, поскольку сетевые данные по своей сути являются реляционными, они нарушают предположения о независимости и идентичном распределении стандартных статистических моделей, таких как линейная регрессия . [9] [10] Альтернативные статистические модели должны отражать неопределенность, связанную с данным наблюдением, позволять делать выводы об относительной частоте сетевых подструктур, представляющих теоретический интерес, устранять неоднозначность влияния мешающих процессов, эффективно представлять сложные структуры и связывать процессы локального уровня со свойствами глобального уровня. [11] рандомизация с сохранением степени Например, — это особый способ, с помощью которого наблюдаемую сеть можно рассматривать с точки зрения множества альтернативных сетей.
Определение
[ редактировать ]Семейство Exponential — это широкое семейство моделей, охватывающих многие типы данных, а не только сети. ERGM — это модель из этого семейства, описывающая сети.
Формально случайный граф состоит из набора узлы и набор связанных переменных , индексированный парами узлов , где если узлы соединены ребром и в противном случае. Пара узлов называется диадой, а диада является ребром, если .
Основное предположение этих моделей состоит в том, что структура наблюдаемого графа можно объяснить заданным вектором достаточной статистики которые являются функцией наблюдаемой сети и, в некоторых случаях, узловых атрибутов. Таким образом можно описать любую зависимость между недвоичными переменными:
где вектор параметров модели, связанный с и является нормирующей константой.
Эти модели представляют распределение вероятностей в каждой возможной сети на узлы. Однако размер множества возможных сетей для неориентированной сети (простого графа) размера является . Поскольку количество возможных сетей в наборе значительно превышает количество параметров, которые могут ограничить модель, идеальным распределением вероятностей является то, которое максимизирует энтропию Гиббса . [12]
Пример
[ редактировать ]Позволять быть набором из трех узлов и пусть быть множеством всех неориентированных графов без петель на . Loopless подразумевает, что для всех это и ненаправленный означает, что для всех это , так что есть три двоичные переменные связи ( ) и в этом примере разные графики.
Определите двумерный вектор статистики с помощью , где определяется как количество ребер в графе и определяется как количество замкнутых треугольников в . Наконец, пусть вектор параметров определяется формулой , так что вероятность каждого графа в этом примере определяется:
Заметим, что в этом примере существует всего четыре класса изоморфизма графа : граф с нулевыми ребрами, три графа ровно с одним ребром, три графа ровно с двумя ребрами и граф с тремя ребрами. Поскольку изоморфные графы имеют одинаковое количество ребер и одинаковое количество треугольников, они также имеют одинаковую вероятность в этом примере ERGM. Для представителя каждого класса изоморфизма мы сначала вычисляем член , что пропорционально вероятности (с точностью до нормирующей константы ).
Если граф с нулевыми ребрами , то это и , так что
Если является графом ровно с одним ребром , то это и , так что
Если является графом ровно с двумя ребрами , то это и , так что
Если граф ровно с тремя ребрами , то он и , так что
Нормализующая константа вычисляется путем суммирования по всем восьми различным графикам . Это дает:
Наконец, вероятность каждого графа дается . В явном виде мы получаем, что граф с нулевыми ребрами имеет вероятность , каждый граф, имеющий ровно одно ребро, имеет вероятность , каждый граф, имеющий ровно два ребра, имеет вероятность , и граф ровно с тремя ребрами имеет вероятность в этом примере.
Интуитивно понятно, что структура вероятностей графа в этом примере ERGM соответствует типичным моделям социальных или других сетей . Отрицательный параметр ( ), связанное с количеством ребер, означает, что при прочих равных условиях сети с меньшим количеством ребер имеют более высокую вероятность, чем сети с большим количеством ребер. Это согласуется с разреженностью , которая часто встречается в эмпирических сетях, а именно с тем, что эмпирическое количество ребер обычно растет медленнее, чем максимально возможное количество ребер. Положительный параметр ( ), связанное с количеством замкнутых треугольников, означает, что при прочих равных условиях сети с большим количеством треугольников имеют более высокую вероятность, чем сети с меньшим количеством треугольников. Это согласуется с тенденцией к триадной замкнутости , которая часто встречается в определенных типах социальных сетей. Сравните эти шаблоны с вероятностями на графике, вычисленными выше. Сложение каждого ребра делит вероятность на два. Однако при переходе от графа с двумя ребрами к графу с тремя ребрами количество треугольников увеличивается на один – что дополнительно умножает вероятность на три.
Заметим, что явный расчет всех вероятностей графов возможен только потому, что в этом примере очень мало разных графов. Поскольку количество различных графов экспоненциально масштабируется по количеству связующих переменных, что, в свою очередь, квадратично масштабируется по количеству узлов, вычисление нормализующей константы, как правило, вычислительно сложно , уже для умеренного количества узлов.
Выборка из ERGM
[ редактировать ]Точная выборка из данного ERGM в целом вычислительно сложна, поскольку вычисление нормализующей константы требует суммирования по всем . Эффективная приблизительная выборка из ERGM может быть выполнена с помощью цепей Маркова и применяется в современных методах для аппроксимации ожидаемых значений и оценки параметров ERGM. [13] Неформально, если ERGM задан на множестве графов с функцией массы вероятности , выбирается исходный граф (который может быть выбран произвольно или случайно или может представлять собой наблюдаемую сеть) и неявно определяет вероятности перехода (или вероятности скачка) , которые представляют собой условные вероятности того, что цепь Маркова находится на графе после шага , учитывая, что оно находится на графике после шага . Вероятности перехода не зависят от графиков на предыдущих шагах ( ), что является определяющим свойством цепей Маркова и они не зависят от , то есть цепь Маркова однородна во времени. Цель состоит в том, чтобы определить такие вероятности перехода, чтобы для всех это
не зависит от исходного графа . Если это будет достигнуто, можно будет запустить цепь Маркова на большое количество шагов, а затем вернуть текущий граф как случайную выборку из данного ERGM. Вероятность вернуть график после конечного, но большого количества шагов обновления примерно соответствует вероятности, определенной ERGM.
Современные методы отбора проб из ERGM с цепями Маркова [13] обычно определяют шаг обновления двумя подэтапами: сначала случайным образом выбирают кандидата в окрестности текущего графа и, во-вторых, принять с вероятностью, которая зависит от отношения вероятностей текущего графа и кандидат . (Если кандидат не принят, цепь Маркова остается на текущем графике .) Если множество графов не имеет ограничений (т. е. содержит любую комбинацию значений двоичных связующих переменных), простой метод выбора кандидата — выбрать одну связующую переменную равномерно случайным образом и определить кандидата, перевернув эту единственную переменную (т. е. установив ; все остальные переменные принимают то же значение, что и в ). Обычный способ определить вероятность принятия — принять с условной вероятностью
где вероятности графа определяются ERGM. Важно отметить, что нормировочная константа сокращается в этой дроби, так что вероятности принятия могут быть вычислены эффективно.
Ссылки
[ редактировать ]- ^ Люшер, Дин; Коскинен, Йохан; Робинс, Гарри (2012). Экспоненциальные модели случайных графов для социальных сетей: теория, методы и приложения (структурный анализ в социальных науках) . дои : 10.1017/CBO9780511894701 . ISBN 9780521141383 . OCLC 1120539699 .
- ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN 9781452220802 . OCLC 870698788 .
- ^ Бреннеке, Джулия; Ранг, Олаф (01 мая 2017 г.). «Сеть знаний фирмы и передача советов между корпоративными изобретателями - многоуровневое сетевое исследование». Исследовательская политика . 46 (4): 768–783. дои : 10.1016/j.respol.2017.02.002 . ISSN 0048-7333 .
- ^ Харрис, Дженин К. (2013). «Коммуникационные связи в национальной сети местных департаментов здравоохранения». AMEPRE Американский журнал профилактической медицины . 44 (3): 247–253. дои : 10.1016/j.amepre.2012.10.028 . ISSN 0749-3797 . OCLC 4937103196 . ПМИД 23415121 .
- ^ Бреннеке, Юлия (2019). «Диссонансные связи во внутриорганизационных сетях: почему люди обращаются за помощью в решении проблем к трудным коллегам». Журнал Академии менеджмента AMJ . ISSN 0001-4273 . OCLC 8163488129 .
- ^ Харрис, Дженин К; Люк, Дуглас А; Шелтон, Сара С; Цукерман, Рэйчел Б. (2009). «Сорок лет исследований пассивного курения. Разрыв между открытием и доставкой». Американский журнал профилактической медицины . 36 (6): 538–548. дои : 10.1016/j.amepre.2009.01.039 . ISSN 0749-3797 . OCLC 6980180781 . ПМИД 19372026 .
- ^ Вассерман, Стэнли ; Фауст, Кэтрин (1994). Анализ социальных сетей: методы и приложения . ISBN 978-0-521-38707-1 .
- ^ Ньюман, МЭД (2003). «Структура и функции сложных сетей». Обзор СИАМ . 45 (2): 167–256. arXiv : cond-mat/0303516 . Бибкод : 2003SIAMR..45..167N . дои : 10.1137/S003614450342480 .
- ^ Подрядчик, Ношир; Вассерман, Стэнли; Фауст, Кэтрин (2006). «Проверка многотеоретических и многоуровневых гипотез об организационных сетях: аналитическая основа и эмпирический пример» (PDF) . Обзор Академии менеджмента . 31 (3): 681–703. дои : 10.5465/AMR.2006.21318925 . S2CID 10837327 . Архивировано из оригинала (PDF) 25 февраля 2020 г.
- ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN 9781452220802 . OCLC 870698788 .
- ^ Робинс, Г.; Паттисон, П.; Калиш, Ю.; Люшер, Д. (2007). «Введение в экспоненциальные модели случайных графов для социальных сетей». Социальные сети . 29 (2): 173–191. дои : 10.1016/j.socnet.2006.08.002 . hdl : 1959.3/216571 .
- ^ Ньюман, МЭЖ (25 марта 2010 г.). «Другие сетевые модели». Сети . стр. 565–585. ISBN 978-0-19-920665-0 .
- ^ Jump up to: а б Хантер, Д.Р.; Хэндкок, М.С. (2006). «Вывод в моделях криволинейного экспоненциального семейства для сетей». Журнал вычислительной и графической статистики . 15 (3): 565–583. CiteSeerX 10.1.1.205.9670 . дои : 10.1198/106186006X133069 .
Дальнейшее чтение
[ редактировать ]- Бышкин М.; Стивала, А.; Мира, А.; Робинс, Г.; Ломи, А. (2018). «Быстрая оценка максимального правдоподобия с помощью равновесного ожидания для больших сетевых данных» . Научные отчеты . 8 (1): 11509. arXiv : 1802.10311 . Бибкод : 2018НатСР...811509Б . дои : 10.1038/s41598-018-29725-8 . ПМК 6068132 . ПМИД 30065311 .
- Каймо, А.; Фрил, Н. (2011). «Байесовский вывод для моделей экспоненциальных случайных графов». Социальные сети . 33 : 41–55. arXiv : 1007.5192 . дои : 10.1016/j.socnet.2010.09.004 .
- Эрдеш, П.; Реньи, А (1959). «О случайных графах». Математические публикации . 6 : 290–297.
- Финберг, SE; Вассерман, С. (1981). «Обсуждение экспоненциального семейства вероятностных распределений для ориентированных графов Холланда и Лейнхардта». Журнал Американской статистической ассоциации . 76 (373): 54–57. дои : 10.1080/01621459.1981.10477600 .
- Франк, О.; Штраус, Д. (1986). «Марковские графики». Журнал Американской статистической ассоциации . 81 (395): 832–842. дои : 10.2307/2289017 . JSTOR 2289017 .
- Хэндкок, М.С.; Хантер, ДР; Баттс, Коннектикут; Гудро, С.М.; Моррис, М. (2008). «statnet: Программные средства для представления, визуализации, анализа и моделирования сетевых данных» . Журнал статистического программного обеспечения . 24 (1): 1–11. дои : 10.18637/jss.v024.i01 . ПМЦ 2447931 . ПМИД 18618019 .
- Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов. Мудрец. [1]
- Хантер, ДР; Гудро, С.М.; Хэндкок, М.С. (2008). «Соответствие моделей социальных сетей». Журнал Американской статистической ассоциации . 103 (481): 248–258. CiteSeerX 10.1.1.206.396 . дои : 10.1198/016214507000000446 .
- Хантер, Д.Р.; Хэндкок, М.С. (2006). «Вывод в моделях криволинейного экспоненциального семейства для сетей». Журнал вычислительной и графической статистики . 15 (3): 565–583. CiteSeerX 10.1.1.205.9670 . дои : 10.1198/106186006X133069 .
- Хантер, ДР; Хэндкок, М.С.; Баттс, Коннектикут; Гудро, С.М.; Моррис, М. (2008). «ergm: пакет для подбора, моделирования и диагностики моделей экспоненциального семейства для сетей» . Журнал статистического программного обеспечения . 24 (3): 1–29. дои : 10.18637/jss.v024.i03 . ПМЦ 2743438 .
- Джин, Айдахо; Лян, Ф. (2012). «Подбор моделей социальных сетей с использованием алгоритма MCMC стохастической аппроксимации с различным усечением». Журнал вычислительной и графической статистики . 22 (4): 927–952. дои : 10.1080/10618600.2012.680851 .
- Коскинен, Дж. Х.; Робинс, Г.Л.; Паттисон, ЧП (2010). «Анализ моделей экспоненциального случайного графа (p-звезды) с отсутствующими данными с использованием байесовского увеличения данных» . Статистическая методология . 7 (3): 366–384. дои : 10.1016/j.stamet.2009.09.007 .
- Моррис, М.; Хэндкок, М.С.; Хантер, ДР (2008). «Спецификация моделей случайных графов экспоненциального семейства: термины и вычислительные аспекты» . Журнал статистического программного обеспечения . 24 (4): 1548–7660. дои : 10.18637/jss.v024.i04 . ПМЦ 2481518 . ПМИД 18650964 .
- Ринальдо, А.; Финберг, SE; Чжоу, Ю. (2009). «О геометрии дискретных экспоненциальных случайных семейств с применением к моделям экспоненциальных случайных графов». Электронный статистический журнал . 3 : 446–484. arXiv : 0901.0026 . дои : 10.1214/08-EJS350 .
- Робинс, Г.; Снейдерс, Т.; Ван, П.; Хэндкок, М.; Паттисон, П. (2007). «Последние разработки в моделях экспоненциального случайного графа (p *) для социальных сетей» (PDF) . Социальные сети . 29 (2): 192–215. дои : 10.1016/j.socnet.2006.08.003 . hdl : 11370/abee7276-394e-4051-a180-7b2ff57d42f5 .
- Швайнбергер, Майкл (2011). «Неустойчивость, чувствительность и вырождение дискретных экспоненциальных семейств» . Журнал Американской статистической ассоциации . 106 (496): 1361–1370. дои : 10.1198/jasa.2011.tm10747 . ПМЦ 3405854 . ПМИД 22844170 .
- Швайнбергер, Майкл; Хэндкок, Марк (2015). «Локальная зависимость в моделях случайных графов: характеристика, свойства и статистический вывод» . Журнал Королевского статистического общества, серия B. 77 (3): 647–676. дои : 10.1111/rssb.12081 . ПМЦ 4637985 . ПМИД 26560142 .
- Швайнбергер, Майкл; Стюарт, Джонатан (2020). «Результаты концентрации и согласованности для канонических и изогнутых экспоненциальных моделей случайных графов». Анналы статистики . 48 (1): 374–396. arXiv : 1702.01812 . дои : 10.1214/19-AOS1810 .
- Снейдерс, ТАБ (2002). «Оценка методом Монте-Карло экспоненциальных моделей случайных графов марковской цепью» (PDF) . Журнал социальной структуры . 3 .
- Снейдерс, TAB; Паттисон, ЧП; Робинс, Г.Л.; Хэндкок, М.С. (2006). «Новые спецификации экспоненциальных моделей случайных графов». Социологическая методология . 36 : 99–153. CiteSeerX 10.1.1.62.7975 . дои : 10.1111/j.1467-9531.2006.00176.x .
- Штраус, Д; Икеда, М. (1990). «Оценка псевдоправдоподобия для социальных сетей» . Журнал Американской статистической ассоциации . 5 (409): 204–212. дои : 10.2307/2289546 . JSTOR 2289546 .
- ван Дуйн, Массачусетс; Снейдерс, TAB; Зийлстра, Б.Х. (2004). «p2: модель случайных эффектов с ковариатами для ориентированных графов». Статистика Неерландики . 58 (2): 234–254. дои : 10.1046/j.0039-0402.2003.00258.x .
- ван Дуйн, MAJ; Джайл, Кей Джей ; Хэндкок, М.С. (2009). «Среда для сравнения оценки максимального псевдоправдоподобия и максимального правдоподобия моделей случайных графов экспоненциального семейства» . Социальные сети . 31 (1): 52–62. дои : 10.1016/j.socnet.2008.10.003 . ПМЦ 3500576 . ПМИД 23170041 .
- ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN 9781452220802 . OCLC 870698788 .