Jump to content

Модели случайных графов экспоненциального семейства

Экспоненциальные модели случайных графов (ERGM) — это семейство статистических моделей для анализа данных из социальных и других сетей . [1] [2] Примеры сетей, исследованных с использованием ERGM, включают сети знаний, [3] организационные сети, [4] сети коллег, [5] социальные сети, сети научных разработок, [6] и другие.

Существует множество метрик для описания структурных особенностей наблюдаемой сети, таких как плотность, центральность или ассортативность. [7] [8] Однако эти метрики описывают наблюдаемую сеть, которая является лишь одним экземпляром большого количества возможных альтернативных сетей. Этот набор альтернативных сетей может иметь схожие или разные структурные особенности. Для поддержки статистических выводов о процессах, влияющих на формирование сетевой структуры, статистическая модель должна учитывать набор всех возможных альтернативных сетей, взвешенных по их сходству с наблюдаемой сетью. Однако, поскольку сетевые данные по своей сути являются реляционными, они нарушают предположения о независимости и идентичном распределении стандартных статистических моделей, таких как линейная регрессия . [9] [10] Альтернативные статистические модели должны отражать неопределенность, связанную с данным наблюдением, позволять делать выводы об относительной частоте сетевых подструктур, представляющих теоретический интерес, устранять неоднозначность влияния мешающих процессов, эффективно представлять сложные структуры и связывать процессы локального уровня со свойствами глобального уровня. [11] рандомизация с сохранением степени Например, — это особый способ, с помощью которого наблюдаемую сеть можно рассматривать с точки зрения множества альтернативных сетей.

Определение

[ редактировать ]

Семейство Exponential — это широкое семейство моделей, охватывающих многие типы данных, а не только сети. ERGM — это модель из этого семейства, описывающая сети.

Формально случайный граф состоит из набора узлы и набор связанных переменных , индексированный парами узлов , где если узлы соединены ребром и в противном случае. Пара узлов называется диадой, а диада является ребром, если .

Основное предположение этих моделей состоит в том, что структура наблюдаемого графа можно объяснить заданным вектором достаточной статистики которые являются функцией наблюдаемой сети и, в некоторых случаях, узловых атрибутов. Таким образом можно описать любую зависимость между недвоичными переменными:

где вектор параметров модели, связанный с и является нормирующей константой.

Эти модели представляют распределение вероятностей в каждой возможной сети на узлы. Однако размер множества возможных сетей для неориентированной сети (простого графа) размера является . Поскольку количество возможных сетей в наборе значительно превышает количество параметров, которые могут ограничить модель, идеальным распределением вероятностей является то, которое максимизирует энтропию Гиббса . [12]

Позволять быть набором из трех узлов и пусть быть множеством всех неориентированных графов без петель на . Loopless подразумевает, что для всех это и ненаправленный означает, что для всех это , так что есть три двоичные переменные связи ( ) и в этом примере разные графики.

Определите двумерный вектор статистики с помощью , где определяется как количество ребер в графе и определяется как количество замкнутых треугольников в . Наконец, пусть вектор параметров определяется формулой , так что вероятность каждого графа в этом примере определяется:

Заметим, что в этом примере существует всего четыре класса изоморфизма графа : граф с нулевыми ребрами, три графа ровно с одним ребром, три графа ровно с двумя ребрами и граф с тремя ребрами. Поскольку изоморфные графы имеют одинаковое количество ребер и одинаковое количество треугольников, они также имеют одинаковую вероятность в этом примере ERGM. Для представителя каждого класса изоморфизма мы сначала вычисляем член , что пропорционально вероятности (с точностью до нормирующей константы ).

Если граф с нулевыми ребрами , то это и , так что

Если является графом ровно с одним ребром , то это и , так что

Если является графом ровно с двумя ребрами , то это и , так что

Если граф ровно с тремя ребрами , то он и , так что

Нормализующая константа вычисляется путем суммирования по всем восьми различным графикам . Это дает:

Наконец, вероятность каждого графа дается . В явном виде мы получаем, что граф с нулевыми ребрами имеет вероятность , каждый граф, имеющий ровно одно ребро, имеет вероятность , каждый граф, имеющий ровно два ребра, имеет вероятность , и граф ровно с тремя ребрами имеет вероятность в этом примере.

Интуитивно понятно, что структура вероятностей графа в этом примере ERGM соответствует типичным моделям социальных или других сетей . Отрицательный параметр ( ), связанное с количеством ребер, означает, что при прочих равных условиях сети с меньшим количеством ребер имеют более высокую вероятность, чем сети с большим количеством ребер. Это согласуется с разреженностью , которая часто встречается в эмпирических сетях, а именно с тем, что эмпирическое количество ребер обычно растет медленнее, чем максимально возможное количество ребер. Положительный параметр ( ), связанное с количеством замкнутых треугольников, означает, что при прочих равных условиях сети с большим количеством треугольников имеют более высокую вероятность, чем сети с меньшим количеством треугольников. Это согласуется с тенденцией к триадной замкнутости , которая часто встречается в определенных типах социальных сетей. Сравните эти шаблоны с вероятностями на графике, вычисленными выше. Сложение каждого ребра делит вероятность на два. Однако при переходе от графа с двумя ребрами к графу с тремя ребрами количество треугольников увеличивается на один – что дополнительно умножает вероятность на три.

Заметим, что явный расчет всех вероятностей графов возможен только потому, что в этом примере очень мало разных графов. Поскольку количество различных графов экспоненциально масштабируется по количеству связующих переменных, что, в свою очередь, квадратично масштабируется по количеству узлов, вычисление нормализующей константы, как правило, вычислительно сложно , уже для умеренного количества узлов.

Выборка из ERGM

[ редактировать ]

Точная выборка из данного ERGM в целом вычислительно сложна, поскольку вычисление нормализующей константы требует суммирования по всем . Эффективная приблизительная выборка из ERGM может быть выполнена с помощью цепей Маркова и применяется в современных методах для аппроксимации ожидаемых значений и оценки параметров ERGM. [13] Неформально, если ERGM задан на множестве графов с функцией массы вероятности , выбирается исходный граф (который может быть выбран произвольно или случайно или может представлять собой наблюдаемую сеть) и неявно определяет вероятности перехода (или вероятности скачка) , которые представляют собой условные вероятности того, что цепь Маркова находится на графе после шага , учитывая, что оно находится на графике после шага . Вероятности перехода не зависят от графиков на предыдущих шагах ( ), что является определяющим свойством цепей Маркова и они не зависят от , то есть цепь Маркова однородна во времени. Цель состоит в том, чтобы определить такие вероятности перехода, чтобы для всех это

не зависит от исходного графа . Если это будет достигнуто, можно будет запустить цепь Маркова на большое количество шагов, а затем вернуть текущий граф как случайную выборку из данного ERGM. Вероятность вернуть график после конечного, но большого количества шагов обновления примерно соответствует вероятности, определенной ERGM.

Современные методы отбора проб из ERGM с цепями Маркова [13] обычно определяют шаг обновления двумя подэтапами: сначала случайным образом выбирают кандидата в окрестности текущего графа и, во-вторых, принять с вероятностью, которая зависит от отношения вероятностей текущего графа и кандидат . (Если кандидат не принят, цепь Маркова остается на текущем графике .) Если множество графов не имеет ограничений (т. е. содержит любую комбинацию значений двоичных связующих переменных), простой метод выбора кандидата — выбрать одну связующую переменную равномерно случайным образом и определить кандидата, перевернув эту единственную переменную (т. е. установив ; все остальные переменные принимают то же значение, что и в ). Обычный способ определить вероятность принятия — принять с условной вероятностью

где вероятности графа определяются ERGM. Важно отметить, что нормировочная константа сокращается в этой дроби, так что вероятности принятия могут быть вычислены эффективно.

  1. ^ Люшер, Дин; Коскинен, Йохан; Робинс, Гарри (2012). Экспоненциальные модели случайных графов для социальных сетей: теория, методы и приложения (структурный анализ в социальных науках) . дои : 10.1017/CBO9780511894701 . ISBN  9780521141383 . OCLC   1120539699 .
  2. ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN  9781452220802 . OCLC   870698788 .
  3. ^ Бреннеке, Джулия; Ранг, Олаф (01 мая 2017 г.). «Сеть знаний фирмы и передача советов между корпоративными изобретателями - многоуровневое сетевое исследование». Исследовательская политика . 46 (4): 768–783. дои : 10.1016/j.respol.2017.02.002 . ISSN   0048-7333 .
  4. ^ Харрис, Дженин К. (2013). «Коммуникационные связи в национальной сети местных департаментов здравоохранения». AMEPRE Американский журнал профилактической медицины . 44 (3): 247–253. дои : 10.1016/j.amepre.2012.10.028 . ISSN   0749-3797 . OCLC   4937103196 . ПМИД   23415121 .
  5. ^ Бреннеке, Юлия (2019). «Диссонансные связи во внутриорганизационных сетях: почему люди обращаются за помощью в решении проблем к трудным коллегам». Журнал Академии менеджмента AMJ . ISSN   0001-4273 . OCLC   8163488129 .
  6. ^ Харрис, Дженин К; Люк, Дуглас А; Шелтон, Сара С; Цукерман, Рэйчел Б. (2009). «Сорок лет исследований пассивного курения. Разрыв между открытием и доставкой». Американский журнал профилактической медицины . 36 (6): 538–548. дои : 10.1016/j.amepre.2009.01.039 . ISSN   0749-3797 . OCLC   6980180781 . ПМИД   19372026 .
  7. ^ Вассерман, Стэнли ; Фауст, Кэтрин (1994). Анализ социальных сетей: методы и приложения . ISBN  978-0-521-38707-1 .
  8. ^ Ньюман, МЭД (2003). «Структура и функции сложных сетей». Обзор СИАМ . 45 (2): 167–256. arXiv : cond-mat/0303516 . Бибкод : 2003SIAMR..45..167N . дои : 10.1137/S003614450342480 .
  9. ^ Подрядчик, Ношир; Вассерман, Стэнли; Фауст, Кэтрин (2006). «Проверка многотеоретических и многоуровневых гипотез об организационных сетях: аналитическая основа и эмпирический пример» (PDF) . Обзор Академии менеджмента . 31 (3): 681–703. дои : 10.5465/AMR.2006.21318925 . S2CID   10837327 . Архивировано из оригинала (PDF) 25 февраля 2020 г.
  10. ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN  9781452220802 . OCLC   870698788 .
  11. ^ Робинс, Г.; Паттисон, П.; Калиш, Ю.; Люшер, Д. (2007). «Введение в экспоненциальные модели случайных графов для социальных сетей». Социальные сети . 29 (2): 173–191. дои : 10.1016/j.socnet.2006.08.002 . hdl : 1959.3/216571 .
  12. ^ Ньюман, МЭЖ (25 марта 2010 г.). «Другие сетевые модели». Сети . стр. 565–585. ISBN  978-0-19-920665-0 .
  13. ^ Jump up to: а б Хантер, Д.Р.; Хэндкок, М.С. (2006). «Вывод в моделях криволинейного экспоненциального семейства для сетей». Журнал вычислительной и графической статистики . 15 (3): 565–583. CiteSeerX   10.1.1.205.9670 . дои : 10.1198/106186006X133069 .

Дальнейшее чтение

[ редактировать ]
  1. ^ Харрис, Дженин К. (2014). Введение в экспоненциальное моделирование случайных графов . ISBN  9781452220802 . OCLC   870698788 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1cda36646c4f482413fe0a176f29a3af__1704236640
URL1:https://arc.ask3.ru/arc/aa/1c/af/1cda36646c4f482413fe0a176f29a3af.html
Заголовок, (Title) документа по адресу, URL1:
Exponential family random graph models - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)