Стохастическая блочная модель
Часть серии о | ||||
Сетевая наука | ||||
---|---|---|---|---|
Типы сетей | ||||
Графики | ||||
| ||||
Модели | ||||
| ||||
| ||||
Стохастическая графов блочная модель это генеративная модель для случайных — . Эта модель имеет тенденцию создавать графы, содержащие сообщества , подмножества узлов, характеризующиеся связью друг с другом с определенной плотностью ребер. Например, ребра могут быть более распространены внутри сообществ, чем между сообществами. Его математическая формулировка была впервые представлена в 1983 году в области анализа социальных сетей Полом У. Холландом и др. [1] Стохастическая блочная модель важна в статистике , машинном обучении и сетевых науках , где она служит полезным ориентиром для задачи восстановления структуры сообщества в графовых данных.
Определение [ править ]
Стохастическая блочная модель принимает следующие параметры:
- Число вершин;
- раздел множества вершин на непересекающиеся подмножества , называемые сообществами ;
- симметричный матрица вероятностей ребер.
Затем набор ребер выбирается случайным образом следующим образом: любые две вершины и соединены ребром с вероятностью . Пример проблемы: задан график с вершины, где ребра выбираются, как описано, восстанавливают группы .
Особые случаи [ править ]

Если матрица вероятностей является константой в том смысле, что для всех , то результатом будет модель Эрдеша – Реньи . Этот случай является вырожденным — разделение на сообщества становится неактуальным, — но он иллюстрирует тесную связь с моделью Эрдеша-Реньи.
Модель установленного раздела представляет собой особый случай, когда значения матрицы вероятности являются константой по диагонали и еще одна константа за пределами диагонали. Таким образом, две вершины в одном сообществе имеют общее ребро с вероятностью , а две вершины в разных сообществах имеют общее ребро с вероятностью . Иногда именно эту ограниченную модель называют стохастической блочной моделью. Случай, когда называется ассортативной моделью, а случай называется дисассортативным .
Возвращаясь к общей стохастической блочной модели, модель называется сильно ассортативной, если в любое время : все диагональные записи доминируют над всеми недиагональными записями. Модель называется слабоассортативной, если в любое время : каждая диагональная запись должна доминировать только над остальной частью своей строки и столбца. [2] Существуют дисассортативные формы этой терминологии, обращающие все неравенства вспять. Для некоторых алгоритмов восстановление может быть проще для блочных моделей с ассортативными или неассортативными условиями такой формы. [2]
Типичные статистические задачи [ править ]
Большая часть литературы по алгоритмическому обнаружению сообщества решает три статистические задачи: обнаружение, частичное восстановление и точное восстановление.
Обнаружение [ править ]
Цель алгоритмов обнаружения — просто определить по выборочному графу, имеет ли он скрытую структуру сообщества. Точнее, график может быть сгенерирован с некоторой известной априорной вероятностью на основе известной стохастической блочной модели или, в противном случае, на основе аналогичной модели Эрдеша-Реньи . Алгоритмическая задача состоит в том, чтобы правильно определить, какая из этих двух базовых моделей сгенерировала граф. [3]
Частичное восстановление [ править ]
При частичном восстановлении цель состоит в том, чтобы приблизительно определить скрытое разделение на сообщества, то есть найти раздел, который коррелирует с истинным разделом значительно лучше, чем случайное предположение. [4]
Точное восстановление [ править ]
Целью точного восстановления является точное восстановление скрытого разделения на сообщества. Размеры сообщества и матрица вероятностей могут быть известны. [5] или неизвестно. [6]
нижние границы и Статистические поведение пороговое
Стохастические блочные модели демонстрируют резкий пороговый эффект, напоминающий пороги перколяции . [7] [3] [8] Предположим, что мы допускаем размер графа расти, сохраняя размеры сообщества в фиксированных пропорциях. Если матрица вероятностей остается фиксированной, такие задачи, как частичное и точное восстановление, становятся выполнимыми для всех невырожденных настроек параметров. Однако, если мы уменьшим матрицу вероятностей с подходящей скоростью, как увеличивается, мы наблюдаем резкий фазовый переход: при определенных настройках параметров станет возможным добиться восстановления с вероятностью, стремящейся к 1, тогда как на противоположной стороне порога параметра вероятность восстановления стремится к 0 независимо от того, какой алгоритм используется.
Для частичного восстановления соответствующее масштабирование должно приниматься для фиксированного , что приводит к графикам постоянной средней степени. В случае двух сообществ одинакового размера в модели ассортативного засаженного участка с матрицей вероятности
Для точного восстановления необходимо принять соответствующее масштабирование , что приводит к графикам средней логарифмической степени. Здесь аналогичный порог существует: для модели ассортативной насаждённой перегородки с равных по размеру сообществ, порог находится на уровне . Фактически, точный порог восстановления известен для полностью общей стохастической блочной модели. [5]
Алгоритмы [ править ]
В принципе, точное восстановление может быть решено в допустимом диапазоне с использованием максимального правдоподобия , но это равнозначно решению проблемы ограниченного или регуляризованного разреза, такой как минимальное сечение пополам, которое обычно является NP-полным . Следовательно, ни один из известных эффективных алгоритмов не сможет правильно вычислить оценку максимального правдоподобия в худшем случае.
Тем не менее, широкий спектр алгоритмов работает хорошо в среднем случае, и многие гарантии производительности с высокой вероятностью были доказаны для алгоритмов как с частичным, так и с точными настройками восстановления. Успешные алгоритмы включают спектральную кластеризацию вершин, [9] [4] [5] [10] полуопределенное программирование , [2] [8] формы распространения убеждений , [7] [11] и обнаружение сообщества [12] среди других.
Варианты [ править ]
Существует несколько вариантов модели. Одна небольшая настройка распределяет вершины по сообществам случайным образом, в соответствии с категориальным распределением , а не в фиксированном разделе. [5] Более значимые варианты включают стохастическую блочную модель с коррекцией по степени, [13] иерархическая стохастическая блочная модель, [14] геометрическая блочная модель, [15] модель блока с цензурой и модель блока со смешанным членством. [16]
Тематические модели [ править ]
Стохастическая блочная модель признана тематической моделью двусторонних сетей. [17] В сети документов и слов стохастическая блочная модель может идентифицировать темы: группы слов со схожим значением.
Расширения подписанных графов [ править ]
Знаковые графы допускают как благоприятные, так и неблагоприятные отношения и служат общей моделью для различных приложений анализа данных, например, корреляционной кластеризации. Стохастическая блочная модель может быть тривиально расширена на знаковые графы, назначая как положительные, так и отрицательные веса ребер или, что то же самое, используя разницу матриц смежности двух стохастических блочных моделей. [18]
DARPA/MIT/AWS Graph Challenge: потоковая стохастическая блокировка раздела [ править ]
ГрафВызов [19] поощряет подходы сообщества к разработке новых решений для анализа графиков и редких данных, полученных из социальных сетей, датчиков и научных данных, чтобы позволить обнаруживать взаимосвязи между событиями по мере их развития в полевых условиях. Потоковое стохастическое разделение блоков является одной из проблем с 2017 года. [20] Спектральная кластеризация продемонстрировала выдающуюся производительность по сравнению с оригиналом и даже улучшена. [21] базовый алгоритм, обеспечивающий соответствие качеству кластеров и при этом на несколько порядков быстрее. [22] [23]
См. также [ править ]
- блочное моделирование
- Алгоритм Гирвана – Ньюмана - Алгоритм обнаружения сообщества
- Тест Ланчикинетти – Фортунато – Радикки – страницы алгоритмов для создания эталонных сетей с сообществами.
Ссылки [ править ]
- ^ Холланд, Пол В.; Ласки, Кэтрин Блэкмонд; Лейнхардт, Сэмюэл (1983). «Стохастические блок-модели: Первые шаги» . Социальные сети . 5 (2): 109–137. дои : 10.1016/0378-8733(83)90021-7 . ISSN 0378-8733 . S2CID 34098453 . Архивировано из оригинала 4 февраля 2023 г. Проверено 16 июня 2021 г.
- ^ Jump up to: Перейти обратно: а б с Амини, Араш А.; Левина, Елизавета (июнь 2014 г.). «О полуопределенных релаксациях для блочной модели». arXiv : 1406.5647 [ cs.LG ].
- ^ Jump up to: Перейти обратно: а б с Моссель, Эльханан; Ниман, Джо; Слай, Аллан (февраль 2012 г.). «Стохастические блочные модели и реконструкция». arXiv : 1202.1499 [ мат.PR ].
- ^ Jump up to: Перейти обратно: а б с Массули, Лоран (ноябрь 2013 г.). «Пороги обнаружения сообщества и слабое свойство Рамануджана». arXiv : 1311.3085 [ cs.SI ].
- ^ Jump up to: Перейти обратно: а б с д Аббе, Эммануэль; Сэндон, Колин (март 2015 г.). «Обнаружение сообществ в общих стохастических блочных моделях: фундаментальные ограничения и эффективные алгоритмы восстановления». arXiv : 1503.00609 [ мат.PR ].
- ^ Аббе, Эммануэль; Сэндон, Колин (июнь 2015 г.). «Восстановление сообществ в общей стохастической блочной модели без знания параметров». arXiv : 1506.03729 [ мат.PR ].
- ^ Jump up to: Перейти обратно: а б Десель, Орельен; Крзакала, Флоран; Мур, Кристофер; Здеборова, Ленка (сентябрь 2011 г.). «Асимптотический анализ стохастической блочной модели модульных сетей и ее алгоритмических приложений». Физический обзор E . 84 (6): 066106. arXiv : 1109.3041 . Бибкод : 2011PhRvE..84f6106D . дои : 10.1103/PhysRevE.84.066106 . ПМИД 22304154 . S2CID 15788070 .
- ^ Jump up to: Перейти обратно: а б Аббе, Эммануэль; Бандейра, Афонсу С.; Холл, Джорджина (май 2014 г.). «Точное восстановление в стохастической блочной модели». arXiv : 1405.3267 [ cs.SI ].
- ^ Крзакала, Флоран; Мур, Кристофер; Моссель, Эльханан; Ниман, Джо; Хитрый, Аллан; Ленка, Ленка; Чжан, Пан (октябрь 2013 г.). «Спектральное искупление в кластеризации разреженных сетей» . Труды Национальной академии наук . 110 (52): 20935–20940. arXiv : 1306.5550 . Бибкод : 2013PNAS..11020935K . дои : 10.1073/pnas.1312486110 . ПМК 3876200 . ПМИД 24277835 .
- ^ Лей, Цзин; Ринальдо, Алессандро (февраль 2015 г.). «Согласованность спектральной кластеризации в стохастических блочных моделях». Анналы статистики . 43 (1): 215–237. arXiv : 1312.2050 . дои : 10.1214/14-AOS1274 . ISSN 0090-5364 . S2CID 88519551 .
- ^ Моссель, Эльханан; Ниман, Джо; Слай, Аллан (сентябрь 2013 г.). «Распространение убеждений, робастная реконструкция и оптимальное восстановление блочных моделей». Анналы прикладной теории вероятности . 26 (4): 2211–2256. arXiv : 1309.1380 . Бибкод : 2013arXiv1309.1380M . дои : 10.1214/15-AAP1145 . S2CID 184446 .
- ^ Фатхи, Реза (апрель 2019 г.). «Эффективное обнаружение распределенных сообществ в стохастической блочной модели». arXiv : 1904.07494 [ cs.DC ].
- ^ Каррер, Брайан; Ньюман, Марк Э.Дж. (2011). «Стохастические блок-модели и структура сообществ в сетях» . Физический обзор E . 83 (1): 016107.arXiv : 1008.3926 . Бибкод : 2011PhRvE..83a6107K . дои : 10.1103/PhysRevE.83.016107 . ПМИД 21405744 . S2CID 9068097 . Архивировано из оригинала 4 февраля 2023 г. Проверено 16 июня 2021 г.
- ^ Пейшото, Тьяго (2014). «Иерархические блочные структуры и выбор моделей высокого разрешения в больших сетях» . Физический обзор X . 4 (1): 011047. arXiv : 1310.4377 . Бибкод : 2014PhRvX...4a1047P . дои : 10.1103/PhysRevX.4.011047 . S2CID 5841379 . Архивировано из оригинала 24 июня 2021 г. Проверено 16 июня 2021 г.
- ^ Галхотра, Сайньям; Мазумдар, Арья; Пал, Сумьябрата; Саха, Барна (февраль 2018 г.). «Геометрическая блочная модель». АААИ . 32 . arXiv : 1709.05510 . дои : 10.1609/aaai.v32i1.11905 . S2CID 19152144 .
- ^ Айролди, Эдоардо ; Блей, Дэвид; Фейнберг, Стивен; Син, Эрик (май 2007 г.). «Стохастические блочные модели смешанного членства» . Журнал исследований машинного обучения . 9 : 1981–2014. arXiv : 0705.4485 . Бибкод : 2007arXiv0705.4485A . ПМК 3119541 . ПМИД 21701698 .
- ^ Мартин Герлах; Тьяго Пейшото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям» . Достижения науки . 4 (7): eaaq1360. arXiv : 1708.01677 . Бибкод : 2018SciA....4.1360G . дои : 10.1126/sciadv.aaq1360 . ПМК 6051742 . ПМИД 30035215 .
- ^ Элисон Фокс; Джеффри Сандерс; Андрей Князев (2018). «Исследование спектральной кластеризации для матричных представлений знаковых графов». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2018 . стр. 1–7. дои : 10.1109/HPEC.2018.8547575 . ISBN 978-1-5386-5989-2 . ОСТИ 1476177 . S2CID 54443034 .
- ^ [1] Архивировано 4 февраля 2023 г. на Wayback Machine DARPA/MIT/AWS Graph Challenge.
- ^ [2] Архивировано 4 февраля 2023 г. на Wayback Machine DARPA/MIT/AWS Graph Challenge Champions.
- ^ Эй Джей Уппал; Дж. Чой; ТБ Ролингер; Х. Хоуи Хуанг (2021). «Более быстрое стохастическое разделение блоков с использованием агрессивного начального слияния, сжатого представления и управления параллелизмом». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2021 года . стр. 1–7. дои : 10.1109/HPEC49654.2021.9622836 . ISBN 978-1-6654-2369-4 . S2CID 244780210 .
- ^ Давид Жужунашвили; Андрей Князев (2017). «Предварительно обусловленная спектральная кластеризация для задачи потокового графа стохастического разделения блоков (предварительная версия на arXiv.)». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2017 . стр. 1–6. arXiv : 1708.07481 . дои : 10.1109/HPEC.2017.8091045 . ISBN 978-1-5386-3472-1 . S2CID 19781504 .
- ^ Лиза Дёрбек; Питер Афанас (2020). «Инкрементное секционирование потокового графа». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2020 года . стр. 1–8. дои : 10.1109/HPEC43674.2020.9286181 . ISBN 978-1-7281-9219-2 . S2CID 229376193 .