Jump to content

Стохастическая блочная модель

Стохастическая графов блочная модель это генеративная модель для случайных . Эта модель имеет тенденцию создавать графы, содержащие сообщества , подмножества узлов, характеризующиеся связью друг с другом с определенной плотностью ребер. Например, ребра могут быть более распространены внутри сообществ, чем между сообществами. Его математическая формулировка была впервые представлена ​​в 1983 году в области анализа социальных сетей Полом У. Холландом и др. [1] Стохастическая блочная модель важна в статистике , машинном обучении и сетевых науках , где она служит полезным ориентиром для задачи восстановления структуры сообщества в графовых данных.

Определение [ править ]

Стохастическая блочная модель принимает следующие параметры:

  • Число вершин;
  • раздел множества вершин на непересекающиеся подмножества , называемые сообществами ;
  • симметричный матрица вероятностей ребер.

Затем набор ребер выбирается случайным образом следующим образом: любые две вершины и соединены ребром с вероятностью . Пример проблемы: задан график с вершины, где ребра выбираются, как описано, восстанавливают группы .

Особые случаи [ править ]

Пример ассортативного случая для стохастической блочной модели.

Если матрица вероятностей является константой в том смысле, что для всех , то результатом будет модель Эрдеша – Реньи . Этот случай является вырожденным — разделение на сообщества становится неактуальным, — но он иллюстрирует тесную связь с моделью Эрдеша-Реньи.

Модель установленного раздела представляет собой особый случай, когда значения матрицы вероятности являются константой по диагонали и еще одна константа за пределами диагонали. Таким образом, две вершины в одном сообществе имеют общее ребро с вероятностью , а две вершины в разных сообществах имеют общее ребро с вероятностью . Иногда именно эту ограниченную модель называют стохастической блочной моделью. Случай, когда называется ассортативной моделью, а случай называется дисассортативным .

Возвращаясь к общей стохастической блочной модели, модель называется сильно ассортативной, если в любое время : все диагональные записи доминируют над всеми недиагональными записями. Модель называется слабоассортативной, если в любое время : каждая диагональная запись должна доминировать только над остальной частью своей строки и столбца. [2] Существуют дисассортативные формы этой терминологии, обращающие все неравенства вспять. Для некоторых алгоритмов восстановление может быть проще для блочных моделей с ассортативными или неассортативными условиями такой формы. [2]

Типичные статистические задачи [ править ]

Большая часть литературы по алгоритмическому обнаружению сообщества решает три статистические задачи: обнаружение, частичное восстановление и точное восстановление.

Обнаружение [ править ]

Цель алгоритмов обнаружения — просто определить по выборочному графу, имеет ли он скрытую структуру сообщества. Точнее, график может быть сгенерирован с некоторой известной априорной вероятностью на основе известной стохастической блочной модели или, в противном случае, на основе аналогичной модели Эрдеша-Реньи . Алгоритмическая задача состоит в том, чтобы правильно определить, какая из этих двух базовых моделей сгенерировала граф. [3]

Частичное восстановление [ править ]

При частичном восстановлении цель состоит в том, чтобы приблизительно определить скрытое разделение на сообщества, то есть найти раздел, который коррелирует с истинным разделом значительно лучше, чем случайное предположение. [4]

Точное восстановление [ править ]

Целью точного восстановления является точное восстановление скрытого разделения на сообщества. Размеры сообщества и матрица вероятностей могут быть известны. [5] или неизвестно. [6]

нижние границы и Статистические поведение пороговое

Стохастические блочные модели демонстрируют резкий пороговый эффект, напоминающий пороги перколяции . [7] [3] [8] Предположим, что мы допускаем размер графа расти, сохраняя размеры сообщества в фиксированных пропорциях. Если матрица вероятностей остается фиксированной, такие задачи, как частичное и точное восстановление, становятся выполнимыми для всех невырожденных настроек параметров. Однако, если мы уменьшим матрицу вероятностей с подходящей скоростью, как увеличивается, мы наблюдаем резкий фазовый переход: при определенных настройках параметров станет возможным добиться восстановления с вероятностью, стремящейся к 1, тогда как на противоположной стороне порога параметра вероятность восстановления стремится к 0 независимо от того, какой алгоритм используется.

Для частичного восстановления соответствующее масштабирование должно приниматься для фиксированного , что приводит к графикам постоянной средней степени. В случае двух сообществ одинакового размера в модели ассортативного засаженного участка с матрицей вероятности

частичное восстановление возможно [4] с вероятностью в любое время , тогда как любая оценка терпит неудачу [3] частичное восстановление с вероятностью в любое время .

Для точного восстановления необходимо принять соответствующее масштабирование , что приводит к графикам средней логарифмической степени. Здесь аналогичный порог существует: для модели ассортативной насаждённой перегородки с равных по размеру сообществ, порог находится на уровне . Фактически, точный порог восстановления известен для полностью общей стохастической блочной модели. [5]

Алгоритмы [ править ]

В принципе, точное восстановление может быть решено в допустимом диапазоне с использованием максимального правдоподобия , но это равнозначно решению проблемы ограниченного или регуляризованного разреза, такой как минимальное сечение пополам, которое обычно является NP-полным . Следовательно, ни один из известных эффективных алгоритмов не сможет правильно вычислить оценку максимального правдоподобия в худшем случае.

Тем не менее, широкий спектр алгоритмов работает хорошо в среднем случае, и многие гарантии производительности с высокой вероятностью были доказаны для алгоритмов как с частичным, так и с точными настройками восстановления. Успешные алгоритмы включают спектральную кластеризацию вершин, [9] [4] [5] [10] полуопределенное программирование , [2] [8] формы распространения убеждений , [7] [11] и обнаружение сообщества [12] среди других.

Варианты [ править ]

Существует несколько вариантов модели. Одна небольшая настройка распределяет вершины по сообществам случайным образом, в соответствии с категориальным распределением , а не в фиксированном разделе. [5] Более значимые варианты включают стохастическую блочную модель с коррекцией по степени, [13] иерархическая стохастическая блочная модель, [14] геометрическая блочная модель, [15] модель блока с цензурой и модель блока со смешанным членством. [16]

Тематические модели [ править ]

Стохастическая блочная модель признана тематической моделью двусторонних сетей. [17] В сети документов и слов стохастическая блочная модель может идентифицировать темы: группы слов со схожим значением.

Расширения подписанных графов [ править ]

Знаковые графы допускают как благоприятные, так и неблагоприятные отношения и служат общей моделью для различных приложений анализа данных, например, корреляционной кластеризации. Стохастическая блочная модель может быть тривиально расширена на знаковые графы, назначая как положительные, так и отрицательные веса ребер или, что то же самое, используя разницу матриц смежности двух стохастических блочных моделей. [18]

DARPA/MIT/AWS Graph Challenge: потоковая стохастическая блокировка раздела [ править ]

ГрафВызов [19] поощряет подходы сообщества к разработке новых решений для анализа графиков и редких данных, полученных из социальных сетей, датчиков и научных данных, чтобы позволить обнаруживать взаимосвязи между событиями по мере их развития в полевых условиях. Потоковое стохастическое разделение блоков является одной из проблем с 2017 года. [20] Спектральная кластеризация продемонстрировала выдающуюся производительность по сравнению с оригиналом и даже улучшена. [21] базовый алгоритм, обеспечивающий соответствие качеству кластеров и при этом на несколько порядков быстрее. [22] [23]

См. также [ править ]

Ссылки [ править ]

  1. ^ Холланд, Пол В.; Ласки, Кэтрин Блэкмонд; Лейнхардт, Сэмюэл (1983). «Стохастические блок-модели: Первые шаги» . Социальные сети . 5 (2): 109–137. дои : 10.1016/0378-8733(83)90021-7 . ISSN   0378-8733 . S2CID   34098453 . Архивировано из оригинала 4 февраля 2023 г. Проверено 16 июня 2021 г.
  2. ^ Jump up to: Перейти обратно: а б с Амини, Араш А.; Левина, Елизавета (июнь 2014 г.). «О полуопределенных релаксациях для блочной модели». arXiv : 1406.5647 [ cs.LG ].
  3. ^ Jump up to: Перейти обратно: а б с Моссель, Эльханан; Ниман, Джо; Слай, Аллан (февраль 2012 г.). «Стохастические блочные модели и реконструкция». arXiv : 1202.1499 [ мат.PR ].
  4. ^ Jump up to: Перейти обратно: а б с Массули, Лоран (ноябрь 2013 г.). «Пороги обнаружения сообщества и слабое свойство Рамануджана». arXiv : 1311.3085 [ cs.SI ].
  5. ^ Jump up to: Перейти обратно: а б с д Аббе, Эммануэль; Сэндон, Колин (март 2015 г.). «Обнаружение сообществ в общих стохастических блочных моделях: фундаментальные ограничения и эффективные алгоритмы восстановления». arXiv : 1503.00609 [ мат.PR ].
  6. ^ Аббе, Эммануэль; Сэндон, Колин (июнь 2015 г.). «Восстановление сообществ в общей стохастической блочной модели без знания параметров». arXiv : 1506.03729 [ мат.PR ].
  7. ^ Jump up to: Перейти обратно: а б Десель, Орельен; Крзакала, Флоран; Мур, Кристофер; Здеборова, Ленка (сентябрь 2011 г.). «Асимптотический анализ стохастической блочной модели модульных сетей и ее алгоритмических приложений». Физический обзор E . 84 (6): 066106. arXiv : 1109.3041 . Бибкод : 2011PhRvE..84f6106D . дои : 10.1103/PhysRevE.84.066106 . ПМИД   22304154 . S2CID   15788070 .
  8. ^ Jump up to: Перейти обратно: а б Аббе, Эммануэль; Бандейра, Афонсу С.; Холл, Джорджина (май 2014 г.). «Точное восстановление в стохастической блочной модели». arXiv : 1405.3267 [ cs.SI ].
  9. ^ Крзакала, Флоран; Мур, Кристофер; Моссель, Эльханан; Ниман, Джо; Хитрый, Аллан; Ленка, Ленка; Чжан, Пан (октябрь 2013 г.). «Спектральное искупление в кластеризации разреженных сетей» . Труды Национальной академии наук . 110 (52): 20935–20940. arXiv : 1306.5550 . Бибкод : 2013PNAS..11020935K . дои : 10.1073/pnas.1312486110 . ПМК   3876200 . ПМИД   24277835 .
  10. ^ Лей, Цзин; Ринальдо, Алессандро (февраль 2015 г.). «Согласованность спектральной кластеризации в стохастических блочных моделях». Анналы статистики . 43 (1): 215–237. arXiv : 1312.2050 . дои : 10.1214/14-AOS1274 . ISSN   0090-5364 . S2CID   88519551 .
  11. ^ Моссель, Эльханан; Ниман, Джо; Слай, Аллан (сентябрь 2013 г.). «Распространение убеждений, робастная реконструкция и оптимальное восстановление блочных моделей». Анналы прикладной теории вероятности . 26 (4): 2211–2256. arXiv : 1309.1380 . Бибкод : 2013arXiv1309.1380M . дои : 10.1214/15-AAP1145 . S2CID   184446 .
  12. ^ Фатхи, Реза (апрель 2019 г.). «Эффективное обнаружение распределенных сообществ в стохастической блочной модели». arXiv : 1904.07494 [ cs.DC ].
  13. ^ Каррер, Брайан; Ньюман, Марк Э.Дж. (2011). «Стохастические блок-модели и структура сообществ в сетях» . Физический обзор E . 83 (1): 016107.arXiv : 1008.3926 . Бибкод : 2011PhRvE..83a6107K . дои : 10.1103/PhysRevE.83.016107 . ПМИД   21405744 . S2CID   9068097 . Архивировано из оригинала 4 февраля 2023 г. Проверено 16 июня 2021 г.
  14. ^ Пейшото, Тьяго (2014). «Иерархические блочные структуры и выбор моделей высокого разрешения в больших сетях» . Физический обзор X . 4 (1): 011047. arXiv : 1310.4377 . Бибкод : 2014PhRvX...4a1047P . дои : 10.1103/PhysRevX.4.011047 . S2CID   5841379 . Архивировано из оригинала 24 июня 2021 г. Проверено 16 июня 2021 г.
  15. ^ Галхотра, Сайньям; Мазумдар, Арья; Пал, Сумьябрата; Саха, Барна (февраль 2018 г.). «Геометрическая блочная модель». АААИ . 32 . arXiv : 1709.05510 . дои : 10.1609/aaai.v32i1.11905 . S2CID   19152144 .
  16. ^ Айролди, Эдоардо ; Блей, Дэвид; Фейнберг, Стивен; Син, Эрик (май 2007 г.). «Стохастические блочные модели смешанного членства» . Журнал исследований машинного обучения . 9 : 1981–2014. arXiv : 0705.4485 . Бибкод : 2007arXiv0705.4485A . ПМК   3119541 . ПМИД   21701698 .
  17. ^ Мартин Герлах; Тьяго Пейшото; Эдуардо Альтманн (2018). «Сетевой подход к тематическим моделям» . Достижения науки . 4 (7): eaaq1360. arXiv : 1708.01677 . Бибкод : 2018SciA....4.1360G . дои : 10.1126/sciadv.aaq1360 . ПМК   6051742 . ПМИД   30035215 .
  18. ^ Элисон Фокс; Джеффри Сандерс; Андрей Князев (2018). «Исследование спектральной кластеризации для матричных представлений знаковых графов». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2018 . стр. 1–7. дои : 10.1109/HPEC.2018.8547575 . ISBN  978-1-5386-5989-2 . ОСТИ   1476177 . S2CID   54443034 .
  19. ^ [1] Архивировано 4 февраля 2023 г. на Wayback Machine DARPA/MIT/AWS Graph Challenge.
  20. ^ [2] Архивировано 4 февраля 2023 г. на Wayback Machine DARPA/MIT/AWS Graph Challenge Champions.
  21. ^ Эй Джей Уппал; Дж. Чой; ТБ Ролингер; Х. Хоуи Хуанг (2021). «Более быстрое стохастическое разделение блоков с использованием агрессивного начального слияния, сжатого представления и управления параллелизмом». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2021 года . стр. 1–7. дои : 10.1109/HPEC49654.2021.9622836 . ISBN  978-1-6654-2369-4 . S2CID   244780210 .
  22. ^ Давид Жужунашвили; Андрей Князев (2017). «Предварительно обусловленная спектральная кластеризация для задачи потокового графа стохастического разделения блоков (предварительная версия на arXiv.)». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2017 . стр. 1–6. arXiv : 1708.07481 . дои : 10.1109/HPEC.2017.8091045 . ISBN  978-1-5386-3472-1 . S2CID   19781504 .
  23. ^ Лиза Дёрбек; Питер Афанас (2020). «Инкрементное секционирование потокового графа». Конференция IEEE по высокопроизводительным экстремальным вычислениям (HPEC) 2020 года . стр. 1–8. дои : 10.1109/HPEC43674.2020.9286181 . ISBN  978-1-7281-9219-2 . S2CID   229376193 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e87758bb065cc92fa5bfe3bff407519c__1717540980
URL1:https://arc.ask3.ru/arc/aa/e8/9c/e87758bb065cc92fa5bfe3bff407519c.html
Заголовок, (Title) документа по адресу, URL1:
Stochastic block model - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)