Jump to content

Китайский шепот (метод кластеризации)

Китайский шепот — это метод кластеризации, используемый в сетевых науках, названный в честь знаменитой игры шепота . [1] Методы кластеризации в основном используются для идентификации сообществ узлов или связей в данной сети. Этот алгоритм был разработан Крисом Биманном и Свеном Тересняком в 2005 году. [1] Название происходит от того факта, что процесс можно смоделировать как разделение сообществ, где узлы отправляют друг другу информацию одного и того же типа. [1]

Китайский шепот — это метод жесткого разделения, рандомизированной плоской кластеризации (без иерархических отношений между кластерами ). [1] Свойство случайности означает, что запуск процесса в одной и той же сети несколько раз может привести к разным результатам, при этом из-за жесткого секционирования один узел в данный момент может принадлежать только одному кластеру. Оригинальный алгоритм применим к неориентированным, взвешенным и невзвешенным графам. Китайский шепот работает в линейном времени, а это означает, что он чрезвычайно быстр, даже если в сети очень много узлов и ссылок. [1]

Алгоритм

[ редактировать ]
Пример того, как работает китайский шепот. Разные цвета представляют разные классы. (вверху) Первоначальное назначение кластера. (в центре) График после первого шага 2, на котором (по порядку) были выбраны розовые, зеленые, желтые, красные, черные, белые и синие узлы. (внизу) Граф после второго шага 2, на котором были выбраны зеленый и белый узлы, причем порядок остальных узлов после этого не важен. Эта кластеризация стабильна, поскольку каждый узел окрашен в тот же цвет, что и множество его соседей.

Алгоритм работает на неориентированном невзвешенном графе следующим образом: [1]

  1. Все узлы отнесены к отдельному классу, так что количество исходных классов равняется количеству узлов.
  2. Все узлы сети выбираются один за другим в случайном порядке. Для каждого выбранного узла метка кластера меняется на кластер, с которым у него больше всего соединений. Если есть ничья, один из связанных кластеров выбирается случайным образом.
  3. Второй шаг повторяется до тех пор, пока не будет выполнено заранее определенное количество итераций или пока процесс не сойдется. В конечном итоге возникающие классы представляют собой кластеры сети.

Заранее определенный порог количества итераций необходим, поскольку возможно, что процесс не сходится. С другой стороны, в сети примерно с 10 000 узлов кластеры существенно не меняются после 40-50 итераций, даже если нет сходимости. [1]

Сильные и слабые стороны

[ редактировать ]

Основная сила китайского шепота заключается в его линейности во времени. Поскольку время обработки линейно увеличивается с количеством узлов, алгоритм способен очень быстро идентифицировать сообщества в сети. По этой причине китайский шепот является хорошим инструментом для анализа структур сообщества в графе с очень большим количеством узлов. Эффективность метода еще больше возрастает, если сеть обладает свойством малого мира . [1]

С другой стороны, поскольку алгоритм не является детерминированным, в случае небольшого числа узлов полученные кластеры часто существенно отличаются друг от друга. Причина этого в том, что в случае небольшой сети большее значение имеет, с какого узла начинается итерационный процесс, тогда как в больших сетях актуальность стартовых точек исчезает. [1] По этой причине для небольших графов рекомендуются другие методы кластеризации.

Приложения

[ редактировать ]

Китайский шепот используется во многих областях сетевой науки. Чаще всего он упоминается в контексте проблем обработки естественного языка . [2] [3] С другой стороны, алгоритм применим к любой задаче идентификации сообщества, связанной с сетевой структурой. Китайский шепот доступен для личного использования как пакет расширения для Gephi. [4] это программа с открытым исходным кодом, предназначенная для сетевого анализа.

  1. ^ Перейти обратно: а б с д и ж г час я Крис Биманн, «Китайский шепот — эффективный алгоритм кластеризации графов и его применение к задачам обработки естественного языка» , 2006 г.
  2. ^ Антонио Ди Марко - Роберто Навигили, «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов» , 2013 г.
  3. ^ Иоаннис Корконцелос - Суреш Манандхар, «Обнаружение композиционности в многословных выражениях» , 2009 г.
  4. ^ " "Рынок Гефи" " . Архивировано из оригинала 23 сентября 2015 г. Проверено 2 июня 2015 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c7226e8e7c773071406fed15a4260fc6__1704391500
URL1:https://arc.ask3.ru/arc/aa/c7/c6/c7226e8e7c773071406fed15a4260fc6.html
Заголовок, (Title) документа по адресу, URL1:
Chinese whispers (clustering method) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)