Jump to content

Сеть одновременного появления

Сеть одновременного появления, созданная с помощью KH Coder

Сеть одновременного появления , иногда называемая семантической сетью , [1] это метод анализа текста, который включает графическую визуализацию потенциальных отношений между людьми , организациями, концепциями и биологическими организмами, такими как бактерии. [2] или другие лица, представленные в письменных материалах. Генерация и визуализация сетей совместного возникновения стала практичной с появлением хранимого в электронном виде текста, совместимого с интеллектуальным анализом текста .

По определению, сети совместного появления — это коллективная взаимосвязь терминов, основанная на их парном присутствии в определенной единице текста. Сети создаются путем соединения пар терминов с использованием набора критериев, определяющих совместное появление. Например, можно сказать, что термины A и B «встречаются одновременно», если они оба встречаются в конкретной статье. Другая статья может содержать термины B и C. Связывание A с B и B с C создает сеть совместного употребления этих трех терминов. Правила для определения совместного появления в текстовом корпусе могут быть установлены в соответствии с желаемыми критериями. Например, более строгие критерии совместного употребления могут потребовать, чтобы пара терминов появлялась в одном предложении . Было обнаружено, что сети одновременного появления особенно полезны для анализа большого текста и больших данных , при определении основных тем и тем (например, в большом количестве сообщений в социальных сетях), выявлении предвзятостей в тексте (например, предвзятости в освещении новостей). ), или даже составить карту целой области исследований. [3]

Методы и разработки

[ редактировать ]

Процесс построения сетей совместного появления включает в себя определение ключевых слов в тексте, расчет частоты совпадений и анализ сетей для поиска центральных слов и кластеров тем в сети. [4]

Сеть совпадений слов (диапазон 3 слова) для следующего предложения: «Рассвет — это появление света — обычно золотого, розового или фиолетового — перед восходом солнца».
Сеть совместного возникновения бактериального сообщества
в потоке [5]

Сети совпадения могут быть созданы для любого заданного списка терминов (любого словаря ) по отношению к любому набору текстов (любому текстовому корпусу ). Сопутствующие пары терминов можно назвать «соседями», и они часто группируются в «окрестности» на основе их взаимосвязей. Отдельные термы могут иметь несколько соседей. Окрестности могут соединяться друг с другом хотя бы одним отдельным термином или могут оставаться несвязанными.

Отдельные термины в контексте интеллектуального анализа текста символически представляются в виде текстовых строк . В реальном мире сущность, идентифицируемая термином, обычно имеет несколько символических представлений. Поэтому полезно рассматривать термины как представленные одним основным символом и несколькими синонимичными альтернативными символами. Встречаемость отдельного термина устанавливается путем поиска каждого известного символического представления термина. Этот процесс может быть дополнен алгоритмами НЛП ( обработка естественного языка ), которые опрашивают сегменты текста на предмет возможных альтернатив, таких как порядок слов , интервалы и расстановка переносов . НЛП также можно использовать для определения структуры предложения и классификации текстовых строк в соответствии с грамматикой (например, категоризация текстовой строки как существительного на основе предшествующей текстовой строки, известной как артикль ) .

Графическое представление сетей совместного появления позволяет их визуализировать и делать выводы относительно отношений между сущностями в области, представленной словарем терминов, применяемых к текстовому корпусу. Значимая визуализация обычно требует упрощения сети. Например, сети могут быть нарисованы так, что количество соседей, подключающихся к каждому термину, ограничено. Критерии ограничения соседей могут быть основаны на абсолютном количестве совпадений или на более тонких критериях, таких как «вероятность» совпадения или наличие промежуточного описательного термина.

Количественные аспекты базовой структуры сети совместного возникновения также могут быть информативными, например, общее количество связей между объектами, кластеризация объектов, представляющих поддомены, обнаружение синонимов, [6] и т. д.

Приложения и использование

[ редактировать ]

Некоторые рабочие приложения подхода совместного возникновения доступны общественности через Интернет . PubGene — это пример приложения, которое отвечает интересам биомедицинского сообщества, представляя сети, основанные на совместном использовании терминов, связанных с генетикой, в том виде, в котором они появляются в записях MEDLINE . [7] [8] от PubGene CoreMine Medical использовался в исследованиях, связанных с генами/белками потенциально эффективных лекарств и кандидатов на лекарства при рассеянном склерозе. [9] фиброз, [10] и гепатит. [11] CoreMine Medical также использовался при исследовании генов, участвующих в посттравматическом стрессовом расстройстве. [12]

Веб-сайт NameBase является примером того, как человеческие отношения могут быть выведены путем изучения сетей, построенных на основе одновременного появления личных имен в газетах и ​​других текстах (как в Ozgur et al. [13] ).

Информационные сети также используются для облегчения усилий по организации и сосредоточению общедоступной информации для правоохранительных и разведывательных целей (так называемая « разведка из открытых источников » или OSINT). Сопутствующие методы включают сети совместного цитирования, а также анализ гиперссылок и структуры контента в Интернете (например, при анализе веб-сайтов, связанных с терроризмом). [14] ).

См. также

[ редактировать ]
  1. ^ Сегев, Элад (2021). Семантический сетевой анализ в социальных науках . Лондон: Рутледж. ISBN  9780367636524 .
  2. ^ Фрейлих, Шири; Краймер, Анат; Мейлиджсон, Исак; Гофна, Ури; Шаран, Родед; Руппин, Эйтан (27 февраля 2010 г.). «Крупномасштабная организация бактериальной сети экологических взаимодействий» . Исследования нуклеиновых кислот . 38 (12): 3857–3868. дои : 10.1093/нар/gkq118 . ISSN   1362-4962 . ПМК   2896517 . ПМИД   20194113 .
  3. ^ Сегев, Элад (2021). Семантический сетевой анализ в социальных науках . Лондон: Рутледж. ISBN  9780367636524 .
  4. ^ Сегев, Элад (2020). «Текстовый сетевой анализ: выявление преобладающих тем и предубеждений в международных новостях и социальных сетях» . Социологический компас . 14 (4). дои : 10.1111/soc4.12779 . S2CID   212890998 .
  5. ^ Лю, Ян; Цюй, Сяодун; Элзер, Джеймс Дж.; Пэн, Вэньци; Чжан, Мин; Рен, Зе; Чжан, Хайпин; Чжан, Юхан; Ян, Хуа (2019). «Влияние градиентов питательных веществ и стехиометрии на микробные сообщества в озере Эрхай и его входных потоках» . Вода . 11 (8): 1711. doi : 10.3390/w11081711 .
  6. ^ Коэн, AM; Херш, WR; Дубай, К; Спакман, К. (2005). «Использование структуры сети совместного появления для извлечения синонимичных названий генов и белков из рефератов MEDLINE» . БМК Биоинформатика . 6 (1): 103. дои : 10.1186/1471-2105-6-103 . ISSN   1471-2105 . ПМЦ   1090552 . ПМИД   15847682 .
  7. ^ Йенссен, Тор-Кристиан; Легрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (1 мая 2001 г.). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–28. дои : 10.1038/ng0501-21 . ISSN   1061-4036 . ПМИД   11326270 . S2CID   8889284 .
  8. ^ Гривелл, Л. (01 марта 2002 г.). «Изучение библиома: поиск иголки в стоге сена?: Необходимы новые вычислительные инструменты для эффективного сканирования растущего количества научной литературы в поисках полезной информации» . Отчеты ЭМБО . 3 (3): 200–203. дои : 10.1093/embo-reports/kvf059 . ISSN   1469-221X . ПМК   1084023 . ПМИД   11882534 .
  9. ^ Дадашхан, Садаф; Сейед Амир, Мирмоталебисохи; Пуршейхи, Хосейн; Самени, Марзие; Гани, Сепиде; Аббаси, Марьям; Калантари, Сима; Зали, Хакиме (2023). «Расшифровка важнейших генов в патогенезе рассеянного склероза и перепрофилировании лекарств: подход системной биологии» . J Протеомика . 280 (104890). дои : 10.1016/j.jprot.2023.104890 . ПМИД   36966969 .
  10. ^ Уилсон, Ава С; Чайлз, Джо; Ашиш, Шах; Чанда, Диптиман; Кумар, Прити Л; Мобли, Джеймс А.; Нептун, Энид Р.; Танникал, Виктор Дж; Макдональд, Мерри-Линн Н. (2022). «Комплексный биоинформатический анализ идентифицирует существующие и новые гены, регулируемые TGFβ1, модулируемые антифиброзными препаратами» . Научный представитель . 12 (1): 3080. Бибкод : 2022NatSR..12.3080W . дои : 10.1038/s41598-022-07151-1 . ПМЦ   8866468 . ПМИД   35197532 .
  11. ^ Ли, Шэнхао; Хао, Лиюань; Ху, Сяоюй; Ли, Луя (2023). «Систематическое исследование лечения гепатоцеллюлярной карциномы, связанной с гепатитом В, препаратами, основанными на биоинформатике и ключевой целевой фармакологии обратной сети и экспериментальной проверке» . Заразить агентом рака . 18 (1): 41. дои : 10.1186/s13027-023-00520-z . ПМЦ   10315056 . ПМИД   37393234 .
  12. ^ Бянь, Яо-Яо; Ян, Ли-Ли; Чжан, Бинь; Ли, Вэнь; Ли, Чжэн-Цзюнь; Ли, Вэнь-Линь; Цзэн, Ли (2020). «Идентификация ключевых генов, участвующих в посттравматическом стрессовом расстройстве: данные биоинформационного анализа» . Всемирный журнал психиатрии . 10 (12): 286–298. дои : 10.5498/wjp.v10.i12.286 . ПМЦ   7754529 . ПМИД   33392005 .
  13. ^ Озгур А., Четин Б., Бингол Х: «Совместная сеть новостей Reuters» (15 декабря 2007 г.) https://arxiv.org/abs/0712.2491
  14. ^ Илу Чжоу; Рид, Э.; Цзялун Цинь; Синьчунь Чен; Гуанпи Лай (22 мая 2018 г.). «Внутренние экстремистские группы США в Интернете: анализ ссылок и контента». Интеллектуальные системы IEEE . 20 (5): 44–51. дои : 10.1109/MIS.2005.96 . S2CID   15687907 .
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8759af9df5676154dea2e9a271197efb__1710458280
URL1:https://arc.ask3.ru/arc/aa/87/fb/8759af9df5676154dea2e9a271197efb.html
Заголовок, (Title) документа по адресу, URL1:
Co-occurrence network - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)