Извлечение отношений
Задача извлечения отношений требует обнаружения и классификации упоминаний семантических отношений в наборе артефактов , обычно из текстовых или XML- документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений ( значений ) и обычно относится к извлечению множества различных отношений.
Концепция и приложения
[ редактировать ]Концепция извлечения взаимосвязей была впервые представлена во время 7-й конференции по пониманию сообщений в 1998 году. [ 1 ] Извлечение отношений включает в себя идентификацию отношений между сущностями и обычно фокусируется на извлечении бинарных отношений. [ 2 ] Области применения, где полезно извлечение отношений, включают отношения ген-болезнь, [ 3 ] белок-белковое взаимодействие [ 4 ] и т. д.
Текущие исследования извлечения отношений используют технологии машинного обучения, которые рассматривают извлечение отношений как проблему классификации. [ 1 ] Бесконечное изучение языка — это семантического машинного обучения, система разработанная исследовательской группой из Университета Карнеги-Меллон , которая извлекает связи из открытой сети.
Подходы
[ редактировать ]Существует несколько методов, используемых для извлечения связей, в том числе извлечение связей на основе текста. Эти методы основаны на использовании предварительно обученной информации о структуре отношений или могут повлечь за собой изучение структуры для выявления связей. [ 5 ] Другой подход к этой проблеме предполагает использование онтологий предметной области . [ 6 ] [ 7 ] Существует также подход, который включает визуальное обнаружение значимых взаимосвязей в параметрических значениях объектов, перечисленных в таблице данных, которые смещают позиции, когда таблица автоматически переставляется под контролем пользователя программного обеспечения. Плохой охват, редкость и стоимость разработки, связанные со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии предметной области (например, генная онтология ), привели к появлению новых подходов, основанных на обширных, динамичных базовых знаниях в Интернете. Например, техника АРХИЛЕС. [ 8 ] использует только количество страниц Википедии и поисковых систем для получения общих связей для построения облегченных онтологий.
Отношения могут быть представлены с использованием различных формализмов/языков. Одним из таких языков представления данных в Интернете является RDF .
Совсем недавно были предложены сквозные системы, которые совместно учатся извлекать упоминания сущностей и их семантические связи с большим потенциалом для достижения высокой производительности. [ 9 ]
Большинство представленных систем продемонстрировали свой подход на наборах данных на английском языке. Однако данные и системы описаны для других языков, например, русского. [ 10 ] и вьетнамский . [ 11 ]
Наборы данных
[ редактировать ]Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения взаимосвязей. [ 12 ] Одним из таких наборов данных был набор данных для извлечения взаимосвязей на уровне документов под названием DocRED, выпущенный в 2019 году. Он использует связи из Викиданных и текст из английской Википедии . [ 12 ] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозов . [ 13 ] [ 14 ]
См. также
[ редактировать ]- Текстовая аналитика
- Семантическая аналитика
- Маркировка семантических ролей
- Извлечение информации
- Бизнес-аналитика
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Нин, Хуаньшэн (2019). Данные и разведка в киберпространстве, а также кибер-жизнь, синдром и здоровье: Международный конгресс по киберпространству 2019 г., CyberDI и CyberLife, Пекин, Китай, 16–18 декабря 2019 г., Материалы, часть II . Сингапур: Springer Nature. п. 260. ИСБН 978-981-15-1924-6 .
- ^ Насар, Зара; Джаффри, Сайед Вакар; Малик, Мухаммад Камран (11 февраля 2021 г.). «Распознавание именованных сущностей и извлечение связей: современное состояние» . Обзоры вычислительной техники ACM . 54 (1): 20:1–20:39. дои : 10.1145/3445965 . ISSN 0360-0300 . S2CID 233353895 .
- ^ Хон-Ву Чун; Ёсимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Дзюнъити Цудзи (2006). «Извлечение связей гена и заболевания из Medline с использованием доменных словарей и машинного обучения». Тихоокеанский симпозиум по биокомпьютингу . CiteSeerX 10.1.1.105.9656 .
- ^ Минли Хуан, Сяоянь Чжу, Юй Хао, Дональд Г. Паян, Кунбин Цюй и Мин Ли (2004). «Обнаружение закономерностей для извлечения белок-белковых взаимодействий из полных текстов» . Биоинформатика . 20 (18): 3604–3612. doi : 10.1093/биоинформатика/bth451 . ПМИД 15284092 .
- ^ Тику, Омеш; Айер, Рави (2016). Осмысление датчиков: комплексные алгоритмы и проектирование инфраструктуры от носимых устройств до центров обработки данных . Портленд: Апресс. п. 68. ИСБН 978-1-4302-6592-4 .
- ^ Т.К.Риндфлеш, Л.Танабе, Дж.Н.Вайнштейн и Л.Хантер (2000). «ЭДГАР: Извлечение лекарств, генов и связей из биомедицинской литературы». Учеб. Тихоокеанский симпозиум по биокомпьютингу . стр. 514–525. ПМК 2709525 .
- ^ К. Рамакришнан, К.Дж. Кочут и А.П. Шет (2006). «Среда для обнаружения связей на основе схемы из неструктурированного текста» . Учеб. Международная конференция по семантической сети . стр. 583–596.
- ^ В. Вонг, В. Лю и М. Беннамун (2009). «Получение семантических отношений с использованием Интернета для построения облегченных онтологий». Учеб. 13-я Тихоокеанско-Азиатская конференция по обнаружению знаний и интеллектуальному анализу данных (PAKDD) . дои : 10.1007/978-3-642-01307-2_26 .
- ^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных связей с использованием глубокого биаффинного внимания». Материалы 41-й Европейской конференции по информационному поиску (ECIR) . arXiv : 1812.11275 . дои : 10.1007/978-3-030-15712-8_47 .
- ^ Елена Брюхес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение связей из научно-технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata Q104419957
- ^ Фам Куанг Нат Минь (18 декабря 2020 г.). «Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения вьетнамских отношений на VLSP 2020» (PDF) . arXiv . arXiv : 2012.10275 . ISSN 2331-8422 . Викиданные Q104418048 .
- ^ Перейти обратно: а б Юань Яо; Деминг Йе; Пэн Ли; и др. (2019). «DocRED: крупномасштабный набор данных для извлечения отношений на уровне документа» (PDF) . Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики : 764–777. arXiv : 1906.06127 . дои : 10.18653/V1/P19-1074 . Викиданные Q104419388 .
- ^ Ван Сюй; Кехай Чен; Тецзюнь Чжао (21 декабря 2020 г.). «Извлечение отношений на уровне документа с реконструкцией» (PDF) . arXiv . arXiv : 2012.11384 . ISSN 2331-8422 . Викиданные Q104417795 .
- ^ «DocRED. Конкурс. CodaLab» .