Jump to content

Извлечение отношений

(Перенаправлено из извлечения отношений )

Задача извлечения отношений требует обнаружения и классификации упоминаний семантических отношений в наборе артефактов , обычно из текстовых или XML- документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений ( значений ) и обычно относится к извлечению множества различных отношений.

Концепция и приложения

[ редактировать ]

Концепция извлечения взаимосвязей была впервые представлена ​​во время 7-й конференции по пониманию сообщений в 1998 году. [ 1 ] Извлечение отношений включает в себя идентификацию отношений между сущностями и обычно фокусируется на извлечении бинарных отношений. [ 2 ] Области применения, где полезно извлечение отношений, включают отношения ген-болезнь, [ 3 ] белок-белковое взаимодействие [ 4 ] и т. д.

Текущие исследования извлечения отношений используют технологии машинного обучения, которые рассматривают извлечение отношений как проблему классификации. [ 1 ] Бесконечное изучение языка — это семантического машинного обучения, система разработанная исследовательской группой из Университета Карнеги-Меллон , которая извлекает связи из открытой сети.

Существует несколько методов, используемых для извлечения связей, в том числе извлечение связей на основе текста. Эти методы основаны на использовании предварительно обученной информации о структуре отношений или могут повлечь за собой изучение структуры для выявления связей. [ 5 ] Другой подход к этой проблеме предполагает использование онтологий предметной области . [ 6 ] [ 7 ] Существует также подход, который включает визуальное обнаружение значимых взаимосвязей в параметрических значениях объектов, перечисленных в таблице данных, которые смещают позиции, когда таблица автоматически переставляется под контролем пользователя программного обеспечения. Плохой охват, редкость и стоимость разработки, связанные со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии предметной области (например, генная онтология ), привели к появлению новых подходов, основанных на обширных, динамичных базовых знаниях в Интернете. Например, техника АРХИЛЕС. [ 8 ] использует только количество страниц Википедии и поисковых систем для получения общих связей для построения облегченных онтологий.

Отношения могут быть представлены с использованием различных формализмов/языков. Одним из таких языков представления данных в Интернете является RDF .

Совсем недавно были предложены сквозные системы, которые совместно учатся извлекать упоминания сущностей и их семантические связи с большим потенциалом для достижения высокой производительности. [ 9 ]

Большинство представленных систем продемонстрировали свой подход на наборах данных на английском языке. Однако данные и системы описаны для других языков, например, русского. [ 10 ] и вьетнамский . [ 11 ]

Наборы данных

[ редактировать ]

Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения взаимосвязей. [ 12 ] Одним из таких наборов данных был набор данных для извлечения взаимосвязей на уровне документов под названием DocRED, выпущенный в 2019 году. Он использует связи из Викиданных и текст из английской Википедии . [ 12 ] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозов . [ 13 ] [ 14 ]

См. также

[ редактировать ]
  1. ^ Перейти обратно: а б Нин, Хуаньшэн (2019). Данные и разведка в киберпространстве, а также кибер-жизнь, синдром и здоровье: Международный конгресс по киберпространству 2019 г., CyberDI и CyberLife, Пекин, Китай, 16–18 декабря 2019 г., Материалы, часть II . Сингапур: Springer Nature. п. 260. ИСБН  978-981-15-1924-6 .
  2. ^ Насар, Зара; Джаффри, Сайед Вакар; Малик, Мухаммад Камран (11 февраля 2021 г.). «Распознавание именованных сущностей и извлечение связей: современное состояние» . Обзоры вычислительной техники ACM . 54 (1): 20:1–20:39. дои : 10.1145/3445965 . ISSN   0360-0300 . S2CID   233353895 .
  3. ^ Хон-Ву Чун; Ёсимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Дзюнъити Цудзи (2006). «Извлечение связей гена и заболевания из Medline с использованием доменных словарей и машинного обучения». Тихоокеанский симпозиум по биокомпьютингу . CiteSeerX   10.1.1.105.9656 .
  4. ^ Минли Хуан, Сяоянь Чжу, Юй Хао, Дональд Г. Паян, Кунбин Цюй и Мин Ли (2004). «Обнаружение закономерностей для извлечения белок-белковых взаимодействий из полных текстов» . Биоинформатика . 20 (18): 3604–3612. doi : 10.1093/биоинформатика/bth451 . ПМИД   15284092 .
  5. ^ Тику, Омеш; Айер, Рави (2016). Осмысление датчиков: комплексные алгоритмы и проектирование инфраструктуры от носимых устройств до центров обработки данных . Портленд: Апресс. п. 68. ИСБН  978-1-4302-6592-4 .
  6. ^ Т.К.Риндфлеш, Л.Танабе, Дж.Н.Вайнштейн и Л.Хантер (2000). «ЭДГАР: Извлечение лекарств, генов и связей из биомедицинской литературы». Учеб. Тихоокеанский симпозиум по биокомпьютингу . стр. 514–525. ПМК   2709525 .
  7. ^ К. Рамакришнан, К.Дж. Кочут и А.П. Шет (2006). «Среда для обнаружения связей на основе схемы из неструктурированного текста» . Учеб. Международная конференция по семантической сети . стр. 583–596.
  8. ^ В. Вонг, В. Лю и М. Беннамун (2009). «Получение семантических отношений с использованием Интернета для построения облегченных онтологий». Учеб. 13-я Тихоокеанско-Азиатская конференция по обнаружению знаний и интеллектуальному анализу данных (PAKDD) . дои : 10.1007/978-3-642-01307-2_26 .
  9. ^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных связей с использованием глубокого биаффинного внимания». Материалы 41-й Европейской конференции по информационному поиску (ECIR) . arXiv : 1812.11275 . дои : 10.1007/978-3-030-15712-8_47 .
  10. ^ Елена Брюхес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение связей из научно-технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata   Q104419957
  11. ^ Фам Куанг Нат Минь (18 декабря 2020 г.). «Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения вьетнамских отношений на VLSP 2020» (PDF) . arXiv . arXiv : 2012.10275 . ISSN   2331-8422 . Викиданные   Q104418048 .
  12. ^ Перейти обратно: а б Юань Яо; Деминг Йе; Пэн Ли; и др. (2019). «DocRED: крупномасштабный набор данных для извлечения отношений на уровне документа» (PDF) . Материалы 57-го ежегодного собрания Ассоциации компьютерной лингвистики : 764–777. arXiv : 1906.06127 . дои : 10.18653/V1/P19-1074 . Викиданные   Q104419388 .
  13. ^ Ван Сюй; Кехай Чен; Тецзюнь Чжао (21 декабря 2020 г.). «Извлечение отношений на уровне документа с реконструкцией» (PDF) . arXiv . arXiv : 2012.11384 . ISSN   2331-8422 . Викиданные   Q104417795 .
  14. ^ «DocRED. Конкурс. CodaLab» .


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8c978fa00b454a7c5c124bb68b1fa5b1__1684860000
URL1:https://arc.ask3.ru/arc/aa/8c/b1/8c978fa00b454a7c5c124bb68b1fa5b1.html
Заголовок, (Title) документа по адресу, URL1:
Relationship extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)