Связывание объектов

При естественного языка обработке связывание сущностей , также называемое связыванием именованных сущностей (NEL), ^[1] устранение неоднозначности именованного объекта (NED), распознавание и устранение неоднозначности именованного объекта (NERD) или нормализация именованного объекта (NEN) ^[2] — это задача присвоения уникальной идентичности объектам (таким как известные личности, места или компании), упомянутым в тексте. Например, учитывая предложение «Париж — столица Франции» , идея состоит в том, чтобы определить, что «Париж» относится к городу Парижу , а не к Пэрис Хилтон или любому другому объекту, который можно было бы назвать «Париж» . Связывание сущностей отличается от распознавания именованных сущностей (NER) тем, что NER идентифицирует появление именованной сущности в тексте, но не определяет, какой именно это объект (см. Отличия от других методов ).

Введение

При связывании сущностей интересующие слова (имена людей, мест и компаний) сопоставляются из входного текста с соответствующими уникальными сущностями в целевой базе знаний . Интересующие слова называются именованными сущностями (NE), упоминаниями или поверхностными формами. Целевая база знаний зависит от предполагаемого приложения, но для систем связывания сущностей, предназначенных для работы с текстом открытого домена, обычно используются базы знаний, полученные из Википедии (например, Wikidata или DBpedia ). ^[2]^[3] В этом случае каждая отдельная страница Википедии рассматривается как отдельный объект. Методы связывания сущностей, которые сопоставляют именованные сущности с сущностями Википедии, также называются викификацией . ^[4]

Если снова рассмотреть пример предложения «Париж — столица Франции» , ожидаемым результатом системы связи сущностей будут Париж и Франция . Эти унифицированные указатели ресурсов (URL) можно использовать в качестве уникальных унифицированных идентификаторов ресурсов. (URI) для объектов в базе знаний. Использование другой базы знаний приведет к возврату разных URI, но для баз знаний, созданных на основе Википедии, существуют однозначное сопоставление URI. ^[5]

В большинстве случаев базы знаний создаются вручную. ^[6] но в приложениях, где большие текстовые корпуса доступны , база знаний может быть автоматически выведена из доступного текста . ^[7]

Связывание сущностей — это важнейший шаг для соединения веб-данных с базами знаний, что полезно для аннотирования огромного количества необработанных и часто зашумленных данных в Интернете и способствует формированию концепции семантической сети . ^[8] Помимо связывания сущностей, существуют и другие важные шаги, включая, помимо прочего, извлечение событий. ^[9] и связывание событий ^[10] и т. д.

Приложения

Связывание сущностей полезно в областях, где необходимо извлекать абстрактные представления из текста, как это происходит в анализе текста, рекомендательных системах , семантическом поиске и чат-ботах. Во всех этих полях понятия, относящиеся к приложению, отделены от текста и других бессмысленных данных. ^[11]^[12]

Например, обычная задача поисковых систем — найти документы, похожие на тот, который указан в качестве входных, или найти дополнительную информацию о лицах, которые в нем упомянуты.Рассмотрим предложение, содержащее выражение «столица Франции» : без привязки объектов поисковая система, просматривающая содержимое документов, не сможет напрямую извлекать документы, содержащие слово «Париж» , что приводит к так называемым ложноотрицательным результатам. (ФН). Хуже того, поисковая система может выдатьложные совпадения (или ложные срабатывания (FP)), например, получение документов, в которых упоминается «Франция» как страна.

Существует множество подходов, ортогональных связыванию сущностей, для получения документов, аналогичных входному документу. Например, латентно-семантический анализ (LSA) или сравнение вложений документов, полученных с помощью doc2vec . Однако эти методы не обеспечивают такой же детальный контроль, который предлагается при связывании сущностей, поскольку они будут возвращать другиедокументов вместо создания высокоуровневых представлений исходного документа. Например, получить схематическую информацию о «Париже» , представленную информационными блоками Википедии , будет гораздо сложнее, а иногда даже невозможно, в зависимости от сложности запроса. ^[13]

Более того, связывание сущностей использовалось для повышения производительности поиска информации. систем ^[2] и улучшить производительность поиска в цифровых библиотеках. ^[14] Связывание сущностей также является ключевым входным сигналом для семантического поиска . ^[15]^[16]

Проблемы при связывании сущностей

Система связывания сущностей должна решить ряд проблем, прежде чем она сможет эффективно работать в реальных приложениях. Некоторые из этих проблем присущи задаче связывания сущностей. ^[17] такие как неоднозначность текста, в то время как другие, такие как масштабируемость и время выполнения, становятся актуальными при рассмотрении реального использования таких систем.

Варианты имени : один и тот же объект может встречаться в текстовых представлениях. Источниками этих вариаций являются сокращения ( New York , NY ), псевдонимы ( New York , Big Apple ) или варианты написания и ошибки ( New yokr ).
Двусмысленность : одно и то же упоминание часто может относиться к множеству разных объектов, в зависимости от контекста, поскольку имена многих объектов имеют тенденцию быть многозначными (т.е. иметь несколько значений). Слово Париж , среди прочего, могло относиться к французской столице или к Пэрис Хилтон . В некоторых случаях (как в столице Франции ) нет текстуального сходства между текстом упоминания и фактическим целевым объектом ( Париж ).
Отсутствие : иногда некоторые именованные сущности могут не иметь правильной ссылки на сущность в целевой базе знаний. Это может произойти при работе с очень специфическими или необычными объектами или при обработке документов о недавних событиях, в которых могут быть упоминания о людях или событиях, которым еще нет соответствующего объекта в базе знаний. Другая распространенная ситуация, в которой отсутствуют сущности, — это использование баз знаний, специфичных для предметной области (например, базы знаний по биологии или базы данных фильмов). Во всех этих случаях система связывания сущностей должна возвращать NIL ссылка на сущность. Понимание того, когда следует вернуть NIL прогнозирование не является простым, и было предложено множество различных подходов; например, установив пороговое значение какого-либо показателя достоверности в системе связывания сущностей или добавив дополнительный NIL сущность в базу знаний, которая обрабатывается так же, как и другие сущности. Более того, в некоторых случаях предоставление неправильного, но связанного прогноза связи между объектами может быть лучше, чем отсутствие результата вообще с точки зрения конечного пользователя. ^[17]
Масштабируемость и скорость : желательно, чтобы система связи промышленного предприятия предоставляла результаты в разумные сроки, а часто и в режиме реального времени. Это требование имеет решающее значение для поисковых систем, чат-ботов и систем связывания сущностей, предлагаемых платформами анализа данных. Обеспечение минимального времени выполнения может оказаться сложной задачей при использовании больших баз знаний или при обработке больших документов. ^[18] Например, Arc.Ask3.Ru содержит около 9 миллионов объектов и более 170 миллионов связей между ними.
Развивающаяся информация : система связывания сущностей также должна обрабатывать развивающуюся информацию и легко интегрировать обновления в базу знаний. Проблема развития информации иногда связана с проблемой отсутствующих сущностей, например, при обработке недавних новостных статей, в которых есть упоминания о событиях, не имеющих соответствующей записи в базе знаний из-за их новизны. ^[19]
Несколько языков : система связывания сущностей может поддерживать запросы, выполняемые на нескольких языках. В идеале, точность системы связывания сущностей не должна зависеть от языка ввода, а сущности в базе знаний должны быть одинаковыми на разных языках. ^[20]

Отличия от других техник

Связывание сущностей также известно как устранение неоднозначности именованных сущностей (NED) и тесно связано с викификацией и связыванием записей . ^[21]Определения часто размыты и незначительно различаются у разных авторов: Alhelbawy et al. ^[22] рассматривайте связывание сущностей как более широкую версию NED, поскольку NED должен предполагать, что сущность, которая правильно соответствует определенному текстовому упоминанию сущности, находится в базе знаний. Системы связывания сущностей могут иметь дело со случаями, когда в справочной базе знаний нет записи для именованной сущности. Другие авторы не делают такого различия и используют эти два имени как синонимы. ^[23]^[24]

Викификация — это задача по связыванию текстовых упоминаний с объектами в Википедии (как правило, ограничивая область действия английской Википедией в случае межъязыковой викификации).
Связь записей (RL) считается более широкой областью, чем связывание объектов, и заключается в поиске записей в нескольких и часто гетерогенных наборах данных, которые относятся к одному и тому же объекту. ^[14] Увязка записей является ключевым компонентом оцифровки архивов и объединения нескольких баз знаний. ^[14]
Распознавание именованных объектов находит и классифицирует именованные объекты в неструктурированном тексте по заранее определенным категориям, таким как имена, организации, местоположения и т. д. Например, следующее предложение:

Париж – столица Франции.

будет обработан системой NER для получения следующего результата:

[ Париж ] _Город является столицей [ Франция ] _страны .

Распознавание именованного объекта обычно является этапом предварительной обработки системы связывания объектов, поскольку может быть полезно заранее знать, какие слова должны быть связаны с объектами базы знаний.

Разрешение кореферентности позволяет понять, относятся ли несколько слов в тексте к одному и тому же объекту. Например, может быть полезно понять, к какому слову относится местоимение. Рассмотрим следующий пример:

Париж – столица Франции. Это также самый крупный город Франции.

В этом примере алгоритм разрешения кореферентности определит, что местоимение It относится к Парижу , а не к Франции или другому объекту. Заметным отличием от связывания сущностей является то, что разрешение кореференции не присваивает какой-либо уникальной идентичности словам, которым они соответствуют, а просто говорит, относятся ли они к одной и той же сущности или нет. В этом смысле прогнозы системы разрешения кореференций могут быть полезны для последующего компонента связывания объектов.

Подходы к связыванию сущностей

Связь между сущностями была горячей темой в промышленности и научных кругах в течение последнего десятилетия. Однако на сегодняшний день большинство существующих проблем все еще не решены, и было предложено множество систем связывания сущностей с совершенно разными сильными и слабыми сторонами. ^[25]

В общих чертах современные системы связи сущностей можно разделить на две категории:

Текстовые подходы , в которых используются текстовые характеристики, извлеченные из больших текстовых корпусов (например, частота терминов – обратная частота документов (Tf–Idf), вероятности совместного появления слов и т. д.). ^[26]^[17]
Подходы на основе графов , которые используют структуру графов знаний для представления контекста и отношений сущностей. ^[3]^[27]

Часто системы связывания сущностей не могут быть строго отнесены ни к одной из категорий, но они используют графы знаний, которые были обогащены дополнительными текстовыми функциями, извлеченными, например, из текстовых корпусов, которые использовались для построения самих графов знаний. ^[23]^[24]

Связывание текстовых сущностей

В плодотворной работе Кусерзана в 2007 году была предложена одна из первых систем связывания сущностей, появившихся в литературе, и решена задача викификации, связывающая текстовые упоминания со страницами Википедии. ^[26] Эта система разделяет страницы на страницы сущностей, значений или списков, используемые для назначения категорий каждой сущности. Набор сущностей, присутствующих на каждой странице сущности, используется для построения контекста сущности. Последний шаг связывания сущностей — это коллективное устранение неоднозначности, выполняемое путем сравнения двоичных векторов, полученных из созданных вручную признаков и из контекста каждой сущности.Система связывания сущностей Кусерзана до сих пор используется в качестве основы для многих недавних работ. ^[28]

Работа Рао и др. — это известная статья в области связывания сущностей. ^[17] Авторы предлагают двухэтапный алгоритм для связи именованных сущностей с сущностями в целевой базе знаний. Сначала выбирается набор объектов-кандидатов с использованием сопоставления строк, сокращений и известных псевдонимов. Затем лучшее звено среди кандидатов выбирается с помощью машины опорных векторов ранжирования (SVM), которая использует лингвистические функции.

Недавние системы, такие как система, предложенная Цаем и др., ^[21] использовать встраивания слов, полученные с помощью модели пропуска грамм , в качестве особенностей языка и могут применяться к любому языку, если предоставляется большой корпус для построения встраивания слов. Как и в большинстве систем связывания сущностей, связывание выполняется в два этапа: на втором этапе выполняется первоначальный выбор сущностей-кандидатов и SVM с линейным ранжированием.

Для решения проблемы неоднозначности сущностей были опробованы различные подходы. В оригинальном подходе Милна и Виттена обучение с учителем используется с использованием якорных текстов объектов Википедии в качестве обучающих данных. ^[29] Другие подходы также собирали данные обучения на основе однозначных синонимов. ^[30]

Связывание сущностей на основе графа

Современные системы связывания сущностей не ограничивают свой анализ текстовыми функциями, сгенерированными из входных документов или текстовых корпусов, а используют большие графы знаний , созданные на основе баз знаний, таких как Arc.Ask3.Ru. Эти системы извлекают сложные функции, которые используют преимущества топологии графа знаний или используют многоэтапные связи между объектами, которые были бы скрыты простым анализом текста. Более того, создание многоязычных систем связывания сущностей на основе обработки естественного языка (NLP) по своей сути сложно, поскольку для этого требуются либо большие текстовые корпуса, часто отсутствующие во многих языках, либо созданные вручную грамматические правила, которые сильно различаются в разных языках. Хан и др. предложить создание графа устранения неоднозначности (подграфа базы знаний, содержащего объекты-кандидаты). ^[3] Этот график используется для чисто коллективной процедуры ранжирования, которая находит лучшую ссылку-кандидат для каждого текстового упоминания.

Другой известный подход к связыванию сущностей — AIDA, который использует ряд сложных графовых алгоритмов и жадный алгоритм, который идентифицирует связные упоминания в плотном подграфе, также учитывая сходство контекста и особенности важности вершин для выполнения коллективного устранения неоднозначности. ^[27]

Ранжирование графа (или ранжирование вершин) обозначает такие алгоритмы, как PageRank (PR) и тематический поиск по гиперссылкам (HITS), цель которых — присвоить каждой вершине оценку, отражающую ее относительную важность в общем графе. Система связывания сущностей, представленная Alhelbawy et al. использует PageRank для выполнения коллективного связывания объектов на графе устранения неоднозначности и для понимания того, какие объекты более тесно связаны друг с другом и будут представлять собой лучшую связь. ^[22]

Связь математических сущностей

Математические выражения (символы и формулы) могут быть связаны с семантическими объектами (например, в Википедии ). статьи ^[31] или Викиданных элементы ^[32]), помеченные их значением на естественном языке. Это важно для устранения неоднозначности, поскольку символы могут иметь разные значения (например, «E» может означать «энергию» или «ожидаемое значение» и т. д.). ^[33]^[32] Процесс связывания математических объектов можно облегчить и ускорить с помощью рекомендаций по аннотациям, например, с помощью системы «AnnoMathTeX», размещенной на Wikimedia. ^[34]^[35]^[36]

Чтобы облегчить воспроизводимость экспериментов по связыванию математических сущностей (MathEL), был создан эталон MathMLben. ^[37]^[38] Он содержит формулы из Википедии, arXiV и Цифровая библиотека математических функций NIST (DLMF). Записи формул в тесте помечаются и дополняются разметкой Викиданных . ^[32] Кроме того, для двух крупных корпораций из arXiv ^[39] и zbMATH ^[40] Были исследованы репозитории распределения математических обозначений. Математические объекты интереса (MOI) идентифицируются как потенциальные кандидаты на MathEL. ^[41]

Помимо ссылок на Википедию, Шуботц ^[38] и Шарпф и др. ^[32] опишите связывание содержания математических формул с Викиданными как в разметке MathML , так и в LaTeX . Чтобы расширить классические цитаты с помощью математики, они призывают к задаче «Обнаружение концепции формулы» (FCD) и «Распознавание концепции формулы» (FCR) для разработки автоматизированного MathEL. Их подход FCD дает 68 % точности при извлечении эквивалентных представлений часто встречающихся формул и 72 % при извлечении названия формулы из окружающего текста в NTCIR. ^[42] набор данных arXiv. ^[36]

См. также

У Scholia есть профиль темы для связывания сущностей .

Ссылки

^ Хачи, Бен; Рэдфорд, Уилл; Нотман, Джоэл; Хоннибал, Мэтью; Карран, Джеймс Р. (1 января 2013 г.). «Искусственный интеллект, Arc.Ask3.Ru и полуструктурированные ресурсы. Оценка связи сущностей с Википедией» . Искусственный интеллект . 194 : 130–150. дои : 10.1016/j.artint.2012.04.005 .
^ Перейти обратно: ^а ^б ^с М.А. Халид, В. Джиджкун и М. де Рийке (2008). Влияние нормализации именованного объекта на поиск информации для ответа на вопросы ^{[ постоянная мертвая ссылка ]}. Учеб. ЭКИР.
^ Перейти обратно: ^а ^б ^с Хан, Сяньпэй; Солнце, Ле; Чжао, июнь (2011). «Коллективная сущность, связывающаяся в веб-тексте» . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . АКМ. стр. 765–774. дои : 10.1145/2009916.2010019 . ISBN 9781450307574 . S2CID 14428938 .
^ Рада Михалча и Андраш Чомай (2007) Wikify! Связь документов с энциклопедическими знаниями . Учеб. ЦИКМ.
^ «Ссылки на Википедию» . 4 мая 2023 г.
^ Викиданные
^ Аарон М. Коэн (2005). Неконтролируемая нормализация названных объектов гена/белка с использованием автоматически извлекаемых словарей. Учеб. Семинар ACL -ISMB по объединению биологической литературы, онтологий и баз данных: интеллектуальная биологическая семантика, стр. 17–24.
^ Шен В., Ван Дж., Хан Дж. Сущность, связанная с базой знаний: проблемы, методы и решения [J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460.
^ Чанг Ю.К., Чу Ч., Су Ю.К. и др. PIPE: модуль извлечения пассажей межбелкового взаимодействия для BioCreative Challenge[J]. База данных, 2016, 2016.
^ Лу П., Химено Йепес А., Чжан З. и др. BioNorm: нормализация событий на основе глубокого обучения для управления базами данных реакций [J]. Биоинформатика, 2020, 36(2): 611-620.
^ Славски, Билл (16 сентября 2015 г.). «Как Google использует устранение неоднозначности именованных объектов для объектов с одинаковыми именами» .
^ Чжоу, Мин; Льв, Вэйфэн; Рен, Пэнцзе; Вэй, Фуру; Тан, Чуаньци (2017). «Связывание сущностей для запросов путем поиска предложений в Википедии» . Материалы конференции 2017 года по эмпирическим методам обработки естественного языка . стр. 68–77. arXiv : 1704.02788 . дои : 10.18653/v1/D17-1007 . S2CID 1125678 .
^ Ле, Куок; Миколов, Томас (2014). «Распределенные представления предложений и документов» . Материалы 31-й Международной конференции по машинному обучению . 32 : II–1188–II–1196. arXiv : 1405.4053 .
^ Перейти обратно: ^а ^б ^с Хуэй Хань, Хунъюань Чжа, К. Ли Джайлс, «Устранение неоднозначности имен в цитатах авторов с использованием метода спектральной кластеризации K-way», Совместная конференция ACM / IEEE по цифровым библиотекам 2005 (JCDL 2005): 334-343, 2005 г.
^ «СТИКС» . Архивировано из оригинала 01 сентября 2021 г. Проверено 16 ноября 2015 г.
^ Хоффарт, Йоханнес; Мильчевский, Драган; Вейкум, Герхард (3 июля 2014 г.). «СТИКС: Поиск с помощью строк, вещей и кошек» . Материалы 37-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '14. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1247–1248. дои : 10.1145/2600428.2611177 . ISBN 978-1-4503-2257-7 .
^ Перейти обратно: ^а ^б ^с ^д Рао, Делип; МакНэми, Пол; Дредзе, Марк (2013). «Связывание сущностей: поиск извлеченных сущностей в базе знаний». Извлечение и обобщение информации из нескольких источников, на нескольких языках . Теория и приложения обработки естественного языка. Шпрингер Берлин Гейдельберг. стр. 93–115. дои : 10.1007/978-3-642-28569-1_5 . ISBN 978-3-642-28568-4 . S2CID 6420241 .
^ Парравичини, Альберто; Патра, Ричик; Бартолини, Давиде Б.; Сантамброджо, Марко Д. (2019). «Быстрое и точное связывание сущностей посредством внедрения графа» . Материалы 2-го совместного международного семинара по опыту и системам управления графовыми данными (GRADES) и сетевой аналитике данных (NDA) . АКМ. стр. 10:1–10:9. дои : 10.1145/3327964.3328499 . hdl : 11311/1119019 . ISBN 9781450367899 . S2CID 195357229 .
^ Хоффарт, Йоханнес; Алтун, Ясемин; Вейкум, Герхард (2014). «Обнаружение новых сущностей с неоднозначными именами» . Материалы 23-й международной конференции по Всемирной паутине . АКМ. стр. 385–396. дои : 10.1145/2566486.2568003 . ISBN 9781450327442 . S2CID 7562986 .
^ Дорманн, Дэвид С.; Оард, Дуглас В.; Лори, Дон Дж.; Мэйфилд, Джеймс; МакНэми, Пол (2011). «Межъязыковое связывание сущностей». S2CID 3801685 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Перейти обратно: ^а ^б Цай, Чен-Це; Рот, Дэн (2016). «Межъязыковая викификация с использованием многоязычных вложений» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2016 года: технологии человеческого языка . Том. Материалы NAACL-HLT 2016. С. 589–598. дои : 10.18653/v1/N16-1072 . S2CID 15156124 .
^ Перейти обратно: ^а ^б Алхельбави, Айман; Гайзаускас, Роберт (август 2014 г.). «Устранение неоднозначности коллективного именованного объекта с использованием подходов к ранжированию графов и группированию кликов» . Материалы COLING 2014, 25-й Международной конференции по компьютерной лингвистике: технические статьи (Дублинский городской университет и Ассоциация компьютерной лингвистики): 1544–1555. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Перейти обратно: ^а ^б Цвикльбауэр, Стефан; Зейферт, Кристин; Гранитцер, Майкл (2016). «Надежное и коллективное устранение неоднозначности сущностей посредством семантических вложений» . Материалы 39-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (PDF) . АКМ. стр. 425–434. дои : 10.1145/2911451.2911535 . ISBN 9781450340694 . S2CID 207237647 .
^ Перейти обратно: ^а ^б Хачи, Бен; Рэдфорд, Уилл; Нотман, Джоэл; Хоннибал, Мэтью; Карран, Джеймс Р. (2013). «Оценка связи объекта с Википедией» . Артиф. Интелл . 194 : 130–150. дои : 10.1016/j.artint.2012.04.005 . ISSN 0004-3702 .
^ Цзи, Хэн; Нотман, Джоэл; Хачи, Бен; Флориан, Раду (2015). «Обзор обнаружения и связывания трехязычных объектов TAC-KBP2015». ТАК .
^ Перейти обратно: ^а ^б Кусерзан, Сильвиу (июнь 2007 г.). «Крупномасштабное устранение неоднозначности именованных объектов на основе данных Википедии» . Материалы совместной конференции 2007 г. по эмпирическим методам обработки естественного языка и вычислительному изучению естественного языка (EMNLP-CoNLL): 708–716. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )
^ Перейти обратно: ^а ^б Вейкум, Герхард; Татер, Стефан; Танева, Биляна; Спаньол, Марк; Пинкаль, Манфред; Фюрстенау, Хаген; Бордино, Илария; Йосеф, Мохамед Амир; Хоффарт, Йоханнес (2011). «Надежное устранение неоднозначности именованных объектов в тексте» . Материалы конференции 2011 г. по эмпирическим методам обработки естественного языка : 782–792.
^ Кулкарни, Саяли; Сингх, Амит; Рамакришнан, Ганеша; Чакрабарти, Сумен (2009). Коллективная аннотация объектов Википедии в веб-тексте . Учеб. 15-я Международная конференция ACM SIGKDD. по обнаружению знаний и интеллектуальному анализу данных (KDD). CiteSeerX 10.1.1.151.1904 . дои : 10.1145/1557019.1557073 . ISBN 9781605584959 .
^ Дэвид Милн и Ян Х. Виттен (2008). Учимся связываться с Википедией. Учеб. ЦИКМ.
^ Чжан, Вэй; Цзянь Су; Чу Лим Тан (2010). «Связывание сущностей с использованием автоматически созданной аннотации». Материалы 23-й Международной конференции по компьютерной лингвистике (Колинг, 2010) .
^ Джованни Йоко Кристианто; Горан Тема; Акико Айзава; и др. (2016). «Связывание сущностей для математических выражений в научных документах». Цифровые библиотеки: знания, информация и данные в обществе открытого доступа . Конспекты лекций по информатике. Том. 10075. Спрингер. стр. 144–149. дои : 10.1007/978-3-319-49304-6_18 . ISBN 978-3-319-49303-9 .
^ Перейти обратно: ^а ^б ^с ^д Филипп Шарпф; Мориц Шубоц; и др. (2018). Представление математических формул в контенте MathML с использованием Викиданных . Конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR 2018).
^ Мориц Шубоц; Филипп Шарпф; и др. (2018). «Представляем MathQA: систему ответов на вопросы с учетом математики». Обнаружение и доставка информации . 46 (4). Эмеральд Паблишинг Лимитед: 214–224. arXiv : 1907.01642 . дои : 10.1108/IDD-06-2018-0022 . S2CID 49484035 .
^ «Система рекомендаций аннотаций формул/идентификаторов AnnoMathTeX» .
^ Филипп Шарпф; Ян Маккеррахер; и др. (17 сентября 2019 г.). « AnnoMathTeX — система рекомендаций по аннотациям идентификаторов формул для документов STEM». Материалы 13-й конференции ACM по рекомендательным системам (PDF) . стр. 532–533. дои : 10.1145/3298689.3347042 . ISBN 9781450362436 . S2CID 202639987 .
^ Перейти обратно: ^а ^б Филипп Шарпф; Мориц Шубоц; Бела Гипп (14 апреля 2021 г.). «Быстрое связывание математических объектов Викиданных в статьях Википедии с использованием рекомендаций по аннотациям». Сопутствующие материалы веб-конференции 2021 (PDF) . стр. 602–609. arXiv : 2104.05111 . дои : 10.1145/3442442.3452348 . ISBN 9781450383134 . S2CID 233210264 .
^ «Баланс формул MathMLben» .
^ Перейти обратно: ^а ^б Мориц Шубоц; Андре Грейнер-Петтер; Филипп Шарпф; Норман Меушке; Говард Коул; Бела Гипп (2018). «Улучшение представления и преобразования математических формул путем рассмотрения их текстового контекста». Материалы 18-й конференции ACM/IEEE по совместной конференции по цифровым библиотекам (PDF) . Том. 39. С. 233–242. arXiv : 1804.04956 . дои : 10.1145/3197026.3197058 . ISBN 9781450351782 . ПМЦ 8474120 . ПМИД 34584342 . S2CID 4872257 . {{cite book}}: |journal= игнорируется ( помогите )
^ «Хранилище препринтов arXiv» .
^ «Библиотека математических документов zbMath» .
^ Андре Грейнер-Петтер; Мориц Шубоц; Фабиан Мюллер; Коринна Брайтингер; Говард С. Коул; Акико Айзава; Бела Гипп (2020). «Обнаружение математических объектов, представляющих интерес - исследование математических обозначений». Материалы веб-конференции 2020 (PDF) . стр. 1445–1456. arXiv : 2002.02712 . дои : 10.1145/3366423.3380218 . ISBN 9781450370233 . S2CID 211066554 .
^ Акико Айзава; Майкл Кольхазе; Иад Унис; Мориц Шубоц. «Обзор задачи NTCIR-11 Math-2». Материалы 11-й конференции NTCIR по оценке технологий доступа к информации .

[1] Хачи, Бен; Рэдфорд, Уилл; Нотман, Джоэл; Хоннибал, Мэтью; Карран, Джеймс Р. (1 января 2013 г.). «Искусственный интеллект, Arc.Ask3.Ru и полуструктурированные ресурсы. Оценка связи сущностей с Википедией» . Искусственный интеллект . 194 : 130–150. дои : 10.1016/j.artint.2012.04.005 .

[khalid2008-2] Перейти обратно: ^а ^б ^с М.А. Халид, В. Джиджкун и М. де Рийке (2008). Влияние нормализации именованного объекта на поиск информации для ответа на вопросы ^{[ постоянная мертвая ссылка ]}. Учеб. ЭКИР.

[xianpei-3] Перейти обратно: ^а ^б ^с Хан, Сяньпэй; Солнце, Ле; Чжао, июнь (2011). «Коллективная сущность, связывающаяся в веб-тексте» . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . АКМ. стр. 765–774. дои : 10.1145/2009916.2010019 . ISBN 9781450307574 . S2CID 14428938 .

[wikify-4] Рада Михалча и Андраш Чомай (2007) Wikify! Связь документов с энциклопедическими знаниями . Учеб. ЦИКМ.

[5] «Ссылки на Википедию» . 4 мая 2023 г.

[Wikidata-6] Викиданные

[7] Аарон М. Коэн (2005). Неконтролируемая нормализация названных объектов гена/белка с использованием автоматически извлекаемых словарей. Учеб. Семинар ACL -ISMB по объединению биологической литературы, онтологий и баз данных: интеллектуальная биологическая семантика, стр. 17–24.

[8] Шен В., Ван Дж., Хан Дж. Сущность, связанная с базой знаний: проблемы, методы и решения [J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460.

[9] Чанг Ю.К., Чу Ч., Су Ю.К. и др. PIPE: модуль извлечения пассажей межбелкового взаимодействия для BioCreative Challenge[J]. База данных, 2016, 2016.

[10] Лу П., Химено Йепес А., Чжан З. и др. BioNorm: нормализация событий на основе глубокого обучения для управления базами данных реакций [J]. Биоинформатика, 2020, 36(2): 611-620.

[11] Славски, Билл (16 сентября 2015 г.). «Как Google использует устранение неоднозначности именованных объектов для объектов с одинаковыми именами» .

[12] Чжоу, Мин; Льв, Вэйфэн; Рен, Пэнцзе; Вэй, Фуру; Тан, Чуаньци (2017). «Связывание сущностей для запросов путем поиска предложений в Википедии» . Материалы конференции 2017 года по эмпирическим методам обработки естественного языка . стр. 68–77. arXiv : 1704.02788 . дои : 10.18653/v1/D17-1007 . S2CID 1125678 .

[13] Ле, Куок; Миколов, Томас (2014). «Распределенные представления предложений и документов» . Материалы 31-й Международной конференции по машинному обучению . 32 : II–1188–II–1196. arXiv : 1405.4053 .

[han2005-14] Перейти обратно: ^а ^б ^с Хуэй Хань, Хунъюань Чжа, К. Ли Джайлс, «Устранение неоднозначности имен в цитатах авторов с использованием метода спектральной кластеризации K-way», Совместная конференция ACM / IEEE по цифровым библиотекам 2005 (JCDL 2005): 334-343, 2005 г.

[15] «СТИКС» . Архивировано из оригинала 01 сентября 2021 г. Проверено 16 ноября 2015 г.

[16] Хоффарт, Йоханнес; Мильчевский, Драган; Вейкум, Герхард (3 июля 2014 г.). «СТИКС: Поиск с помощью строк, вещей и кошек» . Материалы 37-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '14. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1247–1248. дои : 10.1145/2600428.2611177 . ISBN 978-1-4503-2257-7 .

[rao-17] Перейти обратно: ^а ^б ^с ^д Рао, Делип; МакНэми, Пол; Дредзе, Марк (2013). «Связывание сущностей: поиск извлеченных сущностей в базе знаний». Извлечение и обобщение информации из нескольких источников, на нескольких языках . Теория и приложения обработки естественного языка. Шпрингер Берлин Гейдельберг. стр. 93–115. дои : 10.1007/978-3-642-28569-1_5 . ISBN 978-3-642-28568-4 . S2CID 6420241 .

[18] Парравичини, Альберто; Патра, Ричик; Бартолини, Давиде Б.; Сантамброджо, Марко Д. (2019). «Быстрое и точное связывание сущностей посредством внедрения графа» . Материалы 2-го совместного международного семинара по опыту и системам управления графовыми данными (GRADES) и сетевой аналитике данных (NDA) . АКМ. стр. 10:1–10:9. дои : 10.1145/3327964.3328499 . hdl : 11311/1119019 . ISBN 9781450367899 . S2CID 195357229 .

[19] Хоффарт, Йоханнес; Алтун, Ясемин; Вейкум, Герхард (2014). «Обнаружение новых сущностей с неоднозначными именами» . Материалы 23-й международной конференции по Всемирной паутине . АКМ. стр. 385–396. дои : 10.1145/2566486.2568003 . ISBN 9781450327442 . S2CID 7562986 .

[20] Дорманн, Дэвид С.; Оард, Дуглас В.; Лори, Дон Дж.; Мэйфилд, Джеймс; МакНэми, Пол (2011). «Межъязыковое связывание сущностей». S2CID 3801685 . {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[tsai-21] Перейти обратно: ^а ^б Цай, Чен-Це; Рот, Дэн (2016). «Межъязыковая викификация с использованием многоязычных вложений» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2016 года: технологии человеческого языка . Том. Материалы NAACL-HLT 2016. С. 589–598. дои : 10.18653/v1/N16-1072 . S2CID 15156124 .

[alhelbawy-22] Перейти обратно: ^а ^б Алхельбави, Айман; Гайзаускас, Роберт (август 2014 г.). «Устранение неоднозначности коллективного именованного объекта с использованием подходов к ранжированию графов и группированию кликов» . Материалы COLING 2014, 25-й Международной конференции по компьютерной лингвистике: технические статьи (Дублинский городской университет и Ассоциация компьютерной лингвистики): 1544–1555. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[zwick-23] Перейти обратно: ^а ^б Цвикльбауэр, Стефан; Зейферт, Кристин; Гранитцер, Майкл (2016). «Надежное и коллективное устранение неоднозначности сущностей посредством семантических вложений» . Материалы 39-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (PDF) . АКМ. стр. 425–434. дои : 10.1145/2911451.2911535 . ISBN 9781450340694 . S2CID 207237647 .

[hachey-24] Перейти обратно: ^а ^б Хачи, Бен; Рэдфорд, Уилл; Нотман, Джоэл; Хоннибал, Мэтью; Карран, Джеймс Р. (2013). «Оценка связи объекта с Википедией» . Артиф. Интелл . 194 : 130–150. дои : 10.1016/j.artint.2012.04.005 . ISSN 0004-3702 .

[25] Цзи, Хэн; Нотман, Джоэл; Хачи, Бен; Флориан, Раду (2015). «Обзор обнаружения и связывания трехязычных объектов TAC-KBP2015». ТАК .

[cucerzan-26] Перейти обратно: ^а ^б Кусерзан, Сильвиу (июнь 2007 г.). «Крупномасштабное устранение неоднозначности именованных объектов на основе данных Википедии» . Материалы совместной конференции 2007 г. по эмпирическим методам обработки естественного языка и вычислительному изучению естественного языка (EMNLP-CoNLL): 708–716. {{cite journal}}: Для цитирования журнала требуется |journal= ( помощь )

[weikum-27] Перейти обратно: ^а ^б Вейкум, Герхард; Татер, Стефан; Танева, Биляна; Спаньол, Марк; Пинкаль, Манфред; Фюрстенау, Хаген; Бордино, Илария; Йосеф, Мохамед Амир; Хоффарт, Йоханнес (2011). «Надежное устранение неоднозначности именованных объектов в тексте» . Материалы конференции 2011 г. по эмпирическим методам обработки естественного языка : 782–792.

[kulkarni-28] Кулкарни, Саяли; Сингх, Амит; Рамакришнан, Ганеша; Чакрабарти, Сумен (2009). Коллективная аннотация объектов Википедии в веб-тексте . Учеб. 15-я Международная конференция ACM SIGKDD. по обнаружению знаний и интеллектуальному анализу данных (KDD). CiteSeerX 10.1.1.151.1904 . дои : 10.1145/1557019.1557073 . ISBN 9781605584959 .

[29] Дэвид Милн и Ян Х. Виттен (2008). Учимся связываться с Википедией. Учеб. ЦИКМ.

[30] Чжан, Вэй; Цзянь Су; Чу Лим Тан (2010). «Связывание сущностей с использованием автоматически созданной аннотации». Материалы 23-й Международной конференции по компьютерной лингвистике (Колинг, 2010) .

[Kristianto2016-31] Джованни Йоко Кристианто; Горан Тема; Акико Айзава; и др. (2016). «Связывание сущностей для математических выражений в научных документах». Цифровые библиотеки: знания, информация и данные в обществе открытого доступа . Конспекты лекций по информатике. Том. 10075. Спрингер. стр. 144–149. дои : 10.1007/978-3-319-49304-6_18 . ISBN 978-3-319-49303-9 .

[Scharpf2018-32] Перейти обратно: ^а ^б ^с ^д Филипп Шарпф; Мориц Шубоц; и др. (2018). Представление математических формул в контенте MathML с использованием Викиданных . Конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR 2018).

[Schubotz2018b-33] Мориц Шубоц; Филипп Шарпф; и др. (2018). «Представляем MathQA: систему ответов на вопросы с учетом математики». Обнаружение и доставка информации . 46 (4). Эмеральд Паблишинг Лимитед: 214–224. arXiv : 1907.01642 . дои : 10.1108/IDD-06-2018-0022 . S2CID 49484035 .

[AnnoMathTeX-34] «Система рекомендаций аннотаций формул/идентификаторов AnnoMathTeX» .

[Scharpf2019-35] Филипп Шарпф; Ян Маккеррахер; и др. (17 сентября 2019 г.). « AnnoMathTeX — система рекомендаций по аннотациям идентификаторов формул для документов STEM». Материалы 13-й конференции ACM по рекомендательным системам (PDF) . стр. 532–533. дои : 10.1145/3298689.3347042 . ISBN 9781450362436 . S2CID 202639987 .

[Scharpf2021-36] Перейти обратно: ^а ^б Филипп Шарпф; Мориц Шубоц; Бела Гипп (14 апреля 2021 г.). «Быстрое связывание математических объектов Викиданных в статьях Википедии с использованием рекомендаций по аннотациям». Сопутствующие материалы веб-конференции 2021 (PDF) . стр. 602–609. arXiv : 2104.05111 . дои : 10.1145/3442442.3452348 . ISBN 9781450383134 . S2CID 233210264 .

[MathMLben-37] «Баланс формул MathMLben» .

[Schubotz2018-38] Перейти обратно: ^а ^б Мориц Шубоц; Андре Грейнер-Петтер; Филипп Шарпф; Норман Меушке; Говард Коул; Бела Гипп (2018). «Улучшение представления и преобразования математических формул путем рассмотрения их текстового контекста». Материалы 18-й конференции ACM/IEEE по совместной конференции по цифровым библиотекам (PDF) . Том. 39. С. 233–242. arXiv : 1804.04956 . дои : 10.1145/3197026.3197058 . ISBN 9781450351782 . ПМЦ 8474120 . ПМИД 34584342 . S2CID 4872257 . {{cite book}}: |journal= игнорируется ( помогите )

[arXiv-39] «Хранилище препринтов arXiv» .

[zbMath-40] «Библиотека математических документов zbMath» .

[Greiner-Petter2020-41] Андре Грейнер-Петтер; Мориц Шубоц; Фабиан Мюллер; Коринна Брайтингер; Говард С. Коул; Акико Айзава; Бела Гипп (2020). «Обнаружение математических объектов, представляющих интерес - исследование математических обозначений». Материалы веб-конференции 2020 (PDF) . стр. 1445–1456. arXiv : 2002.02712 . дои : 10.1145/3366423.3380218 . ISBN 9781450370233 . S2CID 211066554 .

[Aizawa2014-42] Акико Айзава; Майкл Кольхазе; Иад Унис; Мориц Шубоц. «Обзор задачи NTCIR-11 Math-2». Материалы 11-й конференции NTCIR по оценке технологий доступа к информации .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]