Разрешение неоднозначности имени автора
Устранение неоднозначности имени автора — это процесс устранения неоднозначности и связывания записей, применяемый к именам отдельных людей. Например, этот процесс может различать людей по имени « Джон Смит ».
Редактор может применить этот процесс к научным документам, цель которого — найти все упоминания одного и того же автора и сгруппировать их вместе. Авторы научных документов часто имеют одинаковые имена, что затрудняет различение работ каждого автора. Следовательно, устранение неоднозначности имени автора направлено на то, чтобы найти все публикации, принадлежащие данному автору, и отличить их от публикаций других авторов с тем же именем.
Методы
[ редактировать ]Значительные исследования были проведены в области устранения неоднозначности имен. [1] [2] [3] [4] [5] Типичные подходы к устранению неоднозначности имени автора основаны на информации, позволяющей различать авторов, включая (но не ограничиваясь этим) информацию об авторах, такую как: представление их имени, филиалы и адреса электронной почты, а также информацию о публикации: например, год публикации, соавторство. -авторы и тема статьи. Эту информацию можно использовать для обучения классификатора машинного обучения решать, относятся ли два упоминания автора к одному и тому же автору или нет. [6] Во многих исследованиях устранение неоднозначности имен рассматривается как проблема кластеризации , т. е. разделения документов на кластеры, каждый из которых представляет автора. [2] [7] [8] Другие исследования рассматривают это как проблему классификации. [9] В некоторых работах строится граф документа и используется топология графа для изучения сходства документов. [8] [10] В последнее время несколько исследований [10] [11] стремитесь изучить низкоразмерные представления документов, используя методы сетевого встраивания. [12] [13]
Приложения
[ редактировать ]Существует множество причин, по которым имена авторов могут быть неоднозначными, среди которых: отдельные лица могут публиковаться под несколькими именами по разным причинам, включая различную транслитерацию, орфографические ошибки, изменение имени из-за брака или использование псевдонимов, отчества и инициалов. [14]
Мотивы устранения неоднозначности между людьми включают идентификацию изобретателей по патентам и исследователей из разных издателей, исследовательских учреждений и периодов времени. [15] Устранение неоднозначности имен также является краеугольным камнем в ориентированных на автора академических поисковых и интеллектуальных системах, таких как AMiner (ранее ArnetMiner). [16]
Похожие проблемы
[ редактировать ]Устранение неоднозначности имени автора — это лишь одна проблема связи записей в области научных данных. Тесно связанные и потенциально взаимовыгодные проблемы включают в себя: устранение неоднозначности организации (принадлежности), [17] а также устранение неоднозначности места проведения конференции или публикации, поскольку издатели данных часто используют разные имена или псевдонимы для этих объектов.
Ресурсы
[ редактировать ]Ниже перечислены несколько известных критериев для оценки устранения неоднозначности имени автора, каждый из которых предоставляет публикациям некоторые неоднозначные имена и их основные истины.
- Набор данных по устранению неоднозначности имени AMiner
- Набор данных по устранению неоднозначности имен CiteSeerX
- Набор данных для устранения неоднозначности имени автора семантического ученого (S2AND) [18]
Исходные коды
Ссылки
[ редактировать ]- ^ Де Бонис, Мишель; Манги, Паоло; Фальчи, Фабрицио (2023). «Графовые методы устранения неоднозначности имени автора: опрос» . PeerJ Информатика . 9 : е1536. doi : 10.7717/peerj-cs.1536 . ПМЦ 10557506 . ПМИД 37810360 .
- ^ Jump up to: а б Хабса, Мадиан; Триратпитук, Пуктада; Джайлз, К. Ли (2015). Материалы 15-й конференции ACM/IEEE-CE по совместной конференции по цифровым библиотекам - JCDL '15 . стр. 37–46. дои : 10.1145/2756406.2756915 . ISBN 9781450335942 . S2CID 14068285 .
- ^ Манн, Гидеон С.; Яровский, Дэвид (2003). «Неконтролируемое устранение неоднозначности личного имени». Материалы седьмой конференции по изучению естественного языка в HLT-NAACL 2003 г. - . Том. 4. С. 33–40. дои : 10.3115/1119176.1119181 . S2CID 29759924 .
- ^ Хан, Хуэй; Джайлз, Ли; Чжа, Хунъюань; Ли, Ченг; Циуциуликлис, Костас (2004). «Два подхода к обучению с учителем для устранения неоднозначности имен в цитатах авторов». Материалы совместной конференции ACM/IEEE по цифровым библиотекам 2004 г. - JCDL '04 . п. 296. дои : 10.1145/996350.996419 . ISBN 1581138326 . S2CID 1089260 .
- ^ Хуан, Цзянь; Эртекин, Сейда; Джайлз, К. Ли (2006). Обнаружение знаний в базах данных: PKDD 2006 . Конспекты лекций по информатике. Том. 4213. стр. 536–544. дои : 10.1007/11871637_53 . ISBN 978-3-540-45374-1 . ISSN 0302-9743 . S2CID 14132755 .
- ^ Триратпитук, Пуктада; Джайлз, К. Ли (2009). Устранение неоднозначности авторов в научных публикациях с использованием случайных лесов (PDF) . Материалы 9-й совместной конференции ACM/IEEE-CS по цифровым библиотекам. АКМ . стр. 39–48. CiteSeerX 10.1.1.147.3500 . дои : 10.1145/1555400.1555408 .
- ^ Цзе Тан; АСМ Фонг; Бо Ван; Цзин Чжан (2012). «Единая вероятностная система устранения неоднозначности имен в цифровой библиотеке». Транзакции IEEE по знаниям и инженерии данных . 24 (6). ИИЭР: 975–987. дои : 10.1109/TKDE.2011.13 . S2CID 1032074 .
- ^ Jump up to: а б Сюэчжи Ван; Цзе Тан; Хун Ченг; Филип С. Ю (2011). АДАНА: Активное устранение неоднозначности имени . Материалы Международной конференции IEEE по интеллектуальному анализу данных 2011 года . Ванкувер: IEEE. стр. 794–803. дои : 10.1109/ICDM.2011.19 . ISBN 978-1-4577-2075-8 .
- ^ Зейд Бухерс; Нагарадж Бахубали Асунди (2022). «Whois? Глубокое устранение неоднозначности имени автора с использованием библиографических данных». Связь теории и практики электронных библиотек . Конспекты лекций по информатике. Том. 13541. Падуя: Спрингер. стр. 201–215. arXiv : 2207.04772 . дои : 10.1007/978-3-031-16802-4_16 . ISBN 978-3-031-16801-7 .
- ^ Jump up to: а б с Ютао Чжан; Фаньцзинь Чжан; Пейран Яо; Цзе Тан (2018). Устранение неоднозначности имен в AMiner: кластеризация, обслуживание и участие человека в цикле . Материалы 24-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Лондон: ACM. стр. 1002–1011.
- ^ Байчуань Чжан; Мохаммад Аль Хасан (2017). Устранение неоднозначности имен в анонимизированных графах с использованием сетевого встраивания . Материалы конференции ACM по управлению информацией и знаниями 2017 года . Сингапур: ACM. стр. 1239–1248.
- ^ Брайан Пероцци; Рами ар-Рфу; Стивен Скиена (2014). Deepwalk: онлайн-обучение социальным представлениям . Материалы 20-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. стр. 701–710.
- ^ Цзечжун Цю; Юсяо Донг; Хао Ма; Цзянь Ли; Куансан Ван; Цзе Тан (2018). Встраивание сети как матричная факторизация: объединение DeepWalk, LINE, PTE и node2vec . Материалы одиннадцатой Международной конференции ACM по веб-поиску и интеллектуальному анализу данных . Марина Дель Рей: ACM. стр. 459–467.
- ^ Смальхейзер, Нил Р.; Торвик, Ветле И. (2009). «Устранение неоднозначности имени автора». Ежегодный обзор информационных наук и технологий . 43 : 1–43. дои : 10.1002/aris.2009.1440430113 .
- ^ Моррисон, Грег; Риккабони, Массимо; Паммолли, Фабио (16 мая 2017 г.). «Устранение неоднозначности изобретателей и правопреемников патентов с использованием данных геолокации высокого разрешения» . Научные данные . 4 : 170064. Бибкод : 2017NatSD...470064M . дои : 10.1038/sdata.2017.64 . ПМЦ 5433392 . ПМИД 28509897 .
- ^ Цзе Тан; Цзин Чжан; Лиминь Яо; Хуанзи Ли; Ли Чжан; Чжун Су (2008). ArnetMiner: добыча и майнинг академических социальных сетей . Материалы 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. стр. 990–998.
- ^ Чжан, Цзыци; Нуццолезе, Андреа; Джентиле, Анна Лиза (2017). Дедупликация сущностей в ScholarlyData . Материалы конференции расширенной семантической сети. Спрингер-Верлаг . стр. 85–100. дои : 10.1007/978-3-319-58068-5_6 .
- ^ Субраманиан, Шивашанкар; Король, Дэниел; Дауни, Дуг; Фельдман, Сергей (21 марта 2021 г.). «S2AND: система эталона и оценки для устранения неоднозначности имени автора». arXiv : 2103.07534 [ cs.DL ].