Jump to content

Разрешение неоднозначности имени автора

Имя автора « Ли Ли » может относиться к нескольким людям, включая семерых, перечисленных здесь.

Устранение неоднозначности имени автора — это процесс устранения неоднозначности и связывания записей, применяемый к именам отдельных людей. Например, этот процесс может различать людей по имени « Джон Смит ».

Редактор может применить этот процесс к научным документам, цель которого — найти все упоминания одного и того же автора и сгруппировать их вместе. Авторы научных документов часто имеют одинаковые имена, что затрудняет различение работ каждого автора. Следовательно, устранение неоднозначности имени автора направлено на то, чтобы найти все публикации, принадлежащие данному автору, и отличить их от публикаций других авторов с тем же именем.

Значительные исследования были проведены в области устранения неоднозначности имен. [ 1 ] [ 2 ] [ 3 ] [ 4 ] [ 5 ] Типичные подходы к устранению неоднозначности имени автора основаны на информации, позволяющей различать авторов, включая (но не ограничиваясь ею) информацию об авторах, такую ​​как: представление их имени, филиалы и адреса электронной почты, а также информацию о публикации: например, год публикации, соавторство. -авторы и тема статьи. Эту информацию можно использовать для обучения классификатора машинного обучения решать, относятся ли два упоминания автора к одному и тому же автору или нет. [ 6 ] Во многих исследованиях устранение неоднозначности имен рассматривается как проблема кластеризации , т. е. разделения документов на кластеры, каждый из которых представляет автора. [ 2 ] [ 7 ] [ 8 ] Другие исследования рассматривают это как проблему классификации. [ 9 ] В некоторых работах строится граф документа и используется топология графа для изучения сходства документов. [ 8 ] [ 10 ] В последнее время несколько исследований [ 10 ] [ 11 ] стремитесь изучить низкоразмерные представления документов, используя методы сетевого встраивания. [ 12 ] [ 13 ]

Приложения

[ редактировать ]
Некоторые способы указания авторства одного и того же человека

Существует множество причин, по которым имена авторов могут быть неоднозначными, среди которых: отдельные лица могут публиковаться под несколькими именами по разным причинам, включая различную транслитерацию, орфографические ошибки, изменение имени из-за брака или использование псевдонимов, отчества и инициалов. [ 14 ]

Мотивы устранения неоднозначности между людьми включают идентификацию изобретателей по патентам и исследователей из разных издателей, исследовательских учреждений и периодов времени. [ 15 ] Устранение неоднозначности имен также является краеугольным камнем в ориентированных на автора академических поисковых и интеллектуальных системах, таких как AMiner (ранее ArnetMiner). [ 16 ]

Похожие проблемы

[ редактировать ]

Устранение неоднозначности имени автора — это лишь одна проблема связи записей в области научных данных. Тесно связанные и потенциально взаимовыгодные проблемы включают в себя: устранение неоднозначности организации (принадлежности), [ 17 ] а также устранение неоднозначности места проведения конференции или публикации, поскольку издатели данных часто используют разные имена или псевдонимы для этих объектов.

Ниже перечислены несколько известных критериев для оценки неоднозначности имени автора, каждый из которых предоставляет публикациям некоторые неоднозначные имена и их основные истины.

Исходные коды

  1. ^ Де Бонис, Мишель; Манги, Паоло; Фальчи, Фабрицио (2023). «Графовые методы устранения неоднозначности имени автора: опрос» . PeerJ Информатика . 9 : е1536. doi : 10.7717/peerj-cs.1536 . ПМЦ   10557506 . ПМИД   37810360 .
  2. ^ Перейти обратно: а б Хабса, Мадиан; Триратпитук, Пуктада; Джайлз, К. Ли (2015). Материалы 15-й конференции ACM/IEEE-CE по совместной конференции по цифровым библиотекам - JCDL '15 . стр. 37–46. дои : 10.1145/2756406.2756915 . ISBN  9781450335942 . S2CID   14068285 .
  3. ^ Манн, Гидеон С.; Яровский, Дэвид (2003). «Неконтролируемое устранение неоднозначности личного имени». Материалы седьмой конференции по изучению естественного языка в HLT-NAACL 2003 г. - . Том. 4. С. 33–40. дои : 10.3115/1119176.1119181 . S2CID   29759924 .
  4. ^ Хан, Хуэй; Джайлз, Ли; Чжа, Хунъюань; Ли, Ченг; Циуциуликлис, Костас (2004). «Два подхода к обучению с учителем для устранения неоднозначности имен в цитатах авторов». Материалы совместной конференции ACM/IEEE по цифровым библиотекам 2004 г. - JCDL '04 . п. 296. дои : 10.1145/996350.996419 . ISBN  1581138326 . S2CID   1089260 .
  5. ^ Хуан, Цзянь; Эртекин, Сейда; Джайлз, К. Ли (2006). Обнаружение знаний в базах данных: PKDD 2006 . Конспекты лекций по информатике. Том. 4213. стр. 536–544. дои : 10.1007/11871637_53 . ISBN  978-3-540-45374-1 . ISSN   0302-9743 . S2CID   14132755 .
  6. ^ Триратпитук, Пуктада; Джайлз, К. Ли (2009). Устранение неоднозначности авторов в научных публикациях с использованием случайных лесов (PDF) . Материалы 9-й совместной конференции ACM/IEEE-CS по цифровым библиотекам. АКМ . стр. 39–48. CiteSeerX   10.1.1.147.3500 . дои : 10.1145/1555400.1555408 .
  7. ^ Цзе Тан; АСМ Фонг; Бо Ван; Цзин Чжан (2012). «Единая вероятностная система устранения неоднозначности имен в цифровой библиотеке». Транзакции IEEE по знаниям и инженерии данных . 24 (6). ИИЭР: 975–987. дои : 10.1109/TKDE.2011.13 . S2CID   1032074 .
  8. ^ Перейти обратно: а б Сюэчжи Ван; Цзе Тан; Хун Ченг; Филип С. Ю (2011). АДАНА: Активное устранение неоднозначности имени . Материалы Международной конференции IEEE по интеллектуальному анализу данных 2011 года . Ванкувер: IEEE. стр. 794–803. дои : 10.1109/ICDM.2011.19 . ISBN  978-1-4577-2075-8 .
  9. ^ Зейд Бухерс; Нагарадж Бахубали Асунди (2022). «Whois? Глубокое устранение неоднозначности имени автора с использованием библиографических данных». Связь теории и практики электронных библиотек . Конспекты лекций по информатике. Том. 13541. Падуя: Спрингер. стр. 201–215. arXiv : 2207.04772 . дои : 10.1007/978-3-031-16802-4_16 . ISBN  978-3-031-16801-7 .
  10. ^ Перейти обратно: а б с Ютао Чжан; Фаньцзинь Чжан; Пейран Яо; Цзе Тан (2018). Устранение неоднозначности имен в AMiner: кластеризация, обслуживание и участие человека в цикле . Материалы 24-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Лондон: ACM. стр. 1002–1011.
  11. ^ Байчуань Чжан; Мохаммад Аль Хасан (2017). Устранение неоднозначности имен в анонимизированных графах с использованием сетевого встраивания . Материалы конференции ACM по управлению информацией и знаниями 2017 года . Сингапур: ACM. стр. 1239–1248.
  12. ^ Брайан Пероцци; Рами ар-Рфу; Стивен Скиена (2014). Deepwalk: онлайн-обучение социальным представлениям . Материалы 20-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. стр. 701–710.
  13. ^ Цзечжун Цю; Юсяо Донг; Хао Ма; Цзянь Ли; Куансан Ван; Цзе Тан (2018). Встраивание сети как матричная факторизация: объединение DeepWalk, LINE, PTE и node2vec . Материалы одиннадцатой Международной конференции ACM по веб-поиску и интеллектуальному анализу данных . Марина Дель Рей: ACM. стр. 459–467.
  14. ^ Смальхейзер, Нил Р.; Торвик, Ветле И. (2009). «Устранение неоднозначности имени автора». Ежегодный обзор информационных наук и технологий . 43 : 1–43. дои : 10.1002/aris.2009.1440430113 .
  15. ^ Моррисон, Грег; Риккабони, Массимо; Паммолли, Фабио (16 мая 2017 г.). «Устранение неоднозначности изобретателей и правопреемников патентов с использованием данных геолокации высокого разрешения» . Научные данные . 4 : 170064. Бибкод : 2017NatSD...470064M . дои : 10.1038/sdata.2017.64 . ПМЦ   5433392 . ПМИД   28509897 .
  16. ^ Цзе Тан; Цзин Чжан; Лиминь Яо; Хуанзи Ли; Ли Чжан; Чжун Су (2008). ArnetMiner: добыча и майнинг академических социальных сетей . Материалы 14-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: ACM. стр. 990–998.
  17. ^ Чжан, Цзыци; Нуццолезе, Андреа; Джентиле, Анна Лиза (2017). Дедупликация сущностей в ScholarlyData . Материалы конференции расширенной семантической сети. Спрингер-Верлаг . стр. 85–100. дои : 10.1007/978-3-319-58068-5_6 .
  18. ^ Субраманиан, Шивашанкар; Король, Дэниел; Дауни, Дуг; Фельдман, Сергей (21 марта 2021 г.). «S2AND: система эталона и оценки для устранения неоднозначности имени автора». arXiv : 2103.07534 [ cs.DL ].
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: cbd5e67f32e14c5dbb1ab007b9bd4b25__1719041760
URL1:https://arc.ask3.ru/arc/aa/cb/25/cbd5e67f32e14c5dbb1ab007b9bd4b25.html
Заголовок, (Title) документа по адресу, URL1:
Author name disambiguation - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)