Анализ близости социтирования

Анализ близости совместного цитирования ( CPA ) — это мера сходства документов , которая использует анализ цитирования для оценки семантического сходства между документами как на глобальном уровне документа, так и на уровне отдельных разделов. ^[1]^[2] Мера сходства основана на подходе анализа совместного цитирования , но отличается тем, что использует информацию, подразумеваемую при размещении цитат в полных текстах документов.

Анализ близости социтирования был задуман Б. Гиппом в 2006 году. ^[3] а описание меры сходства документов было позже опубликовано Гиппом и Билом в 2009 году. ^[1] Мера сходства основана на предположении, что в полном тексте документа документы, цитируемые в непосредственной близости друг от друга, имеют тенденцию быть более тесно связанными, чем документы, цитируемые дальше друг от друга. Рисунок справа иллюстрирует эту концепцию. Подход CPA к сходству документов предполагает, что документы B и C более тесно связаны, чем документы B и A, поскольку ссылки на B и C встречаются в одном предложении, тогда как ссылки на B и A разделены несколькими абзацами.

Преимущество подхода CPA по сравнению с другими подходами анализа цитирования и совместного цитирования заключается в повышении точности. Другие широко используемые подходы к анализу цитирования, такие как библиографическая связь , совместное цитирование или мера Амслера , не принимают во внимание расположение или близость цитат в документах. Подход CPA обеспечивает более детальную автоматическую классификацию документов, а также может использоваться для идентификации не только связанных документов, но и конкретных разделов текстов, которые наиболее связаны между собой.

Метод расчета

Мера сходства CPA рассчитывает индекс близости цитирования ( CPI ) для каждого набора документов, на которые цитируется исследуемый документ. ^[1] Цитируемым документам присваивается вес ${\frac {1}{2^{n}}}$ , где n — количество уровней между цитированиями. Начиная с самого низкого уровня, уровни могут быть определены как группы цитирования, предложения, параграфы, главы и, наконец, весь документ или даже журнал.

Существует несколько вариантов алгоритма CPA.

Basic-CPA – фундаментальная концепция CPA, описанная выше.
Extended-CPA – учитывает древовидную структуру и порядок цитирования внутри групп цитирования.
Многомерный CPA – использует дополнительную информацию, такую как импакт-фактор.
Гибридный CPA – объединяет ИПЦ с другими показателями сходства, например, с показателями на основе текста. Это повышает производительность, особенно для документов с недостаточной информацией о цитировании.

Производительность

Показатель сходства CPA основан на подходе сходства документов совместного цитирования с особым дополнением анализа близости. Таким образом, подход CPA позволяет более детально рассчитать общее сходство документов. Было обнаружено, что CPA превосходит анализ совместного цитирования, особенно когда документы содержат обширную библиографию и в случаях, когда документы не часто цитируются вместе (т. е. имеют низкий балл совместного цитирования). ^[1]^[4] Лю и Чен обнаружили, что совместное цитирование на уровне предложения потенциально является более эффективным маркером для использования в анализе совместного цитирования по сравнению со слабосвязанным социтированием только на уровне статьи, поскольку совместное цитирование на уровне предложения имеет тенденцию сохранять основную структуру. традиционной сети совместного цитирования, а также образуют гораздо меньшую подгруппу всех случаев совместного цитирования. ^[5]

Анализ Шварцера и др. ^[4] показали, что показатели CPA на основе цитирования и анализ совместного цитирования имеют дополнительные преимущества по сравнению с показателями сходства на основе текста. Подходы, основанные на сходстве текста, надежно идентифицировали более узко похожие статьи из тестовой коллекции статей Википедии, например, статьи, использующие идентичные термины, в то время как подход CPA превзошел CoCit при выявлении статей с более широкой тематикой, а также более популярных статей, что, по утверждению авторов, вероятно, также будет более высокого качества. ^[4]

См. также

CITREC , система оценки мер сходства на основе цитирования, таких как библиографическая связь , совместное цитирование , анализ близости совместного цитирования и другие. ^[6]

Ссылки

^ Jump up to: ^а ^б ^с ^д Бела Гипп и Джоран Бил, 2009 г. «Анализ близости цитирования (CPA) - новый подход к выявлению связанных работ на основе анализа совместного цитирования», в книге Биргера Ларсена и Жаклин Лета, редакторов, Труды 12-й Международной конференции по наукометрике и информаметрике (ISSI). '09), том 2, страницы 571–575, Рио-де-Жанейро (Бразилия), июль 2009 г.
^ Бела Гипп и Джоран Бил. «Метод и система обнаружения сходства документов». Заявка на патент, 27 октября 2011 г. 2011/0264672 A1 .
^ Бела Гипп, 2006. «Докторское предложение: анализ близости (совместного) цитирования - мера для выявления связанных работ»
^ Jump up to: ^а ^б ^с М. Шварцер, М. Шуботц, Н. Мейшке, К. Брайтингер, В. Маркл и Б. Гипп, «Оценка рекомендаций на основе ссылок для Википедии» в материалах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам ( JCDL), Нью-Йорк, Нью-Йорк, США, 2016, стр. 191–200.
^ Шэнбо Лю и Чаомей Чен, 2001 г. «Влияние близости совместного цитирования на анализ совместного цитирования» , 13-я конференция Международного общества наукометрии и информаметрики (ISSI), 4–7 июля 2011 г., Дурбан, Южная Африка.
^ Бела Гипп, Норман Меушке и Марио Липински, 2015. «CITREC: Система оценки мер сходства на основе цитирования на основе TREC Genomics и PubMed Central» в Proceedings of the iConference 2015, Ньюпорт-Бич, Калифорния, 2015.

Дальнейшее чтение

Бела Гипп и Джоран Бил. Определение сопутствующих документов для рекомендации исследовательской работы по CPA и сертификату подлинности. В С. И. Ао, К. Дугласе, В. С. Грундфесте и Дж. Бургстоне, редакторах, Труды Всемирного конгресса по инженерным наукам и информатике, 2009 г., том 1 конспектов лекций по инженерным наукам и информатике, страницы 636–639, Беркли (США). , октябрь 2009 г. Международная ассоциация инженеров (IAENG), Newswood Limited. Доступно здесь

Бела Гипп. Измерение родственности документов с помощью анализа близости цитирования и анализа порядка цитирования. М. Лалмас, Дж. Хосе, А. Раубер, Ф. Себастиани и И. Фроммхольц, редакторы, Труды 14-й Европейской конференции по цифровым библиотекам (ecdl'10): исследования и передовые технологии для цифровых библиотек, том 6273 Конспекты лекций по информатике (LNCS). Springer, сентябрь 2010 г. Доступно здесь.

[Gipp-1] Jump up to: ^а ^б ^с ^д Бела Гипп и Джоран Бил, 2009 г. «Анализ близости цитирования (CPA) - новый подход к выявлению связанных работ на основе анализа совместного цитирования», в книге Биргера Ларсена и Жаклин Лета, редакторов, Труды 12-й Международной конференции по наукометрике и информаметрике (ISSI). '09), том 2, страницы 571–575, Рио-де-Жанейро (Бразилия), июль 2009 г.

[2] Бела Гипп и Джоран Бил. «Метод и система обнаружения сходства документов». Заявка на патент, 27 октября 2011 г. 2011/0264672 A1 .

[3] Бела Гипп, 2006. «Докторское предложение: анализ близости (совместного) цитирования - мера для выявления связанных работ»

[Schwarzer16-4] Jump up to: ^а ^б ^с М. Шварцер, М. Шуботц, Н. Мейшке, К. Брайтингер, В. Маркл и Б. Гипп, «Оценка рекомендаций на основе ссылок для Википедии» в материалах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам ( JCDL), Нью-Йорк, Нью-Йорк, США, 2016, стр. 191–200.

[5] Шэнбо Лю и Чаомей Чен, 2001 г. «Влияние близости совместного цитирования на анализ совместного цитирования» , 13-я конференция Международного общества наукометрии и информаметрики (ISSI), 4–7 июля 2011 г., Дурбан, Южная Африка.

[Gipp15-6] Бела Гипп, Норман Меушке и Марио Липински, 2015. «CITREC: Система оценки мер сходства на основе цитирования на основе TREC Genomics и PubMed Central» в Proceedings of the iConference 2015, Ньюпорт-Бич, Калифорния, 2015.

[1]

[2]

[3]

[4]

[5]

[6]