Анализ близости социтирования
Часть серии о |
Метрики цитирования |
---|
![]() |

Анализ близости совместного цитирования ( CPA ) — это мера сходства документов , которая использует анализ цитирования для оценки семантического сходства между документами как на глобальном уровне документа, так и на уровне отдельных разделов. [1] [2] Мера сходства основана на подходе анализа совместного цитирования , но отличается тем, что использует информацию, подразумеваемую при размещении цитат в полных текстах документов.
Анализ близости социтирования был задуман Б. Гиппом в 2006 году. [3] а описание меры сходства документов было позже опубликовано Гиппом и Билом в 2009 году. [1] Мера сходства основана на предположении, что в полном тексте документа документы, цитируемые в непосредственной близости друг от друга, имеют тенденцию быть более тесно связанными, чем документы, цитируемые дальше друг от друга. Рисунок справа иллюстрирует эту концепцию. Подход CPA к сходству документов предполагает, что документы B и C более тесно связаны, чем документы B и A, поскольку ссылки на B и C встречаются в одном предложении, тогда как ссылки на B и A разделены несколькими абзацами.
Преимущество подхода CPA по сравнению с другими подходами анализа цитирования и совместного цитирования заключается в повышении точности. Другие широко используемые подходы к анализу цитирования, такие как библиографическая связь , совместное цитирование или мера Амслера , не принимают во внимание расположение или близость цитат в документах. Подход CPA обеспечивает более детальную автоматическую классификацию документов, а также может использоваться для идентификации не только связанных документов, но и конкретных разделов текстов, которые наиболее связаны между собой.
Метод расчета
[ редактировать ]Мера сходства CPA рассчитывает индекс близости цитирования ( CPI ) для каждого набора документов, на которые цитируется исследуемый документ. [1] Цитируемым документам присваивается вес , где n — количество уровней между цитированиями. Начиная с самого низкого уровня, уровни могут быть определены как группы цитирования, предложения, параграфы, главы и, наконец, весь документ или даже журнал.
Существует несколько вариантов алгоритма CPA.
- Basic-CPA – фундаментальная концепция CPA, описанная выше.
- Extended-CPA – учитывает древовидную структуру и порядок цитирования внутри групп цитирования.
- Многомерный CPA – использует дополнительную информацию, такую как импакт-фактор.
- Гибридный CPA – объединяет ИПЦ с другими показателями сходства, например, с показателями на основе текста. Это повышает производительность, особенно для документов с недостаточной информацией о цитировании.
Производительность
[ редактировать ]Показатель сходства CPA основан на подходе сходства документов совместного цитирования с особым дополнением анализа близости. Таким образом, подход CPA позволяет более детально рассчитать общее сходство документов. Было обнаружено, что CPA превосходит анализ совместного цитирования, особенно когда документы содержат обширную библиографию и в случаях, когда документы не часто цитируются вместе (т. е. имеют низкий балл совместного цитирования). [1] [4] Лю и Чен обнаружили, что совместное цитирование на уровне предложения потенциально является более эффективным маркером для использования в анализе совместного цитирования по сравнению со слабосвязанным социтированием только на уровне статьи, поскольку совместное цитирование на уровне предложения имеет тенденцию сохранять основную структуру. традиционной сети совместного цитирования, а также образуют гораздо меньшую подгруппу всех случаев совместного цитирования. [5]
Анализ Шварцера и др. [4] показали, что показатели CPA на основе цитирования и анализ совместного цитирования имеют дополнительные преимущества по сравнению с показателями сходства на основе текста. Подходы, основанные на сходстве текста, надежно идентифицировали более узко похожие статьи из тестовой коллекции статей Википедии, например, статьи, использующие идентичные термины, в то время как подход CPA превзошел CoCit при выявлении статей с более широкой тематикой, а также более популярных статей, что, по утверждению авторов, вероятно, также будет более высокого качества. [4]
См. также
[ редактировать ]- CITREC , система оценки мер сходства на основе цитирования, таких как библиографическая связь , совместное цитирование , анализ близости совместного цитирования и другие. [6]
Ссылки
[ редактировать ]- ^ Jump up to: а б с д Бела Гипп и Джоран Бил, 2009 г. «Анализ близости цитирования (CPA) - новый подход к выявлению связанных работ на основе анализа совместного цитирования», в книге Биргера Ларсена и Жаклин Лета, редакторов, Труды 12-й Международной конференции по наукометрике и информаметрике (ISSI). '09), том 2, страницы 571–575, Рио-де-Жанейро (Бразилия), июль 2009 г.
- ^ Бела Гипп и Джоран Бил. «Метод и система обнаружения сходства документов». Заявка на патент, 27 октября 2011 г. 2011/0264672 A1 .
- ^ Бела Гипп, 2006. «Докторское предложение: анализ близости (совместного) цитирования - мера для выявления связанных работ»
- ^ Jump up to: а б с М. Шварцер, М. Шуботц, Н. Мейшке, К. Брайтингер, В. Маркл и Б. Гипп, «Оценка рекомендаций на основе ссылок для Википедии» в материалах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам ( JCDL), Нью-Йорк, Нью-Йорк, США, 2016, стр. 191–200.
- ^ Шэнбо Лю и Чаомей Чен, 2001 г. «Влияние близости совместного цитирования на анализ совместного цитирования» , 13-я конференция Международного общества наукометрии и информаметрики (ISSI), 4–7 июля 2011 г., Дурбан, Южная Африка.
- ^ Бела Гипп, Норман Меушке и Марио Липински, 2015. «CITREC: Система оценки мер сходства на основе цитирования на основе TREC Genomics и PubMed Central» в Proceedings of the iConference 2015, Ньюпорт-Бич, Калифорния, 2015.
Дальнейшее чтение
[ редактировать ]Бела Гипп и Джоран Бил. Определение сопутствующих документов для рекомендации исследовательской работы по CPA и сертификату подлинности. В С. И. Ао, К. Дугласе, В. С. Грундфесте и Дж. Бургстоне, редакторах, Труды Всемирного конгресса по инженерным наукам и информатике, 2009 г., том 1 конспектов лекций по инженерным наукам и информатике, страницы 636–639, Беркли (США). , октябрь 2009 г. Международная ассоциация инженеров (IAENG), Newswood Limited. Доступно здесь
Бела Гипп. Измерение родственности документов с помощью анализа близости цитирования и анализа порядка цитирования. М. Лалмас, Дж. Хосе, А. Раубер, Ф. Себастиани и И. Фроммхольц, редакторы, Труды 14-й Европейской конференции по цифровым библиотекам (ecdl'10): исследования и передовые технологии для цифровых библиотек, том 6273 Конспекты лекций по информатике (LNCS). Springer, сентябрь 2010 г. Доступно здесь.