Jump to content

Анализ близости социтирования

Документы B и C цитируются ближе друг к другу в полном тексте цитирующего документа по сравнению с документом A. Следовательно, согласно анализу близости совместного цитирования, документы B и C более тесно связаны, чем документы A и Б или А и С.
Рисунок, визуализирующий подход Co-citation Proximity Analysis (CPA) к вычислению сходства документов.

Анализ близости совместного цитирования ( CPA ) — это мера сходства документов , которая использует анализ цитирования для оценки семантического сходства между документами как на глобальном уровне документа, так и на уровне отдельных разделов. [1] [2] Мера сходства основана на подходе анализа совместного цитирования , но отличается тем, что использует информацию, подразумеваемую при размещении цитат в полных текстах документов.

Анализ близости социтирования был задуман Б. Гиппом в 2006 году. [3] а описание меры сходства документов было позже опубликовано Гиппом и Билом в 2009 году. [1] Мера сходства основана на предположении, что в полном тексте документа документы, цитируемые в непосредственной близости друг от друга, имеют тенденцию быть более тесно связанными, чем документы, цитируемые дальше друг от друга. Рисунок справа иллюстрирует эту концепцию. Подход CPA к сходству документов предполагает, что документы B и C более тесно связаны, чем документы B и A, поскольку ссылки на B и C встречаются в одном предложении, тогда как ссылки на B и A разделены несколькими абзацами.

Преимущество подхода CPA по сравнению с другими подходами анализа цитирования и совместного цитирования заключается в повышении точности. Другие широко используемые подходы к анализу цитирования, такие как библиографическая связь , совместное цитирование или мера Амслера , не принимают во внимание расположение или близость цитат в документах. Подход CPA обеспечивает более детальную автоматическую классификацию документов, а также может использоваться для идентификации не только связанных документов, но и конкретных разделов текстов, которые наиболее связаны между собой.

Метод расчета

[ редактировать ]

Мера сходства CPA рассчитывает индекс близости цитирования ( CPI ) для каждого набора документов, на которые цитируется исследуемый документ. [1] Цитируемым документам присваивается вес , где n — количество уровней между цитированиями. Начиная с самого низкого уровня, уровни могут быть определены как группы цитирования, предложения, параграфы, главы и, наконец, весь документ или даже журнал.

Существует несколько вариантов алгоритма CPA.

  • Basic-CPA – фундаментальная концепция CPA, описанная выше.
  • Extended-CPA – учитывает древовидную структуру и порядок цитирования внутри групп цитирования.
  • Многомерный CPA – использует дополнительную информацию, такую ​​как импакт-фактор.
  • Гибридный CPA – объединяет ИПЦ с другими показателями сходства, например, с показателями на основе текста. Это повышает производительность, особенно для документов с недостаточной информацией о цитировании.

Производительность

[ редактировать ]

Показатель сходства CPA основан на подходе сходства документов совместного цитирования с особым дополнением анализа близости. Таким образом, подход CPA позволяет более детально рассчитать общее сходство документов. Было обнаружено, что CPA превосходит анализ совместного цитирования, особенно когда документы содержат обширную библиографию и в случаях, когда документы не часто цитируются вместе (т. е. имеют низкий балл совместного цитирования). [1] [4] Лю и Чен обнаружили, что совместное цитирование на уровне предложения потенциально является более эффективным маркером для использования в анализе совместного цитирования по сравнению со слабосвязанным социтированием только на уровне статьи, поскольку совместное цитирование на уровне предложения имеет тенденцию сохранять основную структуру. традиционной сети совместного цитирования, а также образуют гораздо меньшую подгруппу всех случаев совместного цитирования. [5]

Анализ Шварцера и др. [4] показали, что показатели CPA на основе цитирования и анализ совместного цитирования имеют дополнительные преимущества по сравнению с показателями сходства на основе текста. Подходы, основанные на сходстве текста, надежно идентифицировали более узко похожие статьи из тестовой коллекции статей Википедии, например, статьи, использующие идентичные термины, в то время как подход CPA превзошел CoCit при выявлении статей с более широкой тематикой, а также более популярных статей, что, по утверждению авторов, вероятно, также будет более высокого качества. [4]

См. также

[ редактировать ]
  1. ^ Jump up to: а б с д Бела Гипп и Джоран Бил, 2009 г. «Анализ близости цитирования (CPA) - новый подход к выявлению связанных работ на основе анализа совместного цитирования», в книге Биргера Ларсена и Жаклин Лета, редакторов, Труды 12-й Международной конференции по наукометрике и информаметрике (ISSI). '09), том 2, страницы 571–575, Рио-де-Жанейро (Бразилия), июль 2009 г.
  2. ^ Бела Гипп и Джоран Бил. «Метод и система обнаружения сходства документов». Заявка на патент, 27 октября 2011 г. 2011/0264672 A1 .
  3. ^ Бела Гипп, 2006. «Докторское предложение: анализ близости (совместного) цитирования - мера для выявления связанных работ»
  4. ^ Jump up to: а б с М. Шварцер, М. Шуботц, Н. Мейшке, К. Брайтингер, В. Маркл и Б. Гипп, «Оценка рекомендаций на основе ссылок для Википедии» в материалах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам ( JCDL), Нью-Йорк, Нью-Йорк, США, 2016, стр. 191–200.
  5. ^ Шэнбо Лю и Чаомей Чен, 2001 г. «Влияние близости совместного цитирования на анализ совместного цитирования» , 13-я конференция Международного общества наукометрии и информаметрики (ISSI), 4–7 июля 2011 г., Дурбан, Южная Африка.
  6. ^ Бела Гипп, Норман Меушке и Марио Липински, 2015. «CITREC: Система оценки мер сходства на основе цитирования на основе TREC Genomics и PubMed Central» в Proceedings of the iConference 2015, Ньюпорт-Бич, Калифорния, 2015.

Дальнейшее чтение

[ редактировать ]

Бела Гипп и Джоран Бил. Определение сопутствующих документов для рекомендации исследовательской работы по CPA и сертификату подлинности. В С. И. Ао, К. Дугласе, В. С. Грундфесте и Дж. Бургстоне, редакторах, Труды Всемирного конгресса по инженерным наукам и информатике, 2009 г., том 1 конспектов лекций по инженерным наукам и информатике, страницы 636–639, Беркли (США). , октябрь 2009 г. Международная ассоциация инженеров (IAENG), Newswood Limited. Доступно здесь

Бела Гипп. Измерение родственности документов с помощью анализа близости цитирования и анализа порядка цитирования. М. Лалмас, Дж. Хосе, А. Раубер, Ф. Себастиани и И. Фроммхольц, редакторы, Труды 14-й Европейской конференции по цифровым библиотекам (ecdl'10): исследования и передовые технологии для цифровых библиотек, том 6273 Конспекты лекций по информатике (LNCS). Springer, сентябрь 2010 г. Доступно здесь.

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: c4ff2165e52d291637e8f2b502f3f847__1711462200
URL1:https://arc.ask3.ru/arc/aa/c4/47/c4ff2165e52d291637e8f2b502f3f847.html
Заголовок, (Title) документа по адресу, URL1:
Co-citation Proximity Analysis - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)