CiteSeer Х

(Перенаправлено с CiteSeerX (идентификатор) )
CiteSeer Х
Тип сайта
Библиографическая база данных
Доступно в испанский
Владелец Пенсильванского государственного университета Колледж информационных наук и технологий
Доход Активный
URL-адрес citeseerx .является .psu .edu Отредактируйте это в Викиданных
Регистрация Необязательный
Запущен 2008 год ; 16 лет назад ( 2008 ) / 1997 ; 27 лет назад ( 1997 )
Текущий статус Активный
Лицензия на контент
Лицензия Creative Commons BY-NC-SA [1]

CiteSeer Х (ранее называвшаяся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, в первую очередь в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая услуга, которой может свободно пользоваться каждый, она считается частью движения за открытый доступ , которое пытается изменить академические и научные публикации , чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет Open Archives Initiative метаданные для всех проиндексированных документов и, когда это возможно, связывает проиндексированные документы с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer Х делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]

CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем вернул его обратно. [3]

История [ править ]

CiteSeer и CiteSeer.IST [ править ]

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:

  • Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и сопутствующие документы рассчитывались для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
  • Связывание ссылок, позволяющее просматривать базу данных с помощью ссылок на цитирование.
  • Контекст цитирования показывал контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи говорят об интересующей статье.
  • Связанные документы были показаны с использованием показателей цитирования и слов, а для каждого документа показана активная и постоянно обновляемая библиография.

США 11 сентября 2001 года CiteSeer получил патент № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г. [ нужна ссылка ]

После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в публичном доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer – CiteSeer. Х .

CiteSeer Х [ редактировать ]

CiteSeer Х заменен CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer Х [4] — это публичная поисковая система , цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . [4] Однако недавно CiteSeer Х расширяется в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлсом из Колледжа информационных наук и технологий университета Пенсильванского государственного . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. [5] Проект финансируется Национальным научным фондом , НАСА и Microsoft Research .

CiteSeer Х продолжает считаться одним из лучших репозиториев в мире и в июле 2010 года занял первое место. [6] В настоящее время он насчитывает более 6 миллионов документов почти 6 миллионов уникальных авторов и 120 миллионов цитирований. [ временные рамки? ]

CiteSeer Х также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge , но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечение информации.

CiteSeer Х кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. [8]

Текущие возможности [ править ]

Автоматизированное извлечение информации [ править ]

CiteSeer Х использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Целенаправленное сканирование [ править ]

CiteSeer Х сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, цитирование учитывается в CiteSeer. Х обычно меньше, чем у тех, кто имеет доступ к метаданным издателей в Google Scholar и Microsoft Academic Search.

Использование [ править ]

CiteSeer Х имеет почти миллион пользователей по всему миру с уникальными IP-адресами и миллионы посещений ежедневно. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.

Данные [ править ]

CiteSeer Х данные регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и ​​конкурсах.

Благодаря конечной точке OAI-PMH , [9] CiteSeerX — это открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .

базе SeerSuite на поисковые системы Другие

Модель CiteSeer была расширена и теперь охватывает академические документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch . Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST , но она больше не используется.

Другие подобные Seer системы поиска и хранения были созданы для химии — Chem X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene .

См. также [ править ]

Ссылки [ править ]

  1. ^ Перейти обратно: а б «Политика данных CiteSeerX» . Архивировано из оригинала 05 января 2012 г. Проверено 10 ноября 2015 г.
  2. ^ Кодакатери Пудхиявитил, Аджит; Гауч, Сьюзен; Луонг, Хип; Ино, Джош (2009). «Концептуальная рекомендательная система для CiteSeerX». Материалы третьей конференции ACM по рекомендательным системам . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 241. дои : 10.1145/1639714.1639758 . ISBN  978-1-60558-435-5 . S2CID   13900679 .
  3. ^ Лоуренс, Стив (2001). «ResearchIndex: внутри крупнейшего в мире бесплатного полнотекстового указателя научной литературы». Материалы международной конференции по сбору знаний - K-CAP 2001 . п. 3. дои : 10.1145/500737.500740 . ISBN  1-58113-380-4 . S2CID   19592721 .
  4. ^ Перейти обратно: а б «О CiteSeerX» . Архивировано из оригинала 22 июля 2010 г. Проверено 7 мая 2010 г.
  5. ^ «Команда CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 26 июля 2018 г. Проверено 1 мая 2018 г.
  6. ^ «Рейтинг мировых хранилищ: 800 лучших хранилищ» . Лаборатория киберметрики. Июль 2010 г. Архивировано из оригинала 24 июля 2010 г. Проверено 24 июля 2010 г.
  7. ^ «О данных CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 05 января 2012 г. Проверено 25 января 2012 г.
  8. ^ Например, «CiteSeerx – Уведомление DMCA» . CiteSeerX   10.1.1.604.4916 . Архивировано из оригинала 18 марта 2022 г. Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления об удалении DMCA. Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.
  9. ^ Херст, Тони (8 декабря 2011 г.). «Использование OAI-PMH в качестве интерфейса запроса на уровне одной записи для Citeseer» . Архивировано из оригинала 24 ноября 2020 г. Проверено 25 апреля 2020 г.

Дальнейшее чтение [ править ]

Внешние ссылки [ править ]