CiteSeer Х
Эта статья нуждается в дополнительных цитатах для проверки . ( январь 2015 г. ) |
Тип сайта | Библиографическая база данных |
---|---|
Доступно в | испанский |
Владелец | Пенсильванского государственного университета Колледж информационных наук и технологий |
Доход | Активный |
URL-адрес | citeseerx |
Регистрация | Необязательный |
Запущен | 2008 год | / 1997
Текущий статус | Активный |
Лицензия на контент | Лицензия Creative Commons BY-NC-SA [1] |
CiteSeer Х (ранее называвшаяся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, в первую очередь в области компьютерных и информационных наук .
Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая услуга, которой может свободно пользоваться каждый, она считается частью движения за открытый доступ , которое пытается изменить академические и научные публикации , чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет Open Archives Initiative метаданные для всех проиндексированных документов и, когда это возможно, связывает проиндексированные документы с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer Х делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]
CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.
CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем вернул его обратно. [3]
История [ править ]
CiteSeer и CiteSeer.IST [ править ]
CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.
CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:
- Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
- Статистика цитирования и сопутствующие документы рассчитывались для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
- Связывание ссылок, позволяющее просматривать базу данных с помощью ссылок на цитирование.
- Контекст цитирования показывал контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи говорят об интересующей статье.
- Связанные документы были показаны с использованием показателей цитирования и слов, а для каждого документа показана активная и постоянно обновляемая библиография.
США 11 сентября 2001 года CiteSeer получил патент № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г. [ нужна ссылка ]
После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.
CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в публичном доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer – CiteSeer. Х .
CiteSeer Х [ редактировать ]
CiteSeer Х заменен CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer Х [4] — это публичная поисковая система , цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . [4] Однако недавно CiteSeer Х расширяется в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлсом из Колледжа информационных наук и технологий университета Пенсильванского государственного . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлс, Прасенджит Митра, Сьюзан Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуйи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. [5] Проект финансируется Национальным научным фондом , НАСА и Microsoft Research .
CiteSeer Х продолжает считаться одним из лучших репозиториев в мире и в июле 2010 года занял первое место. [6] В настоящее время он насчитывает более 6 миллионов документов почти 6 миллионов уникальных авторов и 120 миллионов цитирований. [ временные рамки? ]
CiteSeer Х также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge , но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечение информации.
CiteSeer Х кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. [8]
Текущие возможности [ править ]
Автоматизированное извлечение информации [ править ]
CiteSeer Х использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.
Целенаправленное сканирование [ править ]
CiteSeer Х сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, цитирование учитывается в CiteSeer. Х обычно меньше, чем у тех, кто имеет доступ к метаданным издателей в Google Scholar и Microsoft Academic Search.
Использование [ править ]
CiteSeer Х имеет почти миллион пользователей по всему миру с уникальными IP-адресами и миллионы посещений ежедневно. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.
Данные [ править ]
CiteSeer Х данные регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и конкурсах.
Благодаря конечной точке OAI-PMH , [9] CiteSeerX — это открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .
базе SeerSuite на поисковые системы Другие
Модель CiteSeer была расширена и теперь охватывает академические документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch . Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST , но она больше не используется.
Другие подобные Seer системы поиска и хранения были созданы для химии — Chem X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene .
См. также [ править ]
- Арнеттмайнер
- arXiv
- Коллекция библиографии по информатике
- DBLP (Проект цифровой библиографии и библиотеки)
- Дисциплинарный репозиторий
- Google Академика
- Список академических баз данных и поисковых систем
- Microsoft Академический
- Исследовательские работы по экономике (RePEc)
- Семантический ученый
Ссылки [ править ]
- ^ Перейти обратно: а б «Политика данных CiteSeerX» . Архивировано из оригинала 05 января 2012 г. Проверено 10 ноября 2015 г.
- ^ Кодакатери Пудхиявитил, Аджит; Гауч, Сьюзен; Луонг, Хип; Ино, Джош (2009). «Концептуальная рекомендательная система для CiteSeerX». Материалы третьей конференции ACM по рекомендательным системам . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 241. дои : 10.1145/1639714.1639758 . ISBN 978-1-60558-435-5 . S2CID 13900679 .
- ^ Лоуренс, Стив (2001). «ResearchIndex: внутри крупнейшего в мире бесплатного полнотекстового указателя научной литературы». Материалы международной конференции по сбору знаний - K-CAP 2001 . п. 3. дои : 10.1145/500737.500740 . ISBN 1-58113-380-4 . S2CID 19592721 .
- ^ Перейти обратно: а б «О CiteSeerX» . Архивировано из оригинала 22 июля 2010 г. Проверено 7 мая 2010 г.
- ^ «Команда CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 26 июля 2018 г. Проверено 1 мая 2018 г.
- ^ «Рейтинг мировых хранилищ: 800 лучших хранилищ» . Лаборатория киберметрики. Июль 2010 г. Архивировано из оригинала 24 июля 2010 г. Проверено 24 июля 2010 г.
- ^ «О данных CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 05 января 2012 г. Проверено 25 января 2012 г.
- ^ Например, «CiteSeerx – Уведомление DMCA» . CiteSeerX 10.1.1.604.4916 . Архивировано из оригинала 18 марта 2022 г.
Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления об удалении DMCA. Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.
- ^ Херст, Тони (8 декабря 2011 г.). «Использование OAI-PMH в качестве интерфейса запроса на уровне одной записи для Citeseer» . Архивировано из оригинала 24 ноября 2020 г. Проверено 25 апреля 2020 г.
Дальнейшее чтение [ править ]
- Джайлз, К. Ли; Боллакер, Курт Д.; Лоуренс, Стив (1998). «CiteSeer: автоматическая система индексирования цитирования». Материалы третьей конференции ACM по электронным библиотекам . стр. 89–98. CiteSeerX 10.1.1.30.6847 . дои : 10.1145/276675.276685 . ISBN 978-0-89791-965-4 . S2CID 514080 .