Jump to content

CiteSeer Х

(Перенаправлено с ResearchIndex )
CiteSeer Х
Тип сайта
Библиографическая база данных
Доступно в испанский
Владелец Пенсильванского государственного университета Колледж информационных наук и технологий
Доход Активный
URL-адрес citeseerx .является .psu .edu Отредактируйте это в Викиданных
Регистрация Необязательный
Запущен 2008 год ; 16 лет назад ( 2008 ) / 1997 ; 27 лет назад ( 1997 )
Текущий статус Активный
Лицензия на контент
Лицензия Creative Commons BY-NC-SA [1]

CiteSeer Х (ранее называвшаяся CiteSeer ) — общедоступная поисковая система и цифровая библиотека научных и академических работ, в первую очередь в области компьютерных и информационных наук .

Цель CiteSeer — улучшить распространение и доступ к академической и научной литературе. Как некоммерческая услуга, которой может свободно пользоваться каждый, она считается частью движения за открытый доступ , которое пытается изменить академические и научные публикации , чтобы обеспечить более широкий доступ к научной литературе. CiteSeer бесплатно предоставляет Open Archives Initiative метаданные для всех проиндексированных документов и, когда это возможно, связывает проиндексированные документы с другими источниками метаданных, такими как DBLP и портал ACM . Для продвижения открытых данных CiteSeer Х делится своими данными в некоммерческих целях по лицензии Creative Commons . [1]

CiteSeer считается предшественником таких инструментов академического поиска, как Google Scholar и Microsoft Academic Search . [2] Механизмы и архивы, подобные CiteSeer, обычно собирают документы только с общедоступных веб-сайтов и не сканируют веб-сайты издателей. По этой причине авторы, чьи документы находятся в свободном доступе, с большей вероятностью будут представлены в индексе.

CiteSeer в какой-то момент изменил свое название на ResearchIndex, а затем вернул его обратно. [3]

CiteSeer и CiteSeer.IST

[ редактировать ]

CiteSeer был создан исследователями Ли Джайлсом , Куртом Боллакером и Стивом Лоуренсом в 1997 году, когда они работали в Исследовательском институте NEC (ныне NEC Labs ), Принстон, Нью-Джерси , США. Целью CiteSeer было активное сканирование и сбор академических и научных документов в сети, а также использование автономного индексирования цитирования , позволяющего выполнять запросы по цитированию или по документам, ранжируя их по влиянию цитирования . Когда-то он назывался ResearchIndex.

CiteSeer стал общедоступным в 1998 году и имел множество новых функций, недоступных в то время в академических поисковых системах. В их число вошли:

  • Автономное индексирование цитирования автоматически создает индекс цитирования, который можно использовать для поиска и оценки литературы.
  • Статистика цитирования и сопутствующих документов рассчитывалась для всех статей, цитируемых в базе данных, а не только для проиндексированных статей.
  • Связывание ссылок, позволяющее просматривать базу данных с помощью ссылок на цитирование.
  • Контекст цитирования показывал контекст цитирования данной статьи, позволяя исследователю быстро и легко увидеть, что другие исследователи говорят об интересующей статье.
  • Связанные документы были показаны с использованием показателей цитирования и слов, а для каждого документа показана активная и постоянно обновляемая библиография.

США 11 сентября 2001 года CiteSeer получил патент № 6289342 под названием « Автономное индексирование цитирования и просмотр литературы с использованием контекста цитирования ». Патент был подан 20 мая 1998 года и имеет приоритет от 5 января 1998 года. Продолжение патент (патент США № 6738780) был подан 16 мая 2001 г. и выдан 18 мая 2004 г. [ нужна ссылка ]

После NEC в 2004 году он размещался как CiteSeer.IST во Всемирной паутине в Колледже информационных наук и технологий Университета штата Пенсильвания и содержал более 700 000 документов. Для улучшения доступа, производительности и исследований аналогичные версии CiteSeer поддерживались в таких университетах, как Массачусетский технологический институт , Цюрихский университет и Национальный университет Сингапура . Однако эти версии CiteSeer оказалось трудными в обслуживании, и они больше не доступны. Поскольку CiteSeer индексирует только свободно доступные статьи в Интернете и не имеет доступа к метаданным издателей, он возвращает меньшее количество цитирований, чем такие сайты, как Google Scholar , которые имеют метаданные издателей.

CiteSeer не обновлялся полностью с 2005 года из-за ограничений в его архитектуре. Он имел репрезентативную выборку исследовательских документов в области компьютерных и информационных наук, но его охват был ограничен, поскольку он ограничивался статьями, которые находятся в публичном доступе, обычно на домашней странице автора, или статьями, представленными автором. Чтобы преодолеть некоторые из этих ограничений, была разработана модульная архитектура с открытым исходным кодом для CiteSeer – CiteSeer. Х .

CiteSeer Х заменен CiteSeer, и все запросы к CiteSeer были перенаправлены. CiteSeer Х [4] — это публичная поисковая система , цифровая библиотека и хранилище научных и академических статей, в первую очередь посвященных компьютерным и информационным наукам . [4] Однако недавно CiteSeer Х расширяется в другие научные области, такие как экономика, физика и другие. Выпущенный в 2008 году, он был основан на предыдущей поисковой системе и цифровой библиотеке CiteSeer и построен на новой инфраструктуре с открытым исходным кодом SeerSuite, а также новых алгоритмах и их реализациях. Он был разработан исследователями Исааком Каунсиллом и К. Ли Джайлсом из Колледжа информационных наук и технологий университета Пенсильванского государственного . Он продолжает поддерживать цели, поставленные CiteSeer, по активному сканированию и сбору академических и научных документов в общедоступной сети, а также использованию запроса цитирования по цитированию и ранжированию документов по влиянию цитирований. В настоящее время Ли Джайлз, Прасенджит Митра, Сьюзен Гауч, Мин-Йен Кан, Прадип Терегоуда, Хуан Пабло Фернандес Рамирес, Пуктада Триратпитук, Цзян Ву, Дуглас Джордан, Стив Карман, Джек Кэрролл, Джим Янсен и Шуи Чжэн активно участвуют или вели активную деятельность. участвует в его разработке. Недавно была введена функция поиска по таблицам. [5] Проект финансируется Национальным научным фондом , НАСА и Microsoft Research .

CiteSeer Х продолжает считаться одним из лучших репозиториев в мире и в июле 2010 года занял первое место. [6] В настоящее время он насчитывает более 6 миллионов документов почти 6 миллионов уникальных авторов и 120 миллионов цитирований. [ временные рамки? ]

CiteSeer Х также делится своим программным обеспечением, данными, базами данных и метаданными с другими исследователями, в настоящее время через Amazon S3 и rsync . [7] Его новая модульная архитектура и программное обеспечение с открытым исходным кодом (ранее доступные на SourceForge , но теперь на GitHub ) построены на Apache Solr и других Apache и инструментах с открытым исходным кодом, что позволяет ему быть испытательным стендом для новых алгоритмов сбора документов, ранжирования, индексирования и извлечение информации.

CiteSeer Х кэширует некоторые отсканированные PDF-файлы. Таким образом, каждая страница содержит ссылку DMCA , которую можно использовать для сообщения о нарушениях авторских прав. [8]

Текущие возможности

[ редактировать ]

Автоматизированное извлечение информации

[ редактировать ]

CiteSeer Х использует инструменты автоматического извлечения информации , обычно построенные на методах машинного обучения, таких как ParsCit, для извлечения метаданных научных документов, таких как название, авторы, аннотация, цитаты и т. д. Таким образом, иногда возникают ошибки в авторах и названиях. Другие академические поисковые системы имеют аналогичные ошибки.

Сосредоточенное сканирование

[ редактировать ]

CiteSeer Х сканирует общедоступные научные документы в основном с веб-страниц авторов и других открытых ресурсов и не имеет доступа к метаданным издателей. Таким образом, цитирование учитывается в CiteSeer. Х обычно меньше, чем у тех, кто имеет доступ к метаданным издателей в Google Scholar и Microsoft Academic Search.

Использование

[ редактировать ]

CiteSeer Х имеет почти миллион пользователей по всему миру с уникальными IP-адресами и миллионы посещений ежедневно. Ежегодные загрузки PDF-документов в 2015 году составили почти 200 миллионов.

CiteSeer Х данные регулярно передаются по лицензии Creative Commons BY-NC-SA исследователям по всему миру и используются во многих экспериментах и ​​конкурсах.

Благодаря конечной точке OAI-PMH , [9] CiteSeerX — это открытый архив , и его содержимое индексируется как институциональный репозиторий в академических поисковых системах , например, для потребителей BASE и Unpaywall .

Другие поисковые системы на базе SeerSuite

[ редактировать ]

Модель CiteSeer была расширена и теперь охватывает академические документы в бизнесе с помощью SmealSearch и в электронном бизнесе с помощью eBizSearch . Однако их спонсоры не поддерживали их. Более старую версию обоих из них когда-то можно было найти на BizSeer.IST , но она больше не используется.

Другие подобные Seer системы поиска и хранения были созданы для химии — Chem X Seer и для археологии — ArchSeer. Другой был создан для поиска файлов robots.txt, BotSeer . Все они созданы на основе инструмента с открытым исходным кодом SeerSuite , который использует индексатор с открытым исходным кодом Lucene .

См. также

[ редактировать ]
  1. ^ Jump up to: а б «Политика данных CiteSeerX» . Архивировано из оригинала 5 января 2012 г. Проверено 10 ноября 2015 г.
  2. ^ Кодакатери Пудхиявитил, Аджит; Гауч, Сьюзен; Луонг, Хип; Ино, Джош (2009). «Концептуальная рекомендательная система для CiteSeerX». Материалы третьей конференции ACM по рекомендательным системам . Нью-Йорк, Нью-Йорк, США: ACM Press. п. 241. дои : 10.1145/1639714.1639758 . ISBN  978-1-60558-435-5 . S2CID   13900679 .
  3. ^ Лоуренс, Стив (2001). «ResearchIndex: внутри крупнейшего в мире бесплатного полнотекстового указателя научной литературы». Материалы международной конференции по сбору знаний - K-CAP 2001 . п. 3. дои : 10.1145/500737.500740 . ISBN  1-58113-380-4 . S2CID   19592721 .
  4. ^ Jump up to: а б «О CiteSeerX» . Архивировано из оригинала 22 июля 2010 г. Проверено 7 мая 2010 г.
  5. ^ «Команда CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 26 июля 2018 г. Проверено 1 мая 2018 г.
  6. ^ «Рейтинг мировых хранилищ: 800 лучших хранилищ» . Лаборатория киберметрики. Июль 2010 г. Архивировано из оригинала 24 июля 2010 г. Проверено 24 июля 2010 г.
  7. ^ «О данных CiteSeerX» . Государственный университет Пенсильвании. Архивировано из оригинала 5 января 2012 г. Проверено 25 января 2012 г.
  8. ^ Например, «CiteSeerx – Уведомление DMCA» . CiteSeerX   10.1.1.604.4916 . Архивировано из оригинала 18 марта 2022 г. Документ с идентификатором «10.1.1.604.4916» был удален из-за уведомления об удалении DMCA. Если вы считаете, что удаление произошло по ошибке, свяжитесь с нами через страницу обратной связи, указав идентификатор, указанный на этой странице.
  9. ^ Херст, Тони (8 декабря 2011 г.). «Использование OAI-PMH в качестве интерфейса запроса на уровне одной записи для Citeseer» . Архивировано из оригинала 24 ноября 2020 г. Проверено 25 апреля 2020 г.

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 1d7880bdf2807a1adb9c90eee0c955c8__1714644660
URL1:https://arc.ask3.ru/arc/aa/1d/c8/1d7880bdf2807a1adb9c90eee0c955c8.html
Заголовок, (Title) документа по адресу, URL1:
CiteSeerX - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)