ПАДИКАТ
![]() | |
URL-адрес | http://www.padicat.cat/ |
---|
PADICAT Аббревиатура от Patrimoni Digital de Catalunya на каталонском языке ; или «Цифровое наследие Каталонии» на английском языке — это Веб-архив Каталонии. [1]
Создан в 2005 году [2] Библиотекой Каталонии , государственным учреждением, ответственным за сбор, сохранение и распространение библиографического наследия, а также цифрового наследия в более широком смысле. Имеет технологическое сотрудничество с Центром научных и академических услуг Каталонии (CESCA) для сохранения и предоставления доступа к старым версиям веб-страниц, опубликованных в Интернете . Библиотека Каталонии, ответственная за PADICAT, является членом Международного консорциума по сохранению Интернета (IIPC). [3]
История
[ редактировать ]
PADICAT родился в 2005 году вслед за тенденцией других национальных библиотек по созданию веб-архивов и как ответ на публикацию руководящих принципов по сохранению цифрового наследия. [4] со стороны ЮНЕСКО . Существует множество веб-архивов . [5] Самые известные начались в 1996 году: шведская Kulturarw3; [6] австралийская Пандора , [7] и самый популярный репозиторий Internet Archive . [8]
Анализ этих и других проектов уступил место планированию проекта PADICAT, следуя общей мировой тенденции гибридной модели функционирования, дополняющей регулярный захват всего географического домена ( в данном случае домена .cat ) с выборочные акции и расширять это освещение на различные социальные события, вызывающие интенсивную активность в сети ( избирательные кампании например, ) или с помощью тематических пакетов ( музеи Каталонии, каталонский фолк-рок в сети и т. д.). PADICAT дополняет все это вкладами пользователей через рекомендуемые веб-сайты.
В июне 2005 года Библиотека Каталонии приступила к предварительному этапу планирования, на котором был проведен анализ проектов относительно существующих ресурсов, агентов, участвующих в создании веб-страниц Каталонии, и юридических вопросов, определяющих практику, которую необходимо реализовать.
На основе параметров, определенных Библиотекой Каталонии, 21 июля 2006 г. начался автоматический сбор веб-сайтов, которые, вероятно, являются частью цифрового наследия Каталонии. 11 сентября 2006 года, одновременно с празднованием Национального дня Каталонии , веб-сайт PADICAT был открыт для публики, на нем сохранено около тридцати веб-страниц.
Период 2006–2008 годов представляет собой этап производства, пилотный план проекта, этап эксплуатации PADICAT: систематический сбор веб-страниц Каталонии.
В период 2009–2011 годов Библиотека Каталонии должна находиться в оптимальном положении, при этом эта система – пионер в Испании и эталон в Европе – будет работать на полную мощность. Кроме того, мы достигли соглашений о сотрудничестве с более чем 450 учреждениями всех видов и гарантировали открытый онлайн-доступ ко всем коллекциям.11 сентября 2011 г., снова совпадая с Национальным днем Каталонии и пятой годовщиной своего веб-сайта, PADICAT открыл новую версию веб-сайта для доступа ко всему размещенному содержимому.
В ноябре 2012 года PADICAT сохранил 58 122 веб-сайта, 249 609 просмотров, 349 миллионов файлов и 13 ТБ дискового пространства. Все они находятся в свободном доступе. [9]
Миссия и функционирование
[ редактировать ]Миссия и цели
[ редактировать ]Миссия PADICAT — собирать, обрабатывать и предоставлять доступ к цифровому наследию Каталонии, рожденному в Интернете.Его цели:
- Массовая компиляция домена .cat благодаря соглашению с Fundació puntCat . [10]
- Систематическое архивирование веб-сайтов каталонских организаций и компаний.
- Продвигайте направления исследований посредством тематической интеграции цифровых ресурсов, связанных с конкретными событиями в общественной жизни Каталонии, такими как политические кампании. [11] в Интернете, феномен онлайн-музыки или музеи в Интернете.
После его рождения (2005-2006), роста (2007-2008) и консолидации (2009-2011), с 2012 года планируется систематизировать его потенциал роста с целью включения 75 700 версий около 32 000 веб-сайтов в год. от:
- Выходящая два раза в год компиляция из 30 000 ресурсов домена .cat.
- Выходящий два раза в год сборник из 550 ресурсов от более чем 450 организаций, заключивших договор о сотрудничестве.
- Компиляция, выходящая два раза в год, из ресурсов, рекомендованных пользователями.
- Ежедневная подборка из значительной части 30 периодических онлайн-изданий.
Кроме того, имеется четыре постоянных рабочих места:
- Определение стратегий сохранения цифрового наследия, рожденного в Интернете. PADICAT предоставляет периодические отчеты о каталонских веб-сайтах; он определяет, какие форматы имеют проблемы с неразборчивостью; и определяет наиболее используемые языки и т. д.
- Продвижение направлений исследований путем создания монографических сборников с привлечением экспертов по каждой тематике.
- Создание и ведение архива цифровых сериалов посредством систематизированного сбора цифровых сериалов в Интернете. Теперь он состоит из репрезентативной выборки по типу и содержанию, отобранной среди цифровых, не имеющих аналогового эквивалента.
- Сотрудничество с другими веб-архивами, библиотеками, архивами и музеями для эффективного ответа на проблемы, связанные с сохранением цифровых данных и доступом к их ресурсам.
Функционирование
[ редактировать ]Программное обеспечение
[ редактировать ]
PADICAT — это система, основанная на реализации нескольких программ , которые позволяют собирать, хранить, систематизировать и сохранять веб-страницы, а также осуществлять постоянный доступ к ним. Позже, на этапе анализа и тестирования программного обеспечения, было решено использовать Heritrix. [12] программное обеспечение, применяемое в большинстве проектов по захвату цифровых ресурсов. Это плата за программное обеспечение для компиляции веб-страниц в том виде, в каком их видит пользователь при работе в Интернете, и сохранения их в сжатых файлах с расширением ARC или WARC . Затем программное обеспечение Heritrix дополняется NutchWax, [13] или в сочетании с Hadoop [14] и Вэйбэк , [15] выполнение процесса индексирования скомпилированной информации, которая позволит использовать этот индекс для локализации ресурсов коллекции из интерфейсов запросов: Wera, [16] это позволяет осуществлять поиск по ключевым словам через индексы, сгенерированные NutchWax; и Wayback, которые позволяют обращаться по URL-адресу к индексам, сгенерированным Hadoop и тем же Wayback.
Был использован инструмент веб-куратора [17] программное обеспечение, разработанное Национальной библиотекой Новой Зеландии и Британской библиотекой , как система управления документами, позволяющая выделять метаданные значительной части коллекции, чтобы в будущем интегрировать депозитные фонды для поиска в других каталогах, из Biblioteca de Каталония или другие учреждения. В настоящее время веб-сайты каталогизируются с помощью CAT. [18] программное обеспечение, специально разработанное техническими специалистами CESCA для этого проекта.
Аппаратное обеспечение
[ редактировать ]
Что касается оборудования , поддерживающего систему, то имеется шесть узлов HP ProLiant DL360 G4p, предназначенных для сбора и индексации веб-страниц. За поиск и просмотр результатов в веб-интерфейсе отвечает Linux-кластер высокой доступности, с возможностями балансировки нагрузки запросов и устойчивостью к ошибкам в случае технической аварии узлов, объединяющих платформу. Кабина NetApp FAS3170 предоставляет этим узлам 19 ТБ дисковой емкости через NFS.
Узлы подключены оптоволокном к сети хранения данных (SAN) и дополнены системой сохранения данных роботом резервного копирования.
Ожидается, что депонированное содержимое из PADICAT будет включено в COFRE. [19] (COnservem para el Futur Recursos Electronics), система хранения с высоким уровнем безопасности, созданная для Библиотеки Каталонии.
Ссылки
[ редактировать ]- ^ Официальный сайт
- ^ Biblioteca de Catalunya (2005), Отчет о подходе проекта PADICAT (Цифровое наследие Каталонии) , Барселона: Biblioteca de Catalunya , получено 22 ноября 2012 г.
- ^ Международный консорциум по сохранению Интернета
- ^ Национальная библиотека Австралии (2003 г.), Рекомендации по сохранению цифрового наследия (PDF) , Канберра: ЮНЕСКО , получено 22 ноября 2012 г.
- ^ Ллуэка, Чиро (2005), Всегда доступные веб-сайты: национальные библиотеки и национальные цифровые хранилища , BiD: университетские учебники по библиотечному делу и документации , получено 20 ноября 2012 г.
- ^ Культурарв3
- ^ Пандора
- ^ Интернет-архив
- ^ ПАДИКАТ
- ^ Подписано соглашение о сотрудничестве между Библиотекой Каталонии и фондом puntCAT по сохранению веб-страниц.
- ^ Льюэка, Чиро; Кочера, Дэниел; Торрес, Наталья; и др. (2012), В ритме твита: архивирование выборов 2.0 (PDF) , Информационный профессионал , получено 21 ноября 2012 г.
- ^ Херитрикс
- ^ NutcWax
- ^ Хадуп
- ^ Путь назад
- ^ Тепло
- ^ Инструмент веб-куратора
- ^ Льюэка, Чиро; Кочера, Даниэль; Торреса, Наталья; и др. (2010), CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам = CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам = CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам (PDF) , получено в 2012–2011 гг. -21
- ^ Серра, Евгения; Перес, Карибель; Льюэка, Чиро (2012), «Библиотека Каталонии и доступ к цифровому наследию» , Information Methods , 2 (2), MEI: 5–20, doi : 10.5557/IIMEI2-N2-005020 , получено в 2012-1-21.