Jump to content

ПАДИКАТ

ПАДИКАТ
URL-адрес http://www.padicat.cat/

PADICAT Аббревиатура от Patrimoni Digital de Catalunya на каталонском языке ; или «Цифровое наследие Каталонии» на английском языке — это Веб-архив Каталонии. [1]

Создан в 2005 году [2] Библиотекой Каталонии , государственным учреждением, ответственным за сбор, сохранение и распространение библиографического наследия, а также цифрового наследия в более широком смысле. Имеет технологическое сотрудничество с Центром научных и академических услуг Каталонии (CESCA) для сохранения и предоставления доступа к старым версиям веб-страниц, опубликованных в Интернете . Библиотека Каталонии, ответственная за PADICAT, является членом Международного консорциума по сохранению Интернета (IIPC). [3]

Веб-сайт ПАДИКАТ 2011 г.

PADICAT родился в 2005 году вслед за тенденцией других национальных библиотек по созданию веб-архивов и как ответ на публикацию руководящих принципов по сохранению цифрового наследия. [4] со стороны ЮНЕСКО . Существует множество веб-архивов . [5] Самые известные начались в 1996 году: шведская Kulturarw3; [6] австралийская Пандора , [7] и самый популярный репозиторий Internet Archive . [8]

Анализ этих и других проектов уступил место планированию проекта PADICAT, следуя общей мировой тенденции гибридной модели функционирования, дополняющей регулярный захват всего географического домена ( в данном случае домена .cat ) с выборочные акции и расширять это освещение на различные социальные события, вызывающие интенсивную активность в сети ( избирательные кампании например, ) или с помощью тематических пакетов ( музеи Каталонии, каталонский фолк-рок в сети и т. д.). PADICAT дополняет все это вкладами пользователей через рекомендуемые веб-сайты.

В июне 2005 года Библиотека Каталонии приступила к предварительному этапу планирования, на котором был проведен анализ проектов относительно существующих ресурсов, агентов, участвующих в создании веб-страниц Каталонии, и юридических вопросов, определяющих практику, которую необходимо реализовать.

На основе параметров, определенных Библиотекой Каталонии, 21 июля 2006 г. начался автоматический сбор веб-сайтов, которые, вероятно, являются частью цифрового наследия Каталонии. 11 сентября 2006 года, одновременно с празднованием Национального дня Каталонии , веб-сайт PADICAT был открыт для публики, на нем сохранено около тридцати веб-страниц.

Период 2006–2008 годов представляет собой этап производства, пилотный план проекта, этап эксплуатации PADICAT: систематический сбор веб-страниц Каталонии.

В период 2009–2011 годов Библиотека Каталонии должна находиться в оптимальном положении, при этом эта система – пионер в Испании и эталон в Европе – будет работать на полную мощность. Кроме того, мы достигли соглашений о сотрудничестве с более чем 450 учреждениями всех видов и гарантировали открытый онлайн-доступ ко всем коллекциям.11 сентября 2011 г., снова совпадая с Национальным днем ​​Каталонии и пятой годовщиной своего веб-сайта, PADICAT открыл новую версию веб-сайта для доступа ко всему размещенному содержимому.

В ноябре 2012 года PADICAT сохранил 58 122 веб-сайта, 249 609 просмотров, 349 миллионов файлов и 13 ТБ дискового пространства. Все они находятся в свободном доступе. [9]

Миссия и функционирование

[ редактировать ]

Миссия и цели

[ редактировать ]

Миссия PADICAT — собирать, обрабатывать и предоставлять доступ к цифровому наследию Каталонии, рожденному в Интернете.Его цели:

  • Массовая компиляция домена .cat благодаря соглашению с Fundació puntCat . [10]
  • Систематическое архивирование веб-сайтов каталонских организаций и компаний.
  • Продвигайте направления исследований посредством тематической интеграции цифровых ресурсов, связанных с конкретными событиями в общественной жизни Каталонии, такими как политические кампании. [11] в Интернете, феномен онлайн-музыки или музеи в Интернете.

После его рождения (2005-2006), роста (2007-2008) и консолидации (2009-2011), с 2012 года планируется систематизировать его потенциал роста с целью включения 75 700 версий около 32 000 веб-сайтов в год. от:

  • Выходящая два раза в год компиляция из 30 000 ресурсов домена .cat.
  • Выходящий два раза в год сборник из 550 ресурсов от более чем 450 организаций, заключивших договор о сотрудничестве.
  • Компиляция, выходящая два раза в год, из ресурсов, рекомендованных пользователями.
  • Ежедневная подборка из значительной части 30 периодических онлайн-изданий.

Кроме того, имеется четыре постоянных рабочих места:

  • Определение стратегий сохранения цифрового наследия, рожденного в Интернете. PADICAT предоставляет периодические отчеты о каталонских веб-сайтах; он определяет, какие форматы имеют проблемы с неразборчивостью; и определяет наиболее используемые языки и т. д.
  • Продвижение направлений исследований путем создания монографических сборников с привлечением экспертов по каждой тематике.
  • Создание и ведение архива цифровых сериалов посредством систематизированного сбора цифровых сериалов в Интернете. Теперь он состоит из репрезентативной выборки по типу и содержанию, отобранной среди цифровых, не имеющих аналогового эквивалента.
  • Сотрудничество с другими веб-архивами, библиотеками, архивами и музеями для эффективного ответа на проблемы, связанные с сохранением цифровых данных и доступом к их ресурсам.

Функционирование

[ редактировать ]

Программное обеспечение

[ редактировать ]
Схема рабочего процесса программного обеспечения PADICAT

PADICAT — это система, основанная на реализации нескольких программ , которые позволяют собирать, хранить, систематизировать и сохранять веб-страницы, а также осуществлять постоянный доступ к ним. Позже, на этапе анализа и тестирования программного обеспечения, было решено использовать Heritrix. [12] программное обеспечение, применяемое в большинстве проектов по захвату цифровых ресурсов. Это плата за программное обеспечение для компиляции веб-страниц в том виде, в каком их видит пользователь при работе в Интернете, и сохранения их в сжатых файлах с расширением ARC или WARC . Затем программное обеспечение Heritrix дополняется NutchWax, [13] или в сочетании с Hadoop [14] и Вэйбэк , [15] выполнение процесса индексирования скомпилированной информации, которая позволит использовать этот индекс для локализации ресурсов коллекции из интерфейсов запросов: Wera, [16] это позволяет осуществлять поиск по ключевым словам через индексы, сгенерированные NutchWax; и Wayback, которые позволяют обращаться по URL-адресу к индексам, сгенерированным Hadoop и тем же Wayback.

Был использован инструмент веб-куратора [17] программное обеспечение, разработанное Национальной библиотекой Новой Зеландии и Британской библиотекой , как система управления документами, позволяющая выделять метаданные значительной части коллекции, чтобы в будущем интегрировать депозитные фонды для поиска в других каталогах, из Biblioteca de Каталония или другие учреждения. В настоящее время веб-сайты каталогизируются с помощью CAT. [18] программное обеспечение, специально разработанное техническими специалистами CESCA для этого проекта.

Аппаратное обеспечение

[ редактировать ]
Серверы PADICAT в CESCA

Что касается оборудования , поддерживающего систему, то имеется шесть узлов HP ProLiant DL360 G4p, предназначенных для сбора и индексации веб-страниц. За поиск и просмотр результатов в веб-интерфейсе отвечает Linux-кластер высокой доступности, с возможностями балансировки нагрузки запросов и устойчивостью к ошибкам в случае технической аварии узлов, объединяющих платформу. Кабина NetApp FAS3170 предоставляет этим узлам 19 ТБ дисковой емкости через NFS.

Узлы подключены оптоволокном к сети хранения данных (SAN) и дополнены системой сохранения данных роботом резервного копирования.

Ожидается, что депонированное содержимое из PADICAT будет включено в COFRE. [19] (COnservem para el Futur Recursos Electronics), система хранения с высоким уровнем безопасности, созданная для Библиотеки Каталонии.

  1. ^ Официальный сайт
  2. ^ Biblioteca de Catalunya (2005), Отчет о подходе проекта PADICAT (Цифровое наследие Каталонии) , Барселона: Biblioteca de Catalunya , получено 22 ноября 2012 г.
  3. ^ Международный консорциум по сохранению Интернета
  4. ^ Национальная библиотека Австралии (2003 г.), Рекомендации по сохранению цифрового наследия (PDF) , Канберра: ЮНЕСКО , получено 22 ноября 2012 г.
  5. ^ Ллуэка, Чиро (2005), Всегда доступные веб-сайты: национальные библиотеки и национальные цифровые хранилища , BiD: университетские учебники по библиотечному делу и документации , получено 20 ноября 2012 г.
  6. ^ Культурарв3
  7. ^ Пандора
  8. ^ Интернет-архив
  9. ^ ПАДИКАТ
  10. ^ Подписано соглашение о сотрудничестве между Библиотекой Каталонии и фондом puntCAT по сохранению веб-страниц.
  11. ^ Льюэка, Чиро; Кочера, Дэниел; Торрес, Наталья; и др. (2012), В ритме твита: архивирование выборов 2.0 (PDF) , Информационный профессионал , получено 21 ноября 2012 г.
  12. ^ Херитрикс
  13. ^ NutcWax
  14. ^ Хадуп
  15. ^ Путь назад
  16. ^ Тепло
  17. ^ Инструмент веб-куратора
  18. ^ Льюэка, Чиро; Кочера, Даниэль; Торреса, Наталья; и др. (2010), CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам = CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам = CAT (Инструмент архивирования куратора): улучшение доступа к веб-архивам (PDF) , получено в 2012–2011 гг. -21
  19. ^ Серра, Евгения; Перес, Карибель; Льюэка, Чиро (2012), «Библиотека Каталонии и доступ к цифровому наследию» , Information Methods , 2 (2), MEI: 5–20, doi : 10.5557/IIMEI2-N2-005020 , получено в 2012-1-21.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 39fb0dd505b9e03b3ae96641bdbdb704__1699195200
URL1:https://arc.ask3.ru/arc/aa/39/04/39fb0dd505b9e03b3ae96641bdbdb704.html
Заголовок, (Title) документа по адресу, URL1:
PADICAT - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)