Австралийский веб-архив
Австралийский веб-архив ( AWA ) — это общедоступная онлайн-база данных заархивированных австралийских веб-сайтов, размещенная Национальной библиотекой Австралии (NLA) на ее платформе Trove , агрегаторе баз данных онлайн-библиотек. NLA Он включает в себя собственный архив PANDORA , Веб-архив правительства Австралии (AGWA) и Национальной библиотеки Австралии «.au» коллекции доменов . Доступ осуществляется через единый интерфейс в Trove, который находится в открытом доступе. [1] [2] [3] Австралийский веб-архив был создан в марте 2019 года. [4] и является одним из крупнейших веб-архивов в мире. [5] Его цель — предоставить ресурс историкам и исследователям сейчас и в будущем. [5]
История трех компонентов
[ редактировать ]Служба PANDORA начала архивировать веб-сайты в октябре 1996 года. [6]
В 2005 году NLA начало архивировать ежегодные снимки всего австралийского веб-домена ( URL-адреса с суффиксом «.au»). [4] ), [7] собраны в результате больших урожаев . [8] были получены самые ранние веб-сайты веб-домена .au, датированные 1996 годом Позже из Интернет-архива . В 2019 году этот контент впервые стал общедоступным через Trove. [9]
Инфраструктура PANDORA, которая хорошо подходит для выборочного мелкомасштабного архивирования, не адаптируется к крупномасштабному «массовому сбору» веб-контента, поэтому необходимо было разработать новую техническую систему, посредством которой служба веб-архивирования интегрировала бы доставку заархивированных веб-сайтов. в рамках живого интерфейса веб-сайта, беспрепятственно доставляя заархивированные веб-сайты пользователю, чего сложно достичь технически. [10]
ХАРАКТЕР
[ редактировать ]Веб-сайты правительства Австралии являются документами Содружества и, следовательно, являются публикациями, управление которыми осуществляется в соответствии с Законом об архивах 1983 года . [11]
Веб-архив правительства Австралии (AGWA) состоит из массового архивирования веб-сайтов правительства Содружества . NLA начало регулярный сбор данных с веб-сайтов в июне 2011 года. [12] после того, как значительное препятствие было преодолено благодаря административному соглашению, заключенному в мае 2010 года, позволяющему NLA собирать, сохранять и делать доступными правительственные веб-сайты без необходимости запрашивать предварительное разрешение для каждого веб-сайта или документа, как это было до этого. Служба использует веб-сканер Heritrix для сбора данных, файлы WARC для хранения и Open Wayback для предоставления услуги. Правительство публикует огромное количество материалов, но при попытке сохранить контент приходится преодолевать множество проблем, например, его внезапное исчезновение. В марте 2014 года AGWA стала общедоступной. [10]
AGWA отвечает требованиям по сохранению и хранению веб-сайтов как материалов, «сохраняемых в национальных архивах» (RNA) в соответствии с Законом об архивах ; однако видео и файлы документов (например, PDF-файлы или документы Word ) не всегда сохраняются, поэтому ими нужно управлять отдельно. [11]
По состоянию на начало 2015 года в состав AGWA вошел контент, датированный 2005 годом, который составил около 144 миллионов файлов, занимающих 15 терабайт . В него вошли только веб-сайты правительства Содружества, собранные путем массового сбора почти 1000 исходных URL-адресов. График сбора урожая еще не был установлен на регулярной основе, но сбор урожая проводился примерно три раза в год. [10]
Объединение
[ редактировать ]В 2017 году AGWA и архив PANDORA были объединены с другими коллекциями веб-архивов и образовали коллекцию веб-архивов Trove. [9] После дальнейшего развития и создания Австралийского веб-архива правительственные веб-сайты, заархивированные через AGWA и теперь включенные в AWA, по-прежнему можно искать отдельно, используя опцию «Расширенный поиск». [9]
Описание АВА
[ редактировать ]Веб-архив описывается NLA как «коллекция снимков веб-сайтов, сделанных, когда они доступны в сети, а затем сохраненных в статической копии». Коллекция, хранящаяся в AWA, «имеет отношение к культурной, социальной, политической, исследовательской и коммерческой жизни и деятельности Австралии и австралийцев». Он собирает веб-материалы как посредством планового архивирования выбранных веб-сайтов и публикаций, так и путем специального сбора информации, связанного с значимыми событиями. [9]
По состоянию на март 2019 года, когда он был запущен, AWA уже содержал около 600 терабайт данных и 9 миллиардов записей. [5] [13] Он содержит больше функций, чем Wayback Machine , размещенный в Интернет-архиве , и позволяет осуществлять полнотекстовый поиск с использованием поисковой системы собственной . Разработчики также разработали методы фильтрации нежелательного «шума». Данные остаются на серверах библиотеки, хотя переход в облако . в будущем по мере роста контента предусматривается [5] При разработке основное внимание уделялось удобству использования широким кругом пользователей и, в частности, функциям поиска. [9]
Архив полностью доступен для поиска, что основано на сочетании методов, использованных разработчиками. Каждая команда создала уникальный и сложный алгоритм поиска , адаптировав версию алгоритма ранжирования страниц Google (на основе частоты кликов на странице), модифицированную для обеспечения более качественных и качественных ресурсов. Другие технологии включают байесовский фильтр (фактически спам-фильтр ), классификатор Not Safe For Work от Yahoo и машинное обучение . [14]
Перед поиском есть опция «Ограничить веб-домен gov.au». [15] а правительственные веб-сайты, заархивированные через AGWA, по-прежнему можно искать отдельно, используя опцию «Расширенный поиск». [9] Другие параметры в расширенном поиске — ограничение времени создания снимков, домена и типа файла. [16]
Поскольку многие из более ранних веб-сайтов 1990-х годов теперь потеряны, главным образом из-за частой смены веб-платформ, Австралийский веб-архив представляет собой важную инициативу, которая поможет сохранить текущие и будущие веб-страницы, особенно австралийский контент. [4] Материалы будут по-прежнему добавляться в Архив, а также другие онлайн-материалы, собранные в соответствии с Законом о национальной библиотеке 1960 года , об обязательном экземпляре положениями Закона об авторском праве 1968 года NLA и политикой выбора цифровых коллекций . [9]
Веб-сайты Азиатско-Тихоокеанского региона
[ редактировать ]Веб-сайты в Азиатско-Тихоокеанском регионе не включены в AWA, но NLA сотрудничает с Интернет-архивом для сбора и сохранения «избранных азиатско-тихоокеанских веб-сайтов, связанных с конкретными событиями или социально-политическими группами». [17]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Сохранение сетевых документальных ресурсов Австралии и доступ к ним» . Архив Пандоры . Проверено 30 апреля 2020 г.
- ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 23 марта 2020 г. Проверено 30 апреля 2020 г.
- ^ Кербин, Пол (11 февраля 2015 г.). «Веб-архив правительства Австралии» . Национальная библиотека Австралии . Архивировано из оригинала 30 апреля 2020 года . Проверено 30 апреля 2020 г.
- ^ Jump up to: а б с Брунс, Аксель (14 марта 2019 г.). «Австралийский веб-архив — это важнейшее достижение, но дальше все станет сложнее» . Разговор . Проверено 30 апреля 2020 г.
- ^ Jump up to: а б с д Нотт, Джордж (11 марта 2019 г.). «Национальная библиотека запускает «огромный» архив австралийского Интернета» . Компьютерный мир . Проверено 6 мая 2020 г.
- ^ «История и достижения» . ПАНДОРА. 18 февраля 2009 года . Проверено 6 мая 2020 г.
- ^ Маккензи, Амелия (12 марта 2019 г.). «Сохранение веб-истории Австралии: начало австралийского веб-архива» . Национальная библиотека Австралии . Проверено 6 мая 2020 г.
- ^ «Архив веб-сайтов (1996 – настоящее время)» . Трове . Проверено 6 мая 2020 г.
- ^ Jump up to: а б с д и ж г «Об австралийском веб-архиве» . Справочный центр Trove . Архивировано из оригинала 17 марта 2020 года . Проверено 8 мая 2020 г.
- ^ Jump up to: а б с Кербин, Пол (11 февраля 2015 г.). «Веб-архив правительства Австралии: сбор правительственного документального наследия в Интернете приобретает большие масштабы» . Национальная библиотека Австралии . Архивировано из оригинала 1 мая 2020 года . Проверено 6 мая 2020 г.
- ^ Jump up to: а б «Архивирование веб-сайтов правительства Австралии» . Национальный архив Австралии . Проверено 8 мая 2020 г.
- ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 7 декабря 2018 года . Проверено 6 мая 2020 г.
- ^ ПРИМЕЧАНИЕ. На странице справки AWA указано 400 ТБ, 8 миллиардов записей.
- ^ «Посетите веб-архив Австралии» . Южный телефон . 11 апреля 2019 года . Проверено 8 мая 2020 г.
- ^ «Австралийский веб-архив» . Трове . Проверено 8 мая 2020 г.
- ^ «Австралийский веб-архив — расширенный поиск» . Трове . Проверено 8 мая 2020 г.
- ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 23 марта 2020 г. Проверено 8 мая 2020 г.