Jump to content

Австралийский веб-архив

Австралийский веб-архив ( AWA ) — это общедоступная онлайн-база данных заархивированных австралийских веб-сайтов, размещенная Национальной библиотекой Австралии (NLA) на ее платформе Trove , агрегаторе баз данных онлайн-библиотек. NLA Он включает в себя собственный архив PANDORA , Веб-архив правительства Австралии (AGWA) и Национальной библиотеки Австралии «.au» коллекции доменов . Доступ осуществляется через единый интерфейс в Trove, который находится в открытом доступе. [1] [2] [3] Австралийский веб-архив был создан в марте 2019 года. [4] и является одним из крупнейших веб-архивов в мире. [5] Его цель — предоставить ресурс историкам и исследователям сейчас и в будущем. [5]

История трех компонентов

[ редактировать ]

Служба PANDORA начала архивировать веб-сайты в октябре 1996 года. [6]

В 2005 году NLA начало архивировать ежегодные снимки всего австралийского веб-домена ( URL-адреса с суффиксом «.au»). [4] ), [7] собраны в результате больших урожаев . [8] были получены самые ранние веб-сайты веб-домена .au, датированные 1996 годом Позже из Интернет-архива . В 2019 году этот контент впервые стал общедоступным через Trove. [9]

Инфраструктура PANDORA, которая хорошо подходит для выборочного мелкомасштабного архивирования, не адаптируется к крупномасштабному «массовому сбору» веб-контента, поэтому необходимо было разработать новую техническую систему, посредством которой служба веб-архивирования интегрировала бы доставку заархивированных веб-сайтов. в рамках живого интерфейса веб-сайта, беспрепятственно доставляя заархивированные веб-сайты пользователю, чего сложно достичь технически. [10]

ХАРАКТЕР

[ редактировать ]

Веб-сайты правительства Австралии являются документами Содружества и, следовательно, являются публикациями, управление которыми осуществляется в соответствии с Законом об архивах 1983 года . [11]

Веб-архив правительства Австралии (AGWA) состоит из массового архивирования веб-сайтов правительства Содружества . NLA начало регулярный сбор данных с веб-сайтов в июне 2011 года. [12] после того, как значительное препятствие было преодолено благодаря административному соглашению, заключенному в мае 2010 года, позволяющему NLA собирать, сохранять и делать доступными правительственные веб-сайты без необходимости запрашивать предварительное разрешение для каждого веб-сайта или документа, как это было до этого. Служба использует веб-сканер Heritrix для сбора данных, файлы WARC для хранения и Open Wayback для предоставления услуги. Правительство публикует огромное количество материалов, но при попытке сохранить контент приходится преодолевать множество проблем, например, его внезапное исчезновение. В марте 2014 года AGWA стала общедоступной. [10]

AGWA отвечает требованиям по сохранению и хранению веб-сайтов как материалов, «сохраняемых в национальных архивах» (RNA) в соответствии с Законом об архивах ; однако видео и файлы документов (например, PDF-файлы или документы Word ) не всегда сохраняются, поэтому ими нужно управлять отдельно. [11]

По состоянию на начало 2015 года в состав AGWA вошел контент, датированный 2005 годом, который составил около 144 миллионов файлов, занимающих 15 терабайт . В него вошли только веб-сайты правительства Содружества, собранные путем массового сбора почти 1000 исходных URL-адресов. График сбора урожая еще не был установлен на регулярной основе, но сбор урожая проводился примерно три раза в год. [10]

Объединение

[ редактировать ]

В 2017 году AGWA и архив PANDORA были объединены с другими коллекциями веб-архивов и образовали коллекцию веб-архивов Trove. [9] После дальнейшего развития и создания Австралийского веб-архива правительственные веб-сайты, заархивированные через AGWA и теперь включенные в AWA, по-прежнему можно искать отдельно, используя опцию «Расширенный поиск». [9]

Описание АВА

[ редактировать ]

Веб-архив описывается NLA как «коллекция снимков веб-сайтов, сделанных, когда они доступны в сети, а затем сохраненных в статической копии». Коллекция, хранящаяся в AWA, «имеет отношение к культурной, социальной, политической, исследовательской и коммерческой жизни и деятельности Австралии и австралийцев». Он собирает веб-материалы как посредством планового архивирования выбранных веб-сайтов и публикаций, так и путем специального сбора информации, связанного с значимыми событиями. [9]

По состоянию на март 2019 года, когда он был запущен, AWA уже содержал около 600 терабайт данных и 9 миллиардов записей. [5] [13] Он содержит больше функций, чем Wayback Machine , размещенный в Интернет-архиве , и позволяет осуществлять полнотекстовый поиск с использованием поисковой системы собственной . Разработчики также разработали методы фильтрации нежелательного «шума». Данные остаются на серверах библиотеки, хотя переход в облако . в будущем по мере роста контента предусматривается [5] При разработке основное внимание уделялось удобству использования широким кругом пользователей и, в частности, функциям поиска. [9]

Архив полностью доступен для поиска, что основано на сочетании методов, использованных разработчиками. Каждая команда создала уникальный и сложный алгоритм поиска , адаптировав версию алгоритма ранжирования страниц Google (на основе частоты кликов на странице), модифицированную для обеспечения более качественных и качественных ресурсов. Другие технологии включают байесовский фильтр (фактически спам-фильтр ), классификатор Not Safe For Work от Yahoo и машинное обучение . [14]

Перед поиском есть опция «Ограничить веб-домен gov.au». [15] а правительственные веб-сайты, заархивированные через AGWA, по-прежнему можно искать отдельно, используя опцию «Расширенный поиск». [9] Другие параметры в расширенном поиске — ограничение времени создания снимков, домена и типа файла. [16]

Поскольку многие из более ранних веб-сайтов 1990-х годов теперь потеряны, главным образом из-за частой смены веб-платформ, Австралийский веб-архив представляет собой важную инициативу, которая поможет сохранить текущие и будущие веб-страницы, особенно австралийский контент. [4] Материалы будут по-прежнему добавляться в Архив, а также другие онлайн-материалы, собранные в соответствии с Законом о национальной библиотеке 1960 года , об обязательном экземпляре положениями Закона об авторском праве 1968 года NLA и политикой выбора цифровых коллекций . [9]

Веб-сайты Азиатско-Тихоокеанского региона

[ редактировать ]

Веб-сайты в Азиатско-Тихоокеанском регионе не включены в AWA, но NLA сотрудничает с Интернет-архивом для сбора и сохранения «избранных азиатско-тихоокеанских веб-сайтов, связанных с конкретными событиями или социально-политическими группами». [17]

См. также

[ редактировать ]
  1. ^ «Сохранение сетевых документальных ресурсов Австралии и доступ к ним» . Архив Пандоры . Проверено 30 апреля 2020 г.
  2. ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 23 марта 2020 г. Проверено 30 апреля 2020 г.
  3. ^ Кербин, Пол (11 февраля 2015 г.). «Веб-архив правительства Австралии» . Национальная библиотека Австралии . Архивировано из оригинала 30 апреля 2020 года . Проверено 30 апреля 2020 г.
  4. ^ Jump up to: а б с Брунс, Аксель (14 марта 2019 г.). «Австралийский веб-архив — это важнейшее достижение, но дальше все станет сложнее» . Разговор . Проверено 30 апреля 2020 г.
  5. ^ Jump up to: а б с д Нотт, Джордж (11 марта 2019 г.). «Национальная библиотека запускает «огромный» архив австралийского Интернета» . Компьютерный мир . Проверено 6 мая 2020 г.
  6. ^ «История и достижения» . ПАНДОРА. 18 февраля 2009 года . Проверено 6 мая 2020 г.
  7. ^ Маккензи, Амелия (12 марта 2019 г.). «Сохранение веб-истории Австралии: начало австралийского веб-архива» . Национальная библиотека Австралии . Проверено 6 мая 2020 г.
  8. ^ «Архив веб-сайтов (1996 – настоящее время)» . Трове . Проверено 6 мая 2020 г.
  9. ^ Jump up to: а б с д и ж г «Об австралийском веб-архиве» . Справочный центр Trove . Архивировано из оригинала 17 марта 2020 года . Проверено 8 мая 2020 г.
  10. ^ Jump up to: а б с Кербин, Пол (11 февраля 2015 г.). «Веб-архив правительства Австралии: сбор правительственного документального наследия в Интернете приобретает большие масштабы» . Национальная библиотека Австралии . Архивировано из оригинала 1 мая 2020 года . Проверено 6 мая 2020 г.
  11. ^ Jump up to: а б «Архивирование веб-сайтов правительства Австралии» . Национальный архив Австралии . Проверено 8 мая 2020 г.
  12. ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 7 декабря 2018 года . Проверено 6 мая 2020 г.
  13. ^ ПРИМЕЧАНИЕ. На странице справки AWA указано 400 ТБ, 8 миллиардов записей.
  14. ^ «Посетите веб-архив Австралии» . Южный телефон . 11 апреля 2019 года . Проверено 8 мая 2020 г.
  15. ^ «Австралийский веб-архив» . Трове . Проверено 8 мая 2020 г.
  16. ^ «Австралийский веб-архив — расширенный поиск» . Трове . Проверено 8 мая 2020 г.
  17. ^ «Архив веб-сайтов» . Национальная библиотека Австралии . 23 марта 2020 г. Проверено 8 мая 2020 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: d7ae39825b84872281e3446264b68bc8__1705514160
URL1:https://arc.ask3.ru/arc/aa/d7/c8/d7ae39825b84872281e3446264b68bc8.html
Заголовок, (Title) документа по адресу, URL1:
Australian Web Archive - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)