Веб-архивирование
Веб-архивирование — это процесс сбора частей Всемирной паутины информации для обеспечения сохранения в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.
Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. [1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.
Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.
История и развитие
[ редактировать ]Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет-архив , некоммерческая организация, созданная Брюстером Кале в 1996 году. [2] Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. [2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. [3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. [2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведской Kulturarw3. [4] [5]
С 2001 по 2010 год, [ не удалось пройти проверку ] Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями. [6] [7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [8]
Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. [2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». [2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны публично. [9]
Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [10]
Методы сбора
[ редактировать ]Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML веб-страницы , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.
Транзакционное архивирование
[ редактировать ]Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения данных о контенте, который был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. [11]
Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.
Трудности и ограничения
[ редактировать ]Краулеры
[ редактировать ]Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:
- Протокол исключения роботов может запрещать сканерам доступ к частям веб-сайта. Некоторые веб-архивисты могут проигнорировать запрос и все равно просканировать эти части.
- Большие части веб-сайта могут быть скрыты в глубокой паутине . Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
- Ловушки для сканеров (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому сканеры обычно настраиваются так, чтобы ограничивать количество динамических страниц, которые они сканируют.
- Большинство инструментов архивирования не сохраняют страницу в том виде, в каком она есть. Замечено, что рекламные баннеры и изображения часто теряются при архивировании.
Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.
Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется так быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.
Общие ограничения
[ редактировать ]Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.
Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман [12] заявляет, что «хотя Интернет широко рассматривается как ресурс, являющийся общественным достоянием , он защищен авторским правом ; таким образом, архивариусы не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах [13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .
Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. [14]
Законы
[ редактировать ]В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. [15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. [16] [17]
См. также
[ редактировать ]- Архив Анны
- Архив сайта
- Архивная команда
- archive.today (ранее archive.is)
- Коллективная память
- Обычное сканирование
- Цифровой накопительный фонд
- Цифровое сохранение
- Электронная библиотека
- Призрачный архив
- Google Кэш
- Список инициатив по веб-архивированию
- Arc.Ask3.Ru:Список веб-архивов в Википедии.
- Проект «Мементо»
- Инициатива Минервы
- Зеркальный сайт
- Национальная программа инфраструктуры и сохранения цифровой информации (NDIIPP)
- Программа Национальной цифровой библиотеки (NDLP)
- ПАДИКАТ
- ПейджФризер
- Архив Пандоры
- Веб-архив Великобритании
- Виртуальный артефакт
- Вейбэк-машина
- Веб-сканирование
- WebCite
Общая библиография
[ редактировать ]- Браун, А. (2006). Архивирование веб-сайтов: Практическое руководство для специалистов по управлению информацией . Лондон: Издательство Facet. ISBN 978-1-85604-553-7 .
- Брюггер, Н. (2005). Архивирование веб-сайтов. Общие соображения и стратегии . Орхус: Центр интернет-исследований. ISBN 978-87-990507-0-3 . Архивировано из оригинала 29 января 2009 года.
- Дэй, М. (2003). «Сохранение структуры нашей жизни: обзор инициатив по сохранению Интернета» (PDF) . Исследования и передовые технологии для электронных библиотек . Конспекты лекций по информатике. Том. 2769. стр. 461–472. дои : 10.1007/978-3-540-45175-4_42 . ISBN 978-3-540-40726-3 .
- Эйзенбах Г. и Трудель М. (2005). «Идем, идем, все еще здесь: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): е60. дои : 10.2196/jmir.7.5.e60 . ПМК 1550686 . ПМИД 16403724 .
- Фитч, Кент (2003). «Архивирование веб-сайта — подход к записи каждого существенно отличающегося ответа, создаваемого веб-сайтом» . Аусвеб 03 . Архивировано из оригинала 20 июля 2003 года . Проверено 27 сентября 2006 г.
- Джейкоби, Роберт (19 августа 2010 г.). «Архивирование веб-страницы» . Архивировано из оригинала 3 января 2011 года . Проверено 23 октября 2010 г.
- Лайман, П. (2002). «Архивирование Всемирной паутины» . Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа .
- Масанес, Ж.), изд. (2006). Веб-архивирование . Берлин: Springer-Verlag . ISBN 978-3-540-23338-1 .
- Пеннок, Морин (2013). Веб-архивирование . Отчеты о наблюдении за технологиями ЦОД. Великобритания: Коалиция по сохранению цифровой информации . дои : 10.7207/twr13-01 . ISSN 2048-7916 .
- Тойода, М.; Кицурегава, М. (2012). «История веб-архивирования» . Труды IEEE . 100 (специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 .
Ссылки
[ редактировать ]- ^ Трумэн, Гейл (2016). «Сканирование среды веб-архивирования» . Гарвардская библиотека .
- ^ Jump up to: а б с д и Тойода, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219 .
- ^ «Внутри Wayback Machine, капсулы времени Интернета» . Суета . 28 сентября 2018 г. сек. Путь назад . Проверено 21 июля 2020 г.
- ^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9 . S2CID 24303455 .
- ^ Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим» . Справочник по интернет-исследованиям (1-е изд.). Уайли. стр. 24–42. дои : 10.1002/9781444314861 . ISBN 978-1-4051-8588-2 .
- ^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 г.
- ^ «IWAW — Международные семинары по веб-архивированию» . bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 года . Проверено 19 августа 2019 г.
- ^ «О ИИПК» . ИИПК . Проверено 17 апреля 2022 г.
- ^ «Фонд Интернет-памяти: Бесплатная сеть: бесплатная загрузка, заимствование и потоковая передача» . archive.org . Интернет-архив . Проверено 21 июля 2020 г.
- ^ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . Исторические партнеры . Проверено 14 июля 2019 г.
- ^ Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Фасет. ISBN 978-1-78330-053-2 . OCLC 1064574312 .
- ^ Лайман (2002)
- ^ «Обязательный депозит | ИИПК» . netpreserve.org . Архивировано из оригинала 16 марта 2017 года . Проверено 31 января 2017 г.
- ^ «Часто задаваемые вопросы по WebCite» . Вебцитация.org . Проверено 20 сентября 2018 г.
- ^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . ФИНРА.
- ^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Интернет-архив готов заполнить пробелы» . Регистр .
- ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационных наук и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . дои : 10.1002/ASI.24460 . S2CID 221340749 .
Внешние ссылки
[ редактировать ]- Международный консорциум по сохранению Интернета (IIPC) — Международный консорциум, миссия которого состоит в том, чтобы приобретать, сохранять и делать доступными знания и информацию из Интернета для будущих поколений.
- Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
- Библиотека Конгресса — Веб-архивирование