Jump to content

Веб-архивирование

(Перенаправлено из веб-архивов )

Веб-архивирование — это процесс сбора частей Всемирной паутины информации для обеспечения сохранения в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. [1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.

История и развитие

[ редактировать ]

Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет-архив , некоммерческая организация, созданная Брюстером Кале в 1996 году. [2] Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. [2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. [3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. [2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведской Kulturarw3. [4] [5]

С 2001 по 2010 год, [ не удалось пройти проверку ] Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями. [6] [7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. [8]

Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. [2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». [2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны публично. [9]

Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. [10]

Методы сбора

[ редактировать ]

Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML веб-страницы , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Транзакционное архивирование

[ редактировать ]

Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения данных о контенте, который был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. [11]

Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.

Трудности и ограничения

[ редактировать ]

Краулеры

[ редактировать ]

Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:

  • Протокол исключения роботов может запрещать сканерам доступ к частям веб-сайта. Некоторые веб-архивисты могут проигнорировать запрос и все равно просканировать эти части.
  • Большие части веб-сайта могут быть скрыты в глубокой паутине . Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
  • Ловушки для сканеров (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому сканеры обычно настраиваются так, чтобы ограничивать количество динамических страниц, которые они сканируют.
  • Большинство инструментов архивирования не сохраняют страницу в том виде, в каком она есть. Замечено, что рекламные баннеры и изображения часто теряются при архивировании.

Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.

Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется так быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.

Общие ограничения

[ редактировать ]

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман [12] заявляет, что «хотя Интернет широко рассматривается как ресурс, являющийся общественным достоянием , он защищен авторским правом ; таким образом, архивариусы не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах [13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. [14]

В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. [15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. [16] [17]

См. также

[ редактировать ]

Общая библиография

[ редактировать ]
  1. ^ Трумэн, Гейл (2016). «Сканирование среды веб-архивирования» . Гарвардская библиотека .
  2. ^ Jump up to: а б с д и Тойода, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 . ISSN   0018-9219 .
  3. ^ «Внутри Wayback Machine, капсулы времени Интернета» . Суета . 28 сентября 2018 г. сек. Путь назад . Проверено 21 июля 2020 г.
  4. ^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9 . S2CID   24303455 .
  5. ^ Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим» . Справочник по интернет-исследованиям (1-е изд.). Уайли. стр. 24–42. дои : 10.1002/9781444314861 . ISBN  978-1-4051-8588-2 .
  6. ^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 г.
  7. ^ «IWAW — Международные семинары по веб-архивированию» . bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 года . Проверено 19 августа 2019 г.
  8. ^ «О ИИПК» . ИИПК . Проверено 17 апреля 2022 г.
  9. ^ «Фонд Интернет-памяти: Бесплатная сеть: бесплатная загрузка, заимствование и потоковая передача» . archive.org . Интернет-архив . Проверено 21 июля 2020 г.
  10. ^ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . Исторические партнеры . Проверено 14 июля 2019 г.
  11. ^ Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Фасет. ISBN  978-1-78330-053-2 . OCLC   1064574312 .
  12. ^ Лайман (2002)
  13. ^ «Обязательный депозит | ИИПК» . netpreserve.org . Архивировано из оригинала 16 марта 2017 года . Проверено 31 января 2017 г.
  14. ^ «Часто задаваемые вопросы по WebCite» . Вебцитация.org . Проверено 20 сентября 2018 г.
  15. ^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . ФИНРА.
  16. ^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Интернет-архив готов заполнить пробелы» . Регистр .
  17. ^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационных наук и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . дои : 10.1002/ASI.24460 . S2CID   221340749 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: bd5bc7b4c94558bf4b4e1c04f2b0a6a5__1721287500
URL1:https://arc.ask3.ru/arc/aa/bd/a5/bd5bc7b4c94558bf4b4e1c04f2b0a6a5.html
Заголовок, (Title) документа по адресу, URL1:
Web archiving - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)