Веб-архивирование

Веб-архивирование — это процесс сбора частей Всемирной паутины информации для обеспечения сохранения в архиве для будущих исследователей, историков и общественности. Веб-архивисты обычно используют веб-сканеры для автоматического сбора данных из-за огромного размера и количества информации в Интернете. Крупнейшей организацией веб-архивирования, основанной на массовом сканировании, является Wayback Machine , которая стремится поддерживать архив всей сети.

Растущая часть человеческой культуры, созданная и записанная в сети, делает неизбежным то, что все больше и больше библиотек и архивов будут сталкиваться с проблемами веб-архивирования. ^[1] Национальные библиотеки , национальные архивы и различные консорциумы организаций также участвуют в архивировании культурно значимого веб-контента.

Коммерческое программное обеспечение и услуги веб-архивирования также доступны организациям, которым необходимо архивировать собственный веб-контент для целей корпоративного наследия, нормативных или юридических целей.

История и развитие

Хотя курирование и организация Интернета преобладали с середины до конца 1990-х годов, одним из первых крупномасштабных проектов веб-архивирования был Интернет-архив , некоммерческая организация, созданная Брюстером Кале в 1996 году. ^[2] Интернет-архив выпустил собственную поисковую систему для просмотра архивного веб-контента Wayback Machine в 2001 году. ^[2] По состоянию на 2018 год в Интернет-архиве хранилось 40 петабайт данных. ^[3] Интернет-архив также разработал множество собственных инструментов для сбора и хранения своих данных, в том числе PetaBox для эффективного и безопасного хранения больших объемов данных, а также Heritrix , веб-сканер, разработанный совместно с национальными библиотеками Северных стран. ^[2] Другие проекты, запущенные примерно в то же время, включали проект веб-архивирования Национальной библиотеки Канады , австралийской Pandora , веб-архивов Тасмании и шведской Kulturarw3. ^[4]^[5]

С 2001 по 2010 год, ^{[ не удалось пройти проверку ]} Международный семинар по веб-архивированию (IWAW) предоставил платформу для обмена опытом и идеями. ^[6]^[7] Международный консорциум по сохранению Интернета (IIPC), созданный в 2003 году, способствовал международному сотрудничеству в разработке стандартов и инструментов с открытым исходным кодом для создания веб-архивов. ^[8]

Ныне несуществующий Фонд Интернет-памяти был основан в 2004 году Европейской комиссией для архивирования Интернета в Европе. ^[2] В рамках этого проекта было разработано и выпущено множество инструментов с открытым исходным кодом, таких как «сбор мультимедийных материалов, анализ временной согласованности, оценка спама и обнаружение эволюции терминологии». ^[2] Данные фонда сейчас хранятся в Интернет-архиве, но в настоящее время недоступны публично. ^[9]

Несмотря на отсутствие централизованной ответственности за его сохранение, веб-контент быстро становится официальной записью. Например, в 2017 году Министерство юстиции США подтвердило, что правительство рассматривает твиты президента как официальные заявления. ^[10]

Методы сбора

Веб-архивисты обычно архивируют различные типы веб-контента, включая HTML веб-страницы , таблицы стилей , JavaScript , изображения и видео . Они также архивируют метаданные о собранных ресурсах, такие как время доступа, тип MIME и длина контента. Эти метаданные полезны для установления подлинности и происхождения архивной коллекции.

Транзакционное архивирование

Транзакционное архивирование — это подход, управляемый событиями, который собирает фактические транзакции, происходящие между веб-сервером и веб-браузером . В первую очередь он используется как средство сохранения данных о контенте, который был фактически просмотрен на определенном веб-сайте в определенную дату. Это может быть особенно важно для организаций, которым необходимо соблюдать законодательные или нормативные требования по раскрытию и хранению информации. ^[11]

Система транзакционного архивирования обычно работает путем перехвата каждого HTTP- запроса и ответа от веб-сервера, фильтрации каждого ответа для устранения дублированного контента и постоянного сохранения ответов в виде битовых потоков.

Трудности и ограничения

Краулеры

Веб-архивы, для которых сканирование веб-страниц является основным средством сбора информации в Интернете, испытывают на себе трудности, связанные с сканированием веб-страниц:

Протокол исключения роботов может запрещать сканерам доступ к частям веб-сайта. Некоторые веб-архивисты могут проигнорировать запрос и все равно просканировать эти части.
Большие части веб-сайта могут быть скрыты в глубокой паутине . Например, страница результатов за веб-формой может находиться в глубокой сети, если сканеры не могут перейти по ссылке на страницу результатов.
Ловушки для сканеров (например, календари) могут привести к тому, что сканер загрузит бесконечное количество страниц, поэтому сканеры обычно настраиваются так, чтобы ограничивать количество динамических страниц, которые они сканируют.
Большинство инструментов архивирования не сохраняют страницу в том виде, в каком она есть. Замечено, что рекламные баннеры и изображения часто теряются при архивировании.

Однако важно отметить, что веб-архив собственного формата, то есть полностью доступный для просмотра веб-архив с рабочими ссылками, мультимедиа и т. д., действительно возможен только с использованием технологии сканирования.

Сеть настолько велика, что для сканирования значительной ее части требуется большое количество технических ресурсов. Кроме того, Интернет меняется так быстро, что некоторые части веб-сайта могут подвергнуться изменениям еще до того, как сканер завершит его сканирование.

Общие ограничения

Некоторые веб-серверы настроены так, чтобы возвращать на запросы веб-архиватора другие страницы, чем в ответ на обычные запросы браузера. Обычно это делается для того, чтобы обмануть поисковые системы и заставить их направлять больше пользовательского трафика на веб-сайт, а также во избежание ответственности или для предоставления расширенного контента только тем браузерам, которые могут его отображать.

Веб-архивисты должны не только решать технические проблемы веб-архивирования, но и бороться с законами об интеллектуальной собственности. Питер Лайман ^[12] заявляет, что «хотя Интернет широко рассматривается как ресурс, являющийся общественным достоянием , он защищен авторским правом ; таким образом, архивариусы не имеют законного права копировать Интернет». Однако национальные библиотеки в некоторых странах ^[13] имеют законное право копировать части Интернета в рамках продления обязательного экземпляра .

Некоторые частные некоммерческие веб-архивы, которые стали общедоступными, например WebCite , Internet Archive или Internet Memory Foundation, позволяют владельцам контента скрывать или удалять архивный контент, к которому они не хотят, чтобы публика имела доступ. Другие веб-архивы доступны только из определенных мест или их использование регулируется. WebCite ссылается на недавний иск против кэширования Google, который Google выиграл. ^[14]

Законы

В 2017 году Управление по регулированию финансовой индустрии, Inc. (FINRA), финансовая регулирующая организация США, опубликовало уведомление, в котором говорится, что все предприятия, занимающиеся цифровыми коммуникациями, обязаны вести учет. Сюда входят данные веб-сайтов, публикации в социальных сетях и сообщения. ^[15] Некоторые законы об авторском праве могут запрещать веб-архивирование. Например, академическое архивирование Sci-Hub выходит за рамки современного закона об авторском праве. Сайт обеспечивает постоянный доступ к научным работам, в том числе к тем, которые не имеют лицензии открытого доступа , и тем самым способствует архивированию научных исследований, которые в противном случае могут быть потеряны. ^[16]^[17]

См. также

Общая библиография

Браун, А. (2006). Архивирование веб-сайтов: Практическое руководство для специалистов по управлению информацией . Лондон: Издательство Facet. ISBN 978-1-85604-553-7 .
Брюггер, Н. (2005). Архивирование веб-сайтов. Общие соображения и стратегии . Орхус: Центр интернет-исследований. ISBN 978-87-990507-0-3 . Архивировано из оригинала 29 января 2009 года.
Дэй, М. (2003). «Сохранение структуры нашей жизни: обзор инициатив по сохранению Интернета» (PDF) . Исследования и передовые технологии для электронных библиотек . Конспекты лекций по информатике. Том. 2769. стр. 461–472. дои : 10.1007/978-3-540-45175-4_42 . ISBN 978-3-540-40726-3 .
Эйзенбах Г. и Трудель М. (2005). «Идем, идем, все еще здесь: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): е60. дои : 10.2196/jmir.7.5.e60 . ПМК 1550686 . ПМИД 16403724 .
Фитч, Кент (2003). «Архивирование веб-сайта — подход к записи каждого существенно отличающегося ответа, создаваемого веб-сайтом» . Аусвеб 03 . Архивировано из оригинала 20 июля 2003 года . Проверено 27 сентября 2006 г.
Джейкоби, Роберт (19 августа 2010 г.). «Архивирование веб-страницы» . Архивировано из оригинала 3 января 2011 года . Проверено 23 октября 2010 г.
Лайман, П. (2002). «Архивирование Всемирной паутины» . Создание национальной стратегии сохранения: проблемы архивирования цифровых медиа .
Масанес, Ж.), изд. (2006). Веб-архивирование . Берлин: Springer-Verlag . ISBN 978-3-540-23338-1 .
Пеннок, Морин (2013). Веб-архивирование . Отчеты о наблюдении за технологиями ЦОД. Великобритания: Коалиция по сохранению цифровой информации . дои : 10.7207/twr13-01 . ISSN 2048-7916 .
Тойода, М.; Кицурегава, М. (2012). «История веб-архивирования» . Труды IEEE . 100 (специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 .

Ссылки

^ Трумэн, Гейл (2016). «Сканирование среды веб-архивирования» . Гарвардская библиотека .
^ Jump up to: ^а ^б ^с ^д ^и Тойода, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219 .
^ «Внутри Wayback Machine, капсулы времени Интернета» . Суета . 28 сентября 2018 г. сек. Путь назад . Проверено 21 июля 2020 г.
^ Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9 . S2CID 24303455 .
^ Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим» . Справочник по интернет-исследованиям (1-е изд.). Уайли. стр. 24–42. дои : 10.1002/9781444314861 . ISBN 978-1-4051-8588-2 .
^ «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 г.
^ «IWAW — Международные семинары по веб-архивированию» . bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 года . Проверено 19 августа 2019 г.
^ «О ИИПК» . ИИПК . Проверено 17 апреля 2022 г.
^ «Фонд Интернет-памяти: Бесплатная сеть: бесплатная загрузка, заимствование и потоковая передача» . archive.org . Интернет-архив . Проверено 21 июля 2020 г.
^ Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . Исторические партнеры . Проверено 14 июля 2019 г.
^ Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Фасет. ISBN 978-1-78330-053-2 . OCLC 1064574312 .
^ Лайман (2002)
^ «Обязательный депозит | ИИПК» . netpreserve.org . Архивировано из оригинала 16 марта 2017 года . Проверено 31 января 2017 г.
^ «Часто задаваемые вопросы по WebCite» . Вебцитация.org . Проверено 20 сентября 2018 г.
^ «Социальные сети и цифровые коммуникации» (PDF) . finra.org . ФИНРА.
^ Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Интернет-архив готов заполнить пробелы» . Регистр .
^ Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационных наук и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . дои : 10.1002/ASI.24460 . S2CID 221340749 .

Внешние ссылки

Ресурсы библиотеки о
Веб-архивирование

Международный консорциум по сохранению Интернета (IIPC) — Международный консорциум, миссия которого состоит в том, чтобы приобретать, сохранять и делать доступными знания и информацию из Интернета для будущих поколений.
Национальная библиотека Австралии, сохранение доступа к цифровой информации (PADI)
Библиотека Конгресса — Веб-архивирование

[1] Трумэн, Гейл (2016). «Сканирование среды веб-архивирования» . Гарвардская библиотека .

[kitsuregawa-2] Jump up to: ^а ^б ^с ^д ^и Тойода, М.; Кицурегава, М. (май 2012 г.). «История веб-архивирования» . Труды IEEE . 100 (Специальный столетний выпуск): 1441–1443. дои : 10.1109/JPROC.2012.2189920 . ISSN 0018-9219 .

[3] «Внутри Wayback Machine, капсулы времени Интернета» . Суета . 28 сентября 2018 г. сек. Путь назад . Проверено 21 июля 2020 г.

[4] Коста, Мигель; Гомес, Дэниел; Сильва, Марио Х. (сентябрь 2017 г.). «Эволюция веб-архивирования». Международный журнал цифровых библиотек . 18 (3): 191–205. дои : 10.1007/s00799-016-0171-9 . S2CID 24303455 .

[:0-5] Консальво, Миа; Эсс, Чарльз, ред. (апрель 2011 г.). «Веб-архивирование – между прошлым, настоящим и будущим» . Справочник по интернет-исследованиям (1-е изд.). Уайли. стр. 24–42. дои : 10.1002/9781444314861 . ISBN 978-1-4051-8588-2 .

[6] «IWAW 2010: 10-й международный семинар по веб-архивированию» . www.wikicfp.com . Проверено 19 августа 2019 г.

[7] «IWAW — Международные семинары по веб-архивированию» . bibnum.bnf.fr . Архивировано из оригинала 20 ноября 2012 года . Проверено 19 августа 2019 г.

[8] «О ИИПК» . ИИПК . Проверено 17 апреля 2022 г.

[9] «Фонд Интернет-памяти: Бесплатная сеть: бесплатная загрузка, заимствование и потоковая передача» . archive.org . Интернет-архив . Проверено 21 июля 2020 г.

[10] Реджис, Камилла (4 июня 2019 г.). «Веб-архивирование: думаете, что Интернет постоянен? Подумайте еще раз» . Исторические партнеры . Проверено 14 июля 2019 г.

[11] Браун, Адриан (10 января 2016 г.). Архивирование веб-сайтов: практическое руководство для специалистов по управлению информацией . Фасет. ISBN 978-1-78330-053-2 . OCLC 1064574312 .

[12] Лайман (2002)

[13] «Обязательный депозит | ИИПК» . netpreserve.org . Архивировано из оригинала 16 марта 2017 года . Проверено 31 января 2017 г.

[14] «Часто задаваемые вопросы по WebCite» . Вебцитация.org . Проверено 20 сентября 2018 г.

[15] «Социальные сети и цифровые коммуникации» (PDF) . finra.org . ФИНРА.

[Claburn_2020-16] Клэберн, Томас (10 сентября 2020 г.). «Журналы открытого доступа исчезают из сети, Интернет-архив готов заполнить пробелы» . Регистр .

[17] Лааксо, Микаэль; Матиас, Лиза; Ян, Найко (2021). «Открытость не навсегда: исследование исчезнувших журналов открытого доступа». Журнал Ассоциации информационных наук и технологий . 72 (9): 1099–1112. arXiv : 2008.11933 . дои : 10.1002/ASI.24460 . S2CID 221340749 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

v т и Цифровое сохранение
Concepts	Artifactual value Curation Dark age Obsolescence Open Archival Information System
Techniques	Forensics Emulation
By type	Artworks Email Video games Websites
Organizations	Arctic World Archive Computer museums Digital Curation Centre National Digital Information Infrastructure and Preservation Program (US)
Lists	Preservation initiatives Timeline Timeline of audio formats Web archiving initiatives
Category

v т и Культурное наследие и сохранение исторического наследия
Topics and issues	Agents of deterioration Archival processing Archaeological science Archaeology Archive Bioarchaeology Calendar (archives) Conservation and restoration of cultural property Conservation and restoration of immovable cultural property Conservation and restoration of movable cultural property Conservation science (cultural property) Collecting Collection (museum) Collection catalog Collections maintenance Collections management Collections management system Cultural heritage Cultural heritage management Cultural property Cultural property documentation Cultural property exhibition Cultural property imaging Cultural property storage Cultural resources management Database preservation Deaccessioning (museum) Digital library Digital photograph restoration Digital preservation Disaster preparedness (cultural property) Film preservation Finding aid Fonds Found in collection Heritage asset Heritage science Inherent vice Intangible cultural heritage Integrated pest management (cultural property) Inventory (library and archive) Inventory (museum) Media preservation Midden Mold control and prevention (library and archive) Museum Optical media preservation Preservation (library and archive) Preservation metadata Preservation survey Provenance Repatriation Ruins Sustainable preservation Treasure Web archiving
Roles and expertise	Archivist Art dealer Art handler Auctioneer Collection manager Conservator-restorer Conservation scientist Conservation technician Curator Exhibition designer Mount maker Objects conservator Paintings conservator Photograph conservator Preservationist Registrar (cultural property) Textile conservator
Methods and techniques	Aging (artwork) Anastylosis Arrested decay Cradling (paintings) Cultural property radiography Detachment of wall paintings Desmet method Display case Digital repository audit method based on risk assessment Historic paint analysis Inpainting Kintsugi Leafcasting Lining of paintings Mass deacidification Overpainting Paleo-inspiration Paper splitting Reconstruction (architecture) Rissverklebung Textile stabilization Transfer of panel paintings UVC-based preservation VisualAudio
Conservation and restoration of immovable cultural property by item type	Archaeological sites Frescos Heritage railways Historic gardens Outdoor artworks Outdoor bronze objects Outdoor murals
Conservation and restoration of movable cultural property by item type	Aircraft Ancient Greek pottery Bone, horn, and antler objects Books, manuscripts, documents and ephemera Ceramic objects Clocks Copper-based objects Feathers Film Flags and banners Fur objects Glass objects Herbaria Human remains Illuminated manuscripts Insect specimens Iron and steel objects Ivory objects Judaica Lacquerware Leather objects Lighthouses Metals Musical instruments Neon objects New media art Paintings Painting frames Panel paintings Papyrus Parchment Performance art Photographs Photographic plates Plastic objects Rail vehicles Road vehicles Shipwreck artifacts Silver objects South Asian household shrines Stained glass Taxidermy Textiles Tibetan thangkas Time-based media art Totem poles Vinyl discs Woodblock prints Wooden artifacts Wooden furniture
Intangible cultural heritage preservation	Ancient music Applied folklore Dance notation Early music Endangered language Ethnochoreology Ethnomusicology Ethnopoetics Family folklore Folklore Folk art Folk dance Folk etymology Folk instrument Folk medicine Folk music Folk process Folk play Foodways Folklore studies Heritage language Heritage language learning Indigenous intellectual property Indigenous culture Indigenous language Language death Language preservation Language revitalization Living history Oral history preservation Preservation of meaning Primitive music Tradition preservation Traditional knowledge
Notable projects	Conservation issues of Pompeii and Herculaneum Conservation-restoration of Ecce Homo by Elías García Martínez Conservation-restoration of The Gross Clinic by Thomas Eakins Conservation-restoration of Leonardo da Vinci's The Last Supper Pompeian frescoes Conservation-restoration of the Shroud of Turin Conservation-restoration of the Sistine Chapel frescoes Conservation-restoration of the Statue of Liberty Conservation-restoration of the H.L. Hunley Conservation response to flood of Arno, Florence Modern and Contemporary Art Research Initiative Preservation Metadata: Implementation Strategies

Базы данных авторитетного контроля
International	FAST
National	Israel Japan Czech Republic