Херитрикс
Стабильная версия | 3.4.0-20220727 [1]
/ 28 июля 2022 г |
---|---|
Репозиторий | |
Написано в | Ява |
Операционная система | Linux / Unix-подобный / Windows (не поддерживается) |
Тип | Веб-сканер |
Лицензия | Лицензия Апач |
Веб-сайт | github |
Heritrix — это веб-сканер, предназначенный для веб-архивирования . Об этом написал Интернет-архив . Он доступен по лицензии свободного программного обеспечения и написан на Java . Доступ к основному интерфейсу осуществляется через веб-браузер , а инструмент командной строки для запуска сканирования можно дополнительно использовать .
Heritrix был разработан совместно Интернет-архивом и национальными библиотеками Северных стран на основе спецификаций, написанных в начале 2003 года. Первый официальный выпуск состоялся в январе 2004 года, и он постоянно совершенствовался сотрудниками Интернет-архива и другими заинтересованными сторонами.
В течение многих лет Heritrix не был основным сканером, используемым для сканирования содержимого веб-коллекции Интернет-архива. [2] Крупнейшим участником коллекции по состоянию на 2011 год является Alexa Internet . [2] Alexa сканирует сеть в своих целях, [2] с помощью сканера с именем ia_archiver . Затем Алекса передает материал в Интернет-архив. [2] Интернет-архив сам частично сканировал данные с помощью Heritrix, но только в меньших масштабах. [2]
Начиная с 2008 года, Интернет-архив начал повышать производительность, чтобы выполнять собственное широкомасштабное сканирование, и теперь собирает большую часть своего контента. [3] [ не удалось пройти проверку ]
Проекты Heritrix использованием с
Ряд организаций и национальных библиотек используют Heritrix, среди них: [ нужна ссылка ]
- Австрийская национальная библиотека , веб-архив
- Александрийской библиотеки Интернет-архив
- Национальная библиотека Франции
- Британская библиотека
- Служба веб-архивирования Калифорнийской цифровой библиотеки
- CiteSeerX
- Документирование Интернета2
- Фонд Интернет-памяти
- Библиотека и архивы Канады
- Библиотека Конгресса [4]
- Национальная и университетская библиотека Исландии
- Национальная библиотека Финляндии
- Национальная библиотека Новой Зеландии
- Королевская библиотека Нидерландов (Koninklijke Bibliotheek) [5]
- Netarkivet.dk
- Национальная библиотека Израиля
Файлы Arc [ править ]
Более старые версии Heritrix по умолчанию хранили веб-ресурсы, которые он сканирует, в файле Arc. Этот формат файла совершенно не связан с ARC (форматом файла) . Этот формат используется Интернет-архивом с 1996 года для хранения своих веб-архивов. В последнее время он по умолчанию сохраняется в формате файла WARC , который похож на ARC, но более точно указан и более гибок. Heritrix также можно настроить для хранения файлов в формате каталога, аналогичном искателю Wget , который использует URL-адрес для обозначения каталога и имени файла каждого ресурса.
Файл Arc хранит несколько архивных ресурсов в одном файле, чтобы избежать управления большим количеством небольших файлов. Файл состоит из последовательности записей URL, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следуют заголовок HTTP и ответ. Размер файлов Arc варьируется от 100 до 600 МБ. [ нужна ссылка ]
Пример:
filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length
http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html
<html>
Hello World!!!
</html>
Инструменты для обработки файлов Arc [ править ]
Heritrix включает в себя инструмент командной строки под названием arcreader , который можно использовать для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в данном файле Arc (в формате CDX ):
arcreader IA-2006062.arc
Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:
arcreader -o 140 -f dump IA-2006062.arc
Другие инструменты:
Инструменты командной строки [ править ]
Heritrix поставляется с несколькими инструментами командной строки:
- htmlextractor — отображает ссылки, которые Heritrix извлекает для заданного URL-адреса.
- hoppath.pl – воссоздает путь перехода (путь ссылок) к указанному URL-адресу из завершенного сканирования.
- Manifest_bundle.pl — объединяет все ресурсы, на которые ссылается файл манифеста сканирования, в несжатый или сжатый tar-шар.
- cmdline-jmxclient – включает управление Heritrix из командной строки.
- arcreader – извлекает содержимое файлов ARC (см. выше)
Дополнительные инструменты доступны в рамках проекта warctools Интернет-архива. [6]
См. также [ править ]
Ссылки [ править ]
На момент редактирования в этой статье используется контент из «Re: Контроль над Интернет-архивом, помимо просто «Запретить /»?» , который лицензируется таким образом, чтобы его можно было повторно использовать в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в соответствии с GFDL . Все соответствующие условия должны быть соблюдены.
- ^ «Релиз 3.4.0-20220727» . 28 июля 2022 г. Проверено 5 октября 2022 г.
- ^ Jump up to: Перейти обратно: а б с д и Крис (6 сентября 2011 г.). «Re: Контроль над Интернет-архивом, кроме просто «Запретить /»?» . Обмен стеками для профессиональных веб-мастеров . Стек Биржа, Inc. Проверено 7 января 2013 г.
- ^ «Wayback Machine: теперь с 240 000 000 000 URL-адресов — блоги Интернет-архива» . blog.archive.org . Проверено 11 сентября 2017 г.
- ^ «О программе — Веб-архивирование (Библиотека Конгресса)» . www.loc.gov . Проверено 29 октября 2017 г.
- ^ «Технические аспекты веб-архивирования - Koninklijke Bibliotheek» . www.kb.nl. Проверено 11 сентября 2017 г.
- ^ "варктулс" . 25 августа 2017 года . Проверено 11 сентября 2017 г. - через GitHub.
- Бёрнер, М. (1997). «Ползём в вечность – создаём архив Всемирной паутины» . Веб-техники . 2 (5). Архивировано из оригинала 1 января 2008 года.
- Мор Г., Кимптон М., Стек М., Ранитович И. (2004). «Знакомство с Heritrix, веб-сканером архивного качества» (PDF) . Материалы 4-го Международного семинара по веб-архивированию (IWAW'04) . Архивировано из оригинала (PDF) 12 июня 2011 г. Проверено 9 марта 2007 г.
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - Сигурдссон, К. (2005). «Поэтапное сканирование с помощью Heritrix» (PDF) . Материалы 5-го Международного семинара по веб-архивированию (IWAW'05) . Архивировано из оригинала (PDF) 12 июня 2011 г. Проверено 23 июня 2006 г.
Внешние ссылки [ править ]
Инструменты Интернет-архива:
- Херитрикс — официальная вики
- NutchWAX — поиск по коллекциям веб-архивов
- Wayback (Wayback Machine с открытым исходным кодом) — поиск и навигация по коллекциям веб-архивов с помощью NutchWax.
Ссылки на соответствующие инструменты:
- Формат файла дуги
- Как запустить Heritrix в Windows
- WERA (доступ к веб-архивам) — поиск и навигация по коллекциям веб-архивов с помощью NutchWAX.