Jump to content

Херитрикс

Херитрикс
Стабильная версия
3.4.0-20220727 [1]  Отредактируйте это в Викиданных / 28 июля 2022 г .; 22 месяца назад ( 28 июля 2022 г. )
Репозиторий
Написано в Ява
Операционная система Linux / Unix-подобный / Windows (не поддерживается)
Тип Веб-сканер
Лицензия Лицензия Апач
Веб-сайт github /интернетархив /heritrix3 /неделя

Heritrix — это веб-сканер, предназначенный для веб-архивирования . Об этом написал Интернет-архив . Он доступен по лицензии свободного программного обеспечения и написан на Java . Доступ к основному интерфейсу осуществляется через веб-браузер , а инструмент командной строки для запуска сканирования можно дополнительно использовать .

Heritrix был разработан совместно Интернет-архивом и национальными библиотеками Северных стран на основе спецификаций, написанных в начале 2003 года. Первый официальный выпуск состоялся в январе 2004 года, и он постоянно совершенствовался сотрудниками Интернет-архива и другими заинтересованными сторонами.

В течение многих лет Heritrix не был основным сканером, используемым для сканирования содержимого веб-коллекции Интернет-архива. [2] Крупнейшим участником коллекции по состоянию на 2011 год является Alexa Internet . [2] Alexa сканирует сеть в своих целях, [2] с помощью сканера с именем ia_archiver . Затем Алекса передает материал в Интернет-архив. [2] Интернет-архив сам частично сканировал данные с помощью Heritrix, но только в меньших масштабах. [2]

Начиная с 2008 года, Интернет-архив начал повышать производительность, чтобы выполнять собственное широкомасштабное сканирование, и теперь собирает большую часть своего контента. [3] [ не удалось пройти проверку ]

Проекты Heritrix использованием с

Ряд организаций и национальных библиотек используют Heritrix, среди них: [ нужна ссылка ]

Файлы Arc [ править ]

Более старые версии Heritrix по умолчанию хранили веб-ресурсы, которые он сканирует, в файле Arc. Этот формат файла совершенно не связан с ARC (форматом файла) . Этот формат используется Интернет-архивом с 1996 года для хранения своих веб-архивов. В последнее время он по умолчанию сохраняется в формате файла WARC , который похож на ARC, но более точно указан и более гибок. Heritrix также можно настроить для хранения файлов в формате каталога, аналогичном искателю Wget , который использует URL-адрес для обозначения каталога и имени файла каждого ресурса.

Файл Arc хранит несколько архивных ресурсов в одном файле, чтобы избежать управления большим количеством небольших файлов. Файл состоит из последовательности записей URL, каждая из которых имеет заголовок, содержащий метаданные о том, как был запрошен ресурс, за которым следуют заголовок HTTP и ответ. Размер файлов Arc варьируется от 100 до 600 МБ. [ нужна ссылка ]

Пример:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

Инструменты для обработки файлов Arc [ править ]

Heritrix включает в себя инструмент командной строки под названием arcreader , который можно использовать для извлечения содержимого файла Arc. Следующая команда выводит список всех URL-адресов и метаданных, хранящихся в данном файле Arc (в формате CDX ):

arcreader IA-2006062.arc

Следующая команда извлекает hello.html из приведенного выше примера, предполагая, что запись начинается со смещения 140:

arcreader -o 140 -f dump IA-2006062.arc

Другие инструменты:

Инструменты командной строки [ править ]

Heritrix поставляется с несколькими инструментами командной строки:

  • htmlextractor — отображает ссылки, которые Heritrix извлекает для заданного URL-адреса.
  • hoppath.pl – воссоздает путь перехода (путь ссылок) к указанному URL-адресу из завершенного сканирования.
  • Manifest_bundle.pl — объединяет все ресурсы, на которые ссылается файл манифеста сканирования, в несжатый или сжатый tar-шар.
  • cmdline-jmxclient – ​​включает управление Heritrix из командной строки.
  • arcreader – извлекает содержимое файлов ARC (см. выше)

Дополнительные инструменты доступны в рамках проекта warctools Интернет-архива. [6]

См. также [ править ]

Ссылки [ править ]

На момент редактирования в этой статье используется контент из «Re: Контроль над Интернет-архивом, помимо просто «Запретить /»?» , который лицензируется таким образом, чтобы его можно было повторно использовать в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 Unported License , но не в соответствии с GFDL . Все соответствующие условия должны быть соблюдены.

  1. ^ «Релиз 3.4.0-20220727» . 28 июля 2022 г. Проверено 5 октября 2022 г.
  2. ^ Jump up to: Перейти обратно: а б с д и Крис (6 сентября 2011 г.). «Re: Контроль над Интернет-архивом, кроме просто «Запретить /»?» . Обмен стеками для профессиональных веб-мастеров . Стек Биржа, Inc. Проверено 7 января 2013 г.
  3. ^ «Wayback Machine: теперь с 240 000 000 000 URL-адресов — блоги Интернет-архива» . blog.archive.org . Проверено 11 сентября 2017 г.
  4. ^ «О программе — Веб-архивирование (Библиотека Конгресса)» . www.loc.gov . Проверено 29 октября 2017 г.
  5. ^ «Технические аспекты веб-архивирования - Koninklijke Bibliotheek» . www.kb.nl. ​Проверено 11 сентября 2017 г.
  6. ^ "варктулс" . 25 августа 2017 года . Проверено 11 сентября 2017 г. - через GitHub.
  1. Бёрнер, М. (1997). «Ползём в вечность – создаём архив Всемирной паутины» . Веб-техники . 2 (5). Архивировано из оригинала 1 января 2008 года.
  2. Мор Г., Кимптон М., Стек М., Ранитович И. (2004). «Знакомство с Heritrix, веб-сканером архивного качества» (PDF) . Материалы 4-го Международного семинара по веб-архивированию (IWAW'04) . Архивировано из оригинала (PDF) 12 июня 2011 г. Проверено 9 марта 2007 г. {{cite conference}}: CS1 maint: несколько имен: список авторов ( ссылка )
  3. Сигурдссон, К. (2005). «Поэтапное сканирование с помощью Heritrix» (PDF) . Материалы 5-го Международного семинара по веб-архивированию (IWAW'05) . Архивировано из оригинала (PDF) 12 июня 2011 г. Проверено 23 июня 2006 г.

Внешние ссылки [ править ]

Инструменты Интернет-архива:

Ссылки на соответствующие инструменты:

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: adfd3565343b5610d5810834b5c0c109__1714039200
URL1:https://arc.ask3.ru/arc/aa/ad/09/adfd3565343b5610d5810834b5c0c109.html
Заголовок, (Title) документа по адресу, URL1:
Heritrix - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)