Arc.Ask3.Ru : Список веб-архивов в Википедии.
Это технический документ для тех, кто создает ботов, которым нужна помощь с форматами URL-адресов и т. д. См. «Справка: Архивирование источника» для получения информации об использовании этих служб архивирования. |
Список известных веб-архивов используемых служб в английской Википедии. Сортировка примерно по количеству использований, от большего к меньшему. Wayback Machine составляет около 80% от общего количества. Данные первоначально собраны пользователем:GreenC по состоянию на март 2017 года. Обновления и исправления приветствуются.
Архивные услуги
[ редактировать ]Интернет-архив Wayback Machine
[ редактировать ]- Статья: Wayback Machine
- Домен: archive.org, waybackmachine.org.
- Запущен: 2001 г.
- Диапазон дат: 1996-
- Имя хоста: <нет>, web, wayback, liveweb, www, www.web, classic-web, web-beta, replay, replay.web, web.wayback
- Путь: <нет>, Интернет
- Временная метка: номер 1 цифра; 4–14 цифр. Или "*". Или "?". Или комбинация. Также может содержать конечные символы, такие как «re_» для (?), «if_» для кадров и «im_» для изображений. Если временная метка отсутствует, возвращается лучшая доступная страница.
- Примеры:
- Самый старый:
- Новейшие:
- Индекс:
- Отправить страницу:
- Интервал между ручными захватами: 1 час.
- Поиск по префиксу (за исключением знака вопроса в строках запроса )
Archive.Today
[ редактировать ]- Статья: archive.today
- Домен: .today, .is, .fo, .li, .vn, .md, .ph.
- Запущен: 2012 г.
- Имя хоста: <нет>, www
- Путь: <нет>
- Временная метка: 4–14 цифр; или цифры + символы (см. пример)
- Примеры:
- http://archive.is/20130101/http ..
- http://archive.is/2013.04.17-12:08:20/http ..
- http://archive.is/http .. (главная страница)
- Отправить страницу: http://archive.today/?run=1&url= ... (требуется JavaScript)
- Интервал между ручными захватами: 1 неделя.
- Поиск префиксов по скриншотам предварительного просмотра
- История страниц со скриншотами предварительного просмотра
Archive.Today представляет захваченные страницы в виде статического снимка, отображаемого сервером Archive.Today, и использует макет фиксированной ширины. Ресурсы страницы, такие как файлы JavaScript и CSS, не сохраняются отдельно. Например, стиль из отдельного файла CSS преобразуется во встроенный стиль CSS, встроенный в исходный код HTML.
Архивированные страницы изначально обслуживаются в формате короткого URL-адреса — идентификатора, состоящего из пяти буквенно-цифровых символов с учетом регистра и четырех символов в ранних записях с 2012 года.
Чтобы получить длинный URL-адрес с отметкой времени и исходным URL-адресом, нажмите «Поделиться» в верхнем меню или добавьте « /share
" на URL-адрес. Полный URL-адрес указан в окне.
Если страница перенаправления сохранена, Archive.Today сохраняет как URL-адрес страницы перенаправления, так и URL-адрес цели перенаправления. Заархивированную страницу можно найти, введя любой URL.
- Дополнительные ограничения
С 2023 года копии страниц Archive.org можно сохранить только один раз. Это ограничение распространяется также на цифровую библиотеку (archive.org/details/), которая может быть изменена, а не только на Wayback Machine, страницы которой, за исключением редких исключений, в любом случае не подлежат изменению.
Если сообщение «Добро пожаловать в nginx!» появляется страница, это, очевидно, означает, что либо пользователь достиг предела скорости, либо сайт проводит работы по техническому обслуживанию.
Веб-цитирование (WebCite)
[ редактировать ]- Статья: WebCite
- Домен: webcitation.org
- Устарело — новые запросы на архивирование больше не принимаются. Сайт в целом нестабильен, заброшен, функции не работают.
- Имя хоста: <нет>, www
- Путь: base62ID, запрос, кэш, getfile.php, <номер>
- Временная метка: нет. Использует &date=2012-06-01+21:40:03 в запросе?url ; короткий идентификатор — base62, который преобразуется в время unix.
- Примеры:
- http://www.webcitation.org/gT64fd
- http://www.webcitation.org/66lmEkpE8?url=http://www.ariacharts.com.au/pages/charts_display_album.asp?chart%3D1G50
- http://www.webcitation.org/query?id=1138911916587475
- http://www.webcitation.org/query?url=http..&date=2012-06-01+21:40:03
- http://www.webcitation.org/1138911916587475
- http://www.webcitation.org/cache/73e53dd1f16cf8c5da298418d2a6e452870cf50e
- http://www.webcitation.org/getfile.php?fileid=1c46e791d68e89e12d0c2532cc3cf629b8bc8c8e
Национальный архив Великобритании
[ редактировать ]- Домен: nationalarchives.gov.uk.
- Имя хоста: веб-архив, ваши архивы
- Путь: <нет>
- Временная метка: 4–14 цифр.
- Примеры:
Австралийский веб-архив
[ редактировать ]- Статья: Австралийский веб-архив ( Trove )
- Домен: nla.gov.au
- Имя хоста: вебархив
- Путь: см. примеры. Путь первого уровня может содержать «awa» или «wayback». Путь второго уровня может содержать URL-адрес pandora.nla.gov.au с целевым URL-адресом третьего уровня, который может иметь или не иметь схему (http://). Или путь второго уровня может быть конечным целевым URL. URL-адрес специальной индексной страницы архива также доступен как «/tep/».
- Временная метка: два типа (20120727-0512, 20120326012340).
- Примеры:
- https://webarchive.nla.gov.au/awa/20120726200849/http://pandora.nla.gov.au/pan/14231/20120727-0512/www.howlspace.com.au/en2/inxs/inxs.htm
- https://webarchive.nla.gov.au/awa/20110824211656/http://pandora.nla.gov.au/pan/128344/20110810-1451/www.theaureview.com/guide/festivals/bam-festival-2010-ivorys-rock-qld.html
- https://webarchive.nla.gov.au/awa/20010328130000/http://www.howlspace.com.au/en2/arenatina/arenatina.htm
- https://webarchive.nla.gov.au/wayback/20120326012340/http://news.defence.gov.au/2011/09/09/army-airborne-insertion-capability/
- https://webarchive.nla.gov.au/gov/20070831165847/http://www.defence.gov.au/opacolyte/default.cfm
- https://webarchive.nla.gov.au/tep/23790 (перенаправление с http://pandora.nla.gov.au/tep/23790 ) .. индексная страница
- Примечание. Австралийский веб-архив включает в себя архив Пандоры , а также веб-архив правительства Австралии и Национальной библиотеки Австралии . архив
.au
домен. - Примечание: нет доступа к сувенирам.
НЛА Австралии (устарело)
[ редактировать ]- Устарело . Интегрировано в Австралийский веб-архив (Trove), указанный выше.
- Домен: nla.gov.au
- Имя хоста: pandora, trove, tep, webarchive, content.webarchive
- Путь: см. примеры. Регулярное выражение /pan/ должно быть
/pan/[0-9]{4,7}/
- Временная метка: три типа (20120727-0512, S2000-Dec-5, 20120326012340).
- Примеры:
- http://pandora.nla.gov.au/pan/14231/20120727-0512/www.howlspace.com.au/en2/inxs/inxs.htm
- http://pandora.nla.gov.au/pan/128344/20110810-1451/www.theaureview.com/guide/festivals/bam-festival-2010-ivorys-rock-qld.html
- http://pandora.nla.gov.au/nph-wb/20010328130000/http://www.howlspace.com.au/en2/arenatina/arenatina.htm
- http://pandora.nla.gov.au/nph-arch/2000/S2000-Dec-5/http://www.paralympic.org.au/athletes/athleteprofile60da.html
- http://pandora.nla.gov.au/tep/23790
- http://webarchive.nla.gov.au/gov/20120326012340/http://news.defence.gov.au/2011/09/09/army-airborne-insertion-capability/
- http://content.webarchive.nla.gov.au/gov/wayback/20120326012340/http://news.defence.gov.au/2011/09/09/army-airborne-insertion-capability
- Примечание. Не путать с URL-адресами, не относящимися к веб-архивам, которые выглядят похоже:
- Примечание: нет доступа к сувенирам.
Призрачный архив
[ редактировать ]- Домен: Ghostarchive.org
- Запущен: ~2021 г.
- Имя хоста: [нет]
- Путь: archive, varchive/<YouTube_video_ID>, iarchive/<Instagram_username>[/<Instagram_post_ID (необязательно)>]
- Временная метка: от 4 до 14 цифр.
- Примеры:
- https://ghostarchive.org/archive/fwAS7 (краткая форма)
- https://ghostarchive.org/archive/20210728022510/https://rms-support-letter.github.io/
- https://ghostarchive.org/varchive/UhCiGY75wVw (краткая форма)
- https://ghostarchive.org/varchive/youtube/20100711020000/UhCiGY75wVw
- https://ghostarchive.org/iarchive/instagram/georgemofficial/1374848874216391600
- https://ghostarchive.org/iarchive/s/instagram/BMUccRPg4Ow
- https://ghostarchive.org/archive/20210728022510/https://www.instagram.com/p/BMUccRPg4Ow/
- Примечание. Чтобы преобразовать краткую форму в длинную:
- Для обычных веб-страниц:
- Для страниц с видео, например YouTube:
- Чтобы найти самый ранний и последний доступный архив, используйте временную метку «1990» или «3000», например
- https://ghostarchive.org/archive/1990/https://rms-support-letter.github.io/ найдет самую раннюю архивированную копию этой веб-страницы, а
- https://ghostarchive.org/archive/3000/https://rms-support-letter.github.io/ найдет самую последнюю версию.
- Полная форма пути /archive/ будет работать для всех типов архивов, например https://ghostarchive.org/archive/20210728022510/https://youtube.com/watch?v=UhCiGY75wVw перенаправит на видео, а https ://ghostarchive.org/archive/20210728022510/https://www.instagram.com/p/BMUccRPg4Ow/ будет перенаправлен на изображение.
- Поиск префиксов по скриншотам предварительного просмотра
- История страниц со скриншотами предварительного просмотра
Ghost Archive использует формат WARC («веб-архив») для хранения сохраненных страниц, что означает возможность воссоздания дословного содержимого ресурсов страницы. При открытии Ghost Archive использует систему Webrecorder для максимально реалистичной имитации страницы. Альтернативно, страницу можно просмотреть в «noscript», то есть как статический HTML в законченном состоянии. Этот режим не требует JavaScript, совместим со старыми браузерами и загружается быстрее, однако некоторые функции страниц, использующие JavaScript, такие как нумерация страниц и свертываемые меню, недоступны.
Из-за строгого ограничения скорости в Instagram архивирование профилей Instagram может завершиться неудачей и привести к появлению пустой страницы. Если архивирование видео YouTube не удалось, отображается страница «Ошибка архивирования», и повторную попытку архивирования того же видео невозможно выполнить.
Вместе с видеороликами YouTube сохраняются их метаданные: дата публикации, описание и URL канала в /@
или /c
формат, в зависимости от того, какой доступен.
Если заархивированная страница перенаправляется на другой URL-адрес, отображается только целевой URL-адрес. Это означает, что заархивированную страницу нельзя открыть, введя URL-адрес страницы перенаправления.
Megalodon.jp
[ редактировать ]- Название сайта: веб гётаку
- Диапазон дат: 2007-
- Статья: Мегалодон (сайт)
- Домен: megalodon.jp
- Примеры: https://megalodon.jp/2023-0522-0234-30/https://gstreamer.freedesktop.org:443/download/
- Без поиска префиксов
Подобно Archive.Today, Megalodon.jp представляет заархивированные страницы в виде статического снимка HTML. Однако изображения конвертируются в BASE64. data:
URL-адреса внутри результирующих HTML-данных, и фиксированной ширины, такой как Archive.Today, не существует.
Megalodon позволяет пользователю решить, сохранять ли версию страницы для настольных компьютеров или мобильных устройств, то есть версию, которая отображается для пользователей настольных компьютеров и ноутбуков или для пользователей смартфонов.
Используя https://megalodon.jp/ (полный URL-адрес) (пример: https://megalodon.jp/https://gstreamer.freedesktop.org:443/download/ ), можно проверить, заархивировал ли Megalodon какую-либо копию определенного URL-адреса. . http и https рассматриваются отдельно.
Если заархивированная страница представляет собой перенаправление на другой URL-адрес, сохраняется только URL-адрес до перенаправления. В этом случае заархивированную страницу невозможно открыть, введя целевой URL ( пример ).
Заморозить страницу
[ редактировать ]- Домен: freepage.com
- Имя хоста: <нет>, www
- Путь: <нет>
- Временная метка: <нет> (доступно только через веб-скрейпинг)
- Примеры:
- Примечание. Если срок действия идентификатора учетной записи, создавшей снимок, истекает из-за отсутствия активности (нет входа в систему Freepage), снимок удаляется с сайта Freepage.com.
- Примечание: нет доступа к сувенирам.
Библиотека Конгресса
[ редактировать ]- Домен: loc.gov
- Имя хоста: вебархив
- Путь: all, lcwa####
- Временная метка: 4–14 цифр.
- Примеры:
Arquivo.pt (Португалия)
[ редактировать ]- Домен: arquivo.pt
- Имя хоста: <нет>
- Путь: wayback, wayback/wayback, noFrame/replay
- Временная метка: 4–14 цифр... может содержать «mp_», см. пример.
- Примеры:
Веб-архив Стэнфордского университета
[ редактировать ]- Домен: stanford.edu
- Имя хоста: своп
- Путь: был (необязательный, но стандартный)
- Временная метка: 4–14 цифр.
- Примеры:
Архив-Это
[ редактировать ]- Домен: archive-it.org
- Имя хоста: путь назад
- Путь: «все», 3–5-значное число; «org-», за которым следует 3–4-значное число.
- Временная метка: 4–14 цифр; «0» или «1» для самого старого; «2» для самого нового; "*" для индекса
- Примеры:
- Самый старый:
- Новейшие:
- Индекс:
БибАлекс
[ редактировать ]- Домен: bibalex.org:80
- Имя хоста: web.archive, web.petabox.
- Путь: Интернет
- Временная метка: 4–14 цифр.
- Примеры:
- Запись на портале: https://www.bibalex.org/isis/frontend/archive/archive_web.aspx.
- Примеры URL-адресов, приведенные выше, недоступны по состоянию на март 2024 года. Возможно, это временно.
ВикиВикс
[ редактировать ]- Домен: wikiwix.com
- Имя хоста: архив
- Путь: кэш
- Временная метка: 4–14 цифр.
- Примеры:
- Примечание. Не поддерживает Memento.
- Примечание. Доступ к API добавлен в марте 2018 года. Путем добавления &apiresponse=1 в конец URL-адреса. ( https://archive.wikiwix.com/cache/?url=http://www.linterweb.fr&apiresponse=1 ). Для этого может потребоваться кодирование любого другого символа & в разделе url=.
- Примечание. Поддерживается аргумент &title в конце URL-адреса, который не является частью исходного URL-адреса (аналогично &apiresponse). Дает название статьи Википедии, в которой используется ссылка (необязательно).
Национальный архив США
[ редактировать ]- Домен: webharvest.gov
- Имя хоста: <нет>
- Путь: <переменная>
- Временная метка: 4–14 цифр.
- Примеры:
Национальный архив Исландии
[ редактировать ]- Домен: vefsafn.is
- Имя хоста: путь назад
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
Архивы Европы, Ирландия (устарело)
[ редактировать ]- Покойный . В мае 2018 года все архивы были перемещены на Collections.internetmemory.org, а с сентября 2018 года все архивы снова были перемещены на Archive-It [1].
- Домен: europarchive.org.
- Имя хоста: коллекция
- Путь: нли
- Временная метка: 4–14 цифр.
- Пример перемещения:
Перма СС
[ редактировать ]- Домен: perma-archives.org, perma.cc.
- Имя хоста: <нет>
- Путь: <нет>, warc
- Временная метка: 4–14 цифр для perma-archives.org или идентификатор снимка.
- Примеры:
Веб-архивы Proni (устарело)
[ редактировать ]- Покойный . По состоянию на октябрь 2018 года все архивы перемещены в Archive-It [2].
- Домен: proni.gov.uk
- Имя хоста: вебархив
- Путь: <нет>
- Временная метка: 4–14 цифр.
- Примеры:
http://webarchive.proni.gov.uk/20111213123846/http
- Пример перемещения:
- Оригинал:
http://webarchive.proni.gov.uk/20100218151844/http://www.berr.gov.uk/
- Новое: http://wayback.archive-it.org/11112/20100218151844/http://www.berr.gov.uk/
- Оригинал:
Парламент Великобритании
[ редактировать ]- Домен: парламент.uk
- Имя хоста: вебархив
- Путь: <нет>
- Временная метка: 4–14 цифр.
- Примеры:
Веб-архив Великобритании (Британская библиотека)
[ редактировать ]- Домен: webarchive.org.uk.
- Имя хоста: www
- Путь: обратный путь/архив
- Временная метка: 4–14 цифр с возможностью добавления «mp_» в конце.
- Примеры:
Библиотеки и архивы Канады (устарело)
[ редактировать ]- Покойный . По состоянию на май 2018 г. все архивы перемещены на webarchive.bac-lac.gc.ca [3].
- Домен: Collectionscanada.gc.ca
- Имя хоста: www
- Путь: archivesweb, вебархивы
- Временная метка: 4–14 цифр.
- Примеры:
http://www.collectionscanada.gc.ca/webarchives/20061104084225/http://broadband.gc.ca/maps/province.html?prov=48
http://www.collectionscanada.gc.ca/archivesweb/20060209004933/http
- Примечание. Не путать с другими близкими вариантами URL. Сохранять только "/webarchives/" или "/archivesweb/".
- Пример перемещения:
- Оригинал:
http://www.collectionscanada.gc.ca/webarchives/20061104084225/http://broadband.gc.ca/maps/province.html?prov=48
- Новое: http://webarchive.bac-lac.gc.ca:8080/wayback/20061104084225/http://broadband.gc.ca/maps/province.html?prov=48 .
- Оригинал:
Библиотеки и архивы Канады (www.bac-lac.gc.ca)
[ редактировать ]- По состоянию на сентябрь 2022 года новый веб-сайт будет https://library-archives.canada.ca/eng . Большая часть сайта www.bac-lac.gc.ca может быть больше недоступна, но некоторые ссылки все еще работают, см.: [4]
- Домен: bac-lac.gc.ca:8080
- Имя хоста: веб-архив, www
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
- Примечание. Ранее — Collectionscanada.gc.ca, см. выше. По состоянию на сентябрь 2022 года ссылки с сайта Collectioncanada.gc.ca были полностью удалены LAC. [5]
Каталонский архив
[ редактировать ]- Домен: padi.cat(:8080)?
- Имя хоста: www, (нет)
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
Веб-архивы Сингапур
[ редактировать ]- Домен: nlb.gov.sg
- Имя хоста: ersources
- Путь: вебархивы/wayback
- Временная метка: 4–14 цифр.
- Примеры:
- https://eresources.nlb.gov.sg/webarchives/2016-04-25%2019:07:06.000/wp/details/http://www.lta.gov.sg/apps/news/page.aspx?c=2&id=2dzk9l67sx9j40a1rhgdw3hvhrnxgq3zh34l77r37dj4w72jf1
- https://eresources.nlb.gov.sg/webarchives/wayback/20160425174854/https://www.lta.gov.sg/apps/news/page.aspx?c=2&id=2dzk9l67sx9j40a1rhgdw3hvhrnxgq3zh34l77r37dj4w72jf1
- Примечание. Не путать с другими близкими вариантами URL. Сохранять только "/webarchives/wayback/"
Словенские архивы (онлайн)
[ редактировать ]- Домен: nuk.uni-lj.si:8080
- Имя хоста: nukrobi2 (может измениться)
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
Эстония Архив
[ редактировать ]- Домен: digar.ee
- Имя хоста: Веб-архив
- Путь: а
- Временная метка: 4–14 цифр.
- Примеры:
Баварские архивы
[ редактировать ]- Домен: bib-bvb.de
- Имя хоста: долгосрочное архивирование
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
Цифровая библиотека Йоркского университета
[ редактировать ]- Домен: yorku.ca
- Имя хоста: digital.library
- Путь: обратный путь
- Временная метка: 4–14 цифр.
- Примеры:
Национальная библиотека Израиля
[ редактировать ]- Домен: wayback.nli.org.il
- Путь: <нет>
- Временная метка: 14 цифр.
- Формат: http://wayback.nli.org.il/{14_digits}/{URL}
Видимо, плохое покрытие.
Другой
[ редактировать ]- Сувенирная сеть
- Примечание. Перенаправление на внешнюю службу архивирования на основе кэшированных данных в базе данных Memento, которые могут колебаться и/или быть неточными из-за рассинхронизации кеша с клиентской службой.
- Кэш Google (временный)
- Примечание. Срок действия ссылок быстро истекает.
- Примечание. Доступ к Memento недоступен.
- Кэш Bing (временный)
Доступен только через результаты поиска, а не вручную через URL-адрес или префикс поиска.
Недокументированный
[ редактировать ]- https://cachedview.nl/ [1]
- https://cachedview.com/ [2]
- http://www.cachedpages.com/ [2]
- https://commoncrawl.org/ [3]
- https://www.bravenewtech.org/ «Видеохранилище» [4] [5]
- https://conifer.rhizome.org/ [6]
- https://archive.st/ [7]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Архивы Пути» . Инструменты трассировки . Проверено 27 июня 2022 г.
- ^ Перейти обратно: а б Бедеров Игорь С. (8 мая 2022 г.). «Веб-архив как инструмент OSINT» . Середина . Проверено 27 июня 2022 г.
- ^ «Примеры использования общих данных сканирования» . Обычное сканирование . Проверено 27 июня 2022 г.
- ^ «Лаборатория прав» . Сайт rightslab.org . Проверено 27 июня 2022 г.
- ^ "правая лаборатория" . Твиттер . Проверено 27 июня 2022 г.
- ^ «Вебрекордер» . веб-рекордер.net . Проверено 27 июня 2022 г.
- ^ "wiki.Архивкоманда" . archiveteam.org . Проверено 27 июня 2022 г.