Ссылка гнилая
Гниль ссылок (также называемая смертью ссылки , разрушением ссылки или порчей ссылки ) — это явление, когда гиперссылки имеют тенденцию со временем переставать указывать на исходный целевой файл , веб-страницу или сервер из-за того, что этот ресурс перемещается на новый адрес или становится постоянно недоступен. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей , мертвой или потерянной ссылкой, представляет собой особую форму висячего указателя .
Скорость разрушения ссылок является предметом изучения и исследования из-за ее важности для способности Интернета сохранять информацию. Оценки этого показателя резко различаются в разных исследованиях. Специалисты в области информации предупреждают, что гниение ссылок может привести к исчезновению важных архивных данных, что потенциально может повлиять на правовую систему и науку.
Как правило, неработающие ссылки веб-сайта могут немедленно перенаправить пользователя на домашнюю страницу веб-сайта, что еще больше запутывает пользователей и затрудняет получение URL-адреса неработающей ссылки.
Распространенность
[ редактировать ]В ряде исследований изучалась распространенность гниения ссылок во Всемирной паутине используются , в научной литературе, в которой URL-адреса для цитирования веб-контента, а также в цифровых библиотеках .
Исследование внешних ссылок домашней страницы на миллион долларов , проведенное в 2023 году , показало, что 27% ссылок приводили к загрузке сайта без перенаправлений, 45% ссылок были перенаправлены, а 28% возвращали различные сообщения об ошибках. [1]
Исследование 2002 года показало, что разрушение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете: около 3% объектов перестают быть доступными через год. [2] (что соответствует периоду полураспада почти 23 года).
Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 ломается каждую неделю. [3] предполагая период полураспада 138 недель. Этот показатель во многом был подтвержден исследованием ссылок на Yahoo!, проведенным в 2016–2017 годах. Каталог (который прекратил обновляться в 2014 году после 21 года разработки), в котором период полураспада ссылок каталога составил два года. [4]
Исследование 2004 года показало, что подмножества веб-ссылок (например, ссылки на определенные типы файлов или ссылки, размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. [5] URL-адреса, выбранные для публикации, имеют больший срок действия, чем средний URL-адрес. Исследование, проведенное Weblock в 2015 году, проанализировало более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей с открытым доступом и выявило период полураспада около 14 лет. [6] в целом подтверждает исследование 2005 года, которое показало, что половина URL-адресов, цитируемых в статьях журнала D-Lib, были активны через 10 лет после публикации. [7] Другие исследования обнаружили более высокие показатели гниения ссылок в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. [8] [9] Исследование, проведенное в 2013 году в BMC Bioinformatics, проанализировало около 15 000 ссылок в тезисах из индекса цитирования Thomson Reuters Web of Science и обнаружило, что средний срок жизни веб-страниц составлял 9,3 года, и только 62% из них были заархивированы. [10] Исследование внешних ссылок в статьях New York Times , опубликованных в период с 1996 по 2019 год в 2021 году, выявило период полураспада около 15 лет (со значительными различиями между темами контента), но отметило, что 13% функциональных ссылок больше не ведут на исходный контент — явление, называемое дрейфом контента . [11]
Исследование 2013 года показало, что 49% ссылок в решениях Верховного суда США мертвы. [12]
Исследование 2023 года, посвященное информационным панелям США по COVID-19, показало, что 23% информационных панелей штатов, доступных в феврале 2021 года, больше не были доступны по предыдущим URL-адресам в апреле 2023 года. [13]
Pew Research обнаружила, что в 2023 году пропало 38% страниц 2013 года. Кроме того, в 2023 году 54% статей английской Википедии имели неработающую ссылку в разделе «Ссылки», а 23% новостных статей были связаны с неработающим URL-адресом. [14]
Причины
[ редактировать ]Гниль ссылок может возникнуть в результате нескольких событий. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переехать на новое доменное имя . Еще в 1999 году было отмечено, что при том объеме материала, который можно хранить на жестком диске, «отказ одного диска может быть подобен сожжению библиотеки в Александрии». [15] Регистрация доменного имени может истечь или быть передана другому лицу. Некоторые причины могут привести к тому, что ссылка не сможет найти какую-либо цель и вернет ошибку, например HTTP 404 . Другие причины могут привести к тому, что ссылка будет вести на целевой контент, отличный от того, который был задуман автором ссылки.
Другие причины неработающих ссылок включают в себя:
- реструктуризация веб-сайтов, которая приводит к изменению URL-адресов (например,
domain.net/pine_tree
может быть перенесен вdomain.net/tree/pine
) - перемещение ранее бесплатного контента за платный доступ [13]
- изменение в архитектуре сервера, которое приводит к тому, что код, такой как PHP, работает по-другому
- динамическое содержимое страницы, такое как результаты поиска, которое меняется в зависимости от дизайна
- удаление целевой страницы и/или ее содержимого
- наличие информации, специфичной для пользователя (например, имени пользователя) внутри ссылки
- преднамеренная блокировка фильтрами контента или брандмауэрами
- истечение срока регистрации доменного имени
Профилактика и обнаружение
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( Май 2024 г. ) |
Стратегии предотвращения порчи ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, цели которых были перемещены или удалены. [ нужна ссылка ]
Создание URL-адресов, которые не будут меняться со временем, является фундаментальным методом предотвращения гниения ссылок. Превентивное планирование отстаивали Тим Бернерс-Ли и другие пионеры Интернета. [16]
Стратегии, касающиеся авторства ссылок, включают:
- ссылки на первичные, а не вторичные источники и определение приоритета стабильных сайтов. [5]
- избегание ссылок, указывающих на ресурсы на личных страницах исследователей [7]
- использование чистых URL-адресов или иное использование нормализации URL-адресов или канонизации URL-адресов. [17]
- использование постоянных ссылок и постоянных идентификаторов, таких как ARK, DOI , ссылки на систему дескрипторов, PURL , [ нужна ссылка ] или адресация контента [18]
- избегая ссылок на документы, отличные от веб-страниц [17]
- избегать глубоких ссылок [ нужна ссылка ]
- ссылки на веб-архивы, такие как Интернет-архив , [19] Вебцитат , [20] archive.today , Perma.cc , [21] Янтарь, [22] или Arweave [23]
Стратегии защиты существующих ссылок включают:
- использование механизмов перенаправления , таких как HTTP 301, для автоматического направления браузеров и сканеров к перемещенному контенту. [ нужна ссылка ]
- использование систем управления контентом , которые могут автоматически обновлять ссылки при перемещении контента на одном сайте или автоматически заменять ссылки каноническими URL-адресами. [24]
- интеграция поисковых ресурсов в HTTP 404 страницы [25]
Обнаружение неработающих ссылок может выполняться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом , а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаружить ссылки, возвращающие программную ошибку 404 , или ссылки, возвращающие ответ 200 OK, но указывающие на измененный контент. [26]
См. также
[ редактировать ]- Архивная группа , группа веб-архивирования
- Теория мертвого Интернета
- Делеционизм и инклюзивизм в Википедии
- Цифровое сохранение
- Инфодемия
- Программное гниение
Дальнейшее чтение
[ редактировать ]- Марквелл, Джон; Брукс, Дэвид В. (2002). «Неработающие ссылки: эфемерная природа образовательных WWW-гиперссылок». Журнал научного образования и технологий . 11 (2): 105–108. дои : 10.1023/А:1014627511641 . S2CID 60802264 .
- Гомес, Дэниел; Сильва, Марио Х. (2006). «Моделирование устойчивости информации в Интернете» (PDF) . Материалы 6-й Международной конференции по веб-инженерии . МКВЕ'06. Архивировано из оригинала (PDF) 16 июля 2011 г. Проверено 14 сентября 2010 г.
- Деллавалль, Роберт П.; Хестер, Эрик Дж.; Хейлиг, Лорен Ф.; Дрейк, Аманда Л.; Кунцман, Джефф В.; Грабер, Марла; Шиллинг, Лиза М. (2003). «Идет, идет, уходит: потерянные ссылки в Интернете» . Наука . 302 (5646): 787–788. дои : 10.1126/science.1088234 . ПМИД 14593153 . S2CID 154604929 .
- Келер, Уоллес (1999). «Анализ постоянства и постоянства веб-страниц и веб-сайтов». Журнал Американского общества информатики . 50 (2): 162–180. doi : 10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B .
- Селитто, Кармин (2005). «Влияние непостоянных цитирований в Интернете: исследование 123 публикаций научных конференций» (PDF) . Журнал Американского общества информатики и технологий . 56 (7): 695–703. CiteSeerX 10.1.1.473.2732 . дои : 10.1002/asi.20159 .
Ссылки
[ редактировать ]- ^ Шимура, Сав (11 сентября 2023 г.). «Гнилость ссылок: что это такое и как это предотвратить?» . Вулфенден . Проверено 2 августа 2024 г.
- ^ Нельсон, Майкл Л.; Аллен, Б. Данетт (2002). «Сохраняемость и доступность объектов в цифровых библиотеках» . Журнал D-Lib . 8 (1). doi : 10.1045/январь 2002-нельсон . Архивировано из оригинала 19 июля 2020 г. Проверено 24 сентября 2019 г.
- ^ Феттерли, Деннис; Манасс, Марк; Найорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц» . Материалы 12-й международной конференции по Всемирной паутине . Архивировано из оригинала 9 июля 2011 года . Проверено 14 сентября 2010 г.
- ^ Ван дер Грааф, Ганс. «Период полураспада ссылки составляет два года» . Блог ZOMDir . Архивировано из оригинала 17 октября 2017 г. Проверено 31 января 2019 г.
- ^ Jump up to: а б Келер, Уоллес (2004). «Продолжение продольного исследования веб-страниц: рассмотрение устойчивости документов» . Информационные исследования . 9 (2). Архивировано из оригинала 11 сентября 2017 г. Проверено 31 января 2019 г.
- ^ «Отчет о веб-блоках за все время» . Август 2015. Архивировано из оригинала 4 марта 2016 года . Проверено 12 января 2016 г.
- ^ Jump up to: а б МакКаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л.; Боллен, Йохан (2005). «Наличие и постоянство веб-ссылок в журнале D-Lib Magazine» (PDF) . Материалы 5-го Международного семинара по веб-архивированию и цифровой сохранности (IWAW'05) . Архивировано из оригинала (PDF) 17 июля 2012 г. Проверено 12 октября 2005 г.
- ^ Спинеллис, Диомидис (2003). «Упадок и неудачи веб-ссылок» . Коммуникации АКМ . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . дои : 10.1145/602421.602422 . S2CID 17750450 . Архивировано из оригинала 23 июля 2020 г. Проверено 29 сентября 2007 г.
- ^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и др. (март 2001 г.). «Постоянство веб-ссылок в научных исследованиях». Компьютер . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . дои : 10.1109/2.901164 . ISSN 0018-9162 . Викиданные Q21012586 .
- ^ Хеннесси, Джейсон; Сиджин Ге, Стивен (2013). «Междисциплинарное исследование разрушения ссылок и эффективности методов смягчения последствий» . БМК Биоинформатика . 14 (Дополнение 14): S5. дои : 10.1186/1471-2105-14-S14-S5 . ПМЦ 3851533 . ПМИД 24266891 .
- ^ «Что эфемерность Интернета означает для ваших гиперссылок» . Обзор журналистики Колумбии . Архивировано из оригинала 2 августа 2021 г. Проверено 2 августа 2021 г.
- ^ Гарбер, Меган (23 сентября 2013 г.). «49% ссылок, упомянутых в решениях Верховного суда, не работают» . Атлантика . Проверено 10 января 2024 г.
- ^ Jump up to: а б Адамс, Аарон М.; Чен, Сян; Ли, Вэйдун; Чуанжун, Чжан (27 июля 2023 г.). «Нормализация пандемии: изучение картографических проблем на информационных панелях правительства штата по COVID-19» . Журнал карт . 19 (5): 1–9. дои : 10.1080/17445647.2023.2235385 .
- ^ Чапекас, Афина; Бесфатер, Сэмюэл; Реми, Эмма; Риверо, Гонсало (17 мая 2024 г.). «Когда исчезает онлайн-контент» . Исследовательский центр Пью . Проверено 19 мая 2024 г.
- ^ МакГранаган, Мэтью (1999). «Сеть, картография и доверие» . Картографические перспективы (32): 3–5. дои : 10.14714/CP32.624 .
- ^ Бернерс-Ли, Тим (1998). «Крутые URI не меняются» . Архивировано из оригинала 2 марта 2000 г. Проверено 31 января 2019 г.
- ^ Jump up to: а б Килле, Лейтон Уолтер (8 ноября 2014 г.). «Растущая проблема «гниения ссылок» в Интернете и передовой опыт для СМИ и онлайн-издателей» . Ресурс для журналистов, Гарвардская школа Кеннеди. Архивировано из оригинала 12 января 2015 года . Проверено 16 января 2015 г.
- ^ Сицилия, Мигель-Анхель и др. « Децентрализованные постоянные идентификаторы: базовая модель неизменяемых обработчиков. Архивировано 10 мая 2023 г. в Wayback Machine ». Procedia Computer Science 146 (2019): 123-130.
- ^ «Интернет-архив: цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine» . 10 марта 2001 г. Архивировано из оригинала 26 января 1997 года . Проверено 7 октября 2013 г.
- ^ Эйзенбах, Гюнтер; Трудель, Матье (2005). «Идем, идем, все еще здесь: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): е60. дои : 10.2196/jmir.7.5.e60 . ПМК 1550686 . ПМИД 16403724 .
- ^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). «Перма: определение и решение проблемы гниения ссылок и ссылок в юридических цитатах» (PDF) . Управление юридической информацией . 14 (2): 88–99. дои : 10.1017/S1472669614000255 . S2CID 232390360 . Архивировано (PDF) из оригинала 1 ноября 2020 г. Проверено 10 июня 2020 г.
- ^ «Центр Беркмана Гарвардского университета выпускает Amber, инструмент «взаимной помощи» для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана» . cyber.law.harvard.edu . Архивировано из оригинала 2 февраля 2016 г. Проверено 28 января 2016 г.
- ^ «Arweave — экосистема, управляемая сообществом» . arweave.org . Архивировано из оригинала 15 марта 2023 г. Проверено 15 марта 2023 г.
- ^ Ренн-Йенсен, Йеспер (05 октября 2007 г.). «Программное обеспечение устраняет ошибки пользователя и Linkrot» . Justaddwater.dk. Архивировано из оригинала 11 октября 2007 года . Проверено 5 октября 2007 г.
- ^ Мюллер, Джон (14 декабря 2007 г.). «К вашему сведению, новейшие функции панели инструментов Google» . Центральный блог Google для веб-мастеров. Архивировано из оригинала 13 сентября 2008 года . Проверено 9 июля 2008 г.
- ^ Бар-Йосеф, Зив; Бродер, Андрей З.; Кумар, Рави; Томкинс, Эндрю (2004). «Sic Transit Gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по Всемирной паутине – WWW '04 . стр. 328–337. CiteSeerX 10.1.1.1.9406 . дои : 10.1145/988672.988716 . ISBN 978-1581138443 .
Внешние ссылки
[ редактировать ]- Перспективность ваших URI
- Нильсен, Якоб (14 июня 1998 г.). «Боевой Линкрот» . Архивировано из оригинала 23 декабря 2012 года.