Ссылка гнилая

Из Википедии, бесплатной энциклопедии
Страница не найдена
Гнилая ссылка обычно приводит к сообщению об ошибке

Гниль ссылок (также называемая смертью ссылки , разрушением ссылки или порчей ссылки ) — это явление, когда гиперссылки имеют тенденцию со временем переставать указывать на исходный целевой файл , веб-страницу или сервер из-за того, что этот ресурс перемещается на новый адрес или становится постоянно недоступен. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей , мертвой или потерянной ссылкой, представляет собой особую форму висячего указателя .

Скорость разрушения ссылок является предметом изучения и исследования из-за ее важности для способности Интернета сохранять информацию. Оценки этого показателя резко различаются в разных исследованиях. Специалисты в области информации предупреждают, что гниение ссылок может привести к исчезновению важных архивных данных, что потенциально может повлиять на правовую систему и науку.

Как правило, неработающие ссылки веб-сайта могут немедленно перенаправить пользователя на домашнюю страницу веб-сайта, что еще больше запутывает пользователей и затрудняет получение URL-адреса неработающей ссылки.

Распространенность [ править ]

В ряде исследований изучалась распространенность гниения ссылок во Всемирной паутине , в научной литературе, в которой URL-адреса используются для цитирования веб-контента, а также в цифровых библиотеках .

Исследование 2002 года показало, что разрушение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете: около 3% объектов перестают быть доступными через год. [1] (что соответствует периоду полураспада почти 23 года).

Исследование 2003 года показало, что в Интернете каждую неделю ломается примерно одна ссылка из каждых 200. [2] предполагая период полураспада 138 недель. Этот показатель во многом был подтвержден исследованием ссылок на Yahoo!, проведенным в 2016–2017 годах. Каталог (который прекратил обновляться в 2014 году после 21 года разработки), в котором период полураспада ссылок каталога составил два года. [3]

Исследование 2004 года показало, что подмножества веб-ссылок (например, ссылки на определенные типы файлов или ссылки, размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. [4] URL-адреса, выбранные для публикации, имеют больший срок действия, чем средний URL-адрес. В исследовании 2015 года, проведенном Weblock, было проанализировано более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей с открытым доступом и обнаружено, что период полураспада составляет около 14 лет. [5] в целом подтверждает исследование 2005 года, которое показало, что половина URL-адресов , цитируемых в статьях журнала D-Lib, были активны через 10 лет после публикации. [6] Другие исследования обнаружили более высокие показатели гниения ссылок в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. [7] [8] Исследование, проведенное в 2013 году в BMC Bioinformatics, проанализировало около 15 000 ссылок в тезисах из индекса цитирования Thomson Reuters Web of Science и обнаружило, что средний срок жизни веб-страниц составлял 9,3 года, и только 62% из них были заархивированы. [9] Исследование внешних ссылок в статьях New York Times , опубликованных в период с 1996 по 2019 год в 2021 году, выявило период полураспада около 15 лет (со значительными различиями между темами контента), но отметило, что 13% функциональных ссылок больше не ведут на исходный контент — явление, называемое дрейфом контента . [10]

Исследование 2013 года показало, что 49% ссылок в решениях Верховного суда США мертвы. [11]

Исследование 2023 года, посвященное информационным панелям США по COVID-19, показало, что 23% информационных панелей штатов, доступных в феврале 2021 года, больше не были доступны по предыдущим URL-адресам в апреле 2023 года. [12]

Pew Research обнаружила, что в 2023 году пропало 38% страниц 2013 года. Также в 2023 году 54% статей английской Википедии имели неработающую ссылку в разделе «Ссылки», а 23% новостных статей были связаны с неработающим URL-адресом. [13]

Причины [ править ]

Гниль ссылок может возникнуть в результате нескольких событий. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переехать на новое доменное имя . Еще в 1999 году было отмечено, что при том объеме материала, который можно хранить на жестком диске, «отказ одного диска может быть подобен сожжению библиотеки в Александрии». [14] Регистрация доменного имени может истечь или быть передана другому лицу. Некоторые причины могут привести к тому, что ссылка не сможет найти какую-либо цель и вернет ошибку, например HTTP 404 . Другие причины могут привести к тому, что ссылка будет вести на целевой контент, отличный от того, который был задуман автором ссылки.

Другие причины неработающих ссылок включают в себя:

  • реструктуризация веб-сайтов, которая приводит к изменению URL-адресов (например, domain.net/pine_tree может быть перенесен в domain.net/tree/pine)
  • перемещение ранее бесплатного контента за платный доступ [12]
  • изменение в архитектуре сервера, которое приводит к тому, что код, такой как PHP, работает по-другому
  • динамическое содержимое страницы, такое как результаты поиска, которое меняется в зависимости от дизайна
  • удаление целевой страницы и/или ее содержимого
  • наличие информации, специфичной для пользователя (например, имени пользователя) внутри ссылки
  • преднамеренная блокировка фильтрами контента или брандмауэрами
  • истечение срока регистрации доменного имени

Предотвращение и обнаружение [ править ]

Стратегии предотвращения порчи ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, цели которых были перемещены или удалены. [ нужна цитата ]

Создание URL-адресов, которые не будут меняться со временем, является фундаментальным методом предотвращения гниения ссылок. Превентивное планирование отстаивали Тим Бернерс-Ли и другие пионеры Интернета. [15]

Стратегии, касающиеся авторства ссылок, включают:

Стратегии защиты существующих ссылок включают:

Обнаружение неработающих ссылок может выполняться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом , а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаружить ссылки, возвращающие программную ошибку 404 , или ссылки, возвращающие ответ 200 OK , но указывающие на измененный контент. [25]

См. также [ править ]

Дальнейшее чтение [ править ]

  • Марквелл, Джон; Брукс, Дэвид В. (2002). «Неработающие ссылки: эфемерная природа образовательных WWW-гиперссылок». Журнал научного образования и технологий . 11 (2): 105–108. дои : 10.1023/А:1014627511641 . S2CID   60802264 .
  • Гомес, Дэниел; Сильва, Марио Х. (2006). «Моделирование устойчивости информации в Интернете» (PDF) . Материалы 6-й Международной конференции по веб-инженерии . МКВЕ'06. Архивировано из оригинала (PDF) 16 июля 2011 г. Проверено 14 сентября 2010 г.
  • Деллавалль, Роберт П.; Хестер, Эрик Дж.; Хейлиг, Лорен Ф.; Дрейк, Аманда Л.; Кунцман, Джефф В.; Грабер, Марла; Шиллинг, Лиза М. (2003). «Идет, идет, уходит: потерянные ссылки в Интернете» . Наука . 302 (5646): 787–788. дои : 10.1126/science.1088234 . ПМИД   14593153 . S2CID   154604929 .
  • Келер, Уоллес (1999). «Анализ постоянства и постоянства веб-страниц и веб-сайтов». Журнал Американского общества информатики . 50 (2): 162–180. doi : 10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B .
  • Селитто, Кармин (2005). «Влияние непостоянных цитирований в Интернете: исследование 123 публикаций научных конференций» (PDF) . Журнал Американского общества информатики и технологий . 56 (7): 695–703. CiteSeerX   10.1.1.473.2732 . дои : 10.1002/asi.20159 .

Ссылки [ править ]

  1. ^ Нельсон, Майкл Л.; Аллен, Б. Данетт (2002). «Сохраняемость и доступность объектов в цифровых библиотеках» . Журнал D-Lib . 8 (1). doi : 10.1045/январь 2002-нельсон . Архивировано из оригинала 19 июля 2020 г. Проверено 24 сентября 2019 г.
  2. ^ Феттерли, Деннис; Манасс, Марк; Найорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц» . Материалы 12-й международной конференции по Всемирной паутине . Архивировано из оригинала 9 июля 2011 года . Проверено 14 сентября 2010 г.
  3. ^ Ван дер Грааф, Ганс. «Период полураспада ссылки составляет два года» . Блог ZOMDir . Архивировано из оригинала 17 октября 2017 г. Проверено 31 января 2019 г.
  4. ^ Перейти обратно: а б Келер, Уоллес (2004). «Продолжение продольного исследования веб-страниц: рассмотрение устойчивости документов» . Информационные исследования . 9 (2). Архивировано из оригинала 11 сентября 2017 г. Проверено 31 января 2019 г.
  5. ^ «Отчет о веб-блоках за все время» . Август 2015. Архивировано из оригинала 4 марта 2016 года . Проверено 12 января 2016 г.
  6. ^ Перейти обратно: а б МакКаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л.; Боллен, Йохан (2005). «Наличие и постоянство веб-ссылок в журнале D-Lib Magazine» (PDF) . Материалы 5-го Международного семинара по веб-архивированию и цифровой сохранности (IWAW'05) . Архивировано из оригинала (PDF) 17 июля 2012 г. Проверено 12 октября 2005 г.
  7. ^ Спинеллис, Диомидис (2003). «Упадок и неудачи веб-ссылок» . Коммуникации АКМ . 46 (1): 71–77. CiteSeerX   10.1.1.12.9599 . дои : 10.1145/602421.602422 . S2CID   17750450 . Архивировано из оригинала 23 июля 2020 г. Проверено 29 сентября 2007 г.
  8. ^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и другие. (март 2001 г.). «Постоянство веб-ссылок в научных исследованиях». Компьютер . 34 (3): 26–31. CiteSeerX   10.1.1.97.9695 . дои : 10.1109/2.901164 . ISSN   0018-9162 . Викиданные   Q21012586 .
  9. ^ Хеннесси, Джейсон; Сиджин Ге, Стивен (2013). «Междисциплинарное исследование разрушения ссылок и эффективности методов смягчения последствий» . БМК Биоинформатика . 14 (Дополнение 14): S5. дои : 10.1186/1471-2105-14-S14-S5 . ПМЦ   3851533 . ПМИД   24266891 .
  10. ^ «Что эфемерность Интернета означает для ваших гиперссылок» . Обзор журналистики Колумбии . Архивировано из оригинала 2 августа 2021 г. Проверено 2 августа 2021 г.
  11. ^ Гарбер, Меган (23 сентября 2013 г.). «49% ссылок, упомянутых в решениях Верховного суда, не работают» . Атлантический океан . Проверено 10 января 2024 г.
  12. ^ Перейти обратно: а б Адамс, Аарон М.; Чен, Сян; Ли, Вэйдун; Чуанжун, Чжан (27 июля 2023 г.). «Нормализация пандемии: изучение картографических проблем на информационных панелях правительства штата по COVID-19» . Журнал карт . 19 (5): 1–9. дои : 10.1080/17445647.2023.2235385 .
  13. ^ Чапекас, Афина; Бесфатер, Сэмюэл; Реми, Эмма; Риверо, Гонсало (17 мая 2024 г.). «Когда исчезает онлайн-контент» . Исследовательский центр Пью . Проверено 19 мая 2024 г.
  14. ^ МакГранаган, Мэтью (1999). «Сеть, картография и доверие» . Картографические перспективы (32): 3–5. дои : 10.14714/CP32.624 .
  15. ^ Бернерс-Ли, Тим (1998). «Крутые URI не меняются» . Архивировано из оригинала 02 марта 2000 г. Проверено 31 января 2019 г.
  16. ^ Перейти обратно: а б Килле, Лейтон Уолтер (8 ноября 2014 г.). «Растущая проблема «гниения ссылок» в Интернете и передовой опыт для СМИ и онлайн-издателей» . Ресурс для журналистов, Гарвардская школа Кеннеди. Архивировано из оригинала 12 января 2015 года . Проверено 16 января 2015 г.
  17. ^ Сицилия, Мигель-Анхель и др. « Децентрализованные постоянные идентификаторы: базовая модель неизменяемых обработчиков. Архивировано 10 мая 2023 г. в Wayback Machine ». Procedia Computer Science 146 (2019): 123-130.
  18. ^ «Интернет-архив: цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine» . 10 марта 2001 г. Архивировано из оригинала 26 января 1997 года . Проверено 7 октября 2013 г.
  19. ^ Эйзенбах, Гюнтер; Трудель, Матье (2005). «Идем, идем, все еще здесь: использование службы WebCite для постоянного архивирования цитируемых веб-страниц» . Журнал медицинских интернет-исследований . 7 (5): е60. дои : 10.2196/jmir.7.5.e60 . ПМК   1550686 . ПМИД   16403724 .
  20. ^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). «Перма: определение и решение проблемы гниения ссылок и ссылок в юридических цитатах» (PDF) . Управление юридической информацией . 14 (2): 88–99. дои : 10.1017/S1472669614000255 . S2CID   232390360 . Архивировано (PDF) из оригинала 1 ноября 2020 г. Проверено 10 июня 2020 г.
  21. ^ «Центр Беркмана Гарвардского университета выпускает Amber, инструмент «взаимной помощи» для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана» . cyber.law.harvard.edu . Архивировано из оригинала 2 февраля 2016 г. Проверено 28 января 2016 г.
  22. ^ «Arweave — экосистема, управляемая сообществом» . arweave.org . Архивировано из оригинала 15 марта 2023 г. Проверено 15 марта 2023 г.
  23. ^ Ренн-Йенсен, Йеспер (05 октября 2007 г.). «Программное обеспечение устраняет ошибки пользователя и Linkrot» . Justaddwater.dk. Архивировано из оригинала 11 октября 2007 года . Проверено 5 октября 2007 г.
  24. ^ Мюллер, Джон (14 декабря 2007 г.). «К вашему сведению, новейшие функции панели инструментов Google» . Центральный блог Google для веб-мастеров. Архивировано из оригинала 13 сентября 2008 года . Проверено 9 июля 2008 г.
  25. ^ Бар-Йосеф, Зив; Бродер, Андрей З.; Кумар, Рави; Томкинс, Эндрю (2004). «Sic Transit Gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по Всемирной паутине – WWW '04 . стр. 328–337. CiteSeerX   10.1.1.1.9406 . дои : 10.1145/988672.988716 . ISBN  978-1581138443 .

Внешние ссылки [ править ]