Jump to content

Обнаружение и уведомление об изменениях

Обнаружение и уведомление об изменениях ( CDN ) — это автоматическое обнаружение изменений, внесенных на страницы Всемирной паутины, и уведомление заинтересованных пользователей по электронной почте или другими способами. [1]

В то время как поисковые системы предназначены для поиска веб-страниц, системы CDN предназначены для отслеживания изменений на веб-страницах. Прежде чем обнаруживать изменения и уведомлять об изменениях, пользователям необходимо было вручную проверять изменения веб-страниц, либо повторно посещая веб-сайты, либо периодически выполняя повторный поиск. Эффективному и действенному обнаружению и уведомлению об изменениях препятствует тот факт, что большинство серверов неточно отслеживают изменения контента с помощью заголовков веб-сервера Last-Modified или ETag . В 2019 году был опубликован комплексный анализ систем CDN.

В 1996 году NetMind разработала первый инструмент обнаружения и уведомления об изменениях, известный как Mind-it, который проработал шесть лет. Это породило новые сервисы, такие как ChangeDetection (1999), ChangeDetect (2002), Google Alerts (2003) и Versionista (2007), которые использовались в президентской кампании Джона Маккейна 2008 года в гонке за президентские выборы в США в 2008 году . [2] Исторически опрос изменений проводился либо сервером, который отправлял уведомления по электронной почте, либо настольной программой, которая звуковым сигналом предупреждала пользователя об изменении. Оповещение об изменениях также возможно непосредственно на мобильных устройствах, а также с помощью push-уведомлений , веб-перехватчиков и обратных вызовов HTTP для интеграции приложений.

Варианты мониторинга различаются в зависимости от услуги или продукта и варьируются от мониторинга отдельной веб-страницы до целых веб-сайтов. То, что на самом деле отслеживается, также зависит от услуги или продукта, включая возможности мониторинга текста, ссылок, документов, сценариев, изображений или снимков экрана.

За заметным исключением патентных заявок Google, связанных с Google Alerts , активность поставщиков систем обнаружения изменений и уведомлений в области интеллектуальной собственности минимальна. [3] Ни один поставщик не смог успешно использовать исключительные права на технологию обнаружения и уведомления об изменениях посредством патентов или других законных средств. [ нужна ссылка ] Это привело к значительному функциональному дублированию продуктов и услуг.

Архитектурные подходы

[ редактировать ]

Службы обнаружения и уведомления об изменениях можно классифицировать по архитектуре программного обеспечения , которую они используют. Можно выделить три основных подхода:

Серверный

[ редактировать ]

Сервер опрашивает контент, отслеживает изменения и регистрирует данные, отправляя оповещения в виде уведомлений по электронной почте, веб-перехватчиков , RSS . Обычно связанный веб-сайт с конфигурацией управляется пользователем. Некоторые службы также имеют приложение для мобильных устройств, которое подключается к облачному серверу и отправляет оповещения на мобильное устройство.

Самостоятельное размещение

[ редактировать ]

Относительно новый подход, который находится между серверным и клиентским подходом, заключается в использовании самостоятельного хостинга , при котором программное обеспечение, которое обычно работает на отдельном сервере, работает локально на вашем собственном оборудовании, что обычно означает, что программное обеспечение представляет собой миниатюрный веб-сервер. с интерфейсом браузера вместо классического графического пользовательского интерфейса, предоставляемого приложением.

Клиентский

[ редактировать ]

Локальное клиентское приложение с графическим пользовательским интерфейсом опрашивает контент, отслеживает изменения и записывает данные. Клиентскими приложениями могут быть расширения браузера, мобильные приложения или программы.

Соображения

[ редактировать ]

Некоторые веб-страницы регулярно меняются из-за включения рекламы или каналов на представленной странице. Это может вызвать ложные срабатывания при обнаружении изменений, поскольку пользователей часто интересуют только изменения основного контента. Существуют некоторые подходы к смягчению этой проблемы.

  • Создайте метрику разницы между двумя версиями страницы (рассчитываемую, например, на основе изменения общего размера, изменений в HTML-файле или изменений в DOM дереве ) и игнорируйте изменения ниже определенного порога. Порог может быть установлен пользователем или оценен автоматически путем сравнения некоторых ранних версий страницы.
  • Извлечение контента. Для популярных сайтов или сайтов, на которых установлено популярное программное обеспечение, контент можно активно отделять от мусора, выбирая поддерево DOM, например, с помощью XPath . Другой типичный метод — использование регулярных выражений для извлечения только того текста, который интересует пользователя.
  1. ^ Маллаваараччи, Виджини; Мегахапола, Лакмаль; Алвис, Рошан; Хешан, Эранга; Медения, Дулани; Джаяратна, Сампатх (14 мая 2020 г.). Обнаружение изменений и уведомление о веб-страницах: опрос . arXiv : 1901.02660 . Бибкод : 2019arXiv190102660M . дои : 10.1145/3369876 . OCLC   1201518429 . S2CID   57759312 .
  2. ^ «К Wayback Machine, Шерман!» . Экономист . Проверено 9 января 2019 г.
  3. ^ «Он создал Google Alerts. Теперь он выращивает миндаль» . CNN . 4 апреля 2016 года . Проверено 9 сентября 2016 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: a1bca5706ff08bdf1b419dd37957f707__1716391080
URL1:https://arc.ask3.ru/arc/aa/a1/07/a1bca5706ff08bdf1b419dd37957f707.html
Заголовок, (Title) документа по адресу, URL1:
Change detection and notification - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)