Jump to content

Граница обхода

Граница сканирования  – это структура данных, используемая для хранения URL-адресов, подходящих для сканирования, и поддержки таких операций, как добавление URL-адресов и выбор для сканирования. Иногда ее можно рассматривать как приоритетную очередь . [1]

Архитектура веб-сканера

Граница сканирования — это один из компонентов, составляющих архитектуру веб-сканера. Граница сканирования содержит логику и политику, которой сканер следует при посещении веб-сайтов. Это действие известно как сканирование .

Политики могут включать в себя такие параметры, как какие страницы следует посещать дальше, приоритеты для каждой страницы для поиска и частоту посещения страницы. [ нужна ссылка ] Эффективность сканирования особенно важна, поскольку одна из характеристик Интернета, которая затрудняет сканирование, заключается в том, что он содержит такой большой объем данных, которые постоянно меняются. [2]

Архитектура

[ редактировать ]

Начальный список URL-адресов, содержащийся в границе сканера, известен как начальные числа. Веб-сканер постоянно будет спрашивать Frontier, какие страницы посетить. Когда сканер посещает каждую из этих страниц, он информирует границу об ответе каждой страницы. Сканер также обновит границу сканера любыми новыми гиперссылками, содержащимися на тех страницах, которые он посетил. Эти гиперссылки добавляются к границе, и сканер будет посещать новые веб-страницы в соответствии с политикой границы. [2] Этот процесс продолжается рекурсивно до тех пор, пока не будут посещены все URL-адреса в границе сканирования.

Политики, используемые для определения страниц для посещения, обычно основаны на рейтинге. Этот показатель обычно рассчитывается на основе ряда различных атрибутов. Например, актуальность страницы, время ее обновления и релевантность контента по отношению к определенным терминам.

Компоненты

[ редактировать ]
Архитектура Crawler Frontier

Frontier API/Менеджер

[ редактировать ]

Frontier Manager — это компонент, который веб-искатель будет использовать для связи с границей сканирования. Frontier API также можно использовать для связи с границей сканирования. [2]

Промежуточное ПО

[ редактировать ]

Пограничное промежуточное программное обеспечение находится между менеджером и серверной частью. Целью промежуточного программного обеспечения является управление связью между фронтиром и серверной частью. Промежуточное программное обеспечение — это идеальный способ добавить или расширить дополнительную функциональность, просто подключив дополнительный код. [3]

Серверный компонент содержит всю логику и политики, используемые при поиске. Функция серверной части — идентифицировать страницы, подлежащие сканированию. [3]

  1. ^ Олстон, Кристофер; Найорк, Марк (2010). «Веб-сканирование» (PDF) . Основы и тенденции в области информационного поиска . 4 (3): 175–246. дои : 10.1561/1500000017 .
  2. ^ Jump up to: а б с «Документация crawlfrontier» (PDF) . 15 апреля 2015 г.
  3. ^ Jump up to: а б «Архитектура Фронтера» . 2017.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 8278451f5ce19ad21abccfdae46c9000__1721522280
URL1:https://arc.ask3.ru/arc/aa/82/00/8278451f5ce19ad21abccfdae46c9000.html
Заголовок, (Title) документа по адресу, URL1:
Crawl frontier - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)