Граница обхода
Граница сканирования – это структура данных, используемая для хранения URL-адресов, подходящих для сканирования, и поддержки таких операций, как добавление URL-адресов и выбор для сканирования. Иногда ее можно рассматривать как приоритетную очередь . [1]
Обзор
[ редактировать ]Граница сканирования — это один из компонентов, составляющих архитектуру веб-сканера. Граница сканирования содержит логику и политику, которой сканер следует при посещении веб-сайтов. Это действие известно как сканирование .
Политики могут включать в себя такие параметры, как какие страницы следует посещать дальше, приоритеты для каждой страницы для поиска и частоту посещения страницы. [ нужна ссылка ] Эффективность сканирования особенно важна, поскольку одна из характеристик Интернета, которая затрудняет сканирование, заключается в том, что он содержит такой большой объем данных, которые постоянно меняются. [2]
Архитектура
[ редактировать ]Начальный список URL-адресов, содержащийся в границе сканера, известен как начальные числа. Веб-сканер постоянно будет спрашивать Frontier, какие страницы посетить. Когда сканер посещает каждую из этих страниц, он информирует границу об ответе каждой страницы. Сканер также обновит границу сканера любыми новыми гиперссылками, содержащимися на тех страницах, которые он посетил. Эти гиперссылки добавляются к границе, и сканер будет посещать новые веб-страницы в соответствии с политикой границы. [2] Этот процесс продолжается рекурсивно до тех пор, пока не будут посещены все URL-адреса в границе сканирования.
Политики, используемые для определения страниц для посещения, обычно основаны на рейтинге. Этот показатель обычно рассчитывается на основе ряда различных атрибутов. Например, актуальность страницы, время ее обновления и релевантность контента по отношению к определенным терминам.
Компоненты
[ редактировать ]Frontier API/Менеджер
[ редактировать ]Frontier Manager — это компонент, который веб-искатель будет использовать для связи с границей сканирования. Frontier API также можно использовать для связи с границей сканирования. [2]
Промежуточное ПО
[ редактировать ]Пограничное промежуточное программное обеспечение находится между менеджером и серверной частью. Целью промежуточного программного обеспечения является управление связью между фронтиром и серверной частью. Промежуточное программное обеспечение — это идеальный способ добавить или расширить дополнительную функциональность, просто подключив дополнительный код. [3]
Бэкэнд
[ редактировать ]Серверный компонент содержит всю логику и политики, используемые при поиске. Функция серверной части — идентифицировать страницы, подлежащие сканированию. [3]
Ссылки
[ редактировать ]- ^ Олстон, Кристофер; Найорк, Марк (2010). «Веб-сканирование» (PDF) . Основы и тенденции в области информационного поиска . 4 (3): 175–246. дои : 10.1561/1500000017 .
- ^ Jump up to: а б с «Документация crawlfrontier» (PDF) . 15 апреля 2015 г.
- ^ Jump up to: а б «Архитектура Фронтера» . 2017.