Распределенное сканирование веб-страниц

Распределенное сканирование веб-страниц — это метод распределенных вычислений , при котором Интернета поисковые системы используют множество компьютеров для индексации Интернета посредством сканирования веб-страниц . Такие системы могут позволить пользователям добровольно предлагать свои собственные вычислительные ресурсы и ресурсы полосы пропускания для сканирования веб-страниц. Распределяя нагрузку этих задач на множество компьютеров, можно избежать затрат, которые в противном случае были бы потрачены на обслуживание больших вычислительных кластеров.

Типы

Давать ^{[ 1 ]} и Гарсиа-Молина изучили два типа политики:

Динамическое назначение

При использовании политики этого типа центральный сервер динамически назначает новые URL-адреса различным сканерам. Это позволяет центральному серверу, например, динамически балансировать нагрузку каждого сканера. ^{[ 2 ]}

При динамическом назначении системы обычно также могут добавлять или удалять процессы загрузчика. Центральный сервер может стать узким местом, поэтому при больших обходах большая часть рабочей нагрузки должна быть передана распределенным процессам сканирования.

Существует две конфигурации сканирующей архитектуры с динамическими назначениями, описанные Шкапенюком и Суэлем: ^{[ 3 ]}

Небольшая конфигурация сканера, в которой имеется центральный сопоставитель DNS и центральные очереди для каждого веб-сайта, а также распределенные загрузчики.
Большая конфигурация искателя, в которой также распределены преобразователь DNS и очереди.

Статическое назначение

При использовании политики этого типа с самого начала сканирования устанавливается фиксированное правило, которое определяет, как назначать сканерам новые URL-адреса.

Для статического присвоения можно использовать функцию хеширования для преобразования URL-адресов (или, что еще лучше, полных названий веб-сайтов) в число, соответствующее индексу соответствующего процесса сканирования. ^{[ 4 ]} Поскольку существуют внешние ссылки, которые будут вести с веб-сайта, назначенного одному процессу сканирования, на веб-сайт, назначенный другому процессу сканирования, должен произойти некоторый обмен URL-адресами.

Чтобы уменьшить накладные расходы из-за обмена URL-адресами между процессами сканирования, обмен следует выполнять пакетно, по несколько URL-адресов одновременно, а наиболее цитируемые URL-адреса в коллекции должны быть известны всем процессам сканирования до начала сканирования (например, с помощью данные предыдущего сканирования). ^{[ 1 ]}

Реализации

По состоянию на 2003 год большинство современных коммерческих поисковых систем используют этот метод. Google и Yahoo используют тысячи отдельных компьютеров для сканирования Интернета.

Новые проекты пытаются использовать менее структурированную, более разовую форму сотрудничества, привлекая добровольцев, которые присоединяются к работе, используя во многих случаях свои домашние или персональные компьютеры. LookSmart — крупнейшая поисковая система, использующая эту технику, которая лежит в основе проекта распределенного веб-сканирования Grub . Wikia (теперь известная как Fandom ) приобрела Grub у LookSmart в 2007 году. ^{[ 5 ]}

Это решение использует компьютеры, подключенные к Интернету , для сканирования интернет-адресов в фоновом режиме. После загрузки просканированных веб-страниц они сжимаются и отправляются обратно вместе с флагом состояния (например, изменено, новое, отключено, перенаправлено) на мощные центральные серверы. Серверы, управляющие большой базой данных, рассылают клиентам новые URL-адреса для тестирования.

Недостатки

Согласно часто задаваемым вопросам о Nutch , веб-сайте поисковой системы с открытым исходным кодом, экономия пропускной способности за счет распределенного сканирования веб-страниц незначительна, поскольку «успешная поисковая система требует большей пропускной способности для загрузки страниц результатов запроса, чем ее сканеру необходимо для загрузки страниц. .». ^{[ 6 ]}

См. также

Распределенные вычисления
Веб-сканер
YaCy — P2P-поисковик с распределенным сканированием
Seeks — веб-поиск P2P с открытым исходным кодом

Источники

^ Jump up to: ^а ^б Чо, Чонху; Гарсия-Молина, Гектор (2002). «Параллельные обходчики» . Материалы 11-й международной конференции по Всемирной паутине . АКМ. стр. 124–135. дои : 10.1145/511446.511464 . ISBN 1-58113-449-5 . Проверено 13 октября 2015 г.
^ Геррьеро, А.; Рагни, Ф.; Мартинес, К. (2010). «Метод динамического назначения URL-адресов для параллельного веб-сканера» . Международная конференция IEEE 2010 г. по вычислительному интеллекту для измерительных систем и приложений . стр. 119–123. дои : 10.1109/CIMSA.2010.5611764 . ISBN 978-1-4244-7228-4 . S2CID 14817039 .
^ Шкапенюк Владислав; Суэл, Торстен (2002). «Проектирование и реализация высокопроизводительного распределенного веб-сканера» . Инженерия данных, 2002. Труды. 18-я Международная конференция по . IEEE. стр. 357–368 . Проверено 13 октября 2015 г.
^ Ван, Юань; Тонг, Хэнцин (2008). «Алгоритм назначения URL-адресов краулера в распределенной системе на основе хеша» . 2008 Международная конференция IEEE по сетям, зондированию и управлению . стр. 1632–1635. дои : 10.1109/icnsc.2008.4525482 . ISBN 978-1-4244-1685-1 . S2CID 39188334 . {{cite book}}: |journal= игнорируется ( помогите )
^ «Wikia приобретает распределенный веб-сканер Grub» . ТехКранч . 27 июля 2007 г. Проверено 8 октября 2022 г.
^ «Нутч: часто задаваемые вопросы» . www.nutch.sourceforge.net . Проверено 8 октября 2022 г.

Внешние ссылки

[cho2002parallel-1] Jump up to: ^а ^б Чо, Чонху; Гарсия-Молина, Гектор (2002). «Параллельные обходчики» . Материалы 11-й международной конференции по Всемирной паутине . АКМ. стр. 124–135. дои : 10.1145/511446.511464 . ISBN 1-58113-449-5 . Проверено 13 октября 2015 г.

[2] Геррьеро, А.; Рагни, Ф.; Мартинес, К. (2010). «Метод динамического назначения URL-адресов для параллельного веб-сканера» . Международная конференция IEEE 2010 г. по вычислительному интеллекту для измерительных систем и приложений . стр. 119–123. дои : 10.1109/CIMSA.2010.5611764 . ISBN 978-1-4244-7228-4 . S2CID 14817039 .

[3] Шкапенюк Владислав; Суэл, Торстен (2002). «Проектирование и реализация высокопроизводительного распределенного веб-сканера» . Инженерия данных, 2002. Труды. 18-я Международная конференция по . IEEE. стр. 357–368 . Проверено 13 октября 2015 г.

[4] Ван, Юань; Тонг, Хэнцин (2008). «Алгоритм назначения URL-адресов краулера в распределенной системе на основе хеша» . 2008 Международная конференция IEEE по сетям, зондированию и управлению . стр. 1632–1635. дои : 10.1109/icnsc.2008.4525482 . ISBN 978-1-4244-1685-1 . S2CID 39188334 . {{cite book}}: |journal= игнорируется ( помогите )

[5] «Wikia приобретает распределенный веб-сканер Grub» . ТехКранч . 27 июля 2007 г. Проверено 8 октября 2022 г.

[6] «Нутч: часто задаваемые вопросы» . www.nutch.sourceforge.net . Проверено 8 октября 2022 г.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

v т и Распределенные поисковые системы
Распределенный веб-поиск	Ищет ЯСи
Распределенные веб-сканеры	личинка
курсив = несуществующий

v т и Веб-сканеры
Интернет-боты, предназначенные для сканирования и индексирования веб-страниц.
Активный	80 ног бинбот Кроулджакс сборщик Googlebot Херитрикс HTTrack PowerMapper Wget
Снято с производства	БЫСТРЫЙ Краулер MSNbot RBSE TkWWW робот Твайселер
Типы	Распределенный веб-сканер Целенаправленный сканер