Jump to content

Распределенное сканирование веб-страниц

(Перенаправлено с распределенного поиска )

Распределенное сканирование веб-страниц — это метод распределенных вычислений , при котором Интернета поисковые системы используют множество компьютеров для индексации Интернета посредством сканирования веб-страниц . Такие системы могут позволить пользователям добровольно предлагать свои собственные вычислительные ресурсы и ресурсы полосы пропускания для сканирования веб-страниц. Распределяя нагрузку этих задач на множество компьютеров, можно избежать затрат, которые в противном случае были бы потрачены на обслуживание больших вычислительных кластеров.

Давать [ 1 ] и Гарсиа-Молина изучили два типа политики:

Динамическое назначение

[ редактировать ]

При использовании политики этого типа центральный сервер динамически назначает новые URL-адреса различным сканерам. Это позволяет центральному серверу, например, динамически балансировать нагрузку каждого сканера. [ 2 ]

При динамическом назначении системы обычно также могут добавлять или удалять процессы загрузчика. Центральный сервер может стать узким местом, поэтому при больших обходах большая часть рабочей нагрузки должна быть передана распределенным процессам сканирования.

Существует две конфигурации сканирующей архитектуры с динамическими назначениями, описанные Шкапенюком и Суэлем: [ 3 ]

  • Небольшая конфигурация сканера, в которой имеется центральный сопоставитель DNS и центральные очереди для каждого веб-сайта, а также распределенные загрузчики.
  • Большая конфигурация искателя, в которой также распределены преобразователь DNS и очереди.

Статическое назначение

[ редактировать ]

При использовании политики этого типа с самого начала сканирования устанавливается фиксированное правило, которое определяет, как назначать сканерам новые URL-адреса.

Для статического присвоения можно использовать функцию хеширования для преобразования URL-адресов (или, что еще лучше, полных названий веб-сайтов) в число, соответствующее индексу соответствующего процесса сканирования. [ 4 ] Поскольку существуют внешние ссылки, которые будут вести с веб-сайта, назначенного одному процессу сканирования, на веб-сайт, назначенный другому процессу сканирования, должен произойти некоторый обмен URL-адресами.

Чтобы уменьшить накладные расходы из-за обмена URL-адресами между процессами сканирования, обмен следует выполнять пакетно, по несколько URL-адресов одновременно, а наиболее цитируемые URL-адреса в коллекции должны быть известны всем процессам сканирования до начала сканирования (например, с помощью данные предыдущего сканирования). [ 1 ]

Реализации

[ редактировать ]

По состоянию на 2003 год большинство современных коммерческих поисковых систем используют этот метод. Google и Yahoo используют тысячи отдельных компьютеров для сканирования Интернета.

Новые проекты пытаются использовать менее структурированную, более разовую форму сотрудничества, привлекая добровольцев, которые присоединяются к работе, используя во многих случаях свои домашние или персональные компьютеры. LookSmart — крупнейшая поисковая система, использующая эту технику, которая лежит в основе проекта распределенного веб-сканирования Grub . Wikia (теперь известная как Fandom ) приобрела Grub у LookSmart в 2007 году. [ 5 ]

Это решение использует компьютеры, подключенные к Интернету , для сканирования интернет-адресов в фоновом режиме. После загрузки просканированных веб-страниц они сжимаются и отправляются обратно вместе с флагом состояния (например, изменено, новое, отключено, перенаправлено) на мощные центральные серверы. Серверы, управляющие большой базой данных, рассылают клиентам новые URL-адреса для тестирования.

Недостатки

[ редактировать ]

Согласно часто задаваемым вопросам о Nutch , веб-сайте поисковой системы с открытым исходным кодом, экономия пропускной способности за счет распределенного сканирования веб-страниц незначительна, поскольку «успешная поисковая система требует большей пропускной способности для загрузки страниц результатов запроса, чем ее сканеру необходимо для загрузки страниц. .». [ 6 ]

См. также

[ редактировать ]

Источники

[ редактировать ]
  1. ^ Jump up to: а б Чо, Чонху; Гарсия-Молина, Гектор (2002). «Параллельные обходчики» . Материалы 11-й международной конференции по Всемирной паутине . АКМ. стр. 124–135. дои : 10.1145/511446.511464 . ISBN  1-58113-449-5 . Проверено 13 октября 2015 г.
  2. ^ Геррьеро, А.; Рагни, Ф.; Мартинес, К. (2010). «Метод динамического назначения URL-адресов для параллельного веб-сканера» . Международная конференция IEEE 2010 г. по вычислительному интеллекту для измерительных систем и приложений . стр. 119–123. дои : 10.1109/CIMSA.2010.5611764 . ISBN  978-1-4244-7228-4 . S2CID   14817039 .
  3. ^ Шкапенюк Владислав; Суэл, Торстен (2002). «Проектирование и реализация высокопроизводительного распределенного веб-сканера» . Инженерия данных, 2002. Труды. 18-я Международная конференция по . IEEE. стр. 357–368 . Проверено 13 октября 2015 г.
  4. ^ Ван, Юань; Тонг, Хэнцин (2008). «Алгоритм назначения URL-адресов краулера в распределенной системе на основе хеша» . 2008 Международная конференция IEEE по сетям, зондированию и управлению . стр. 1632–1635. дои : 10.1109/icnsc.2008.4525482 . ISBN  978-1-4244-1685-1 . S2CID   39188334 . {{cite book}}: |journal= игнорируется ( помогите )
  5. ^ «Wikia приобретает распределенный веб-сканер Grub» . ТехКранч . 27 июля 2007 г. Проверено 8 октября 2022 г.
  6. ^ «Нутч: часто задаваемые вопросы» . www.nutch.sourceforge.net . Проверено 8 октября 2022 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: de6eb6d0241b3bd4b35a58e5f3a43231__1720284960
URL1:https://arc.ask3.ru/arc/aa/de/31/de6eb6d0241b3bd4b35a58e5f3a43231.html
Заголовок, (Title) документа по адресу, URL1:
Distributed web crawling - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)