Jump to content

Ловушка для паука

Ловушка для паука (или ловушка для сканера ) — это набор веб-страниц, которые могут намеренно или непреднамеренно использоваться, чтобы заставить веб-сканера или поискового бота выполнять бесконечное количество запросов или вызвать сбой плохо сконструированного сканера. Веб-сканеры также называются веб-пауками , от чего и произошло это название. Ловушки-пауки могут быть созданы для «поимки» спам-ботов или других сканеров, которые тратят пропускную способность веб-сайта впустую. Они также могут быть непреднамеренно созданы календарями, в которых используются динамические страницы со ссылками, которые постоянно указывают на следующий день или год.

Общие используемые методы:

  • создание бесконечно глубоких каталогов, таких как структур http://example.com/bar/foo/bar/foo/bar/foo/bar/...
  • Динамические страницы, которые создают неограниченное количество документов для веб-сканера. Примеры включают календари [1] и алгоритмически генерируемая языковая поэзия . [2]
  • документы, заполненные множеством символов, что приводит к сбою лексического анализатора, анализирующего документ.
  • документы с идентификатором сеанса на основе необходимых файлов cookie.

Не существует алгоритма обнаружения всех ловушек для пауков. Некоторые классы ловушек можно обнаружить автоматически, но быстро возникают новые, нераспознанные ловушки.

Вежливость

[ редактировать ]

Ловушка для пауков заставляет веб-сканера войти в нечто вроде бесконечного цикла . [3] что тратит ресурсы паука впустую, [4] снижает его производительность, а в случае плохо написанного краулера может привести к сбою программы. Вежливые пауки чередуют запросы между разными хостами и не запрашивают документы с одного и того же сервера чаще, чем раз в несколько секунд. [5] это означает, что «вежливый» веб-сканер затрагивается в гораздо меньшей степени, чем «невежливый» сканер. [ нужна ссылка ]

Кроме того, сайты с ловушками для пауков обычно имеют файл robots.txt, который сообщает ботам не идти в ловушку, поэтому законный «вежливый» бот не попадет в ловушку, тогда как «невежливый» бот, игнорирующий настройки robots.txt, попадет в ловушку. попасть под влияние ловушки. [6]

См. также

[ редактировать ]
  1. ^ « Что такое ловушка для пауков » ? Техопедия . 27 ноября 2017 г. Проверено 29 мая 2018 г.
  2. ^ Нил М. Хеннесси. « Самый сладкий яд, или Открытие в сети поэзии L=A=N=G=U=A=G=E ». Доступ 26 сентября 2013 г.
  3. ^ «Предзнаменование» . Предзнаменование . 03 февраля 2016 г. Проверено 16 октября 2019 г.
  4. ^ «Как настроить файл robots.txt для управления пауками поисковых систем (thesitewizard.com)» . www.thesitewizard.com . Проверено 16 октября 2019 г.
  5. ^ «Создание вежливого веб-сканера» . Сообщество разработчиков . 13 апреля 2019 года . Проверено 16 октября 2019 г.
  6. ^ Группа, Дж. Медиа (12 октября 2017 г.). «Закрытие ловушки для пауков: исправление неэффективности сканирования» . Джей Медиа Групп . Проверено 16 октября 2019 г.


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 808a0b829a07046cac1aebb7314a16ba__1702668660
URL1:https://arc.ask3.ru/arc/aa/80/ba/808a0b829a07046cac1aebb7314a16ba.html
Заголовок, (Title) документа по адресу, URL1:
Spider trap - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)