Ловушка для паука
Ловушка для паука (или ловушка для сканера ) — это набор веб-страниц, которые могут намеренно или непреднамеренно использоваться, чтобы заставить веб-сканера или поискового бота выполнять бесконечное количество запросов или вызвать сбой плохо сконструированного сканера. Веб-сканеры также называются веб-пауками , от чего и произошло это название. Ловушки-пауки могут быть созданы для «поимки» спам-ботов или других сканеров, которые тратят пропускную способность веб-сайта впустую. Они также могут быть непреднамеренно созданы календарями, в которых используются динамические страницы со ссылками, которые постоянно указывают на следующий день или год.
Общие используемые методы:
- создание бесконечно глубоких каталогов, таких как структур
http://example.com/bar/foo/bar/foo/bar/foo/bar/...
- Динамические страницы, которые создают неограниченное количество документов для веб-сканера. Примеры включают календари [1] и алгоритмически генерируемая языковая поэзия . [2]
- документы, заполненные множеством символов, что приводит к сбою лексического анализатора, анализирующего документ.
- документы с идентификатором сеанса на основе необходимых файлов cookie.
Не существует алгоритма обнаружения всех ловушек для пауков. Некоторые классы ловушек можно обнаружить автоматически, но быстро возникают новые, нераспознанные ловушки.
Вежливость
[ редактировать ]Ловушка для пауков заставляет веб-сканера войти в нечто вроде бесконечного цикла . [3] что тратит ресурсы паука впустую, [4] снижает его производительность, а в случае плохо написанного краулера может привести к сбою программы. Вежливые пауки чередуют запросы между разными хостами и не запрашивают документы с одного и того же сервера чаще, чем раз в несколько секунд. [5] это означает, что «вежливый» веб-сканер затрагивается в гораздо меньшей степени, чем «невежливый» сканер. [ нужна ссылка ]
Кроме того, сайты с ловушками для пауков обычно имеют файл robots.txt, который сообщает ботам не идти в ловушку, поэтому законный «вежливый» бот не попадет в ловушку, тогда как «невежливый» бот, игнорирующий настройки robots.txt, попадет в ловушку. попасть под влияние ловушки. [6]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ « Что такое ловушка для пауков » ? Техопедия . 27 ноября 2017 г. Проверено 29 мая 2018 г.
- ^ Нил М. Хеннесси. « Самый сладкий яд, или Открытие в сети поэзии L=A=N=G=U=A=G=E ». Доступ 26 сентября 2013 г.
- ^ «Предзнаменование» . Предзнаменование . 03 февраля 2016 г. Проверено 16 октября 2019 г.
- ^ «Как настроить файл robots.txt для управления пауками поисковых систем (thesitewizard.com)» . www.thesitewizard.com . Проверено 16 октября 2019 г.
- ^ «Создание вежливого веб-сканера» . Сообщество разработчиков . 13 апреля 2019 года . Проверено 16 октября 2019 г.
- ^ Группа, Дж. Медиа (12 октября 2017 г.). «Закрытие ловушки для пауков: исправление неэффективности сканирования» . Джей Медиа Групп . Проверено 16 октября 2019 г.