Googlebot
В этой статье есть несколько проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти шаблонные сообщения )
|
Оригинальный автор(ы) | |
---|---|
Тип | Веб-сканер |
Веб-сайт | Часто задаваемые вопросы о роботе Googlebot |
Googlebot — это программное обеспечение для веб-сканирования, используемое Google , которое собирает документы из Интернета для создания поискового индекса для поисковой системы Google . На самом деле это имя используется для обозначения двух разных типов веб-сканеров: сканера для настольных компьютеров (для имитации пользователей настольных компьютеров) и мобильного сканера (для имитации мобильного пользователя). [1]
Поведение
[ редактировать ]Веб-сайт, вероятно, будет сканироваться как Googlebot Desktop, так и Googlebot Mobile. Однако с сентября 2020 года все сайты были переведены на индексацию с приоритетом мобильных устройств, то есть Google сканирует Интернет с помощью Googlebot для смартфонов. [2] Подтип Googlebot можно определить, просмотрев строку пользовательского агента в запросе. Однако оба типа сканеров подчиняются одному и тому же токену продукта (токену useent) в файле robots.txt, поэтому разработчик не может выборочно нацеливать робота Googlebot на мобильные устройства или компьютеры Googlebot с помощью файла robots.txt.
Google предоставляет различные методы, которые позволяют владельцам веб-сайтов управлять содержимым, отображаемым в результатах поиска Google. Если веб-мастер решит ограничить информацию на своем сайте, доступную роботу Google или другому пауку , он может сделать это с помощью соответствующих директив в файле robots.txt : [3] или добавив метатег <meta name="Googlebot" content="nofollow" />
на веб-страницу. [4] Запросы робота Googlebot к веб-серверам идентифицируются по строке пользовательского агента , содержащей «Googlebot», и адресу хоста, содержащему «googlebot.com». [5]
В настоящее время робот Googlebot переходит по HREF и SRC. ссылкам [3] Появляется все больше свидетельств того, что робот Googlebot может выполнять JavaScript и анализировать контент, созданный вызовами Ajax . [6] Существует множество теорий относительно того, насколько развиты возможности робота Googlebot по обработке JavaScript, при этом мнения варьируются от минимальных возможностей, полученных от пользовательских интерпретаторов. [7] В настоящее время робот Googlebot использует службу веб-рендеринга (WRS), основанную на механизме рендеринга Chromium (версия 74 по состоянию на 7 мая 2019 г.). [8] Робот Googlebot обнаруживает страницы, собирая каждую ссылку на каждой странице, которую он может найти. Если это не запрещено тегом nofollow , он затем следует по этим ссылкам на другие веб-страницы. Новые веб-страницы должны быть связаны с другими известными страницами в Интернете, чтобы их можно было сканировать и индексировать, или отправлять веб-мастеру вручную.
Проблема, с которой веб-мастера с веб-хостинга с низкой пропускной способностью планами [ нужна ссылка ] Я часто отмечал, что робот Googlebot занимает огромную часть полосы пропускания. [ нужна ссылка ] Это может привести к тому, что веб-сайты превысят лимит пропускной способности и будут временно закрыты. Это особенно проблематично для зеркальных сайтов, на которых размещено много гигабайт данных. Google предоставляет « Консоль поиска », которая позволяет владельцам веб-сайтов регулировать скорость сканирования. [9]
Частота сканирования сайта роботом Googlebot зависит от бюджета сканирования. Бюджет сканирования — это оценка того, как часто обновляется веб-сайт. [ нужна ссылка ] Технически, команда разработчиков Googlebot (команда сканирования и индексирования) использует внутри себя несколько определенных терминов, чтобы понять, что означает «бюджет сканирования». [10] С мая 2019 года робот Googlebot использует новейший механизм рендеринга Chromium , поддерживающий функции ECMAScript 6 . Это сделает бота более «вечнозеленым» и гарантирует, что он не будет полагаться на устаревший движок рендеринга по сравнению с возможностями браузера. [8]
Медиабот
[ редактировать ]Mediabot — это веб-сканер , который Google использует для анализа контента, чтобы Google AdSense мог показывать контекстно-релевантную рекламу на веб-странице. Mediabot идентифицирует себя с помощью строки пользовательского агента «Mediapartners-Google/2.1».
В отличие от других сканеров, Mediabot не переходит по ссылкам для обнаружения новых URL-адресов, доступных для сканирования, а посещает только URL-адреса, содержащие код AdSense. [11] Если этот контент находится за учетной записью, сканеру может быть предоставлена возможность входа в систему, чтобы он мог сканировать защищенный контент. [12]
Гусеничные инструменты для инспекций
[ редактировать ]InspectionTool — это сканер, используемый инструментами тестирования поиска, такими как тест расширенных результатов и проверка URL-адресов в консоли поиска Google . За исключением пользовательского агента и токена пользовательского агента, он имитирует Googlebot. [13]
Руководство для сканеров было опубликовано независимо. [14] В нем подробно описаны четыре (4) различных сканера, основанные на данных индекса каталога веб-сервера : один (1) сканер без Chrome и три (3) сканера Chrome.
Ссылки
[ редактировать ]- ^ «Googleбот» . Google . 11 марта 2019 г. Проверено 11 марта 2019 г.
- ^ «Объявляем о первом индексировании мобильных устройств для всей сети» . Разработчики Google . Проверено 17 марта 2021 г.
- ^ Jump up to: а б «Консоль поиска Google» . Google.com .
- ^ «Консоль поиска Google» . search.google.com . Проверено 11 марта 2019 г.
- ^ «Что такое робот Googlebot | Центр поиска Google | Документация» . Май 2022.
- ^ «Понимание основ SEO в JavaScript | Поиск разработчиков» . Разработчики Google . Проверено 26 июля 2020 г.
- ^ Сплитт, Мартин. «Как поиск Google индексирует сайты с JavaScript — JavaScript SEO» . Ютуб . Архивировано из оригинала 12 декабря 2021 г.
- ^ Jump up to: а б «Новый вечнозеленый робот Googlebot» . Официальный блог Центра веб-мастеров Google . Проверено 7 июня 2019 г.
- ^ «Гугл – Веб-мастерам» . Проверено 15 декабря 2012 г.
- ^ «Что означает бюджет сканирования для робота Googlebot» . Официальный блог Центра веб-мастеров Google . Проверено 4 июля 2018 г.
- ^ «О сканере AdSense» .
- ^ «Показывать рекламу на страницах, защищенных входом в систему» .
- ^ «Обзор Google Crawler (пользовательский агент)» .
- ^ «Полное руководство по новым сканерам InspectionTool» .