Jump to content

Googlebot

(Перенаправлено с Mediabot )
Googlebot
Оригинальный автор(ы) Google
Тип Веб-сканер
Веб-сайт Часто задаваемые вопросы о роботе Googlebot

Googlebot — это программное обеспечение для веб-сканирования, используемое Google , которое собирает документы из Интернета для создания поискового индекса для поисковой системы Google . На самом деле это имя используется для обозначения двух разных типов веб-сканеров: сканера для настольных компьютеров (для имитации пользователей настольных компьютеров) и мобильного сканера (для имитации мобильного пользователя). [1]

Поведение

[ редактировать ]

Веб-сайт, вероятно, будет сканироваться как Googlebot Desktop, так и Googlebot Mobile. Однако с сентября 2020 года все сайты были переведены на индексацию с приоритетом мобильных устройств, то есть Google сканирует Интернет с помощью Googlebot для смартфонов. [2] Подтип Googlebot можно определить, просмотрев строку пользовательского агента в запросе. Однако оба типа сканеров подчиняются одному и тому же токену продукта (токену useent) в файле robots.txt, поэтому разработчик не может выборочно нацеливать робота Googlebot на мобильные устройства или компьютеры Googlebot с помощью файла robots.txt.

Google предоставляет различные методы, которые позволяют владельцам веб-сайтов управлять содержимым, отображаемым в результатах поиска Google. Если веб-мастер решит ограничить информацию на своем сайте, доступную роботу Google или другому пауку , он может сделать это с помощью соответствующих директив в файле robots.txt : [3] или добавив метатег <meta name="Googlebot" content="nofollow" /> на веб-страницу. [4] Запросы робота Googlebot к веб-серверам идентифицируются по строке пользовательского агента , содержащей «Googlebot», и адресу хоста, содержащему «googlebot.com». [5]

В настоящее время робот Googlebot переходит по HREF и SRC. ссылкам [3] Появляется все больше свидетельств того, что робот Googlebot может выполнять JavaScript и анализировать контент, созданный вызовами Ajax . [6] Существует множество теорий относительно того, насколько развиты возможности робота Googlebot по обработке JavaScript, при этом мнения варьируются от минимальных возможностей, полученных от пользовательских интерпретаторов. [7] В настоящее время робот Googlebot использует службу веб-рендеринга (WRS), основанную на механизме рендеринга Chromium (версия 74 по состоянию на 7 мая 2019 г.). [8] Робот Googlebot обнаруживает страницы, собирая каждую ссылку на каждой странице, которую он может найти. Если это не запрещено тегом nofollow , он затем следует по этим ссылкам на другие веб-страницы. Новые веб-страницы должны быть связаны с другими известными страницами в Интернете, чтобы их можно было сканировать и индексировать, или отправлять веб-мастеру вручную.

Проблема, с которой веб-мастера с веб-хостинга с низкой пропускной способностью планами [ нужна ссылка ] Я часто отмечал, что робот Googlebot занимает огромную часть полосы пропускания. [ нужна ссылка ] Это может привести к тому, что веб-сайты превысят лимит пропускной способности и будут временно закрыты. Это особенно проблематично для зеркальных сайтов, на которых размещено много гигабайт данных. Google предоставляет « Консоль поиска », которая позволяет владельцам веб-сайтов регулировать скорость сканирования. [9]

Частота сканирования сайта роботом Googlebot зависит от бюджета сканирования. Бюджет сканирования — это оценка того, как часто обновляется веб-сайт. [ нужна ссылка ] Технически, команда разработчиков Googlebot (команда сканирования и индексирования) использует внутри себя несколько определенных терминов, чтобы понять, что означает «бюджет сканирования». [10] С мая 2019 года робот Googlebot использует новейший механизм рендеринга Chromium , поддерживающий функции ECMAScript 6 . Это сделает бота более «вечнозеленым» и гарантирует, что он не будет полагаться на устаревший движок рендеринга по сравнению с возможностями браузера. [8]

Медиабот

[ редактировать ]

Mediabot — это веб-сканер , который Google использует для анализа контента, чтобы Google AdSense мог показывать контекстно-релевантную рекламу на веб-странице. Mediabot идентифицирует себя с помощью строки пользовательского агента «Mediapartners-Google/2.1».

В отличие от других сканеров, Mediabot не переходит по ссылкам для обнаружения новых URL-адресов, доступных для сканирования, а посещает только URL-адреса, содержащие код AdSense. [11] Если этот контент находится за учетной записью, сканеру может быть предоставлена ​​возможность входа в систему, чтобы он мог сканировать защищенный контент. [12]

Гусеничные инструменты для инспекций

[ редактировать ]

InspectionTool  — это сканер, используемый инструментами тестирования поиска, такими как тест расширенных результатов и проверка URL-адресов в консоли поиска Google . За исключением пользовательского агента и токена пользовательского агента, он имитирует Googlebot. [13]

Руководство для сканеров было опубликовано независимо. [14] В нем подробно описаны четыре (4) различных сканера, основанные на данных индекса каталога веб-сервера : один (1) сканер без Chrome и три (3) сканера Chrome.

  1. ^ «Googleбот» . Google . 11 марта 2019 г. Проверено 11 марта 2019 г.
  2. ^ «Объявляем о первом индексировании мобильных устройств для всей сети» . Разработчики Google . Проверено 17 марта 2021 г.
  3. ^ Jump up to: а б «Консоль поиска Google» . Google.com .
  4. ^ «Консоль поиска Google» . search.google.com . Проверено 11 марта 2019 г.
  5. ^ «Что такое робот Googlebot | Центр поиска Google | Документация» . Май 2022.
  6. ^ «Понимание основ SEO в JavaScript | Поиск разработчиков» . Разработчики Google . Проверено 26 июля 2020 г.
  7. ^ Сплитт, Мартин. «Как поиск Google индексирует сайты с JavaScript — JavaScript SEO» . Ютуб . Архивировано из оригинала 12 декабря 2021 г.
  8. ^ Jump up to: а б «Новый вечнозеленый робот Googlebot» . Официальный блог Центра веб-мастеров Google . Проверено 7 июня 2019 г.
  9. ^ «Гугл – Веб-мастерам» . Проверено 15 декабря 2012 г.
  10. ^ «Что означает бюджет сканирования для робота Googlebot» . Официальный блог Центра веб-мастеров Google . Проверено 4 июля 2018 г.
  11. ^ «О сканере AdSense» .
  12. ^ «Показывать рекламу на страницах, защищенных входом в систему» .
  13. ^ «Обзор Google Crawler (пользовательский агент)» .
  14. ^ «Полное руководство по новым сканерам InspectionTool» .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 6ac917dd4cecc669cdc500dd05cbf368__1718515500
URL1:https://arc.ask3.ru/arc/aa/6a/68/6ac917dd4cecc669cdc500dd05cbf368.html
Заголовок, (Title) документа по адресу, URL1:
Googlebot - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)