noindex

Значение noindex HTML robots метатега требует, чтобы автоматизированные интернет-боты избегали индексирования веб-страницы. ^[1]^[2] Причины, по которым можно использовать этот метатег, включают в себя совет роботам не индексировать очень большую базу данных, веб-страницы, которые являются временными, веб-страницы, которые находятся в стадии разработки, веб-страницы, которые хотелось бы сохранить немного более конфиденциальными, или принтер и версии страниц, оптимизированные для мобильных устройств. Поскольку бремя соблюдения тега noindex веб-сайта лежит на авторе поискового робота, иногда эти теги игнорируются. Кроме того, интерпретация тега noindex иногда немного отличается от одной компании-поисковика к другой.

Не индексировать целые страницы

<html>
<head>
  <meta name="robots" content="noindex">
  <title>Don't index this page</title>
</head>

Возможные значения содержимого метатега: «none», «all», «index», «noindex», «nofollow» и «follow». Также возможна комбинация значений, ^[1] например:

<meta name="robots" content="noindex, follow">

Директивы, специфичные для ботов

Директиву noindex можно ограничить только определенными ботами, указав другое значение «name» в метатеге. Например, чтобы специально заблокировать бота Google, ^[3] указать:

<meta name="googlebot" content="noindex">

Или, чтобы заблокировать бота Bing, укажите:

<meta name="bingbot" content="noindex">

Или, чтобы заблокировать бота Baidu, укажите:

<meta name="baiduspider" content="noindex">

файл robots.txt

Файл robots.txt можно использовать для блокировки сканирования.

Неиндексировать часть страницы

Также можно исключить из индексирования часть веб-страницы, например текст навигации, а не всю страницу. Для этого существуют различные методы; можно использовать несколько в комбинации. Главный паук индексации Google, Googlebot , не распознает ни один из этих методов.

тег <ноиндекс>

Российская поисковая система Яндекс представила новый тег <noindex>, который предотвращает индексацию контента между тегами. Чтобы разрешить проверку исходного кода, альтернативно можно использовать : ^[4]

<p>
Do index this text.
<noindex>Don't index this text.</noindex>
<!--noindex-->Don't index this text.<!--/noindex-->
</p>

Другие пауки индексирования также распознают тег <noindex>, включая Atomz . ^[5]

микроформат

Существует проект спецификации микроформатов 2005 года с той же функциональностью. Профиль исключения роботов ищет атрибут и значение class="robots-noindex" в HTML-тегах: ^[6]

<p>Do index this text.</p>
<div class="robots-noindex">Don't index this text.</div>
<span class="robots-noindex">Don't index this text.</span>
<p class="robots-noindex">Don't index this text.</p>

Также возможна комбинация значений, ^[6] например:

<div class="robots-noindex robots-follow">Text.</div>

Yahoo!

В 2007 году Yahoo! представила аналогичную функциональность микроформата в своем пауке. Однако паук Yahoo! несовместим, поскольку он ищет значение class="robots-nocontent" и только это значение: ^[7]

<p>Do index this text.</p>
<div class="robots-nocontent">Don't index this text.</div>
<span class="robots-nocontent">Don't index this text.</span>
<p class="robots-nocontent">Don't index this text.</p>

SharePoint

iFilter SharePoint 2010 исключает содержимое внутри тега <div> с атрибутом и значением class="noindex" . Внутренние <div> изначально не были исключены, но это могло измениться. Также неизвестно, можно ли применить этот атрибут к тегам, отличным от <div>. ^[8]

<p>Do index this text.</p>
<div class="noindex">Don't index this text.</div>

Структурированные комментарии

Поисковое устройство Google

Google Search Appliance использует структурированные комментарии: ^[9]

<p>
Do index this text.
<!--googleoff: all-->
Don't index this text.
<!--googleon: all-->
</p>

Другие индексирующие пауки также используют свои собственные структурированные комментарии.

См. также

Nofollow Атрибут ссылки
Стандарт исключения роботов

Ссылки

^ Jump up to: ^а ^б Роботы и элемент МЕТА , Официальная спецификация W3
^ О теге роботов <META>
^ Использование метатегов для блокировки доступа к вашему сайту , Справка Инструментов Google для веб-мастеров
^ «Использование HTML-тегов» . веб-мастер → помощь . Яндекс . Раздел: тег <noindex> . Проверено 25 марта 2013 г.
^ «Часто задаваемые вопросы по общему поиску» . Помощь . Атомз . 2013. Раздел: Как исключить части моего сайта из поиска?. Архивировано из оригинала 8 декабря 2021 года . Проверено 23 марта 2013 г. Хотите запретить поиск по частям отдельных страниц? Если вы хотите исключить части страницы из индексирования, окружите текст тегами <noindex> и </noindex>. Это полезно, например, если вы хотите исключить текст навигации из поиска. ( требуется регистрация )
^ Jump up to: ^а ^б Джейнс, Питер (18 июня 2005 г.). «Профиль исключения роботов» . Микроформаты . Проверено 24 марта 2013 г.
^ Гарг, Приянк (2 мая 2007 г.). «Представляем Robots-Nocontent для разделов страницы» . Yahoo! Поиск по блогу . Yahoo! . Архивировано из оригинала 20 августа 2014 года . Проверено 23 марта 2013 г.
^ «Управление индексированием поиска (сканированием) на странице с помощью Noindex» . Разработчик Microsoft . Майкрософт . 7 июня 2010 года. Архивировано из оригинала 4 ноября 2017 года . Проверено 4 ноября 2017 г.
^ «Управление сканированием: подготовка к сканированию» . Google Search Appliance . Google Inc., 23 августа 2012 г. Раздел: Исключение нежелательного текста из индекса. Архивировано из оригинала 23 ноября 2012 года . Проверено 23 марта 2013 г.

[W3spec-1] Jump up to: ^а ^б Роботы и элемент МЕТА , Официальная спецификация W3

[2] О теге роботов <META>

[google_noindex-3] Использование метатегов для блокировки доступа к вашему сайту , Справка Инструментов Google для веб-мастеров

[4] «Использование HTML-тегов» . веб-мастер → помощь . Яндекс . Раздел: тег <noindex> . Проверено 25 марта 2013 г.

[5] «Часто задаваемые вопросы по общему поиску» . Помощь . Атомз . 2013. Раздел: Как исключить части моего сайта из поиска?. Архивировано из оригинала 8 декабря 2021 года . Проверено 23 марта 2013 г. Хотите запретить поиск по частям отдельных страниц? Если вы хотите исключить части страницы из индексирования, окружите текст тегами <noindex> и </noindex>. Это полезно, например, если вы хотите исключить текст навигации из поиска. ( требуется регистрация )

[microformat-6] Jump up to: ^а ^б Джейнс, Питер (18 июня 2005 г.). «Профиль исключения роботов» . Микроформаты . Проверено 24 марта 2013 г.

[7] Гарг, Приянк (2 мая 2007 г.). «Представляем Robots-Nocontent для разделов страницы» . Yahoo! Поиск по блогу . Yahoo! . Архивировано из оригинала 20 августа 2014 года . Проверено 23 марта 2013 г.

[8] «Управление индексированием поиска (сканированием) на странице с помощью Noindex» . Разработчик Microsoft . Майкрософт . 7 июня 2010 года. Архивировано из оригинала 4 ноября 2017 года . Проверено 4 ноября 2017 г.

[9] «Управление сканированием: подготовка к сканированию» . Google Search Appliance . Google Inc., 23 августа 2012 г. Раздел: Исключение нежелательного текста из индекса. Архивировано из оригинала 23 ноября 2012 года . Проверено 23 марта 2013 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]