noindex
Значение noindex HTML robots метатега требует, чтобы автоматизированные интернет-боты избегали индексирования веб-страницы. [1] [2] Причины, по которым можно использовать этот метатег, включают в себя совет роботам не индексировать очень большую базу данных, веб-страницы, которые являются временными, веб-страницы, которые находятся в стадии разработки, веб-страницы, которые хотелось бы сохранить немного более конфиденциальными, или принтер и версии страниц, оптимизированные для мобильных устройств. Поскольку бремя соблюдения тега noindex веб-сайта лежит на авторе поискового робота, иногда эти теги игнорируются. Кроме того, интерпретация тега noindex иногда немного отличается от одной компании-поисковика к другой.
Не индексировать целые страницы
[ редактировать ]< html > < head > < meta name = "robots" content = "noindex" > < title > Не индексировать эту страницу </ title > </ head >
Возможные значения содержимого метатега: «none», «all», «index», «noindex», «nofollow» и «follow». Также возможна комбинация значений, [1] например:
< meta name = "robots" content = "noindex, Follow" >
Директивы, специфичные для ботов
[ редактировать ]Директиву noindex можно ограничить только определенными ботами, указав другое значение «name» в метатеге.Например, чтобы специально заблокировать бота Google, [3] указать:
< meta name = "googlebot" content = "noindex" >
Или, чтобы заблокировать бота Bing, укажите:
< meta name = «bingbot» content = «noindex» >
Или, чтобы заблокировать бота Baidu, укажите:
< meta name = "baiduspider" content = "noindex" >
файл robots.txt
[ редактировать ]Файл robots.txt можно использовать для блокировки сканирования.
Неиндексировать часть страницы
[ редактировать ]Также можно исключить из индексирования часть веб-страницы, например текст навигации, а не всю страницу. Для этого существуют различные методы; можно использовать несколько в комбинации. Главный паук индексации Google, Googlebot , не распознает ни один из этих методов.
тег <ноиндекс>
[ редактировать ]Российская поисковая система Яндекс представила новый тег <noindex>, который предотвращает индексацию контента между тегами. Чтобы разрешить проверку исходного кода, альтернативно можно использовать <!--noindex-->: [4]
< р > Индексируйте этот текст. <noindex> текст . Не индексировать этот </ noindex > <!--noindex--> Не индексировать этот текст. <!--/noindex--> </ p >
Другие пауки индексирования также распознают тег <noindex>, включая Atomz . [5]
микроформат
[ редактировать ]Существует проект спецификации микроформатов 2005 года с той же функциональностью. Профиль исключения роботов ищет атрибут и значение class="robots-noindex" в HTML-тегах: [6]
<p> текст . Индексируйте этот </ p > < div class = "robots-noindex" > Не индексировать этот текст. </div> . Не < span class = "robots-noindex" > индексировать этот текст </span> > . < p class = "robots-noindex" Не индексировать этот текст </ р >
Также возможна комбинация значений, [6] например:
< div class = "robots-noindex robots-follow" > Text. </ див >
Yahoo!
[ редактировать ]В 2007 году Yahoo! представила аналогичную функциональность микроформата в своем пауке. Однако паук Yahoo! несовместим, поскольку он ищет значение class="robots-nocontent" и только это значение: [7]
<p> текст . Индексируйте этот </ p > < div class = "robots-nocontent" > Не индексируйте этот текст. </div> . Не < span class = "robots-nocontent" > индексировать этот текст </span> Не . < p class = "robots-nocontent" > индексировать этот текст </ р >
SharePoint
[ редактировать ]iFilter SharePoint 2010 исключает содержимое внутри тега <div> с атрибутом и значением class="noindex" . Внутренние <div> изначально не были исключены, но это могло измениться. Также неизвестно, можно ли применить этот атрибут к тегам, отличным от <div>. [8]
<p> текст . Индексируйте этот </ p > < div class = "noindex" > Не индексировать этот текст. </ див >
Структурированные комментарии
[ редактировать ]Поисковое устройство Google
[ редактировать ]Google Search Appliance использует структурированные комментарии: [9]
< р > Индексируйте этот текст. <!--googleoff: все--> Не индексируйте этот текст. <!--googleon: all--> </ p >
Другие индексирующие пауки также используют свои собственные структурированные комментарии.
См. также
[ редактировать ]- Nofollow Атрибут ссылки
- Стандарт исключения роботов
Ссылки
[ редактировать ]- ^ Jump up to: а б Роботы и элемент МЕТА , Официальная спецификация W3
- ^ О теге роботов <META>
- ^ Использование метатегов для блокировки доступа к вашему сайту , Справка Инструментов Google для веб-мастеров
- ^ «Использование HTML-тегов» . веб-мастер → помощь . Яндекс . Раздел: тег <noindex> . Проверено 25 марта 2013 г.
- ^ «Часто задаваемые вопросы по общему поиску» . Помощь . Атомз . 2013. Раздел: Как исключить части моего сайта из поиска?. Архивировано из оригинала 8 декабря 2021 года . Проверено 23 марта 2013 г.
Хотите запретить поиск по частям отдельных страниц? Если вы хотите исключить части страницы из индексирования, окружите текст тегами <noindex> и </noindex>. Это полезно, например, если вы хотите исключить текст навигации из поиска.
( требуется регистрация ) - ^ Jump up to: а б Джейнс, Питер (18 июня 2005 г.). «Профиль исключения роботов» . Микроформаты . Проверено 24 марта 2013 г.
- ^ Гарг, Приянк (2 мая 2007 г.). «Представляем Robots-Nocontent для разделов страницы» . Yahoo! Поиск по блогу . Yahoo! . Архивировано из оригинала 20 августа 2014 года . Проверено 23 марта 2013 г.
- ^ «Управление индексированием поиска (сканированием) на странице с помощью Noindex» . Разработчик Microsoft . Майкрософт . 7 июня 2010 года. Архивировано из оригинала 4 ноября 2017 года . Проверено 4 ноября 2017 г.
- ^ «Управление сканированием: подготовка к сканированию» . Google Search Appliance . Google Inc., 23 августа 2012 г. Раздел: Исключение нежелательного текста из индекса. Архивировано из оригинала 23 ноября 2012 года . Проверено 23 марта 2013 г.