Карты сайта
![]() | Эта статья написана как руководство или руководство . ( март 2021 г. ) |
Карты сайта — это протокол в формате XML , предназначенный для веб-мастера для информирования поисковых систем об URL-адресах веб -сайта , доступных для сканирования . Он позволяет веб-мастерам включать дополнительную информацию о каждом URL-адресе: когда он последний раз обновлялся, как часто он меняется и насколько он важен по отношению к другим URL-адресам сайта. Это позволяет поисковым системам более эффективно сканировать сайт и находить URL-адреса, которые могут быть изолированы от остального содержимого сайта. Протокол Sitemaps – это протокол включения URL-адресов, который дополняет robots.txt
, протокол исключения URL-адресов.
История
[ редактировать ]Google впервые представил Sitemaps 0.84 в июне 2005 года, чтобы веб-разработчики могли публиковать списки ссылок со всех своих сайтов. [ 1 ] Гугл, Яху! и Microsoft объявили о совместной поддержке протокола Sitemaps в ноябре 2006 года. [ 2 ] Версия схемы была изменена на «Sitemap 0.90», но никаких других изменений внесено не было.
В апреле 2007 года Ask.com и IBM объявили о поддержке файлов Sitemap. [ 3 ] Кроме того, Google, Yahoo, MSN объявили об автоматическом обнаружении файлов Sitemap через robots.txt
. В мае 2007 года правительства штатов Аризона, Калифорния, Юта и Вирджиния объявили, что будут использовать файлы Sitemap на своих веб-сайтах. [ 4 ]
Протокол Sitemaps основан на идеях [ 5 ] из раздела «Веб-серверы, удобные для сканирования», [ 6 ] с улучшениями, включая автоматическое обнаружение через robots.txt
и возможность указать приоритет и частоту изменения страниц.
Цель
[ редактировать ]Файлы Sitemap особенно полезны на веб-сайтах, где:
- Некоторые разделы веб-сайта недоступны через просматриваемый интерфейс. [ 7 ]
- Веб-мастера используют богатый контент Ajax , Silverlight или Flash , который обычно не обрабатывается поисковыми системами .
- Сайт очень большой, и веб-сканеры могут не заметить часть нового или недавно обновленного контента. [ 7 ]
- Когда веб-сайты имеют огромное количество страниц, которые изолированы или плохо связаны друг с другом, или [ 7 ]
- Когда на сайте мало внешних ссылок [ 7 ]
Формат файла
[ редактировать ]Формат протокола Sitemap состоит из тегов XML. Сам файл должен иметь кодировку UTF-8 . Файлы Sitemap также могут представлять собой простой текстовый список URL-адресов. Их также можно сжать в формате .gz.
Ниже показан пример файла Sitemap, который содержит только один URL-адрес и использует все дополнительные теги.
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2006-11-18</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Протокол Sitemap XML также расширен и теперь позволяет включать несколько файлов Sitemap в файл «индекса Sitemap». Максимальный размер файла Sitemap — 50 МБ или 50 000 URL-адресов. [ 8 ] значит это необходимо для больших сайтов.
Ниже приведен пример индекса Sitemap, ссылающегося на одну отдельную карту сайта.
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd"
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2014-10-01T18:23:17+00:00</lastmod>
</sitemap>
</sitemapindex>
Определения элементов
[ редактировать ]Определения элементов приведены ниже: [ 8 ]
Элемент | Необходимый? | Описание |
---|---|---|
<urlset>
|
Да | Элемент уровня документа для карты сайта. Остальная часть документа после элемента «<?xml version>» должна содержаться в нем. |
<url>
|
Да | Родительский элемент для каждой записи. |
<sitemapindex>
|
Да | Элемент уровня документа для индекса Sitemap. Остальная часть документа после элемента «<?xml version>» должна содержаться в нем. |
<sitemap>
|
Да | Родительский элемент для каждой записи в индексе. |
<loc>
|
Да | Предоставляет полный URL-адрес страницы или карты сайта, включая протокол (например, http, https) и косую черту в конце, если этого требует хост-сервер сайта. Это значение должно быть короче 2048 символов. Обратите внимание, что амперсанды в URL-адресе необходимо экранировать как & .
|
<lastmod>
|
Нет | Дата последнего изменения файла в формате ISO 8601 . Здесь может отображаться полная дата и время или, при желании, просто дата в формате ГГГГ-ММ-ДД. |
<changefreq>
|
Нет | Как часто страница может меняться:
«Всегда» используется для обозначения документов, которые изменяются каждый раз, когда к ним обращаются. «Никогда» используется для обозначения архивных URL-адресов (т. е. файлов, которые больше не будут изменены). Это используется только в качестве руководства для сканеров и не используется для определения частоты индексации страниц. Не относится к |
<priority>
|
Нет | Приоритет этого URL-адреса относительно других URL-адресов на сайте. Это позволяет веб-мастерам предлагать сканерам, какие страницы считаются более важными.
Допустимый диапазон — от 0,0 до 1,0, причем значение 1,0 является наиболее важным. Значение по умолчанию — 0,5. Оценка всех страниц сайта с высоким приоритетом не влияет на результаты поиска, поскольку она используется только для того, чтобы подсказать сканерам, насколько важны страницы сайта друг для друга. Не относится к |
Поддержка необязательных элементов может варьироваться от одной поисковой системы к другой. [ 8 ]
Другие форматы
[ редактировать ]Текстовый файл
[ редактировать ]Протокол Sitemaps позволяет файлу Sitemap представлять собой простой список URL-адресов в текстовом файле. Спецификации файлов XML-файлов Sitemap также применимы к текстовым файлам Sitemap; файл должен быть в кодировке UTF-8, его размер не может превышать 50 МБ (несжатый) или содержать более 50 000 URL-адресов. Файлы Sitemap, превышающие эти ограничения, должны быть разбиты на несколько файлов Sitemap с помощью индексного файла Sitemap (файла, который указывает на несколько файлов Sitemap). [ 9 ]
Лента синдикации
[ редактировать ]Фид синдикации – это разрешенный метод отправки URL-адресов сканерам; это рекомендуется в основном для сайтов, на которых уже есть каналы синдикации. Одним из заявленных недостатков является то, что этот метод может предоставить сканерам только недавно созданные URL-адреса, но другие URL-адреса все равно можно обнаружить во время обычного сканирования. [ 8 ]
Может быть полезно иметь канал синдикации в виде дельта-обновления (содержащего только самый новый контент) для дополнения полной карты сайта.
Представление в поисковых системах
[ редактировать ]![]() | в этом разделе Использование внешних ссылок может не соответствовать политике и рекомендациям Википедии . ( декабрь 2023 г. ) |
Если файлы Sitemap отправляются непосредственно в поисковую систему ( проверено ping ), она вернет информацию о состоянии и любых ошибках обработки. Детали, связанные с отправкой, будут различаться в зависимости от разных поисковых систем. Местоположение карты сайта также может быть включено в файл robots.txt
файл, добавив следующую строку:
Sitemap: <sitemap_location>
The <sitemap_location>
должен быть полным URL-адресом карты сайта, например:
https://www.example.org/sitemap.xml
Эта директива не зависит от строки пользовательского агента, поэтому не имеет значения, где она находится в файле. Если на веб-сайте имеется несколько файлов Sitemap, в них можно включить несколько записей Sitemap:. robots.txt
или URL-адрес может просто указывать на основной файл индекса карты сайта.
В следующей таблице перечислены URL-адреса отправки карты сайта для нескольких основных поисковых систем:
Поисковая система | URL-адрес отправки | Страница помощи | Рынок |
---|---|---|---|
Байду | https://zhanzhang.baidu.com/dashboard/index | Панель инструментов Baidu для веб-мастеров | Китай, Сингапур |
Бинг (и Yahoo! ) | https://www.bing.com/webmaster/ping.aspx?siteMap= | Инструменты Bing для веб-мастеров | Глобальный |
https://www.google.com/ping?sitemap= | Создайте и отправьте карту сайта | Глобальный | |
Yandex | https://webmaster.yandex.com/site/map.xml | Файлы Sitemap | Russia, Belarus, Kazakhstan, Turkey |
URL-адреса файлов Sitemap, отправленные с использованием URL-адресов отправки файлов Sitemap, должны быть закодированы в URL-адресе , например:
заменять :
(двоеточие) с %3A
,
заменять /
(косая черта) с %2F
. [ 8 ]
Ограничения на индексацию поисковыми системами
[ редактировать ]Файлы Sitemap дополняют, а не заменяют существующие механизмы сканирования, которые поисковые системы уже используют для обнаружения URL-адресов. Использование этого протокола не гарантирует, что веб-страницы будут включены в поисковые индексы, а также не влияет на то, как страницы ранжируются в результатах поиска. Конкретные примеры приведены ниже.
- Google – Поддержка веб-мастеров по файлам Sitemap: «Использование карты сайта не гарантирует, что все элементы в вашей карте сайта будут просканированы и проиндексированы, поскольку процессы Google полагаются на сложные алгоритмы для планирования сканирования. Однако в большинстве случаев ваш сайт выиграет от у вас есть карта сайта, и вы никогда не будете наказаны за ее наличие». [ 10 ]
- Bing — Bing использует стандартный протокол sitemaps.org и очень похож на упомянутый ниже.
- Yahoo. После начала поисковой сделки между Yahoo! Inc. и Microsoft, Yahoo! Site Explorer объединен с Bing Webmaster Tools
Ограничения карты сайта
[ редактировать ]Файлы карты сайта имеют ограничение в 50 000 URL-адресов и 50 МБ (52 428 800 байт) на карту сайта. Карты сайта можно сжимать с помощью gzip , что снижает потребление полосы пропускания. Поддерживается несколько файлов Sitemap, при этом индексный файл Sitemap служит точкой входа. Индексные файлы Sitemap не могут содержать более 50 000 файлов Sitemap, их размер не должен превышать 50 МБ, и их можно сжимать. У вас может быть несколько индексных файлов Sitemap. [ 8 ]
Как и во всех файлах XML, любые значения данных (включая URL-адреса) должны использовать escape-коды сущностей для символов амперсанда (&), одинарной кавычки ('), двойной кавычки ("), меньше (<) и больше (>). .
Лучшая практика оптимизации индекса карты сайта для удобства сканирования поисковыми системами — обеспечить, чтобы индекс ссылался только на карты сайта, а не на другие индексы карты сайта. По мнению Google, вложение индекса карты сайта в индекс карты сайта недопустимо. [ 11 ]
Дополнительные типы карты сайта
[ редактировать ]Google поддерживает ряд дополнительных типов XML-карт сайта, выходящих за рамки протокола Sitemaps, что позволяет веб-мастерам предоставлять дополнительные данные о содержании своих веб-сайтов. Карты сайта для видео и изображений предназначены для улучшения ранжирования веб-сайтов в результатах поиска изображений и видео. [ 12 ] [ 13 ]
Карты сайта для видео
[ редактировать ]В файлах Sitemap для видео указаны данные, связанные с встраиванием и автоматическим воспроизведением, предпочтительные миниатюры для отображения в результатах поиска, дата публикации, продолжительность видео и другие метаданные. [ 13 ] Карты сайта для видео также используются, чтобы позволить поисковым системам индексировать видео, встроенные в веб-сайт, но размещенные на внешнем хостинге, например, на Vimeo или YouTube .
Карты сайта для изображений
[ редактировать ]Карты сайта изображений используются для указания метаданных изображения, таких как информация о лицензировании, географическое местоположение и подпись изображения. [ 12 ]
Файлы Sitemap для Новостей Google
[ редактировать ]Google поддерживает тип карты сайта Google News для облегчения быстрого индексирования срочных новостей. [ 14 ] [ 15 ]
Многоязычные и многонациональные карты сайта
[ редактировать ]В декабре 2011 года Google анонсировал аннотации для сайтов, ориентированных на пользователей на многих языках и, при необходимости, странах. Несколько месяцев спустя Google объявил в своем официальном блоге: [ 16 ] что они добавляют поддержку указания аннотаций rel="alternate" и hreflang в файлах Sitemap. Вместо HTML-элементов ссылок (пока единственный вариант) вариант Sitemaps предлагал множество преимуществ, включая меньший размер страницы и более простое развертывание для некоторых веб-сайтов.
Один из примеров многоязычной карты сайта может быть следующим:
Если, например, у нас есть сайт, ориентированный на англоязычных пользователей через https://www.example.com/en
и пользователи греческого языка через https://www.example.com/gr
, до этого момента единственным вариантом было добавить аннотацию hreflang либо в заголовок HTTP, либо в виде HTML-элементов в оба URL-адреса, например этот
<link rel="alternate" hreflang="en" href="https://www.example.com/en" />
<link rel="alternate" hreflang="gr" href="https://www.example.com/gr" />
Но теперь в качестве альтернативы можно использовать следующую эквивалентную разметку в файлах Sitemap:
<url>
<loc>https://www.example.com/en</loc>
<xhtml:link
rel="alternate"
hreflang="gr"
href="https://www.example.com/gr" />
<xhtml:link
rel="alternate"
hreflang="en"
href="https://www.example.com/en" />
</url>
<url>
<loc>https://www.example.com/gr</loc>
<xhtml:link
rel="alternate"
hreflang="gr"
href="https://www.example.com/gr" />
<xhtml:link
rel="alternate"
hreflang="en"
href="https://www.example.com/en" />
</url>
См. также
[ редактировать ]- Карта биосайта
- Метаданные
- Ресурсы ресурса
- Yahoo! Обозреватель сайтов
- Инструменты Google для веб-мастеров
Ссылки
[ редактировать ]- ^ Шивакумар, Шива (2 июня 2005 г.). «Блог Google: удобный для веб-мастеров» . Архивировано из оригинала 8 июня 2005 г. Проверено 31 декабря 2021 г.
- ^ «Основные поисковые системы объединяются, чтобы поддержать общий механизм представления веб-сайтов» . Новости от Google . 16 ноября 2006 года . Проверено 31 декабря 2021 г.
- ^ Патхак, Вивек (11 мая 2007 г.). «Блог Ask.com: автоматическое обнаружение файлов Sitemap» . Официальный блог Ask . Архивировано из оригинала 18 мая 2007 г. Проверено 31 декабря 2021 г.
- ^ «Информация для организаций государственного сектора» . Архивировано из оригинала 30 апреля 2007 г.
- ^ М.Л. Нельсон; Дж. А. Смит; дель Кампо; Х. Ван де Сомпель; С. Лю (2006). «Эффективный автоматизированный сбор веб-ресурсов» (PDF) . ВИДМ'06 .
- ^ О. Брандман, Дж. Чо, Гектор Гарсиа-Молина и Нараянан Шивакумар (2000). «Веб-серверы, удобные для сканирования». Материалы обзора оценки производительности ACM SIGMETRICS, том 28, выпуск 2 . дои : 10.1145/362883.362894 .
{{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Перейти обратно: а б с д «Подробнее о картах сайта | Центр поиска» . Разработчики Google . Проверено 1 июня 2021 г.
- ^ Перейти обратно: а б с д и ж «Формат XML-карты сайта» . Карта сайта.org. 21 ноября 2016 г. Проверено 1 декабря 2016 г.
- ^ «Создание и отправка карты сайта – Справка Search Console» . Поддержка.google.com . Проверено 30 ноября 2020 г. .
- ^ «О файлах Sitemap Google» . 01.12.2016 . Проверено 1 декабря 2016 г.
- ^ «Отчет о файлах Sitemap – Cправка Search Console» . support.google.com . Проверено 15 апреля 2020 г.
- ^ Перейти обратно: а б «Карты сайта изображений» . Консоль поиска Google . Проверено 28 декабря 2018 г.
- ^ Перейти обратно: а б «Файлы Sitemap для видео» . Консоль поиска Google . Проверено 28 декабря 2018 г.
- ^ Бигби, Гаренн. «Почему вам следует использовать файл Sitemap для Новостей Google» . Дино картограф . Проверено 28 декабря 2018 г.
- ^ «Файлы Sitemap для Новостей Google» . Консоль поиска Google . Проверено 28 декабря 2018 г.
- ^ «Многоязычные и многонациональные аннотации сайтов в файлах Sitemap» . Центральный блог Google для веб-мастеров . Пьер Фар. 24 мая 2012 г.
Внешние ссылки
[ редактировать ]- Официальный сайт
- Группы новостей Google
- Карты сайта
- Помощь веб-мастеру: карта сайта заархивирована 21 декабря 2006 г. на Wayback Machine.