Анализ sitemap. Детальное руководство по файлу Sitemap. Ошибка размера файла Sitemap: превышен максимально допустимый размер файла Sitemap

BSoD

Вы просто кретин, если в свое время не уделили сайтмапу нужное внимание. Достаточно один раз разобраться в вопросе и в будущем избежать большого количества ошибок, что давайте сейчас и сделаем.

Ваш покорный слуга в годы младые также был таким кретином, когда только начал продвигать сайты в одной конторе. Попался мне в то время один сайтец на продвижение, который, следует сказать, был просто гавном. И у этого гавна были проблемы с индексацией. Естественно, будь сайт достаточно качественным, его бы оба поисковика индексировали несмотря ни на какие проблемы, но владельцы жались на нормальных дизайнера, верстальщика и программиста, а в этом случае сеошнику остается только, так сказать, открывать бутылку при помощи ножниц. Я перепробовал на нем все — и настройку last-modified, и ускорение индексации модным в то время фастботом, и покупку ссылок. И только потом оказалось, что дело было в том, что там не обновлялся автоматически сайтмап! Когда я его обновил — все страницы влетели в индекс.

Что такое sitemap и зачем он нужен

Что такое sitemap? Это файл с информацией о страницах сайта, которые нужно индексировать. Обычно sitemap создают для Яндекса и Гугла, чтобы оповестить поисковых роботов о страницах, которые нужно внести в индекс. Ещё при помощи сайтмапа осуществляется проверка того, как часто происходят обновления, и индексация каких веб-документов является наиболее важной. В целом очень хорошо о нем рассказали на Вебмастерской Яндекса:

Влияет ли наличие sitemap на продвижение

Если у вас отсутствует сайтмап, это не означает, что поисковики не станут индексировать ресурс. Поисковые роботы зачастую и без этого неплохо сканируют сайты и включают их в поиск. Но иногда могут возникать сбои, из-за которых порой удается отыскать не все веб-документы. Основными причинами являются:

  1. Разделы сайта, в которые можно попасть, только совершив длинную цепочку переходов;
  2. Динамические URL-адреса.

Так вот, создание sitemap.xml во многом помогает решить эту проблему. Этот файл влияет на SEO лишь постольку, поскольку облегчает/ускоряет индексацию страниц. Также возрастает шанс того, что веб-страницы проиндексируются до того, как ваши конкуренты смогут скопировать контент, опубликовав его у себя на сайте.

В каком еще формате бывает карта сайта и почему её делают в формате XML

Зачем нужна карта сайта, мы разобрались. Теперь давайте рассмотрим, в каких форматах её можно сделать:

  1. В формате html. Создается в виде обыкновенной страницы с адресами, ведущими на главные разделы ресурса. Такой тип карты помогает быстро сориентироваться, и рассчитан в большей степени на людей, чем на поисковых роботов. В HTML sitemap можно поместить ограниченное число ссылок (не более 100), ведь если их окажется больше, то не все они попадут в индекс. Или же поисковые роботы могут и вовсе исключить такую страницу из поиска за чрезмерное число URLов, пусть даже и внутренних.
  2. Создание xml-файла sitemap. Здесь нет слишком критичных ограничений по количеству ссылок, а поисковики лучше его индексируют, ведь файл sitemap xml-формата содержит полную информацию в понятном для робота виде. Особенно он важен для проектов, где имеются сотни и тысячи документов одинаковой важности, и размещение всех ссылок на них необходимо. В сайтмап такого типа есть возможность разместить до 50 тысяч URLов и помимо этого можно выставить частоту обновлений и приблизительный приоритет (priority), чего не скажешь о карте в формате HTML. Именно по этим причинам сайтмап почти всегда создают в xml.

Вот еще инфа об этом файле:

Как сделать правильный sitemap

Рассмотрим, как сделать правильную xml-карту. Здесь должны быть соблюдены следующие требования:

  1. Размер файла должен быть не больше 10 мб;
  2. Карта должна содержать не больше 50000 ссылок. В тех случаях, когда ссылок больше, можно создать несколько карт и включить их в главную xml-карту;
  3. Адрес сайтмапа следует прописать в robots.txt;
  4. Также загрузите sitemap в яндекс и гугл (как добавить файл – описано ниже);
  5. Поисковые системы должны иметь доступ к карте. Необходимо использовать специальные теги, которые дают поисковикам понять, что это именно карта, а не что-то другое;
  6. У sitemap должна быть кодировка UTF-8.

Приведу простой пример карты:

http://site.ru/ 2016-11-20T19:45:08+03:00 always 0,9 http://site.ru/category/ 2016-11-20T19:46:38+03:00 monthly 0,6 http://site.ru/page/ 2016-11-20T19:48:41+03:00 yearly 0.4

< url >

< loc > http : //site.ru/

< lastmod > 2016 - 11 - 20T19 : 45 : 08 + 03 : 00 < / lastmod >

< changefreq > always < / changefreq >

< priority > 0 , 9 < / priority >

< / url >

< url >

< loc > http : //site.ru/category/

< lastmod > 2016 - 11 - 20T19 : 46 : 38 + 03 : 00 < / lastmod >

< changefreq > monthly < / changefreq >

< priority > 0 , 6 < / priority >

< / url >

< url >

< loc > http : //site.ru/page/

< lastmod > 2016 - 11 - 20T19 : 48 : 41 + 03 : 00 < / lastmod >

< changefreq > yearly < / changefreq >

< priority > 0.4 < / priority >

< / url >

Теги url и loc являются обязательными. В первом прописывают все сведения о конкретном URL. Во втором прописывается сам адрес.

Теги lastmod, changefreq, priority не являются обязательными, но использовать их всё же рекомендуется.

Lastmod в sitemap отвечает за дату последнего обновления.

Changefreq указывает на частоту изменений страницы. Значения могут быть следующими:

  1. Hourly – обновление ежечасно;
  2. Always – всегда обновляется;
  3. Weekly – обновляется раз в неделю;
  4. Daily – обновления происходят ежедневно;
  5. Monthly – обновления происходят раз в месяц;
  6. Yearly – один раз в год;
  7. Never – не обновляется (такое значение лучше не использовать).

Priority сообщает поисковикам о степени важности страницы, по сравнению с другими. Приоритет можно выставлять от 0,1(низкий) до 1(высокий).

Это был только пример карты, не нужно указывать именно эти значения. Вообще, priority рекомендуется расставлять следующим образом: максимальный для главной страницы (1), для рубрик средний (0,6), а для записей – минимальный (0,4).

Теперь рассмотрим пример, когда ссылок более 50 тысяч. В этом случае файл включает в себя другие карты:

http://site.ru/sitemaps/sitemap01.xml 2016-11-20T21:37:28+03:00 http://site.ru/sitemaps/sitemap02.xml 2016-11-20T21:37:29+03:00

< sitemap >

< loc > http : //site.ru/sitemaps/sitemap01.xml

< lastmod > 2016 - 11 - 20T21 : 37 : 28 + 03 : 00 < / lastmod >

< / sitemap >

< sitemap >

< loc > http : //site.ru/sitemaps/sitemap02.xml

< lastmod > 2016 - 11 - 20T21 : 37 : 29 + 03 : 00 < / lastmod >

< / sitemap >

Как создать карту сайта

Способов создания xml-карты несколько, рассмотрим их:

  1. Скачать карту при помощи онлайн генератора с другого ресурса;
  2. Сгенерировать при помощи специальной программы. Но стоит учесть, что программы подобного рода в основном платные. Пример такого генератора: Wonder WebWare SiteMap Generatior. В Screaming Frog также есть такая возможность;
  3. Создать сайтмап вручную;
  4. Автоматически создать карту при помощи CMS (например на WordPress доступна такая функция).

Вот вариант, как сделать сайтмап без помощи плагинов:

Плагины для создания sitemap на WordPress

Сделать карту сайта в WordPress можно с помощью специального плагина, который называется Google XML Sitemaps. Здесь все просто: скачиваем плагин, устанавливаем, затем приступаем к созданию файла. Для этого открываете Консоль-Настройки, и выбираете XML-sitemap. Далее выставляем настройки. Приоритет оставляем по умолчанию.

В этом путеводителе мы рассмотрим следующие вопросы:

Что такое Sitemap ?

Это файл, который содержит в себе перечень ссылок на все важные страницы сайта. То есть, этот документ направляет поисковые системы на основной контент на сайте.

Для чего нужна карта сайта

Сайтмап нужен, если у сайта есть проблемы с индексацией, которые вызваны:
1) большим количеством страниц;
2) отсутствием ссылок (внутренних или внешних) на страницы;
3) глубокой вложенностью на сайте (запутанной структурой).

HTML vs XML-карта сайта

Карты сайта бывают следующих типов:

  • HTML;

Самое простое объяснение разницы между этими форматами в том, что XML-карта в первую очередь предназначена для поисковых систем, а HTML – для пользователей.

HTML-карта – это всего лишь общий обзор сайта, содержит только информацию и страницы, которые нужно видеть пользователям. Если вы находитесь на сайте и ищете определённый раздел, при переходе на Sitemap HTML легко его найдёте. Несмотря на то, что такой тип карт сайта ориентирован на пользователя, он также может помочь вашему ранжированию в поисковых системах. Это одно из свидетельств того, что вы заботитесь об удобстве сайта для пользователя.

При составлении HTML-карты сайта важно учитывать:

1. Структурированное содержание.

Карта сайта должна быть понятна и удобна для восприятия пользователя. Желательно, чтобы она включала в себя разделы, категории, подкатегории и т. д.

2. Анкоры ссылок.

Протокол XML-карты сайта предназначен для поисковых роботов. XML-файл содержит в себе информацию о том, когда последний раз обновлялся URL-адрес, насколько это важно и как часто происходят изменения.

Обычно Sitemap состоит из следующих XML-тегов:

Обязательные:
– определяет стандарт протокола и инкапсулирует этот файл.
– содержит в себе информацию о URL-адресе (является родительским тегом).
– содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
— текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Подписаться на рассылку

Если основное предназначение robots.txt – это запрет индексации, то карта сайта sitemap.xml выполняет прямо противоположные задачи. Она отвечает за ускорение индексации сайта и полноту индексации сайта.

Sitemap.xml указывает поисковой системе частоту, с которой возникает необходимость в переиндексации страниц. В этом плане карта сайта особенно важна для сайтов с регулярно обновляющимся контентом (новостные порталы и т. п.). Кроме того, sitemap.xml содержит все важные страницы сайта с указанием их приоритета.

Требования, предъявляемые к карте сайта

Файл Sitemap представляет собой XML-файл, в котором перечислены URL-адреса веб-сайта в сочетании с метаданными, связанными с каждым URL-адресом (дата его последнего изменения; частота изменений; его приоритетность на уровне сайта), чтобы поисковые системы могли более грамотно сканировать этот сайт.

Общее число sitemap.xml на сайте не должно превышать 1000, при этом число записей (урлов) в каждом не должно превышать 50 000 штук.

Если необходимо перечислить более 50 000 URL-адресов, следует создать несколько файлов Sitemap.

Карту сайта можно сжать gzip архиватором для уменьшения его размера. Но объем каждого сайтмапа в развернутом (разархивированном) виде не должен превышать 10 мегабайт.

Карта сайта не обязательно должна быть в виде xml файла. Протокол допускает генерацию карты в виде синдикации (RSS или Atom) либо в виде простого текстового файла с построчным перечислением URL. Но такие «карты сайта» либо не включают в себя все URL сайта (в случае с синдикацией), либо не несут дополнительную важную информацию (дата и время модификации контента страниц), собственно ради которой и используют в SEO карты сайта.

Предоставляя отметку времени последнего изменения , Вы позволяете сканерам поисковой системы извлекать только часть файлов Sitemap в индексе, то есть сканер может извлекать только те файлы (страницы) сайта, которые были изменены после определенной даты. Этот механизм частичного извлечения файлов из Sitemap.xml позволяет быстро обнаруживать новые URL на сайтах больших размеров. Кроме того это позволяет снизить нагрузку как на сервер, так и на краулер поисковой системы. А последнее они (поисковые системы) крайне любят.

Сочетание карты сайта с robots.txt и метатегами robots

Инструкции sitemap.xml, при правильном их использовании должны дополнять друг друга. Существуют три важнейших правила взаимодействия этих инструкций:

  • sitemap.xml, robots.txt и метатеги robots не должны противоречить друг другу;
  • все страницы, исключенные (заблокированные) в robots.txt и метатегами robots, должны быть исключены также из sitemap.xml;
  • все индексируемые страницы, разрешенные в robots.txt, должны содержаться в sitemap.xml

Исключения из трех правил

Есть и исключения из этих трех правил. И, как всегда, они связаны со страницами пагинации. Начиная со второй и далее страницы пагинации, мы прописываем noindex,follow в метатегах robots, при этом в robots.txt страницы пагинации не закрыты от индексирования.

Дату и время изменения страницы ставить равную дате и времени изменения главной (первой, основной странице) страницы каталога. В принципе, с этим можно согласиться.

Оптимизаторы старой школы советуют добавлять в файл sitemap.xls только непроиндексированные или изменившиеся страницы. Страницы, попавшие в индекс следует удалять из сайтмапа. А вот с этим мнением согласиться уже сложней. При наличии поля lastmod и его правильном заполнении, никакой нужды в таких вот изысках нет.

Основные проблемы при использовании sitemap.xml

При выполнении , мне наиболее часто встречались следующие ошибки:

  1. Несоответствие sitemap.xml страницам сайта, устаревший сайтмап. Эта проблема возникает, когда сайтмап генерируется не динамически, а эпизодически, запуском какой то службы в CMS, а то и сторонними сервисами. При этом возникает масса мертвых страниц, отдающих 404 ошибку (это если страницу физически удалили или перенесли в другое место, сменили адрес URL). Кроме того, новые страницы индексируются значительно медленнее, ибо не находятся в sitemap.xml.
  2. Следующая ошибка – неверная структура sitemap.xml. Эта ошибка возникает, как правило, на «самописных» CMS или при использовании неверных плагинов к популярной CMS. При этом генерируется файл sitemap.xml с нарушением структуры, описанной протоколом.
  3. Модификация этой ошибки – неверная работа с датой изменения записи. С точки зрения протокола — это не ошибка, так как поле lastmod не является обязательным. С точки зрения SEO и поисковых систем, отсутствие правильного значения в этом поле (совпадающее с непосредственным изменением контента) — полностью нивелирует значимость всего файла sitemap.xml. Как было сказано выше, ПС будут переиндексировать те страницы, поле lastmod которых изменилось.Что произойдет, если это поле меняется одновременно у всех записей (страниц) сайта. То есть дата модификации одинакова у всех файлов сайта. Скорее всего, ПС не будут обращать внимание на sitemap и сайт будет переиндексироваться обычным способом, при этом глубоко расположенные страницы либо не переиндексируются вовсе, либо будут переиндексироваться очень долго.Итак, Необходимо или вовсе не использовать поле lastmod (что плохо), либо ставить дату последнего значимого изменения страницы, например, когда поменялась цена или товар закончился или изменилось описание.
  4. Следующая группа встречаемых ошибок – логические, вызваны нарушением трех правил о сочетании robots.txt и sitemap.xml. В этом случае можно наблюдать постоянное попадание страницы в индекс и немедленный вылет оттуда. Однако, это не будет наблюдаться при наличии метатега noindex и записи в Sitemap.xml. В этом случае краулер (робот, паук ПС), зашедший на страницу индексировать её не будет.
  5. Ну и последняя ошибка, часто встречающаяся на сайтах — наличие «осиротевших страниц». Это такие страницы, на которые стоит ссылка из sitemap, но нет ни одной прямой ссылки с любой из страниц сайта. Часто это связано с тем, что страницы были удалены «логически» (например в WordPress помещены в корзину), а не физически. Это так же наблюдается на сайтах, где доступ к карточкам товаров сделано на скриптах и фильтрах способом, который не позволяет проиндексировать результаты работ этих скриптов. Возможны и иные причины возникновения таких страниц-сирот. Все это снижает доверие поисковых систем к сайту и является негативным сигналом ранжирования.

Согласно протокола, после изменения сайтмапа, можно перепинговать поисковые системы. Для этого нужно создать запрос следующего вида.

Sitemap - это файл со ссылками на страницы сайта, который сообщает поисковым системам об актуальной структуре сайта. Яндекс поддерживает форматы XML и TXT. Формат XML позволяет передавать дополнительную информацию .

Примечание. Яндекс не гарантирует, что все указанные в файле URL попадут в результаты поиска.

  1. Требования к файлу
  2. Вопросы и ответы

В каких случаях нужен файл Sitemap

Яндекс разрабатывает специальные алгоритмы, по которым индексирующий робот узнает о сайте. Например, с помощью Ссылка, которая связывает страницы одного сайта. Страницы могут\n находиться в разных каталогах одного домена или на поддоменах.

"}}">внутренних и Ссылка, которая расположена на другом сайте."}}">внешних ссылок - переходя с одной страницы на другую. Иногда робот может пропустить страницы. Используйте Sitemap , если на сайте:

    большое количество страниц;

    отдельные страницы без навигационных ссылок;

    глубокая вложенность.

Поддерживаемые Яндексом форматы

Ограничение. Поиск Яндекса не поддерживает передачу RSS и Atom-фидов с помощью файла Sitemap .

Требования к файлу

    Максимальный размер файла в несжатом виде - 50 МБ.

    Разместите файл на том же домене, что и сайт, для которого он составлен.

    При обращении к файлу сервер должен возвращать HTTP-код 200.

Как создать файл и сообщить о нем Яндексу

При необходимости вы можете удалить информацию о Sitemap .

Вопросы и ответы

Sitemap отображается в сервисе как исключенная страница со статусом «Неверный формат документа»

Отображение файла Sitemap (как и других XML-файлов) как исключенных страниц имеет только информативный характер и никак не влияет на индексирование сайта или обработку Sitemap .

Файл Sitemap может отображаться в группе исключенных страниц, так как робот попытался проиндексировать его как обычную страницу, в то время как файлы формата XML не индексируются в поисковой системе Яндекса и в результатах поиска не участвуют.

При обработке Sitemap возникла ошибка «Неизвестный тег»

Файл Sitemap может содержать только определенные XML-элементы . Если Вебмастер обнаружит в файле другие элементы (например, указание на мобильную или мультиязычную версию, адреса картинок), в Вебмастере появится ошибка «Неизвестный тег». Неподдерживаемые элементы игнорируются роботом при обработке Sitemap , при этом данные из поддерживаемых элементов учитываются. Поэтому менять файл Sitemap необязательно.

Если содержимое файла будет изменено, потребуется до двух недель на обновление информации в Вебмастере.

Файл Sitemap находится в статусе «Не проиндексирован»

Файл Sitemap может быть не проиндексирован по нескольким причинам:

    Робот обошел файл Sitemap недавно и еще не успел обработать его. Подождите две недели. Если вы используете файл индекса Sitemap с несколькими файлами, то их обработка может занять больше времени, чем одного файла Sitemap .

    Сайт ранее был недоступен для индексирующего робота. Необходимо дождаться следующего посещения сайта роботом.

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/ 2018-06-14 daily 0.9

XML-теги
urlset
url (обязательный) - родительский тег для каждого URL-адреса.
loc (обязательный) - URL-адрес документа, должен быть абсолютным.
lastmod - дата последнего изменения документа в формате Datetime .
changefreq - частота изменения страницы (always, hourly, daily, weekly, monthly, yearly, never). Значение этого тега является рекомендацией поисковым системам, а не командой.
priority - приоритетность URL относительно других адресов (от 0 до 1) для очередности сканирования. Если не указывается, то по умолчанию равна 0.5.

XML карта для изображений

Некоторые оптимизаторы вставляют в sitemap.xml ссылки на изображения аналогично ссылкам на html-документы. Так можно делать, но лучше для Google использовать расширение стандартного протокола и вместе с урлами отправлять дополнительную информацию об изображениях. Создавать XML карты изображений полезно, если картинки необходимо сканировать и индексировать, и при этом, они напрямую не доступны боту (например, используется JavaScript).

Пример карты сайта, содержащей одну страницу и принадлежащие ей изображения

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML-теги
image:image (обязательно) - информация об одном изображении. Максимум может использоваться 1000 изображений.
image:loc (обязательно) - путь к файлу изображения. Если используется CDN, то допустимо ссылаться на другой домен, если он подтвержден в панели для вебмастеров.
image:caption - подпись к изображению (может содержаться длинный текст).
image:title - название изображение (обычно короткий текст).
image:geo_location - место съемки.
image:license - URL лицензии изображения. Используется при расширенном поиске по картинкам.

XML карта для видео

Подобно карте для изображений, Google также имеет расширение sitemap протокола для видео, где можно указывать подробную информацию о видео-контенте, влияющую на отображение в поиске по видео. Видео-сайтмап необходим, когда на сайте используются видео, которые хостятся локально, и когда индексация этих видео затруднена из-за используемых технологий. Если вы на сайте внедряете видео из YouTube, то video-sitemap здесь не нужен.

Файл Sitemap для новостей

При наличии на сайте новостного контента и участии в Google Новостях полезно использовать Sitemap для новостей, так Google будет быстрей находить ваши свежие материалы и индексировать все новостные статьи. В этом случае Sitemap должен содержать только адреса страниц, опубликованных за последние 2 дня и содержать не более 1000 урлов.

Использование нескольких карт

При необходимости можно использовать несколько карт сайтов, объединяя их в один индексный сайтмап. Несколько sitemap.xml используются в случаях, когда:

  • На сайте используется несколько движков (CMS).
  • На сайте больше 50 000 страниц.
  • Необходимо настроить удобное отслеживание ошибок в разделах.

В последнем случае каждый большой раздел сайта имеет свой sitemap.xml и все они добавляются в панель для вебмастеров, где удобно наблюдать, в каком из разделов больше всего ошибок (см. раздел поиска ошибок в карте сайта).

Если у вас 2 и более сайтмапа, их необходимо объединить в индексный сайтмап, который выглядит также как обычный (за исключением наличия тегов sitemapindex и sitemap вместо urlset и url), имеет аналогичные ограничения и может ссылаться только на обычные XML карты (не на индексные).

Пример Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex (обязательный) - указывает стандарт текущего протокола.
sitemap (обязательный) - содержит информацию об отдельном sitemap.
loc (обязательный) - местоположение sitemap (в формате xml, txt или rss для Google).
lastmod - время изменения сайтмапа. Позволяет поисковикам быстро обнаруживать новые URL на сайтах больших размеров.

Как создать sitemap.xml

Методы создания XML Sitemap:

  • Внутренние средства CMS. Многие CMS уже поддерживают создание карты сайта. Чтобы это выяснить, почитайте документацию к вашей CMS, посмотрите пункты меню в администраторской панели или обратитесь в техподдержку движка. Загрузите на вашем сайте файл https://вашсайт.com/sitemap.xml , возможно он уже существует и динамически формируется.
  • Внешние плагины. Если в CMS нет функционала генерации карты сайта, и она поддерживает плагины, погуглите, какой из плагинов закрывает вопрос sitemap.xml для вашего движка и установите его. В некоторых случаях необходимо обратиться к программистам, чтобы они написали вам подобный плагин.
  • Отдельный скрипт на сайте. Зная протокол XML карты и технические ограничения, можно создать sitemap.xml самостоятельно, добавив скрипт генерации в CRON. Если вы не программист, используйте другие пункты этого списка.
  • Генераторы Sitemap. Существует множество генераторов sitemap.xml, которые сканируют ваш сайт и дают скачать готовую карту. Недостаток здесь в том, что при каждом обновлении сайта необходимо вручную генерировать сайтмап.
  • Парсеры. Десктопные программы, предназначенные для технического анализа сайта, обычно предоставляют возможность скачать sitemap.xml, сгенерированный на основе просканированных страниц. Работает аналогично генераторам sitemap, только запускается локально на своей машине.

Популярные онлайн-генераторы карты сайта

XML-Sitemaps.com

Позволяет получить sitemap.xml в несколько кликов. Поддерживает форматы XML, HTML, TXT и GZ. Удобно использовать для небольших сайтов (до 500 страниц).

Похожий генератор, но имеет чуть больше настроек и позволяет создать карту до 2000 страниц бесплатно.

Имеет множество настроек, позволяет импортировать URL-адреса из CSV-файла. Бесплатно сканирует до 500 урлов.

Не имеет лимитов на количество страниц для сканирования. Но для больших сайтов процесс генерации может подвисать на несколько десятков минут.

Локальные программы для генерации XML Sitemap

G-Mapper Sitemap Generator

Бесплатная десктопная версия генератора карты сайта под Windows.

Screaming Frog SEO Spider

Гибкий инструмент генерации карты сайта с множеством настроек. Удобно, если вы уже пользуетесь скримин фрогом для других SEO-задач. После сканирования сайта используйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Менее гибкое, но тоже удобное решение для быстрой генерации sitemap.xml. После сканирования сайта необходимо использовать пункт меню Инструменты -> Генерация Sitemap.