Сканирование: мифы и факты

Проверьте, насколько хорошо вы осведомлены о том, как Google сканирует сайты.

Сжав файлы Sitemap, можно увеличить лимит на сканирование.

Верно

Неверно

Это не так. Сжатые файлы Sitemap все равно нужно скачать с сервера, так что значительной экономии времени или ресурсов Google это не дает.

Google предпочитает более актуальный контент, поэтому его нужно постоянно обновлять.

Верно

Неверно

В Google Поиске мы оцениваем качество контента, а не время его публикации или изменения. Создавайте и обновляйте контент, когда считаете нужным, но помните, что внесение мелких правок или изменение даты публикации страницы не сделают его более актуальным.

Google предпочитает старый контент и придает ему больше веса, чем новому.

Верно

Неверно

Это не так. Если страница содержит полезную информацию, то неважно, когда она была добавлена на сайт.

Google предпочитает URL без параметров запроса.

Верно

Неверно

URL с параметрами тоже обрабатываются.

Чем быстрее загружаются и отрисовываются страницы, тем больше может просканировать Google.

Верно

Это так. Наши возможности ограничены временем и количеством поисковых роботов. Чем больше страниц вы можете предоставить по запросам роботов за ограниченное время, тем больше мы просканируем. Однако мы можем уделить дополнительное время сайту с низкой скоростью загрузки, если он содержит много ценной информации. В контексте управления сайтом важнее обеспечить быструю загрузку страниц не для поискового робота (с целью расширить охват сканирования), а для посетителей. Гораздо проще указать роботу Googlebot, какой контент нужно сканировать в первую очередь, чем каждый раз ждать, пока он просканирует все ваши страницы. Обратите внимание, что сканирование сайта предполагает не только получение его страниц, но и их отрисовку. На нее поисковый робот тоже тратит время. Поэтому, оптимизируя отрисовку страниц, вы повышаете скорость их сканирования.

Неверно

Крупные сайты сканируются чаще, чем небольшие.

Верно

Неверно

Если на сайте есть важная информация, которая часто обновляется, мы сканируем его часто, какого бы размера он ни был.

Чем ближе к главной странице находится контент (в структуре сайта), тем важнее он для Google.

Верно

Отчасти верно

Главная страница сайта зачастую является самой важной. Поэтому страницы, которые напрямую с ней связаны, могут считаться более приоритетными и сканироваться чаще. Однако это не значит, что их позиции будут выше, чем у остальных страниц вашего сайта.

Неверно

Добавляя в URL параметр версии контента, можно заставить Google скорее просканировать страницу снова.

Верно

Отчасти верно

Если добавлять в URL страницы параметр версии, вы сможете побудить Google просканировать ее быстрее. Однако в этом, как правило, нет необходимости, и при отсутствии нового контента выделенные на сканирование ресурсы будут потрачены впустую. Если же вы используете с этой целью параметры версии, то изменять URL следует только при условии, что на страницу действительно был добавлен имеющий значение новый контент.

Неверно

Лимит на сканирование зависит от скорости загрузки сайта и количества ошибок сервера.

Верно

Быстрые сайты более удобны для посетителей, и частота их сканирования выше. На таком сайте поисковые роботы Google могут обработать больше контента при одинаковом количестве подключений. А если сайт часто возвращает код статуса HTTP 5xx (ошибка сервера) или уведомления о превышении времени ожидания, частота сканирования будет снижена. Мы рекомендуем пользоваться отчетом "Статистика сканирования" в Search Console и стараться свести количество ошибок к минимуму.

Неверно

Частота сканирования влияет на ранжирование в Google Поиске.

Верно

Неверно

Если вы оптимизируете частоту сканирования, это не значит, что сайт займет более высокие позиции в результатах поиска Google. Положение определенной страницы зависит от множества факторов, однако сканирование к их числу не относится, хотя оно и необходимо для ее попадания в результаты поиска.

Лимит на сканирование расходуется при обработке альтернативных URL и встроенного контента.

Верно

Как правило, обработка любого URL приближает момент, когда лимит на сканирование сайта будет исчерпан. Альтернативные URL, в том числе AMP-страницы и страницы с атрибутами hreflang, a также встроенный контент, например код CSS или JavaScript, включая объекты XMLHttpRequest, могут сканироваться по необходимости, и каждый раз лимит на сканирование будет расходоваться.

Неверно

Поисковые роботы Google учитывают правило crawl-delay.

Верно

Неверно

Поисковые роботы Google игнорируют правило crawl-delay в файле robots.txt.

Правило nofollow влияет на лимит на сканирование.

Верно

Отчасти верно

Сканирование любого URL влияет на лимит. Помеченный директивой nofollow URL на вашей странице все равно может быть просканирован, если он указан без директивы nofollow на другой странице вашего или чужого сайта.

Неверно

Для управления лимитом на сканирование можно использовать директиву noindex.

Верно

Отчасти верно

Сканирование любого URL влияет на лимит, а для поиска директивы noindex Google необходимо просканировать страницу.

Однако с помощью noindex можно избежать попадания в индекс. Если вы хотите, чтобы такие страницы не попали в индекс Google, продолжайте использовать noindex и не переживайте за лимит на сканирование. Помните: если вы уберете URL из индекса Google с помощью noindex или другим способом, поисковые роботы Google смогут сфокусироваться на других URL на вашем сайте, то есть в долгосрочной перспективе noindex может несколько увеличить ваш лимит на сканирование.

Неверно

Страницы, передающие коды статусов HTTP 4xx, зря расходуют лимит на сканирование.

Верно

Неверно

Страницы, передающие коды статусов HTTP 4xx (кроме 429), не расходуют зря лимит на сканирование. Робот Google попытался просканировать страницу, но получил только код статуса при отсутствующем контенте.