Как оптимизировать лимит на сканирование
В этом руководстве описывается, как оптимизировать сканирование роботами Google очень больших сайтов, контент на которых часто меняется.
Если на вашем сайте мало страниц, обновляемых часто, или они обычно сканируются в течение суток после публикации, вам необязательно читать это руководство. Для Google Поиска достаточно вовремя обновлять файлы Sitemap и проверять отчет об индексировании.
Для кого это руководство
Рекомендации в этом руководстве полезны всем, но в основном оно предназначено для следующих типов сайтов:
- очень большие сайты (от 1 млн уникальных страниц) с достаточно часто (раз в неделю) меняющимся контентом;
- средние и большие сайты (от 10 тыс. уникальных страниц) с очень часто (ежедневно) меняющимся контентом;
- сайты, большинство URL которых в Search Console имеет статус Обнаружена, не проиндексирована.
Общая информация о сканировании
Интернет практически бесконечен, и Google не успевает находить и индексировать все существующие URL. Поэтому время, которое отводится на обработку каждого отдельного сайта, ограничено. При этом сайт определяется именем хоста. Например, сайты https://www.example.com/ и https://code.example.com/ принадлежат к разным хостам, поэтому у каждого из них свой лимит на сканирование. Он определяет, сколько времени и ресурсов Google может затратить на один сайт, и зависит от двух основных факторов: скорости сканирования и потребности в сканировании.
Скорость сканирования
Google сканирует сайты так, чтобы не перегружать серверы, на которых они размещены. Для этого рассчитывается скорость сканирования. Она определяется максимальным количеством параллельных подключений, которые Google может установить при обработке сайта, а также интервалом между подключениями. Такой подход позволяет обрабатывать весь важный контент сайта, не перегружая его серверы.
На скорость сканирования влияют следующие факторы:
- Время ответа сайта. Если в течение определенного времени сайт отправляет ответы без задержек, скорость сканирования увеличивается, то есть робот Googlebot может использовать при обработке контента больше подключений. Если ответы от сайта поступают медленно или содержат ошибки, скорость сканирования снижается.
- Возможности Google. У Google очень много компьютеров, однако наши возможности не безграничны. Поэтому мы вынуждены оптимально распределять свои ресурсы.
Потребность в сканировании
У каждого поискового робота своя потребность в сканировании. Например, на потребность AdsBot влияют цели динамической рекламы, а на потребность поискового робота Google Покупок – товары в фидах. Потребность в сканировании у робота Googlebot зависит от размера сайта, периодичности его обновления, востребованности контента и качества страниц.
В целом на потребность в сканировании влияют следующие факторы:
- Количество страниц на сайте по оценке Google. Если вы не указали иное, Google пытается просканировать все обнаруженные на вашем сайте URL. Но если многие из этих URL дублируются или не должны сканироваться по другим причинам (страница удалена, не содержит важных сведений и т. д.), то Google зря потратит время на сбор информации о них. Вы можете помочь нам в оптимизации, указав страницы, которые можно пропустить.
- Популярность. Страницы, которые просматривает больше посетителей, сканируются и индексируются чаще.
- Давность сканирования. Google старается сканировать URL с периодичностью, которая обеспечивает актуальность контента в результатах поиска.
Потребность в сканировании обычно возрастает после существенных изменений на сайте, например при переносе контента на новые URL.
Резюме
Google определяет лимит на сканирование сайта с учетом скорости сканирования и потребности в сканировании, составляя список URL, которые можно и нужно обработать. Если потребность в сканировании невелика, Google будет сканировать ваш сайт менее интенсивно даже при возможности увеличить скорость.
Рекомендации
Чтобы повысить эффективность сканирования, следуйте приведенным ниже рекомендациям.
- Управляйте количеством страниц, подлежащих сканированию. Используйте специальные инструменты, чтобы сообщать Google, какие страницы сканировать, а какие пропустить. Если слишком много времени уйдет на сканирование маловажных URL, поисковые роботы Google могут посчитать нецелесообразным обрабатывать остальные разделы сайта или увеличивать для этого лимит на сканирование.
- Консолидация страниц с идентичным контентом. Удалите страницы с идентичным контентом, чтобы поисковые роботы сканировали уникальные материалы, а не уникальные URL.
- Заблокируйте сканирование URL при помощи файла robots.txt. Некоторые страницы важны для пользователей, но при этом не должны появляться на платформах Google или повторно обрабатываться системами Google. Это могут быть страницы с бесконечной прокруткой, которые дублируют информацию, размещенную на других страницах, или версии одной и той же страницы с разной сортировкой. Если вы не можете объединить такие страницы в соответствии с первым пунктом, заблокируйте их при помощи файла robots.txt. После этого Google не станет их сканировать, а вероятность того, что они будут обработаны другими системами Google (например, проиндексированы Google Поиском), значительно снизится.
-
Возвращайте код ошибки
404или410для окончательно удаленных страниц. Даже если такая страница уже есть в базе данных Google, код404будет служить четким сигналом для поискового робота не сканировать страницу снова. В то же время заблокированные URL долго не удаляются из очереди сканирования и будут сканироваться снова, если вы их разблокируете. - Устраняйте ошибки
soft 404. Поисковый робот сканирует страницы, возвращающие ошибкуsoft 404, а значит, ваш лимит на сканирование будет расходоваться нерационально. Найти страницы с ошибкойsoft 404вам поможет отчет об индексировании. - Вовремя обновляйте файлы Sitemap. Google регулярно проверяет эти файлы, так что добавьте в них весь контент, который нужно сканировать. Если на вашем сайте есть обновленный контент, рекомендуем использовать тег
<lastmod>. - Избегайте длинных цепочек переадресации. Они вызывают проблемы при сканировании.
- Оптимизируйте страницы для ускорения их загрузки. Если ваши страницы будут загружаться и отрисовываться быстрее, Google сможет просканировать больше контента на вашем сайте.
- Устраняйте неполадки с лимитом на сканирование. Следите за тем, доступен ли ваш сайт во время сканирования, и старайтесь оптимизировать процесс.
Как увеличить лимит на сканирование?
Это можно сделать двумя способами:
- Добавьте больше ресурсов. Если для сканирования сайта не хватает серверной мощности (например, инструмент проверки URL возвращает предупреждение Превышена нагрузка на хост), задействуйте больше ресурсов сервера (если это целесообразно для вашего бизнеса).
- Оптимизируйте качество контента для продукта Google, на который вы ориентируетесь. Google выделяет ресурсы на сканирование сайта с учетом различных факторов, зависящих от конкретного продукта Google. Например, для Google Поиска это популярность, общая ценность для пользователей, уникальность контента и мощность серверов.