Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Как коды статуса HTTP влияют на сканирование поисковыми роботами Google
На этой странице описывается, как коды статуса HTTP влияют на способность поисковых роботов Google сканировать ваш веб-контент. Мы поговорим о 20 наиболее распространенных кодах статуса, с которыми роботы Google сталкиваются в интернете. Такие редко встречающиеся коды, как 418 (I'm a teapot), в этой статье не рассматриваются.
Коды статуса HTTP
Когда сервер, на котором размещен сайт, получает запрос клиента (например, браузера или поискового робота), в ответ он отправляет код статуса HTTP. Каждый такой код имеет свое значение, но многие из них предусматривают одинаковую обработку запроса. Например, о переадресации могут сигнализировать несколько разных кодов.
Сообщения об ошибке, генерируемые в Search Console, относятся к кодам статуса в диапазоне 4xx—5xx, а также к неудачной переадресации (3xx). Если в ответе сервера указан код статуса 2xx, полученный контент может быть проиндексирован.
В таблице ниже приведены коды статуса HTTP, с которыми чаще всего сталкиваются роботы Google, и пояснения о том, как обрабатывается каждый такой код.
Коды статуса HTTP
2xx (success)
Роботы Google проверяют, можно ли обработать контент (например, в случае с Google Поиском – проиндексировать). Если контент не загружается, например появляется пустая страница или сообщение об ошибке, в Search Console будет зарегистрирована ошибка soft 404.
200 (success)
Google передает полученные данные на следующий этап обработки (который зависит от продукта).
В Google Поиске следующая система – это конвейер индексирования. Наши алгоритмы могут проиндексировать контент, но это не гарантируется.
201 (created)
202 (accepted)
Робот Google ждет некоторое время, не загрузится ли страница, а затем передает все, что удалось получить, для дальнейшей обработки (которая зависит от продукта). Время ожидания зависит от агента пользователя. Например, у роботов Googlebot Smartphone и Googlebot Image оно разное.
204 (no content)
Google не удалось получить контент, поэтому он не может быть обработан.
3xx (redirection)
По умолчанию поисковые роботы Google выполняют до 10 переходов в цепочке переадресаций. Однако для поисковых роботов отдельных продуктов могут действовать другие ограничения. Например, при сканировании обычного веб-контента робот Googlebot обычно выполняет 10 переходов, а Google-InspectionTool – ни одного.
Поисковые роботы выполняют переход в переадресации, и системы Google считают ее весомым поводом для обработки целевой страницы.
302 (found)
По умолчанию поисковые роботы выполняют переход в переадресации, но системы Google считают ее недостаточно весомым поводом для обработки целевой страницы. Другие продукты могут обрабатывать переадресацию иначе..
303 (see other)
304 (not modified)
Поисковые роботы Google сообщают следующей системе обработки, что контент не был изменен с момента предыдущего сканирования. В случае с Google Поиском система может по-новому интерпретировать сигналы, относящиеся к определенному URL. Если же она этого не сделает, то код статуса не повлияет на индексацию.
307 (temporary redirect)
Аналогично коду 302.
308 (moved permanently)
Аналогично коду 301.
4xx (client errors)
Google не использует контент с URL, которые возвращают коды статуса 4xx. Если URL использовался ранее, но теперь возвращает код статуса 4xx, системы Google со временем перестанут использовать этот URL. В Google Поиске не индексируются URL, которые возвращают код статуса 4xx, а URL, которые уже проиндексированы и возвращают код статуса 4xx, удаляются из индекса.
Роботы Google игнорируют любой контент, получаемый с URL, которые возвращают код статуса 4xx.
400 (bad request)
Все ошибки 4xx, за исключением 429, обрабатываются одинаково: поисковые роботы Google сообщают следующей системе обработки, что контент отсутствует.
В случае Google Поиска ранее проиндексированный URL будет удален из индекса. Обнаруженные страницы с кодом 404 не обрабатываются.
Частота сканирования постепенно снижается.
401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)
Поисковые роботы Google интерпретируют код статуса 429 как сигнал ошибки сервера из-за перегрузки.
5xx (server errors)
В случае ошибок сервера 5xx и 429 поисковые роботы Google временно замедляют сканирование. В случае Google Поиска уже проиндексированные URL сохраняются в индексе, но в скором времени удаляются.
Как только сервер начнет возвращать код статуса 2xx, Google постепенно будет увеличивать частоту сканирования сайта.
500 (internal server error)
Поисковый робот Google снижает частоту сканирования сайта. Она уменьшается пропорционально количеству отдельных URL, которые возвращают ошибку сервера.
В случае Google Поиска URL, которые постоянно возвращают такую ошибку, удаляются из индекса.