Effet des codes d'état HTTP sur les robots d'exploration Google

Cette page décrit l'impact des différents codes d'état HTTP sur la capacité de Google à explorer votre contenu Web. Nous présentons les 20 codes d'état les plus courants rencontrés par Google sur le Web. Les codes d'état plus rares, tels que 418 (I'm a teapot), ne sont pas couverts.

Codes d'état HTTP

Les codes d'état HTTP sont générés par le serveur qui héberge le site lorsqu'il répond à une requête envoyée par un client, par exemple un navigateur ou un robot d'exploration. Chaque code d'état HTTP a une signification différente, mais le résultat de la requête est souvent le même. Par exemple, différents codes d'état indiquent une redirection, mais leur résultat est le même.

La Search Console génère des messages d'erreur pour les codes d'état dans la plage 4xx—5xx et pour les redirections ayant échoué (3xx). Si le serveur répond avec un code d'état 2xx, le contenu reçu dans la réponse peut être pris en compte pour l'indexation.

Le tableau suivant présente les codes d'état HTTP les plus souvent rencontrés par Google et explique comment Google traite chaque code d'état.

Codes d'état HTTP

2xx (success)

Google prend en compte le contenu pour le traitement (par exemple, dans le cas de la recherche Google, pour l'indexation). Si le contenu suggère une erreur pour la recherche Google, par exemple une page vide ou un message d'erreur, la Search Console affiche une erreur soft 404.

200 (success)

Google transmet ce qu'il a reçu à l'étape de traitement suivante (qui est spécifique au produit). Pour la recherche Google, le système suivant est le pipeline d'indexation. Les systèmes d'indexation peuvent indexer le contenu, mais cela n'est pas garanti.

201 (created)
202 (accepted)

Google attend de recevoir le contenu pendant un temps limité, puis transmet ce qu'il reçoit à l'étape de traitement suivante (qui est spécifique au produit). Le délai avant expiration dépend du user-agent. Par exemple, il peut différer selon que Googlebot Smartphone ou Googlebot Image est utilisé.

204 (no content)

Google n'a pas pu recevoir de contenu et ne peut donc pas le traiter.

3xx (redirection)

Par défaut, les robots d'exploration Google suivent jusqu'à 10 sauts de redirection. Toutefois, les robots d'exploration de produits spécifiques peuvent avoir des limites différentes. Par exemple, Googlebot suit généralement 10 sauts de redirection lorsqu'il explore du contenu Web général, mais les outils d'inspection Google ne suivent pas les redirections.

Google ignore tout contenu reçu via l'URL de redirection, et traite le contenu de l'URL de la cible finale à la place. Pour les fichiers robots.txt, découvrez comment Google gère un fichier robots.txt qui renvoie un code d'état 3xx.

301 (moved permanently)

Google suit la redirection, et les systèmes Google l'utilisent comme un signal fort indiquant que la cible de la redirection doit être traitée.

302 (found)

Par défaut, les robots d'exploration Google suivent la redirection, et les systèmes Google l'utilisent comme un signal faible indiquant que la cible de la redirection doit être traitée. D'autres produits peuvent gérer la redirection différemment.

303 (see other)
304 (not modified)

Les robots d'exploration Google indiquent au système de traitement suivant que le contenu n'a pas changé depuis la dernière exploration. Dans le cas de la recherche Google, le pipeline d'indexation peut recalculer les signaux pour l'URL, mais le code d'état n'a aucun effet sur l'indexation.

307 (temporary redirect) Équivaut à 302.
308 (moved permanently) Équivaut à 301.

4xx (client errors)

Google n'utilise pas le contenu des URL qui renvoient des codes d'état 4xx. Si une URL a déjà été utilisée, mais renvoie désormais le code d'état 4xx, les systèmes Google cesseront de l'utiliser progressivement. Dans le cas de la recherche Google, Google n'indexe pas les URL qui renvoient un code d'état 4xx. De même, les URL qui sont déjà indexées et qui renvoient un code d'état 4xx sont supprimées de l'index.

Tout contenu reçu par Google à partir d'URL renvoyant un code d'état 4xx est ignoré.

400 (bad request)

Toutes les erreurs 4xx, à l'exception de 429, sont traitées de la même manière : les robots d'exploration Google informent le système de traitement suivant que le contenu n'existe pas.

Dans le cas de la recherche Google, le pipeline d'indexation supprime l'URL de l'index si elle a déjà été indexée. Les nouvelles pages 404 ne sont pas traitées. La fréquence d'exploration diminue progressivement.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Les robots d'exploration Google traitent le code d'état 429 comme un signal indiquant que le serveur est surchargé. Il est considéré comme une erreur du serveur.

5xx (server errors)

Les erreurs du serveur 5xx et 429 invitent les robots d'exploration Google à ralentir temporairement l'exploration. Pour la recherche Google, les URL déjà indexées sont conservées, mais finissent par être supprimées de l'index.

Tout contenu reçu par Google à partir d'URL renvoyant un code d'état 5xx est ignoré. Pour les fichiers robots.txt, découvrez comment Google gère un fichier robots.txt qui renvoie un code d'état 5xx.

Une fois que le serveur commence à répondre avec un code d'état 2xx, Google augmente progressivement la vitesse d'exploration du site.

500 (internal server error)

Google diminue la vitesse d'exploration du site. La baisse de la vitesse d'exploration est proportionnelle au nombre d'URL individuelles qui renvoient une erreur de serveur. Pour la recherche Google, le pipeline d'indexation de Google supprime de l'index les URL qui renvoient continuellement une erreur de serveur.

502 (bad gateway)
503 (service unavailable)