Effet des codes d'état HTTP, ainsi que des erreurs réseau et DNS sur la recherche Google
Cette page décrit l'impact des différents codes d'état HTTP, erreurs réseau et erreurs DNS sur la recherche Google. Nous présentons les 20 codes d'état les plus courants rencontrés par Googlebot sur le Web, ainsi que les erreurs réseau et DNS les plus visibles. Les codes d'état plus rares, tels que 418 (I'm a teapot)
, ne sont pas couverts. Tous les problèmes mentionnés sur cette page génèrent une erreur ou un avertissement correspondant dans le rapport sur l'indexation des pages de la Search Console.
Codes d'état HTTP
Les codes d'état HTTP sont générés par le serveur qui héberge le site lorsqu'il répond à une requête envoyée par un client, par exemple un navigateur ou un robot d'exploration. Chaque code d'état HTTP a une signification différente, mais le résultat de la requête est souvent le même. Par exemple, différents codes d'état indiquent une redirection, mais leur résultat est le même.
La Search Console génère des messages d'erreur pour les codes d'état dans la plage 4xx–5xx
et pour les redirections ayant échoué (3xx
). Si le serveur répond avec un code d'état 2xx
, le contenu reçu dans la réponse peut être pris en compte pour l'indexation.
Le tableau suivant présente les codes d'état HTTP les plus souvent rencontrés par Googlebot et explique comment Google traite chaque code d'état.
Codes d'état HTTP | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Google prend en compte le contenu pour l'indexation. Si le contenu suggère une erreur, par exemple une page vide ou un message d'erreur, la Search Console affiche une erreur
|
|||||||||||
|
Googlebot suit jusqu'à 10 sauts de redirection. Si le robot d'exploration ne reçoit pas de contenu au bout de ces 10 sauts, la Search Console affiche une erreur de redirection dans le rapport sur l'indexation des pages du site. Le nombre de sauts que Googlebot suit dépend du user-agent. Par exemple, Googlebot pour les smartphones peut présenter une valeur différente de celle de Googlebot pour les images.
Dans le cas du fichier robots.txt, Googlebot suit au moins cinq sauts de redirection, tels que définis par la
RFC 1945, puis
arrête et affiche l'état Googlebot ignore tout contenu reçu via l'URL de redirection est ignoré, et prend en compte le contenu de l'URL de la cible finale pour l'indexation.
|
|||||||||||
|
Le pipeline d'indexation de Google ne prend pas en compte les URL qui renvoient un code d'état
Tout contenu reçu par Googlebot à partir d'URL renvoyant un code d'état
|
|||||||||||
|
Les erreurs de serveur Si le fichier robots.txt renvoie un code d'état indiquant une erreur de serveur pendant plus de 30 jours, Google utilise la dernière copie en cache du fichier robots.txt. Si aucune copie en cache n'est disponible, Google considère qu'aucune restriction d'exploration ne s'applique.
Tout contenu reçu par Googlebot à partir d'URL renvoyant un code d'état
|
Erreurs soft 404
Une erreur de type soft 404
" désigne une URL renvoyant une page qui indique à l'internaute que la page n'existe pas, ainsi qu'un code d'état 200 (success)
. Dans certains cas, il peut s'agir d'une page sans contenu principal ou vide.
Ces pages peuvent être générées pour diverses raisons par le serveur Web ou le système de gestion de contenu de votre site Web, ou par le navigateur de l'internaute. Exemple :
- Un fichier d'inclusion côté serveur est manquant
- Une perte de la connexion à la base de données
- Une page de résultats de recherche interne vide
- Un fichier JavaScript non chargé ou manquant
En renvoyant un code d'état 200 (success)
, puis en affichant ou suggérant un message d'erreur ou un type d'erreur sur la page, vous altérez l'expérience utilisateur. Les internautes peuvent penser que la page en ligne est accessible, mais voient s'afficher une erreur. Ces pages sont exclues de la recherche.
Lorsque les algorithmes de Google détectent qu'il s'agit bien d'une page d'erreur en fonction de son contenu, la Search Console affiche une erreur soft 404
dans le rapport sur l'indexation des pages du site.
Corriger les erreurs soft 404
Selon l'état de la page et le résultat souhaité, vous pouvez résoudre les erreurs soft 404
de différentes manières :
- La page et le contenu ne sont plus disponibles.
- La page ou le contenu se trouve ailleurs.
- La page et le contenu existent toujours.
Essayez de déterminer la solution la plus adaptée à vos utilisateurs.
La page et le contenu ne sont plus disponibles
Si vous avez supprimé la page sans la remplacer par une page au contenu similaire, renvoyez un code de réponse (état) 404 (not found)
ou 410 (gone)
. Ces codes d'état indiquent aux moteurs de recherche que la page n'existe pas et que son contenu ne doit pas être indexé.
Si vous avez accès aux fichiers de configuration de votre serveur, vous pouvez personnaliser ces pages d'erreur afin d'améliorer l'expérience utilisateur. Une page d'erreur 404
personnalisée permet aux internautes de trouver les informations qu'ils recherchent, et leur fournit également d'autres contenus utiles pour les inciter à explorer votre site. Voici quelques conseils pour concevoir une page 404
personnalisée utile :
- Indiquez clairement aux internautes que la page qu'ils recherchent est introuvable. Adoptez un langage avenant et agréable.
-
Assurez-vous que votre page
404
a la même apparence (y compris la navigation) que le reste de votre site. - Pensez à ajouter des liens vers vos articles ou messages les plus consultés, ainsi que vers la page d'accueil de votre site.
- Pensez à proposer aux internautes la possibilité de signaler les liens non fonctionnels.
Les pages 404
personnalisées sont créées exclusivement pour les utilisateurs. Comme ces pages sont inutiles du point de vue du moteur de recherche, assurez-vous que le serveur affiche un code d'état HTTP 404
pour éviter qu'elles soient indexées.
La page ou le contenu se trouve ailleurs
Si votre page a été déplacée ou si elle a été remplacée, renvoyez l'erreur 301 (permanent redirect)
pour rediriger l'utilisateur. Cette opération n'interrompt pas l'expérience de navigation et constitue un excellent moyen d'indiquer aux moteurs de recherche le nouvel emplacement de la page. Dans l'outil d'inspection d'URL, vérifiez si votre URL renvoie le code approprié.
La page et le contenu existent toujours
Si une page qui ne présente aucun autre problème est signalée par une erreur soft 404
, il est probable qu'elle ne se soit pas chargée correctement pour Googlebot, qu'elle ne contenait pas certaines ressources critiques lors de l'affichage ou qu'elle ait affiché un message d'erreur visible lors du rendu. Utilisez l'outil d'inspection d'URL pour examiner le contenu affiché et le code HTTP renvoyé. Si la page affichée est vierge, presque vide, ou si un message d'erreur s'affiche, il est possible qu'elle fasse référence à de nombreuses ressources qui ne se chargent pas (images, scripts et autres éléments non textuels). Cela peut être interprété comme une erreur soft 404
.
Plusieurs raisons peuvent expliquer que les ressources ne se chargent pas. Elles peuvent être bloquées (par un fichier robots.txt), elles peuvent être trop nombreuses ou trop volumineuses, leur chargement peut être lent, ou diverses erreurs de serveur peuvent se produire.
Erreurs réseau et DNS
Les erreurs réseau et DNS ont des effets négatifs rapides sur la présence d'une URL dans la recherche Google.
Googlebot traite les délais d'expiration du réseau, la réinitialisation de la connexion et les erreurs DNS de la même manière que les erreurs de serveur 5xx
. En cas d'erreurs réseau, l'exploration se met immédiatement à ralentir, car une erreur réseau indique que le serveur ne peut pas gérer la charge de diffusion. Étant donné que Googlebot n'a pas pu accéder au serveur qui héberge le site, Google n'a pas non plus reçu de contenu depuis le serveur. Le manque de contenu signifie que Google ne peut pas indexer les URL explorées. Les URL déjà indexées qui sont inaccessibles seront supprimées de l'index Google sous quelques jours. La Search Console peut générer des messages d'erreur pour chaque erreur.
Déboguer les erreurs réseau
Ces erreurs se produisent avant l'exploration de l'URL par Google ou pendant son exploration. Étant donné que ces erreurs peuvent se produire avant que le serveur ne réponde et avant qu'un code d'état ne permette d'identifier le problème, le diagnostic de ces erreurs peut être plus difficile. Pour déboguer les erreurs liées au délai d'expiration et à la réinitialisation de la connexion, procédez comme suit :
- Examinez les paramètres et les journaux de votre pare-feu. Il se peut qu'une règle de blocage ne soit pas suffisamment précise. Assurez-vous que les adresses IP de Googlebot ne soient bloquées par aucune règle de pare-feu.
- Examinez le trafic réseau. Utilisez des outils tels que tcpdump etWireshark pour capturer et analyser les paquets TCP, puis rechercher les anomalies qui pointent vers un module réseau ou un composant réseau spécifique.
- Si vous ne trouvez rien de suspect, contactez votre hébergeur.
L'erreur peut provenir de n'importe quel composant de serveur qui gère le trafic réseau. Par exemple, les interfaces réseau surchargées peuvent ne pas traiter certains paquets, entraînant ainsi des délais d'expiration (impossibilité d'établir une connexion), et réinitialiser les connexions (paquet RST
envoyé en raison de la fermeture par erreur d'un port).
Déboguer les erreurs DNS
Les erreurs DNS sont généralement dues à une mauvaise configuration, mais peuvent aussi être liées à une règle de pare-feu qui bloque les requêtes DNS de Googlebot. Pour déboguer les erreurs DNS :
-
Examinez vos règles de pare-feu. Vérifiez qu'aucune adresse IP Google n'est bloquée par une règle de pare-feu, et que les requêtes
UDP
etTCP
sont autorisées. -
Examinez vos enregistrements DNS. Vérifiez que les enregistrements
A
etCNAME
pointent respectivement vers les adresses IP et le nom d'hôte appropriés. Exemple :dig +nocmd example.com a +noall +answer
dig +nocmd www.example.com cname +noall +answer
-
Vérifiez que tous vos serveurs de noms pointent vers les bonnes adresses IP de votre site. Exemple :
dig +nocmd example.com ns +noall +answer
example.com. 86400 IN NS a.iana-servers.net. example.com. 86400 IN NS b.iana-servers.net.dig +nocmd @a.iana-servers.net example.com +noall +answer
example.com. 86400 IN A 93.184.216.34dig +nocmd @b.iana-servers.net example.com +noall +answer
... - Si vous avez modifié votre configuration DNS au cours des dernières 72 heures, vous devrez peut-être attendre que vos modifications soient appliquées sur le réseau DNS global. Pour accélérer la propagation, vous pouvez vider le cache DNS public de Google.
- Si vous exécutez votre propre serveur DNS, assurez-vous qu'il est opérationnel et qu'il n'est pas surchargé.