Optimiser votre budget d'exploration

Ce guide explique comment optimiser l'exploration par Google des sites très volumineux et fréquemment mis à jour.

Si votre site ne comporte pas un grand nombre de pages qui changent rapidement ou si vos pages semblent être explorées le jour de leur publication, vous n'avez pas besoin de lire ce guide. Pour la recherche Google en particulier, il vous suffit de maintenir votre sitemap à jour et de vérifier régulièrement la couverture de votre index.

À qui s'adresse ce guide ?

Bien que les recommandations de ce guide soient généralement de bonnes pratiques, il s'agit d'un guide avancé destiné principalement aux types de sites suivants :

  • Sites très volumineux (plus d'un million de pages uniques) dont le contenu change assez souvent (une fois par semaine)
  • Sites de taille moyenne ou grande (plus de 10 000 pages uniques) dont le contenu change très rapidement (quotidiennement)
  • Sites dont une proportion importante d'URL est classifiée comme Détectée, actuellement non indexée par la Search Console

Théorie générale de l'exploration

Le Web est tellement vaste que Google ne peut pas explorer ni indexer toutes les URL disponibles. C'est pourquoi les robots d'exploration Google sont soumis à des limites et ne peuvent pas explorer indéfiniment un site, sachant qu'un nom d'hôte équivaut à un site. Par exemple, https://www.example.com/ et https://code.example.com/ sont deux noms d'hôte différents et disposent donc de budgets d'exploration distincts. Le temps et les ressources que Google consacre à l'exploration d'un site sont généralement régis par le budget d'exploration de ce site. Ce budget est déterminé par deux éléments clés : la limite de la capacité d'exploration et le besoin d'exploration.

Limite de la capacité d'exploration

L'objectif de Google est d'explorer votre site sans surcharger vos serveurs. Pour ce faire, les robots d'exploration Google calculent une limite de la capacité d'exploration. Celle-ci correspond au nombre maximal de connexions simultanées parallèles que Google peut utiliser pour explorer un site, ainsi qu'au temps qu'il doit attendre entre deux explorations. Cette valeur est calculée dans le but de couvrir l'ensemble de votre contenu principal sans surcharger vos serveurs.

La limite de la capacité d'exploration peut augmenter ou diminuer en fonction de différents facteurs :

  • État de l'exploration : si le site répond rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue, et Google réduit son exploration.
  • Limites d'exploration de Google : bien que notre infrastructure soit très vaste, elle n'est pas infinie. C'est pourquoi nous devons faire des choix par rapport aux ressources dont nous disposons.

Besoin d'exploration

Chaque robot d'exploration a ses propres "besoins" en matière d'exploration du Web. Par exemple, les besoins d'AdsBot sont est généralement plus élevés lorsqu'un site diffuse des cibles d'annonces dynamiques, ceux de Google Shopping sont plus élevés pour les produits que vous avez dans vos flux de marchand, et ceux de Googlebot varient en fonction de la taille d'un site, de la fréquence de mise à jour, de la qualité de ses pages et de sa pertinence par rapport aux autres sites

En général, les facteurs qui jouent un rôle majeur dans la détermination du besoin d'exploration sont les suivants :

  • Inventaire perçu : sans consigne de votre part, Google tente d'explorer la totalité ou la plupart des URL de votre site dont il a connaissance. Si un grand nombre d'entre elles constituent des doublons ou si leur exploration n'est pas indispensable pour une autre raison (page supprimée, contenu sans importance, etc.), une grande partie du temps passé par Google sur votre site est gaspillé. Ce facteur fait partie de ceux que vous pouvez contrôler le plus facilement.
  • Popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans nos systèmes.
  • Obsolescence : l'objectif de nos systèmes est d'explorer fréquemment les documents afin d'identifier toute modification.

En outre, les événements sur l'ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d'exploration afin de traiter à nouveau le contenu sur les nouvelles URL.

Récapitulatif

En associant la capacité d'exploration au besoin d'exploration, Google définit le budget d'exploration d'un site comme l'ensemble des URL que Google peut et veut explorer. Même si la limite de la capacité d'exploration n'est pas atteinte, si le besoin d'exploration est faible, Google explore moins votre site.

Bonnes pratiques

Pour optimiser l'efficacité de l'exploration, suivez ces bonnes pratiques :

  • Gérer votre inventaire d'URL : utilisez les outils appropriés pour indiquer à Google les pages à explorer ou à ne pas explorer. Si Google passe trop de temps à explorer des URL qu'il ne devrait pas, ses robots d'exploration peuvent décider de cesser de consulter le reste de votre site (ou d'augmenter son budget d'exploration pour le couvrir entièrement).
    • Consolidez le contenu en double. Éliminez le contenu en double afin de concentrer l'exploration sur le contenu qui est unique plutôt que sur les URL uniques.
    • Bloquez l'exploration des URL à l'aide du fichier robots.txt. Il est possible que certaines pages soient importantes pour les utilisateurs, mais que vous ne souhaitiez pas forcément qu'elles apparaissent sur les surfaces Google ou qu'elles soient traitées de nouveau par les systèmes Google (pages à défilement infini qui dupliquent des informations sur des pages liées ou versions triées différemment de la même page, par exemple). Si vous ne pouvez pas les consolider comme décrit dans le premier point, bloquez ces pages sans importance à l'aide du fichier robots.txt. En bloquant les URL avec le fichier robots.txt, vous empêchez Google de les explorer et vous réduisez considérablement le risque qu'elles soient traitées par d'autres systèmes Google (par exemple, qu'elles soient indexées par la recherche Google).
    • Renvoyez un code d'état 404 ou 410 pour les pages supprimées définitivement. Google n'oublie pas les URL dont il a connaissance, mais un code d'état 404 lui permet de comprendre qu'il n'est plus utile d'explorer à nouveau l'URL correspondante. En revanche, les URL bloquées restent dans la file d'attente d'exploration beaucoup plus longtemps et sont réexplorées une fois que le blocage est supprimé.
    • Éliminez les erreurs soft 404. Les pages soft 404 continuent à être explorées et consomment donc inutilement une partie de votre budget. Recherchez des erreurs soft 404 dans le rapport Couverture de l'index.
    • Mettez régulièrement à jour vos sitemaps. Google consulte régulièrement votre sitemap. Veillez donc à y inclure tout le contenu à explorer. Si votre site comprend du contenu mis à jour, nous vous recommandons d'inclure la balise <lastmod>.
    • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Optimisez le chargement de vos pages. Si nous sommes en mesure de charger et d'afficher vos pages rapidement, il est probable que nous parviendrons à lire davantage de contenu sur votre site.
  • Déboguez les problèmes liés au budget d'exploration. Vérifiez si votre site a rencontré des problèmes de disponibilité lors de l'exploration et cherchez des moyens d'améliorer l'efficacité de l'exploration.

Comment augmenter mon budget d'exploration ?

Il existe deux façons d'augmenter le budget d'exploration :

  • Ajoutez des ressources de serveur : si votre site ne peut pas être exploré en raison de la capacité du serveur de votre côté (par exemple, si vous recevez le message Charge de l'hôte dépassée dans l'outil d'inspection d'URL), ajoutez des ressources de serveur si cela a du sens pour votre entreprise.
  • Optimisez la qualité de votre contenu pour le produit Google que vous ciblez : Google détermine les ressources d'exploration allouées à chaque site en tenant compte des éléments pertinents pour le produit Google spécifique. Par exemple, pour la recherche Google, cela inclut la popularité, la valeur globale pour l'utilisateur, le caractère unique du contenu et la capacité de diffusion.