Optimiza tu presupuesto de rastreo

En esta guía, se describe cómo optimizar el rastreo de Google de sitios muy grandes y que se actualizan con frecuencia.

Si tu sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si estas parecen rastrearse el mismo día que se publican, no es necesario que leas esta guía. En el caso de la Búsqueda de Google específicamente, solo mantén actualizado tu mapa del sitio y revisa la cobertura de la indexación de forma periódica.

¿A quién está dirigida esta guía?

Si bien las recomendaciones en esta guía son prácticas recomendadas generales, se trata de una guía avanzada destinada principalmente a los siguientes tipos de sitios:

  • Sitios grandes (más de 1 millón de páginas únicas) con contenido que cambia con cierta frecuencia (una vez a la semana)
  • Sitios medianos o grandes (más de 10,000 páginas únicas) con contenido que cambia muy rápidamente (a diario)
  • Sitios con una gran parte del total de sus URLs clasificadas por Search Console como Descubre (actualmente sin indexar)

Teoría general del rastreo

La Web es un espacio casi infinito que excede la capacidad de Google para explorar e indexar todas las URLs disponibles. Por lo tanto, el tiempo que los rastreadores de Google pueden destinar a rastrear cada sitio es limitado, y un sitio se define por el nombre de host. Por ejemplo, https://www.example.com/ y https://code.example.com/ son dos nombres de host diferentes y, por lo tanto, tienen presupuestos de rastreo independientes. La cantidad de tiempo y recursos que destina Google a rastrear un sitio se suele denominar presupuesto de rastreo, y se determina en función de dos elementos principales: el límite de la capacidad de rastreo y la demanda de rastreo.

Límite de la capacidad de rastreo

Google desea rastrear tu sitio sin sobrecargar tus servidores. Para evitarlo, los rastreadores de Google calculan un límite de la capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Google puede usar para rastrear un sitio, así como el retraso entre recuperaciones. Ese cálculo permite la cobertura de todo el contenido importante sin sobrecargar tus servidores.

El límite de la capacidad de rastreo puede aumentar o disminuir según ciertos factores:

  • Estado del rastreo: Si el sitio responde rápidamente durante un tiempo, el límite aumentará, lo que implica que se podrán usar más conexiones para rastrear. Si el sitio se ralentiza o si responde con errores de servidor, el límite disminuirá, y Google rastreará menos.
  • Límites de rastreo de Google: Google tiene una gran cantidad de máquinas, pero no son infinitas. Debemos tomar decisiones en función de los recursos que tenemos.

Demanda de rastreo

Cada rastreador tiene su propia "demanda" cuando se trata de rastrear la Web. Por ejemplo, AdsBot generalmente tiene una mayor demanda cuando un sitio ejecuta la segmentación dinámica de anuncios, Google Shopping tiene una mayor demanda de los productos que tienes en los feeds de tu comercio y la demanda de Googlebot varía según el tamaño, la frecuencia de actualización, la calidad de la página y la relevancia de un sitio, en comparación con otros sitios.

En general, los factores que desempeñan un papel importante a los efectos de determinar la demanda de rastreo son los siguientes:

  • Inventario percibido: Si no le indicas lo contrario, Google intentará rastrear todas o la mayoría de las URLs que conoce de tu sitio. Si muchas de esas URLs están duplicadas o por algún otro motivo no quieres rastrearlas (porque se quitaron, porque tienen poca importancia, etc.), Google desperdiciará mucho tiempo de rastreo en tu sitio. Este es el factor que más puedes controlar a tu favor.
  • Popularidad: Las URLs más populares de Internet tienden a rastrearse con mayor frecuencia para mantenerlas actualizadas en nuestro sistema.
  • Obsolescencia: Nuestros sistemas volverán a rastrear los documentos con la frecuencia suficiente para detectar cualquier cambio.

Además, los eventos que afectan a todo el sitio, como sus traslados, pueden provocar un aumento en la demanda de rastreo para volver a procesar el contenido en las URLs nuevas.

En resumen

En función de la capacidad de rastreo y su demanda, Google define el presupuesto de rastreo de un sitio como el conjunto de URLs que podrá rastrear Google. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de este es baja, Google rastreará tu sitio con menor frecuencia.

Prácticas recomendadas

Para maximizar la eficiencia del rastreo, sigue estas prácticas recomendadas:

  • Administra tu inventario de URL: Usa las herramientas adecuadas para indicarle a Google qué páginas rastrear y cuáles no. Si Google dedica demasiado tiempo a rastrear URLs que no debería, es posible que los rastreadores de Google decidan que no vale la pena destinar tiempo a revisar el resto de tu sitio (o aumentar el presupuesto para hacerlo).
    • Consolida el contenido duplicado. Elimina el contenido duplicado para centrar el rastreo en contenido único, en lugar de hacerlo en URL únicas.
    • Bloquea el rastreo de las URLs usando robots.txt. Algunas páginas pueden ser importantes para los usuarios, pero no necesariamente quieres que aparezcan en las plataformas de Google ni que los sistemas de Google las vuelvan a procesar. Por ejemplo, las páginas de desplazamiento infinito que duplican información en páginas vinculadas o las versiones ordenadas de manera diferente de la misma página. Si no puedes consolidarlas como se describe en la primera viñeta, usa robots.txt para bloquear estas páginas sin importancia. Si bloqueas las URLs con robots.txt, evitarás que Google las rastree y disminuirá de forma significativa la probabilidad de que otros sistemas de Google las procesen (por ejemplo, que la Búsqueda de Google las indexe).
    • Muestra un código de estado 404 o 410 para páginas que se quitaron de forma permanente. Google no olvidará una URL que conozca, pero un código de estado 404 es un indicador claro para no volver a rastrear esa URL. Sin embargo, las URLs bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se quite el bloqueo.
    • Elimina los soft 404 errores. Se seguirán rastreando las páginas soft 404, y se desperdiciará tu presupuesto. Consulta el Informe de cobertura de la indexación para comprobar si hay errores soft 404.
    • Mantén actualizados tus mapas del sitio. Google lee tu mapa del sitio con regularidad, así que asegúrate de incluir todo el contenido que deseas que Google rastree. Si tu sitio incluye contenido actualizado, te recomendamos incluir la etiqueta <lastmod>.
    • Evita las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
  • Haz que tus páginas se carguen de forma eficiente. Si Google carga y procesa tus páginas más rápido, es probable que podamos leer más contenido del sitio.
  • Depura los problemas relacionados con el presupuesto de rastreo. Verifica si tu sitio tuvo problemas de disponibilidad durante el rastreo y busca maneras de que este sea más eficaz.

¿Cómo puedo obtener más presupuesto de rastreo?

Existen dos formas de aumentar el presupuesto de rastreo:

  • Agrega más recursos de servidor: Si no se puede rastrear tu sitio debido a la capacidad de tu servidor (por ejemplo, si recibes el mensaje Se excedió la carga del host en la herramienta de inspección de URLs), agrega más recursos del servidor si tiene sentido para tu empresa.
  • Optimiza la calidad de tu contenido para el producto de Google al que segmentas tu campaña: Google determina los recursos de rastreo asignados a cada sitio teniendo en cuenta los elementos que son pertinentes para el producto de Google específico. Por ejemplo, en el caso de la Búsqueda de Google, esto incluye aspectos como la popularidad, el valor general para el usuario, la exclusividad del contenido y la capacidad de publicación.