Solucionar errores de rastreo de la Búsqueda de Google

Estos son los pasos clave para solucionar problemas de rastreo de la Búsqueda de Google en tu sitio:

  1. Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio.
  2. Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina.
  3. Identificar si hay partes de tu sitio que deberían rastrearse más rápido de lo que se está haciendo.
  4. Mejorar la eficiencia de rastreo de tu sitio.
  5. Gestionar el rastreo excesivo de tu sitio.

Averiguar si el robot de Google detecta problemas de disponibilidad en tu sitio

Aunque la disponibilidad de tu sitio mejore, es posible que el presupuesto de rastreo de tu sitio no aumente. Tal como se ha comentado más arriba, Google se basa en la demanda de rastreo para determinar la frecuencia de rastreo óptima. No obstante, los problemas de disponibilidad impiden que Google rastree tu sitio tanto como querría.

Diagnosticar el problema:

Consulta el informe "Estadísticas de rastreo" para ver el historial de rastreo del robot de Google en tu sitio. En el informe se muestra cuándo ha detectado Google problemas de disponibilidad en tu sitio. Si aparecen advertencias o errores de disponibilidad en tu sitio, busca en los gráficos de disponibilidad de host si en alguna ocasión las solicitudes del robot de Google han superado el límite (que está indicado con una línea roja), haz clic en el gráfico para ver cuáles son las URLs en las que se han detectado problemas e intenta relacionarlas con errores que haya en tu sitio.

También puedes usar la herramienta de inspección de URLs para probar algunas URLs de tu sitio. Si la herramienta devuelve advertencias de tipo Carga de host superada, significa que el robot de Google no puede rastrear tantas URLs de tu sitio como ha descubierto.

Resolver el problema:

  • Consulta cómo detectar y gestionar varios problemas de disponibilidad en la documentación del informe "Estadísticas de rastreo".
  • Impide que se rastreen las páginas que no quieres que se rastreen. Consulta la sección sobre cómo gestionar el inventario.
  • Haz que las páginas se carguen y se rendericen más rápido. Consulta la sección Mejorar la eficiencia de rastreo del sitio.
  • Aumenta la capacidad de tu servidor. Si Google suele alcanzar el límite de capacidad de tu servidor cuando rastrea tu sitio, pero aun así hay URLs importantes que no se rastrean ni se actualizan tanto como sería necesario, aumenta la capacidad del servidor; de este modo, es posible que Google pueda solicitar más páginas de tu sitio. Consulta el historial de disponibilidad de tu host en el informe Estadísticas de rastreo para saber si la frecuencia de rastreo de Google sobrepasa el límite a menudo. Si es así, aumenta los recursos de publicación de tu servidor durante un mes y comprueba si se han hecho más solicitudes de rastreo durante ese mismo periodo.

Determinar si hay páginas que deberían rastrearse, pero que el robot de Google no examina

Google se pasa en tu sitio el tiempo necesario para indexar todo el contenido de alta calidad y valioso que encuentra. Si crees que el robot de Google se deja contenido importante, puede deberse a que no sabe que existe, a que ese contenido está bloqueado, a que la disponibilidad de tu sitio está limitando el acceso de Google o a que Google está intentando no sobrecargar tu servidor.

Diagnosticar el problema:

En Search Console no hay ningún historial de rastreos de tu sitio que puedas filtrar por URL o ruta, pero puedes saber si el Googlebot ha rastreado URLs específicas examinando los registros de tu sitio. Si las URLs rastreadas se han indexado o no, eso es otra historia.

Recuerda que, en la mayoría de los sitios, las páginas nuevas tardan varios días en detectarse. Por tanto, salvo que tengas un sitio que ofrezca contenido urgente o que se queda obsoleto rápidamente (como un sitio de noticias), no esperes que se rastreen tus URLs el mismo día que se publiquen.

Resolver el problema:

Si añades páginas a tu sitio y estas tardan más de lo razonable en rastrearse, la causa puede ser que Google no sabe que existen, que ese contenido está bloqueado, que tu sitio ha alcanzado su límite de publicación o que te has quedado sin presupuesto de rastreo.

  1. Avisa a Google de que tienes páginas nuevas: actualiza tus sitemaps para que incluyan las nuevas URLs.
  2. Examina las reglas del archivo robots.txt para comprobar que no estés bloqueando alguna página por error.
  3. Revisa las prioridades de rastreo; es decir, utiliza el presupuesto de rastreo con cabeza. Gestiona tu inventario y mejora la eficiencia de rastreo de tu sitio.
  4. Comprueba que tus servidores no se estén quedando sin capacidad. El robot de Google reducirá el rastreo si detecta que tus servidores tienen problemas para responder a sus solicitudes.

Aunque una página se haya rastreado, es posible que no se muestre en los resultados de búsqueda si su contenido no tiene suficiente valor o los usuarios no lo solicitan.

Identificar si las actualizaciones de tu sitio deberían rastrearse más rápido de lo que se está haciendo

Si no se detecta alguna página nueva o actualizada de tu sitio, quizá sea porque no se ha detectado que está o que se ha actualizado. En esta sección se indica cómo puedes ayudarnos a saber que se ha actualizado una página.

Google intenta buscar e indexar páginas en un tiempo razonable, que suelen ser al menos tres días en la mayoría de los casos. Por tanto, salvo que tengas un sitio de noticias o que ofrezca contenido de gran valor que se quede obsoleto rápidamente, no esperes que se indexen tus páginas el mismo día que las publiques.

Diagnosticar el problema:

Examina los registros de tu sitio para ver cuándo ha rastreado el Googlebot determinadas URLs.

Para saber la fecha de indexación, utiliza la herramienta de inspección de URLs o busca en las URLs que has actualizado.

Resolver el problema:

Qué puedes hacer:

  • Enviar un Sitemap de News si el sitio incluye contenido de noticias.
  • Incluir la etiqueta <lastmod> en los sitemaps para indicar cuándo se ha actualizado una URL indexada.
  • Aplicar una estructura de URLs rastreable para que Google pueda encontrar tus páginas más fácilmente.
  • Proporcionar enlaces <a> rastreables estándar para ayudar a Google a encontrar las páginas.
  • Si tu sitio usa HTML independiente para las versiones para móviles y para ordenadores, proporciona el mismo conjunto de enlaces en la versión para móviles que en la versión para ordenadores. Si no es posible proporcionar el mismo conjunto de enlaces en la versión para móviles, asegúrate de que estén incluidos en un archivo sitemap. Google solo indexa la versión móvil de las páginas, y limitar los enlaces que se muestran en ella puede ralentizar el descubrimiento de nuevas páginas.

Qué debes evitar:

  • Enviar el mismo sitemap varias veces el mismo día si no se ha modificado.
  • Esperar que el robot de Google rastree todo el contenido de un sitemap o que lo haga inmediatamente. El robot de Google se toma los sitemaps como sugerencias útiles, no como requisitos absolutos.
  • Incluir en los sitemaps URLs que no quieras que aparezcan en la Búsqueda. Si lo haces, gastarás parte de tu presupuesto de rastreo en páginas que no quieres que se indexen.

Mejorar la eficiencia de rastreo de tu sitio

Mejora la velocidad de carga de tus páginas

La capacidad de rastreo de Google está limitada por el ancho de banda, el tiempo y la disponibilidad de las instancias del robot de Google. Si tu servidor responde rápido a las solicitudes, es posible que se puedan rastrear más páginas de tu sitio. Dicho esto, Google solo quiere rastrear contenido de alta calidad, por lo que el robot de Google no va a rastrear más páginas de tu sitio si te limitas a mejorar la velocidad de páginas de baja calidad. En cambio, si en Google creemos que nos estamos perdiendo contenido de alta calidad de tu sitio, probablemente aumentaremos el presupuesto para rastrearlo.

A continuación se indica qué puedes hacer para optimizar tus páginas y tus recursos de cara al rastreo:

  • Evita que el robot de Google cargue recursos grandes, pero poco importantes, mediante el archivo robots.txt. Bloquea solo recursos que no sean importantes; es decir, aquellos que no sean importantes para entender el significado de la página (como las imágenes decorativas).
  • Asegúrate de que tus páginas se carguen rápidamente.
  • Ten cuidado con las cadenas de redirección largas, ya que afectan al rastreo.
  • Son importantes tanto el tiempo que tarda el servidor en responder a las solicitudes como el tiempo necesario para renderizar las páginas. También debe tenerse en cuenta el tiempo de carga y de ejecución de los recursos insertados, como las imágenes y las secuencias de comandos. Ten en cuenta los recursos de gran tamaño o que tardan en cargarse necesarios para indexar el contenido.

Especificar cambios de contenido con códigos de estado HTTP

Por lo general, Google admite los encabezados de solicitud HTTP If-Modified-Since y If-None-Match para el rastreo. Los rastreadores de Google no envían los encabezados en todos los intentos de rastreo. Esto depende del caso práctico de la solicitud (por ejemplo, AdsBot tiene más probabilidades de establecer los encabezados de solicitud HTTP If-Modified-Since y If-None-Match). Si nuestros rastreadores envían el encabezado If-Modified-Since, su valor corresponde a la fecha y la hora en la que se rastreó el contenido por última vez. En función de ese valor, el servidor puede devolver un código de estado HTTP 304 (Not Modified) sin cuerpo de respuesta. En ese caso, Google reutilizará la versión de contenido que rastreó por última vez. Si el contenido es más reciente que la fecha especificada por el rastreador en el encabezado de If-Modified-Since, el servidor puede devolver un código de estado HTTP 200 (OK) con el cuerpo de la respuesta.

Independientemente de los encabezados de solicitud, puedes enviar un código de estado HTTP 304 (Not Modified) sin cuerpo de respuesta para cualquier solicitud del robot de Google si el contenido no ha cambiado desde la última vez que visitó la URL. De este modo, se ahorrará tiempo y recursos de procesamiento de tu servidor, lo que podría mejorar indirectamente la eficiencia de rastreo.

Oculta las URLs que no quieras que aparezcan en los resultados de búsqueda

Si malgastas recursos de tu servidor en páginas que no hace falta que se rastreen, puede que se dedique menos tiempo a rastrear páginas que sí son importantes. En ese caso, quizá se tarde mucho en descubrir contenido nuevo o actualizado de calidad.

Si el robot de Google puede acceder a muchas URLs de tu sitio que no quieres que se rastreen, el rastreo y la indexación del sitio pueden verse afectados. Por lo general, estas URLs se clasifican en las siguientes categorías:

Qué puedes hacer:

  • Bloquear con el archivo robots.txt los recursos o las páginas que no quieres que Google rastree.
  • Hacer referencia a los recursos comunes que se utilicen en varias páginas (como una imagen compartida o un archivo JavaScript) con la misma URL; de este modo, Google podrá almacenarlos en caché y reutilizarlos sin tener que solicitarlos varias veces.

Qué debes evitar:

  • Añadir o retirar páginas o directorios del archivo robots.txt con regularidad para reasignar el presupuesto de rastreo a otras páginas de tu sitio. En el archivo robots.txt, debes bloquear únicamente páginas o recursos que no quieres que aparezcan en Google a largo plazo.
  • Rotar sitemaps o recurrir a otros mecanismos de ocultación temporal para reasignar el presupuesto a otras páginas.

soft 404 errores

Un error soft 404 se produce cuando una URL devuelve una página que indica al usuario que no existe y, además, un código de estado 200 (success). En algunos casos, puede ser una página sin un contenido principal o vacía.

Este tipo de páginas pueden generarse por diversos motivos por el servidor web o el sistema de gestión de contenido de tu sitio web, o por el navegador del usuario. Por ejemplo:

  • Falta un archivo de inclusión del servidor.
  • Hay una conexión dañada en la base de datos.
  • Hay una página de resultados de búsqueda interna vacía.
  • Hay un archivo JavaScript que no se ha descargado o que falta.

Devolver un código de estado 200 (success) empeora la experiencia de usuario, al igual que mostrar o sugerir un mensaje de error o algún tipo de error en la página. Los usuarios pueden pensar que la página funciona correctamente, pero luego se encuentran con algún tipo de error. Esas páginas se excluyen de la Búsqueda.

Cuando los algoritmos de Google detectan que es una página de error basándose en su contenido, Search Console lo registra en el informe "Indexación de páginas" del sitio mostrando un error soft 404.

Corregir errores soft 404

En función del estado de la página y del resultado que quieras conseguir, puedes corregir errores soft 404 de varias formas:

Intenta determinar cuál es la mejor solución para tus usuarios.

La página y el contenido ya no están disponibles

Si has retirado la página y no hay otra con contenido similar en tu sitio que la vaya a sustituir, devuelve un código de respuesta (de estado) 404 (not found) o 410 (gone) de esa página. Estos códigos de estado indican a los buscadores que la página no existe y que no quieres que la indexen.

Si tienes acceso a los archivos de configuración de tu servidor, puedes personalizar estas páginas de error para que resulten útiles a los usuarios. Una página 404 personalizada correctamente ayuda a los usuarios a encontrar la información que buscan y, además, les proporciona otro contenido útil que anima a seguir navegando por tu sitio. A continuación, te damos algunas sugerencias sobre cómo diseñar una página 404 personalizada y útil:

  • Explica claramente a los visitantes que no se puede acceder a la página que buscan. Incluye mensajes amables y acogedores.
  • Tu página 404 debe tener el mismo aspecto y el mismo sistema de navegación que el resto del sitio.
  • Puede que sea interesante añadir enlaces a tus artículos o a tus publicaciones más populares, además de un enlace a la página principal de tu sitio.
  • Procura incluir algún mecanismo que permita a los usuarios avisarte si hay algún enlace roto.

Como las páginas personalizadas 404 solo se crean para los usuarios y no son útiles desde el punto de vista del buscador, comprueba que el servidor devuelva un código de estado HTTP 404 para evitar que se indexen.

La página o el contenido han cambiado de lugar

Si tu página se ha movido o tiene una sustituta clara en tu sitio, devuelve un código 301 (permanent redirect) para redirigir al usuario a la nueva. Hacer esto no interrumpirá su experiencia de navegación y es una forma muy buena de informar a los buscadores sobre la nueva ubicación de la página. Con la herramienta de inspección de URLs puedes comprobar si tu URL devuelve el código correcto.

La página y el contenido siguen ahí

Si una página que debería haberse clasificado como buena se ha marcado con un error soft 404, es probable que el robot de Google no la haya cargado correctamente, que le faltaran recursos clave o que haya mostrado un mensaje de error destacado durante el renderizado. Con la herramienta de inspección de URLs, puedes examinar el contenido renderizado y el código HTTP que se devuelve. Si la página renderizada está en blanco o prácticamente en blanco, o el contenido muestra un mensaje de error, es posible que haga referencia a muchos recursos que no pueden cargarse (imágenes, secuencias de comandos y otros elementos no textuales), lo que se podría considerar un error soft 404. Hay varias razones por las que es posible que los recursos no se carguen. Por ejemplo, puede que un archivo robots.txt los haya bloqueado, que haya varios errores del servidor, que la página tenga demasiados recursos o que estos sean demasiado grandes o de carga lenta.

Gestionar el rastreo excesivo de tu sitio (en caso de emergencia)

El robot de Google tiene algoritmos para no sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si detectas que el robot de Google está enviando demasiadas solicitudes a tu sitio, tienes varias opciones.

Diagnosticar el problema:

Consulta el servidor de tu sitio para ver si recibe demasiadas solicitudes del robot de Google.

Resolver el problema:

En caso de emergencia, lo recomendable es seguir estos pasos para que el robot de Google deje de sobrecargar tus servidores:

  1. Cuando tu servidor esté sobrecargado, devuelve los códigos de estado de respuesta HTTP 503 o 429 temporalmente para solicitudes del robot de Google. El robot de Google volverá a probar esas URLs durante aproximadamente 2 días. Si durante varios días devuelves códigos que indican que no hay disponibilidad, Google reducirá la frecuencia de rastreo o dejará de rastrear URLs de tu sitio permanentemente, por lo que debes completar los siguientes pasos adicionales.
  2. Una vez que haya disminuido la frecuencia de rastreo, deja de devolver los códigos de estado de respuesta HTTP 503 o 429 cuando recibas solicitudes de rastreo. Si Google recibe el código 503 o 429 durante más de 2 días al rastrear una URL, quitará las URLs del índice.
  3. Monitoriza el rastreo y la capacidad de tu host a lo largo del tiempo.
  4. Si el rastreador que da problemas es uno de los rastreadores AdsBot, probablemente sea porque has creado objetivos de anuncios dinámicos de búsqueda que dirigen a tu sitio y Google los está intentando rastrear. Google trata de rastrear esos objetivos cada 3 semanas; si tu servidor no puede gestionar estos rastreos, puedes limitar los objetivos de anuncios que utilizas o aumentar la capacidad de tu servidor.