Lunes, 16 de enero del 2017
Últimamente se escuchan muchas definiciones del término "presupuesto de rastreo". Sin embargo, no hay una única palabra que describa íntegramente este concepto para los usuarios. Esta entrada de blog pretende aclarar qué es y qué significa para el robot de Google.
En primer lugar, hay que resaltar que, como se describe en esta entrada, este concepto no es algo que debería preocupar a la mayoría de los editores. Si las páginas nuevas suelen rastrearse el mismo día en que se publican, no es imprescindible que los webmasters se fijen en el presupuesto de rastreo. Si un sitio solo tiene unos pocos miles de URLs, casi siempre se rastreará bien.
Priorizar el contenido que se debe rastrear, cuándo debe rastrearse y cuántos recursos puede asignar al rastreo el servidor que aloja el sitio es más importante cuando es un sitio grande o que genera páginas automáticamente a partir de parámetros de URLs, entre otros casos.
Límite de frecuencia de rastreo
El robot de Google está diseñado para tener un funcionamiento ejemplar en la Web. Aunque su principal prioridad es rastrear contenido, también procura que, al hacerlo, no empeore la experiencia de los usuarios que visitan el sitio. Esto se llama "límite de frecuencia de rastreo", que limita la frecuencia con la que se obtienen las páginas de un sitio.
Es decir, representa el número de conexiones paralelas simultáneas que utiliza el robot de Google para rastrear el sitio, así como el tiempo de espera entre cada obtención. La frecuencia de rastreo puede aumentar o disminuir en función de dos factores:
- Estado de rastreo: si un sitio responde rápidamente durante un tiempo, el límite aumenta y, por tanto, se pueden usar más conexiones para rastrearlo. En cambio, si ese sitio se ralentiza o devuelve errores de servidor, el límite disminuye y el robot de Google lo rastrea menos.
- Límite fijado en Search Console: los propietarios de sitios web pueden hacer que el robot de Google rastree menos sus sitios. Aunque se aumente el límite, el robot de Google no incrementará automáticamente la frecuencia de rastreo.
Demanda de rastreo
Aunque no se alcance el límite de la frecuencia de rastreo, si no hay demanda de indexación, el robot de Google tendrá poco trabajo. Estos son los dos factores que juegan un papel crucial en la demanda de rastreo:
- Popularidad: las URLs que más se visitan en Internet suelen rastrearse con más frecuencia para que aparezcan en nuestro índice lo más actualizadas posible.
- Inactividad: nuestros sistemas intentan evitar que las URLs del índice queden inactivas.
Además, si hay algún cambio que afecta a todo un sitio (por ejemplo, un traslado), es posible que aumente la demanda de rastreo porque queremos volver a indexar el contenido con las nuevas URLs.
La frecuencia y la demanda son la base del presupuesto de rastreo, es decir, el número de URLs que el robot de Google puede y quiere rastrear.
Factores que afectan al presupuesto de rastreo
Según nuestros análisis, si un sitio tiene muchas URLs de poca calidad, el rastreo y la indexación podrían verse perjudicados. Estas URLs se dividen en las categorías siguientes, por orden de importancia:
- Navegación por facetas e identificadores de sesión
- Contenido duplicado en el sitio
- Páginas con errores soft
- Páginas pirateadas
- Espacios infinitos y proxies
- Contenido spam y de baja calidad
Si malgastamos los recursos del servidor con páginas como estas, se dejarán de rastrear otras que son realmente interesantes, lo que puede provocar que se tarde mucho en descubrir contenido de calidad que haya en un sitio.
Preguntas frecuentes
El rastreo es el método que permite que los sitios empiecen a aparecer en los resultados de búsqueda de Google. Si este paso se hace bien, la indexación en la Búsqueda de Google será más fácil.
¿Afecta la velocidad de un sitio al presupuesto de rastreo? ¿Y los errores?
Si un sitio es rápido, la experiencia de los usuarios es mejor y el sitio se rastrea con más frecuencia. El robot de Google considera que, si un sitio es rápido, sus servidores están en buen estado y, por tanto, puede obtener más contenido con el mismo número de conexiones. En cambio, que haya muchos errores del tipo 5xx o que a menudo se agote el tiempo de espera de las conexiones suele indicar lo contrario, por lo que el rastreo se ralentiza.
Te recomendamos que prestes atención al informe "Errores de rastreo" de Search Console y que reduzcas al máximo los errores de servidor.
¿Es el rastreo un factor de posicionamiento?
Por mucho que aumentes la frecuencia de rastreo, la posición de tu sitio en los resultados de la Búsqueda no tiene por qué mejorar. Google tiene en cuenta cientos de factores a la hora de posicionar los resultados y, aunque es necesario rastrear una página para que aparezca en los resultados, el rastreo no es uno de ellos.
¿Se tienen en cuenta las URLs alternativas y el contenido insertado en el presupuesto de rastreo?
Por lo general, todas las URLs que rastrea el robot de Google gastan presupuesto de rastreo de un sitio. Es posible que haya que rastrear URLs alternativas, como AMP o hreflang, y contenido insertado, como CSS y JavaScript, incluidas llamadas AJAX (por ejemplo, XHR), lo que gasta parte del presupuesto de rastreo. Las cadenas largas de redirecciones también pueden perjudicar el rastreo.
¿Puedo controlar el robot de Google con la regla crawl-delay
?
El robot de Google no procesa la regla crawl-delay
no estándar del archivo robots.txt.
¿Afecta la regla nofollow
al presupuesto de rastreo?
Según el caso. Se gasta presupuesto de rastreo al rastrear cualquier URL, por lo que, aunque en una de tus páginas se marque una URL con la regla nofollow
, es posible que la URL se acabe rastreando si está enlazada en otra página del sitio o de Internet sin la regla nofollow.
¿Afectan de alguna forma las URLs que he inhabilitado mediante el archivo robots.txt al presupuesto de rastreo?
No, las URLs no permitidas no afectan al presupuesto de rastreo.
Consulta la entrada del blog sobre cómo optimizar el rastreo de tu sitio para saber qué debes hacer para conseguirlo. Es del 2009, pero lo que explica sigue vigente. Si tienes alguna pregunta, puedes publicarla en los foros.