Descripción general de los rastreadores y sistemas de obtención de Google (user-agents)

Google utiliza rastreadores y sistemas de obtención para realizar las acciones relacionadas con sus productos, ya sea de forma automática o mediante solicitud de los usuarios. El término "rastreador" (a veces llamado "robot" o "araña") es el término genérico con el que se denomina a cualquier programa que se utilice para encontrar y analizar automáticamente sitios web siguiendo enlaces entre páginas web. Los fetchers actúan como un programa, como wget, que suele hacer una única solicitud en nombre de un usuario. Los clientes de Google se dividen en tres categorías:

Rastreadores habituales Los rastreadores habituales que se usan en los productos de Google (como el robot de Google). Siempre respetan las reglas de robots.txt en el caso de los rastreos automáticos.
Rastreadores para casos especiales Los rastreadores para casos especiales son similares a los rastreadores habituales, pero los utilizan productos específicos en los que existe un acuerdo entre el sitio rastreado y el producto de Google sobre el proceso de rastreo. Por ejemplo, AdsBot ignora el user-agent del archivo robots.txt global (*) con el permiso del editor del anuncio.
Sistemas de obtención activados por el usuario Los fetchers activados por el usuario forman parte de las herramientas y funciones de producto en las que el usuario final activa una obtención. Por ejemplo, Google Site Verifier actúa cuando lo solicitan los usuarios.

Propiedades técnicas de los rastreadores y fetchers de Google

Los rastreadores y los fetchers de Google están diseñados para ejecutarse simultáneamente en miles de ordenadores con el fin de mejorar el rendimiento y ajustar la escala a medida que la Web crece. Para optimizar el uso del ancho de banda, estos clientes se distribuyen en muchos centros de datos de todo el mundo, de modo que se encuentran cerca de los sitios a los que pueden acceder. Por tanto, es posible que tus registros muestren visitas de varias direcciones IP. Google sale principalmente de direcciones IP de Estados Unidos. Si Google detecta que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países.

Los rastreadores y los fetchers de Google usan HTTP/1.1 y, si el sitio lo admite, HTTP/2. El rastreo mediante HTTP/2 puede ahorrar recursos informáticos (como la CPU o la RAM) en tu sitio y en el robot de Google, pero no supone ninguna ventaja específica para el sitio (por ejemplo, no se mejora el posicionamiento en la Búsqueda de Google). Si no quieres que tu sitio se rastree con HTTP/2, indica al servidor donde se aloja que, cuando Google intente acceder al sitio con HTTP/2, responda con un código de estado HTTP 421. Si no puedes hacerlo, envía un mensaje al equipo de Rastreo (aunque esta solución es temporal).

Los rastreadores y los fetchers de Google admiten las siguientes codificaciones de contenido (compresiones): gzip, deflate y Brotli (br). Las codificaciones de contenido admitidas por cada agente de usuario de Google se anuncian en el encabezado Accept-Encoding de cada solicitud que hacen. Por ejemplo, Accept-Encoding: gzip, deflate, br.

En cada visita, se intentan rastrear tantas páginas de tu sitio como permita el servidor. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo. Ten en cuenta que enviar el código de respuesta HTTP inadecuado a los rastreadores de Google puede afectar a la forma en que aparece tu sitio en los productos de Google.

Verificar los rastreadores y los fetchers de Google

Los rastreadores de Google se identifican de tres formas:

  1. El encabezado de solicitud HTTP user-agent.
  2. Dirección IP de origen de la solicitud.
  3. El nombre de host de DNS inverso de la IP de origen.

Consulta cómo usar estos detalles para verificar los rastreadores y los fetchers de Google.