Cómo verificar solicitudes de rastreadores y recuperadores de Google

Puedes verificar si un rastreador web que accede a tu servidor es realmente un rastreador de Google, como Googlebot. Esta opción es útil si te preocupa que generadores de spam o de contenido problemático accedan a tu sitio haciéndose pasar por Googlebot.

Los rastreadores de Google se dividen en tres categorías:

Tipo	Descripción	Máscara de DNS inversa	Rangos de IP
Rastreadores comunes	Los rastreadores comunes que se usan para los productos de Google (como Googlebot) Siempre respetan las reglas de robots.txt para los rastreos automáticos.	`crawl-*---.googlebot.com` o `geo-crawl----*.geo.googlebot.com`	googlebot.json
Rastreadores de casos especiales	Rastreadores que realizan funciones específicas para productos de Google (como AdsBot) cuando existe un acuerdo entre el sitio rastreado y el producto sobre el proceso de rastreo. Estos rastreadores pueden o no respetar las reglas de robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Recuperadores generados por el usuario	Herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. Debido a que un usuario solicitó la recuperación, estos recursos ignoran las reglas de robots.txt. Los recuperadores controlados por Google se originan a partir de IPs en el objeto `user-triggered-fetchers-google.json` y se resuelven en un nombre de host `google.com`. Las IPs del objeto `user-triggered-fetchers.json` se resuelven en nombres de host `gae.googleusercontent.com`. Estas IPs se usan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere la recuperación de feeds RSS externos a pedido del usuario de ese sitio.	`*---.gae.googleusercontent.com` o `google-proxy----*.google.com`	user-triggered-fetchers.json y user-triggered-fetchers-google.json

Existen dos métodos para verificar los rastreadores de Google:

Manualmente: Para búsquedas únicas, usa herramientas de línea de comandos. Este método es suficiente para la mayoría de los casos de uso.
Automáticamente: Para las búsquedas a gran escala, usa una solución automática para que haga coincidir la dirección IP de un rastreador con la lista de direcciones IP de Googlebot publicadas.

Usa herramientas de línea de comandos

Ejecuta una búsqueda de DNS inversa en la dirección IP de acceso desde tus registros con el comando host.
Verifica que el nombre de dominio sea googlebot.com, google.com, o googleusercontent.com.
Ejecuta una búsqueda de DNS directa en el nombre de dominio recuperado en el Paso 1 con el comando host en el nombre de dominio recuperado.
Verifica que sea la misma que la dirección IP original de acceso desde tus registros.

Ejemplo 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Ejemplo 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Ejemplo 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Usa soluciones automáticas

Otra forma de identificar a Googlebot por dirección IP es hacer coincidir la dirección IP del rastreador con las listas de rangos de IP de los rastreadores y recuperadores de Google:

En el caso de otras direcciones IP de Google desde las que se puede acceder a tu sitio (por ejemplo, Apps Script), vincula la dirección IP de acceso con la lista general de direcciones IP de Google. Ten en cuenta que las direcciones IP en los archivos JSON se representan en formato CIDR.