Verificar solicitações de rastreadores e coletores do Google

É possível verificar se uma solicitação para seu servidor realmente é do Google. A verificação é possível para rastreadores como o Googlebot, além de outras solicitações. Isso é útil caso você se preocupe que criadores de spam ou outros invasores que alegam ser o Google acessem seu site.

Os rastreadores e coletores do Google se enquadram em três categorias:

Tipo	Descrição	Máscara de DNS reversa	Intervalos de IP
Rastreadores comuns	Os rastreadores comuns usados para produtos do Google, como o Googlebot. Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos.	`crawl-*---.googlebot.com` ou `geo-crawl----*.geo.googlebot.com`	common-crawlers.json
Rastreadores de casos especiais	Rastreadores ou coletores que executam funções específicas para produtos do Google (como o AdsBot) quando há um acordo entre o site rastreado e o produto sobre o acesso ou para rastreamento ou busca específicos de abuso. Esses rastreadores ou coletores podem ou não respeitar as regras do robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Coletores acionados pelo usuário	Ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. Como a busca foi solicitada por um usuário, esses coletores ignoram as regras do robots.txt. Os coletores controlados pelo Google se originam de IPs no objeto `user-triggered-fetchers-google.json` e se resolvem para um nome de host `google.com`. Os IPs no objeto `user-triggered-fetchers.json` se resolvem para nomes de host `gae.googleusercontent.com`. Esses IPs são usados, por exemplo, se um site executado no Google Cloud (GCP) tiver um recurso que exija a busca de feeds RSS externos conforme a solicitação do usuário desse site.	`*---.gae.googleusercontent.com` ou `google-proxy----*.google.com`	user-triggered-fetchers.json, user-triggered-fetchers-google.json e user-triggered-agents.json

Há dois métodos para verificar solicitações do Google:

Manual: para buscas únicas, use ferramentas de linha de comando. Esse método é suficiente para a maioria dos casos de uso.
Automático: para buscas em grande escala, use uma solução automática para verificar se o endereço IP do rastreador é o mesmo da lista de endereços IP publicados do Google.

Usar ferramentas de linha de comando

Execute uma busca DNS reversa no endereço IP de acesso dos seus registros. Para isso, use o comando host.
Verifique se o nome do domínio é googlebot.com, google.com ou googleusercontent.com.
Execute uma busca DNS direta no nome de domínio recuperado na primeira etapa. Para isso, use o comando host no nome de domínio recuperado.
Verifique se é o mesmo endereço IP de acesso original dos seus registros.

Exemplo 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Exemplo 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Exemplo 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Usar soluções automáticas

Como alternativa, você pode identificar o Googlebot por endereço IP ao verificar se ele é o mesmo das listas de intervalos de IP dos rastreadores e coletores do Google:

Para outros endereços IP do Google de onde o site pode ser acessado (por exemplo, Apps Scripts), faça a correspondência entre o endereço IP de acesso e a lista geral de endereços IP do Google. Os endereços IP nos arquivos JSON são representados no formato CIDR.