Como verificar o Googlebot e outros rastreadores do Google
É possível verificar se um rastreador da Web que acessa seu servidor realmente é um rastreador do Google, como o Googlebot. Isso é útil caso você se preocupe que criadores de spam ou outros invasores que alegam ser o Googlebot acessem seu site.
Os rastreadores do Google se enquadram em três categorias:
| Tipo | Descrição | Máscara de DNS reversa | Intervalos de IP | 
|---|---|---|---|
| Rastreadores comuns | Os rastreadores comuns usados para os produtos do Google (como o Googlebot). Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos. | 
      crawl-***-***-***-***.googlebot.com ou
      geo-crawl-***-***-***-***.geo.googlebot.com
     | 
    googlebot.json | 
| Rastreadores de casos especiais | Rastreadores que executam funções específicas para produtos do Google (como o AdsBot) em que há um contrato entre o site rastreado e o produto sobre o processo de rastreamento. Esses rastreadores podem ou não respeitar as regras do robots.txt. | rate-limited-proxy-***-***-***-***.google.com | 
    special-crawlers.json | 
| Coletores acionados pelo usuário | 
      Ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. Como a busca foi solicitada por um usuário, esses coletores ignoram as regras do robots.txt. Os coletores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e se resolvem para um nome de host google.com. Os IPs no objeto user-triggered-fetchers.json
      se resolvem para nomes de host gae.googleusercontent.com. Esses IPs são usados, por exemplo,
      se um site executado no Google Cloud (GCP) tiver um recurso que exija a busca de feeds RSS externos conforme a solicitação do usuário desse site.
     | 
    
      ***-***-***-***.gae.googleusercontent.com ou
      google-proxy-***-***-***-***.google.com
     | 
    user-triggered-fetchers.json e user-triggered-fetchers-google.json | 
Há dois métodos para verificar os rastreadores do Google:
- Manual: para buscas únicas, use ferramentas de linha de comando. Esse método é suficiente para a maioria dos casos de uso.
 - Automático: para buscas em grande escala, use uma solução automática para verificar se o endereço IP do rastreador é o mesmo da lista de endereços IP publicados do Googlebot.
 
Usar ferramentas de linha de comando
- 
    Execute uma busca DNS reversa no endereço IP de acesso dos seus registros. Para isso,
    use o comando 
host. - Verifique se o nome do domínio é 
googlebot.com,google.comougoogleusercontent.com. - 
    Execute uma busca DNS direta no nome de domínio recuperado na primeira etapa. Para isso,
    use o comando 
hostno nome de domínio recuperado. - Verifique se é o mesmo endereço IP de acesso original dos seus registros.
 
Exemplo 1:
host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
Exemplo 2:
host 35.247.243.240240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Exemplo 3:
host 66.249.90.7777.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Usar soluções automáticas
Como alternativa, você pode identificar o Googlebot por endereço IP ao verificar se ele é o mesmo das listas de intervalos de IP dos rastreadores e coletores do Google:
- Rastreadores comuns, como o Googlebot
 - Rastreadores especiais, como o AdsBot
 - Buscas acionadas pelo usuário (usuários)
 - Buscas acionadas pelo usuário (Google)
 
Para outros endereços IP do Google de onde o site pode ser acessado (por exemplo, Apps Scripts), faça a correspondência entre o endereço IP de acesso e a lista geral de endereços IP do Google. Os endereços IP nos arquivos JSON são representados no formato CIDR.