Como verificar o Googlebot e outros rastreadores do Google

É possível verificar se um rastreador da Web que acessa seu servidor realmente é um rastreador do Google, como o Googlebot. Isso é útil caso você se preocupe que criadores de spam ou outros invasores que alegam ser o Googlebot acessem seu site.

Os rastreadores do Google se enquadram em três categorias:

Tipo Descrição Máscara de DNS reversa Intervalos de IP
Googlebot O principal rastreador dos produtos de pesquisa do Google. Sempre respeita as regras do robots.txt. crawl-***-***-***-***.googlebot.com ou geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Rastreadores de casos especiais Rastreadores que executam funções específicas (como o AdsBot), que podem ou não respeitar as regras do robots.txt. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Coletores acionados pelo usuário Ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. Como a busca foi solicitada por um usuário, esses coletores ignoram as regras do robots.txt.
Os coletores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e se resolvem para um nome de host google.com. Os IPs no objeto user-triggered-fetchers.json se resolvem para nomes de host gae.googleusercontent.com. Esses IPs são usados, por exemplo, se um site executado no Google Cloud (GCP) tiver um recurso que exija a busca de feeds RSS externos conforme a solicitação do usuário desse site.
***-***-***-***.gae.googleusercontent.com ou google-proxy-***-***-***-***.google.com user-triggered-fetchers.json e user-triggered-fetchers-google.json

Há dois métodos para verificar os rastreadores do Google:

  • Manual: para buscas únicas, use ferramentas de linha de comando. Esse método é suficiente para a maioria dos casos de uso.
  • Automático: para buscas em grande escala, use uma solução automática para verificar se o endereço IP do rastreador é o mesmo da lista de endereços IP publicados do Googlebot.

Usar ferramentas de linha de comando

  1. Execute uma busca DNS reversa no endereço IP de acesso dos seus registros. Para isso, use o comando host.
  2. Verifique se o nome do domínio é googlebot.com, google.com ou googleusercontent.com.
  3. Execute uma busca DNS direta no nome de domínio recuperado na primeira etapa. Para isso, use o comando host no nome de domínio recuperado.
  4. Verifique se é o mesmo endereço IP de acesso original dos seus registros.

Exemplo 1:

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Exemplo 2:

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Exemplo 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Usar soluções automáticas

Como alternativa, você pode identificar o Googlebot por endereço IP ao verificar se ele é o mesmo das listas de intervalos de IP dos rastreadores e coletores do Google:

Para outros endereços IP do Google de onde o site pode ser acessado (por exemplo, Apps Scripts), faça a correspondência entre o endereço IP de acesso e a lista geral de endereços IP do Google. Os endereços IP nos arquivos JSON são representados no formato CIDR.