Como verificar o Googlebot e outros rastreadores do Google
É possível verificar se um rastreador da Web que acessa seu servidor realmente é um rastreador do Google, como o Googlebot. Isso é útil caso você se preocupe que criadores de spam ou outros invasores que alegam ser o Googlebot acessem seu site.
Os rastreadores do Google se enquadram em três categorias:
Tipo | Descrição | Máscara de DNS reversa | Intervalos de IP |
---|---|---|---|
Rastreadores comuns | Os rastreadores comuns usados para os produtos do Google (como o Googlebot). Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos. |
crawl-***-***-***-***.googlebot.com ou
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Rastreadores de casos especiais | Rastreadores que executam funções específicas para produtos do Google (como o AdsBot) quando há um acordo entre o site rastreado e o produto sobre o processo de rastreamento. Esses rastreadores podem ou não respeitar as regras do robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Coletores acionados pelo usuário |
Ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. Como a busca foi solicitada por um usuário, esses coletores ignoram as regras do robots.txt. Os coletores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e se resolvem para um nome de host google.com . Os IPs no objeto user-triggered-fetchers.json
se resolvem para nomes de host gae.googleusercontent.com . Esses IPs são usados, por exemplo,
se um site executado no Google Cloud (GCP) tiver um recurso que exija a busca de feeds RSS externos conforme a solicitação do usuário desse site.
|
***-***-***-***.gae.googleusercontent.com ou
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json e user-triggered-fetchers-google.json |
Há dois métodos para verificar os rastreadores do Google:
- Manual: para buscas únicas, use ferramentas de linha de comando. Esse método é suficiente para a maioria dos casos de uso.
- Automático: para buscas em grande escala, use uma solução automática para verificar se o endereço IP do rastreador é o mesmo da lista de endereços IP publicados do Googlebot.
Usar ferramentas de linha de comando
-
Execute uma busca DNS reversa no endereço IP de acesso dos seus registros. Para isso,
use o comando
host
. - Verifique se o nome do domínio é
googlebot.com
,google.com
ougoogleusercontent.com
. -
Execute uma busca DNS direta no nome de domínio recuperado na primeira etapa. Para isso,
use o comando
host
no nome de domínio recuperado. - Verifique se é o mesmo endereço IP de acesso original dos seus registros.
Exemplo 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Exemplo 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Exemplo 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Usar soluções automáticas
Como alternativa, você pode identificar o Googlebot por endereço IP ao verificar se ele é o mesmo das listas de intervalos de IP dos rastreadores e coletores do Google:
- Rastreadores comuns, como o Googlebot
- Rastreadores especiais, como o AdsBot
- Buscas acionadas pelo usuário (usuários)
- Buscas acionadas pelo usuário (Google)
Para outros endereços IP do Google de onde o site pode ser acessado (por exemplo, Apps Scripts), faça a correspondência entre o endereço IP de acesso e a lista geral de endereços IP do Google. Os endereços IP nos arquivos JSON são representados no formato CIDR.