Googlebot
Googlebot é o nome genérico dos dois tipos de rastreadores da Web do Google:
- Googlebot para smartphones: um rastreador para dispositivos móveis que simula um usuário em um dispositivo móvel.
- Googlebot para computadores: um rastreador para computadores que simula um usuário no computador.
Você pode identificar o subtipo do Googlebot observando o
cabeçalho da solicitação do HTTP user-agent
na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (user agent token)
no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot para smartphones nem o Googlebot
Desktop usando o robots.txt.
Na maioria dos sites, o Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.
Como o Googlebot acessa seu site
Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos.
O Googlebot foi desenvolvido para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Além disso, para reduzir o uso da largura de banda, muitos rastreadores funcionam em máquinas localizadas perto dos sites que podem ser rastreados. Por isso, seus registros talvez mostrem visitas de vários endereços IP, todos com o user agent do Googlebot. Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.
O Googlebot rastreia principalmente endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países. A lista de intervalos de endereços IP usados pelo Googlebot está disponível no formato JSON.
O Googlebot rastreia o HTTP/1.1 e, se compatível com o site,
HTTP/2. Não há benefício de classificação com base na versão do protocolo usada para rastrear seu site. No entanto, o rastreamento por HTTP/2 pode economizar recursos de computação (por exemplo, CPU e RAM) do seu site e do Googlebot.
Para desativar o rastreamento via HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421
quando o Googlebot tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe do Googlebot. No entanto, essa solução é temporária.
O Googlebot pode rastrear os primeiros 15 MB de um arquivo HTML ou um arquivo de texto compatível. Cada recurso referenciado no HTML, como CSS e JavaScript, é buscado separadamente, e cada busca é restrita ao mesmo limite de tamanho de arquivo. Depois disso, ele interrompe o rastreamento e envia apenas os primeiros 15 MB do arquivo para que seja considerada a indexação. O limite de tamanho do arquivo é aplicado considerando os dados descompactados. Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter limites diferentes.
Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.
Como impedir o acesso do Googlebot ao seu site
É quase impossível manter um site em segredo não publicando links para ele. Quando alguém segue um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.
Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. É importante lembrar que há uma diferença entre rastreamento e indexação. Impedir que o Googlebot faça o rastreamento de uma página não impede que ela apareça nos resultados de pesquisa:
- Quer impedir que o Googlebot rastreie uma página? Use um arquivo robots.txt.
- Não quer que o Google indexe uma página? Use
noindex
. - Quer impedir que uma página seja acessada tanto por rastreadores quanto por usuários? Use outro método, como a proteção por senha.
Verificação do Googlebot
Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent
usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar
se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente
vem do Googlebot é
usar uma busca DNS reversa
no IP de origem da solicitação ou comparar o IP de origem com os
intervalos de IP do Googlebot.