Googlebot

Googlebot é o nome genérico de dois tipos de rastreadores da web usados pela Pesquisa Google:

Googlebot Smartphone: um rastreador para dispositivos móveis que simula um usuário em um dispositivo móvel.
Googlebot Desktop: um rastreador para computadores que simula um usuário no computador.

Você pode identificar o subtipo do Googlebot observando o cabeçalho da solicitação do HTTP user-agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot Smartphone nem o Googlebot Desktop usando o robots.txt.

Na maioria dos sites, a Pesquisa Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.

Ao rastrear para a Pesquisa Google, o Googlebot rastreia os primeiros 2 MB de um tipo de arquivo compatível e os primeiros 64 MB de um arquivo PDF. Do ponto de vista da renderização, cada recurso referenciado no HTML (como CSS e JavaScript) é buscado separadamente, e cada busca de recurso é restrita ao mesmo limite de tamanho de arquivo que se aplica a outros arquivos (exceto PDFs).
Quando o limite é atingido, o Googlebot interrompe a busca e envia apenas a parte já baixada do arquivo para fins de indexação. O limite de tamanho do arquivo é aplicado considerando os dados descompactados. Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter limites diferentes.

Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.

Outras propriedades técnicas do Googlebot estão descritas na visão geral dos rastreadores do Google.

Como impedir o acesso do Googlebot ao seu site

O Googlebot descobre novos URLs para rastrear principalmente por links incorporados em páginas rastreadas anteriormente. É quase impossível manter um site em segredo não publicando links para ele. Quando alguém clica em um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. É importante lembrar que há uma diferença entre rastreamento e indexação. Impedir que o Googlebot faça o rastreamento de uma página não impede que o URL dela apareça nos resultados da pesquisa:

Quer impedir que o Googlebot rastreie uma página? Use um arquivo robots.txt.
Não quer que o Google indexe uma página? Use noindex.
Quer impedir que uma página seja acessada tanto por rastreadores quanto por usuários? Use outro método, como a proteção por senha.

O bloqueio do Googlebot afeta a Pesquisa Google (incluindo o Discover e todos os recursos da Pesquisa Google), bem como outros produtos, como Imagens do Google, Google Video e Google Notícias.

Verificação do Googlebot

Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação ou comparar o IP de origem com os intervalos de IP do Googlebot.