Guia do proprietário do site para gerenciar cotas de rastreamento
Este guia descreve como otimizar o rastreamento do Google em sites muito grandes e atualizados com frequência.
Se o site não tem um grande número de páginas que mudam rapidamente, ou se as páginas parecem ser rastreadas no mesmo dia em que são publicadas, não é necessário ler este guia. Basta manter o sitemap atualizado e verificar a cobertura do índice regularmente.
Se você tem conteúdo que está disponível há algum tempo, mas nunca foi indexado, isso é um problema diferente. Use a Ferramenta de inspeção de URL para descobrir por que sua página não está sendo indexada.
Público-alvo deste guia
Este é um guia avançado destinado a:
- sites grandes (mais de um milhão de páginas únicas) com conteúdo que muda com frequência moderada (uma vez por semana);
- sites médios ou grandes (mais de 10 mil páginas únicas) com conteúdo que muda rapidamente (todos os dias);
- sites com uma grande parte do total de URLs classificados pelo Search Console como Detectado, mas não indexado no momento.
Teoria geral do rastreamento
A Web é um espaço quase infinito que excede a capacidade do Google de explorar e indexar todos os URLs disponíveis. Como resultado, há limites para quanto tempo o Googlebot pode ficar rastreando um único site. O tempo e os recursos que o Google dedica ao rastreamento de um site geralmente são chamados de cota de rastreamento. Nem tudo que é rastreado no site será necessariamente indexado. Cada página é avaliada, consolidada e analisada para determinar se entrará no índice depois do rastreamento.
A cota de rastreamento é determinada por dois elementos principais: limite de capacidade e demanda.
Limite de capacidade de rastreamento
O Googlebot procura rastrear o site sem sobrecarregar os servidores. Para isso, ele calcula um limite de capacidade de rastreamento, que é o número máximo de conexões paralelas simultâneas que o Googlebot pode usar para rastrear um site, bem como o atraso entre as buscas. Isso é calculado para cobrir todo o conteúdo importante sem sobrecarregar os servidores.
O limite de capacidade de rastreamento pode aumentar ou diminuir com base em alguns fatores:
- Integridade do rastreamento: se o site responder rapidamente por um tempo, o limite aumentará, permitindo que mais conexões sejam usadas para o rastreamento. Se o site ficar lento ou responder com erros no servidor, o limite diminuirá, e o Googlebot fará menos rastreamentos.
- Limites de rastreamento do Google: o Google não tem máquinas infinitas. Ainda é necessário fazer escolhas com os recursos disponíveis.
Demanda de rastreamento
O Google normalmente gasta todo o tempo necessário para rastrear o site de acordo com o tamanho, a frequência de atualização, a qualidade das páginas e a relevância dele em comparação com outros sites.
Os fatores mais importantes para determinar a demanda de rastreamento são estes:
- Inventário percebido: sem sua orientação, o Googlebot tentará rastrear todos ou a maioria dos URLs que conhece no site. Se muitos desses URLs forem duplicados ou se você não quiser que eles sejam rastreados por algum motivo (removido, sem importância etc.), isso desperdiçará muito tempo de rastreamento do Google no site. Esse é o fator mais possível de ser controlado.
- Popularidade: os URLs mais acessados na Internet costumam ser rastreados com mais frequência para se manterem atualizados no índice.
- Inatividade: nossos sistemas buscam rastrear novamente os documentos com frequência suficiente para captar mudanças.
Além disso, os eventos que ocorrem em todo o site, como as mudanças de sites, podem aumentar a demanda de rastreamento para indexar novamente o conteúdo com novos URLs.
Resumindo
Considerando a capacidade e a demanda de rastreamento como um todo, o Google define a cota de rastreamento de um site como o conjunto de URLs que o Googlebot deve rastrear. Mesmo que o limite da capacidade de rastreamento não seja atingido, se a demanda de rastreamento for baixa, o Googlebot rastreará menos o site.
Práticas recomendadas
Siga estas práticas recomendadas para maximizar sua eficiência de rastreamento:
- Gerencie o inventário de URLs. Use as ferramentas adequadas
para informar ao Google quais páginas devem ser rastreadas. Se o Google passar muito
tempo rastreando URLs que não são apropriados para o índice, o Googlebot poderá decidir que
não vale a pena analisar o restante do site (ou aumentar a cota para isso).
- Consolide conteúdo duplicado. Elimine o conteúdo duplicado para focar o rastreamento em conteúdo exclusivo em vez de URLs exclusivos.
- Bloqueie o rastreamento de URLs usando robots.txt. Algumas páginas são importantes para os usuários, mas você não quer necessariamente que elas apareçam nos resultados da pesquisa. Por exemplo, páginas de rolagem infinita que duplicam informações em páginas vinculadas ou versões da mesma página classificadas de forma diferente. Se não for possível fazer a consolidação delas conforme descrito no primeiro item, bloqueie essas páginas sem importância (para pesquisa) com robots.txt. Bloquear URLs com robots.txt reduz significativamente a chance de indexação.
-
Retorne um código de status
404
ou410
para páginas removidas permanentemente. O Google não vai esquecer um URL conhecido, mas um código de status404
é um forte indicador para não rastrear esse URL novamente. No entanto, os URLs bloqueados vão permanecer como parte da fila de rastreamento e vão ser rastreados novamente quando o bloqueio for removido. - Elimine erros
soft 404
. As páginas desoft 404
vão continuar sendo rastreadas, desperdiçando sua cota. Confira se há errossoft 404
no Relatório de cobertura do índice. - Mantenha os sitemaps atualizados. O Google lê o sitemap regularmente,
então inclua todo o conteúdo a ser rastreado. Caso seu site
inclua conteúdo atualizado, recomendamos incluir a tag
<lastmod>
. - Evite longas cadeias de redirecionamento, que têm um efeito negativo no rastreamento.
- Deixe o carregamento das suas páginas mais eficiente. Se o Google puder carregar e renderizar as páginas mais rapidamente, poderemos ler mais conteúdo do site.
- Monitore o rastreamento do site. Verifique se o site teve problemas de disponibilidade durante o rastreamento e procure maneiras de tornar o rastreamento mais eficiente.
Monitorar o rastreamento e a indexação do site
Estas são as principais etapas para monitorar o perfil de rastreamento do site:
- Ver se o Googlebot está encontrando problemas de disponibilidade no site.
- Conferir se você tem páginas que não estão sendo rastreadas, mas deveriam ser.
- Conferir se alguma parte do site precisa ser rastreada mais rapidamente.
- Melhorar a eficiência do rastreamento do site.
- Controlar o rastreamento excessivo do site.
Ver se o Googlebot está encontrando problemas de disponibilidade no site
Melhorar a disponibilidade do site não aumentará a cota de rastreamento necessariamente. O Google determina a melhor taxa de rastreamento com base na demanda, conforme já foi descrito. No entanto, os problemas de disponibilidade impedem que o Google rastreie seu site o quanto quiser.
Diagnóstico:
Use o relatório de estatísticas de rastreamento para acessar o histórico de rastreamento do Googlebot no site. O relatório mostra quando o Google encontrou problemas de disponibilidade nele. Se erros ou avisos de disponibilidade forem relatados para o site, procure instâncias nos gráficos de disponibilidade do host em que as solicitações do Googlebot excedem a linha de limite vermelha, clique no gráfico para saber quais URLs falharam e tente correlacioná-los com os problemas do site.
Além disso, você também pode usar a Ferramenta de inspeção de URL para testar alguns URLs no seu site. Se a ferramenta retornar avisos do tipo A carga do host foi excedida, isso significa que o Googlebot não pode rastrear todos os URLs do seu site que foram descobertos.
Tratamento:
- Leia a documentação do relatório de estatísticas de rastreamento para saber como detectar alguns problemas de disponibilidade e lidar com eles.
- Bloqueie o rastreamento de páginas se não quiser que elas sejam rastreadas. Saiba como gerenciar seu inventário.
- Aumente a velocidade do carregamento e da renderização das páginas. Consulte como melhorar a eficiência de rastreamento do site.
- Aumente a capacidade do servidor. Se o Google parece sempre rastrear o site até o limite de capacidade dos servidores, mas você ainda tem URLs importantes que não estão sendo rastreados ou atualizados como necessário, aumentar os recursos de servidor pode permitir que o Google solicite mais páginas. Confira o histórico de disponibilidade do host no relatório de estatísticas de rastreamento para saber se a taxa de rastreamento do Google costuma ultrapassar o limite. Se for o caso, aumente os recursos de servidor por um mês e confira se o número de solicitações de rastreamento aumenta durante esse período.
Ver se alguma parte do site não está sendo rastreada, mas deveria ser
O Google passa o tempo necessário no site para indexar todo o conteúdo relevante e de alta qualidade que encontrar. Se você acha que o Googlebot está deixando conteúdos importantes de fora, pode ser que esse material não tenha sido detectado ou esteja bloqueado, ou ainda que a disponibilidade do site esteja limitando o acesso do Google ou fazendo com que ele evite sobrecarregar o servidor.
Diagnóstico:
O Search Console não fornece um histórico de rastreamento do site que pode ser filtrado por URL ou caminho, mas é possível inspecionar os registros do site para saber se URLs específicos foram rastreados pelo Googlebot. Se os URLs rastreados foram ou não indexados é outra história.
Lembre-se de que, para a maioria dos sites, leva vários dias até que as páginas novas sejam detectadas. Em geral, não se deve esperar que os URLs sejam rastreados no mesmo dia, exceto em sites com conteúdo temporário, como os de notícias.
Tratamento:
Se você está adicionando páginas ao site, e elas não estão sendo rastreadas em um prazo razoável, há alguns motivos possíveis para isso: o Google não tem conhecimento sobre elas, o conteúdo está bloqueado, o site atingiu a capacidade máxima de exibição ou a cota de rastreamento acabou.
- Informe o Google sobre as novas páginas: atualize os sitemaps para refletir os novos URLs.
- Examine as regras robots.txt para confirmar que você não está bloqueando páginas acidentalmente.
- Revise as prioridades de rastreamento, ou seja, use a cota de rastreamento com sabedoria. Gerencie seu inventário e melhore a eficiência de rastreamento do site.
- Verifique se a capacidade dos servidores está no limite. O Googlebot reduzirá o rastreamento se detectar que seus servidores estão tendo problemas para responder às solicitações.
As páginas podem não ser exibidas nos resultados da pesquisa caso não haja valor suficiente ou demanda do usuário para o conteúdo.
Conferir se as atualizações são rastreadas com rapidez suficiente
Se não estamos rastreando páginas novas ou atualizadas no site, talvez elas não tenham sido detectadas. Saiba como você pode nos ajudar com as atualizações de página.
O Google se esforça para verificar e indexar as páginas em tempo hábil. Na maioria dos sites, são necessários três dias ou mais. Não espere que o Google indexe páginas no mesmo dia em que forem publicadas, a menos que você tenha um site de notícias ou outro conteúdo temporário e de alto valor.
Diagnóstico:
Examine os registros do site para saber quando URLs específicos foram rastreados pelo Googlebot.
Para saber qual é a data de indexação, use a Ferramenta de inspeção de URL ou faça uma Pesquisa Google para encontrar os URLs que você atualizou.
Tratamento:
O que fazer:
- Use um sitemap do Google Notícias se o site tiver esse tipo de conteúdo.
- Use a tag
<lastmod>
nos sitemaps para indicar quando um URL indexado foi atualizado. - Use uma estrutura de URL simples para ajudar o Google a encontrar suas páginas.
- Forneça links
<a>
padrão rastreáveis para ajudar o Google a encontrar suas páginas. - Se o site usa HTMLs separados em versões para dispositivos móveis e computadores, use o mesmo conjunto de links na versão para dispositivos móveis que você tem na versão para computador. Se não for possível usar o mesmo conjunto de links na versão para dispositivos móveis, inclua em um arquivo de sitemap. O Google só indexa a versão para dispositivos móveis das páginas. Limitar os links mostrados pode atrasar a descoberta de novas páginas.
O que evitar:
- Enviar o mesmo sitemap inalterado várias vezes por dia.
- Esperar que o Googlebot rastreie tudo que está no sitemap ou que o rastreamento seja imediato: os sitemaps são sugestões úteis, não requisitos absolutos.
- Incluir URLs nos sitemaps que você não quer que apareçam na Pesquisa. Isso pode desperdiçar sua cota de rastreamento em páginas que você não quer que sejam indexadas.
Melhorar a eficiência do rastreamento do site
Aumentar a velocidade de carregamento da página
O rastreamento do Google é limitado pela largura de banda, tempo e disponibilidade das instâncias do Googlebot. Se o servidor responder a solicitações mais rapidamente, poderemos rastrear mais páginas no site. Dito isso, o Google só rastreia conteúdo de alta qualidade. Portanto, deixar páginas de baixa qualidade mais rápidas não incentiva o Googlebot a rastrear mais do site. Por outro lado, se acharmos que estamos perdendo conteúdo de alta qualidade no site, provavelmente aumentaremos sua cota para rastrear esse conteúdo.
Confira como otimizar páginas e recursos para rastreamento:
- Impeça que recursos grandes, mas sem importância, sejam carregados pelo Googlebot usando robots.txt. Bloqueie apenas recursos não críticos, ou seja, recursos que não são importantes para entender o significado da página (como imagens decorativas).
- Verifique se o carregamento das suas páginas é rápido.
- Cuidado com longas cadeias de redirecionamento, que têm um efeito negativo sobre o rastreamento.
- Tanto o tempo para responder às solicitações do servidor quanto o tempo necessário para renderizar páginas são importantes, incluindo o tempo de carregamento e execução de recursos incorporados, como imagens e scripts. Esteja ciente de recursos grandes ou lentos necessários para a indexação.
Especificar mudanças no conteúdo com códigos de status HTTP
Em geral, o Google é compatível com os
cabeçalhos da solicitação HTTP If-Modified-Since
e If-None-Match
para rastreamento. Os rastreadores do Google não enviam os cabeçalhos com todas as tentativas de rastreamento. Isso depende do
caso de uso da solicitação. Por exemplo, o
AdsBot tem
mais probabilidade de definir os cabeçalhos de solicitação HTTP If-Modified-Since
e If-None-Match
. Se nossos rastreadores enviarem o cabeçalho If-Modified-Since
, o valor
dele vai ser a data e hora
em que o conteúdo foi rastreado pela última vez. Com base nesse valor, o servidor pode optar por retornar um
código de status HTTP 304 (Not Modified)
sem corpo de resposta. Nesse caso, o Google
vai reutilizar a versão de conteúdo que ele rastreou na última vez. Se o conteúdo for mais recente que a data
especificada pelo rastreador no cabeçalho If-Modified-Since
, o servidor vai poder retornar um
código de status HTTP 200 (OK)
com o corpo da resposta.
Independentemente dos cabeçalhos de solicitação, é possível enviar um código
de status HTTP 304 (Not Modified)
e nenhum corpo de resposta para qualquer solicitação do Googlebot se o conteúdo não tiver sido alterado desde
a última visita ao URL. Isso economiza o tempo e recursos de processamento do servidor,
o que pode melhorar indiretamente a eficiência do rastreamento.
Ocultar os URLs que você não quer incluir nos resultados da pesquisa
O desperdício de recursos de servidor em páginas desnecessárias pode reduzir a atividade de rastreamento naquelas que são importantes para você. Isso causa um atraso significativo na descoberta de conteúdos novos ou atualizados em um site.
A exposição de muitos URLs do site que não devem ser rastreados pela Pesquisa pode afetar negativamente o rastreamento e a indexação dele. Normalmente, esses URLs se enquadram nas seguintes categorias:
- Navegação facetada e identificadores de sessão (links em inglês): a navegação facetada normalmente é conteúdo duplicado do site. Identificadores de sessão e outros parâmetros de URL que simplesmente classificam ou filtram a página não fornecem conteúdo novo. Use o robots.txt para bloquear páginas de navegação facetada.
- Conteúdo duplicado: ajude o Google a identificar conteúdo duplicado para evitar o rastreamento desnecessário.
- Páginas de
soft 404
: retorne um código404
quando uma página não existir mais. - Páginas invadidas: consulte o relatório de problemas de segurança e corrija ou remova as páginas invadidas que você encontrar.
- Espaços infinitos (em inglês) e proxies: bloqueie o rastreamento com o robots.txt.
- Conteúdo de baixa qualidade e spam: é bom evitar, obviamente.
- Páginas do carrinho de compras, de rolagem infinita e que realizam uma ação, como página "inscreva-se" ou "compre agora".
O que fazer:
- Use o robots.txt se não quiser que o Google rastreie um recurso ou uma página.
- Se um recurso comum for reutilizado em várias páginas (como uma imagem compartilhada ou um arquivo JavaScript), faça referência a ele no mesmo URL em cada página, para que o Google possa armazenar em cache e reutilizar o mesmo recurso sem precisar solicitá-lo várias vezes.
O que evitar:
- Não adicione nem remova páginas ou diretórios do robots.txt regularmente como uma forma de realocar a cota de rastreamento para o site. Use o robots.txt somente para páginas ou recursos que você não quer que apareçam no Google a longo prazo.
- Não alterne sitemaps nem use outros mecanismos de ocultação temporários para realocar a cota.
Manipular o rastreamento excessivo do site (emergências)
O Googlebot tem algoritmos para evitar o excesso de solicitações de rastreamento. No entanto, se você acha que o Googlebot está sobrecarregando o site, há algumas coisas a fazer.
Diagnóstico:
Monitore seu servidor em busca de solicitações excessivas do Googlebot para o site.
Tratamento:
Em uma emergência, recomendamos que você siga estas etapas para reduzir a velocidade de rastreamento do Googlebot:
- Retorne códigos de status de resposta HTTP
503
ou429
temporariamente para solicitações do Googlebot quando o servidor estiver sobrecarregado. O Googlebot tentará rastrear esses URLs novamente por cerca de dois dias. Retornar códigos de "indisponibilidade" por mais de alguns dias fará com que o Google permanentemente desacelere ou pare o rastreamento de URLs no site. Por isso, siga as próximas etapas. -
Quando a taxa de rastreamento diminuir, pare de retornar códigos de status de resposta
HTTP
503
ou429
para solicitações de rastreamento. O retorno de503
ou429
por mais de dois dias fará com que o Google elimine esses URLs do índice. - Monitore o rastreamento e a capacidade do host ao longo do tempo.
- Se o problema é com um dos rastreadores do AdsBot, é provável que você tenha criado segmentações de anúncios dinâmicos de pesquisa para o site, e é isso que o Google está tentando rastrear. Esse rastreamento ocorre a cada três semanas. Caso seu servidor não tenha a capacidade necessária para lidar com esses rastreamentos, será preciso limitar as segmentações de anúncios ou aumentar a capacidade de exibição.
Mitos e fatos sobre rastreamento
Teste seu conhecimento sobre como o Google rastreia e indexa os sites.
5xx
(erros de servidor) ou de tempo limite de conexão sinalizam o oposto, e
o rastreamento fica lento. Recomendamos que você preste atenção ao relatório de estatísticas de rastreamento no Search
Console e mantenha o número de erros do servidor sob controle.
nofollow
afeta a cota de rastreamento.nofollow
, ele ainda poderá ser rastreado se outra página
do seu site ou da Web não marcar o link como nofollow
.
noindex
para controlar a cota de rastreamento.noindex
.
No entanto,
noindex
ajuda a manter as páginas fora do índice. Para
garantir que essas páginas não sejam indexadas no índice do Google, continue usando noindex
e não se preocupe com a cota de rastreamento. Se você remover URLs
do índice do Google com noindex
ou de outra forma, o Googlebot poderá se concentrar em
outros URLs no site. Isso significa que noindex
pode indiretamente liberar uma parte da cota
de rastreamento do site a longo prazo.
4xx
estão desperdiçando a cota de rastreamento.4xx
(exceto 429
) não desperdiçam a cota de rastreamento. O Google tentou
rastrear a página, mas recebeu um código de status e nenhum outro conteúdo.