Como escrever e enviar um arquivo robots.txt
É possível controlar quais arquivos os rastreadores podem acessar no seu site com um arquivo robots.txt.
O arquivo robots.txt fica na raiz do seu site. Por isso, no site www.example.com
, o arquivo robots.txt aparece como www.example.com/robots.txt
. O robots.txt é um arquivo de texto simples que segue o protocolo de exclusão de robôs (em inglês).
Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia ou permite o acesso de um determinado rastreador a um caminho de arquivo especificado no domínio ou subdomínio em que o arquivo robots.txt está hospedado. A menos que você especifique o contrário no arquivo robots.txt, o rastreamento de todos os arquivos vai ser permitido de forma implícita.
Confira um arquivo robots.txt simples, com duas regras:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Saiba o que esse arquivo robots.txt significa:
-
O user agent chamado "Googlebot" não vai poder rastrear qualquer URL que comece com
https://example.com/nogooglebot/
. - Os outros user agents vão poder rastrear todo o site. Essa informação poderia ter sido omitida, e o resultado seria o mesmo. O comportamento padrão é que os user agents tenham permissão para rastrear todo o site.
-
O arquivo do sitemap está localizado em
https://www.example.com/sitemap.xml
.
Consulte a seção Sintaxe para conferir outros exemplos.
Diretrizes básicas para criar um arquivo robots.txt
Veja as quatro etapas para criar um arquivo robots.txt e torná-lo acessível e útil para todos:
- Crie um arquivo chamado "robots.txt".
- Adicione regras ao arquivo robots.txt.
- Faça upload do arquivo robots.txt para a raiz do seu site.
- Teste o arquivo robots.txt.
Criar um arquivo robots.txt
É possível usar praticamente todos os editores de texto para criar um arquivo robots.txt. Por exemplo, o Bloco de Notas, TextEdit, vi e Emacs podem criar arquivos robots.txt válidos. Não use um processador de texto, porque muitas vezes esses programas salvam os arquivos em formatos próprios e podem adicionar caracteres inesperados, como aspas curvas. Isso pode causar problemas para os rastreadores. Salve o arquivo com a codificação UTF-8 caso seja solicitado na caixa de diálogo "Salvar arquivo".
Regras de formato e localização:
- O arquivo precisa ter o nome robots.txt.
- O site pode ter somente um arquivo robots.txt.
-
O arquivo robots.txt precisa estar localizado na raiz do host do site a
que se refere. Por exemplo, para controlar o rastreamento em todos os URLs abaixo de
https://www.example.com/
, o arquivo robots.txt precisa estar localizado emhttps://www.example.com/robots.txt
. Ele não pode ser colocado em um subdiretório (por exemplo, emhttps://example.com/pages/robots.txt
). Caso você tenha dúvidas sobre como acessar a raiz do site ou precise de permissões para fazer isso, entre em contato com o provedor de serviços de hospedagem na Web. Se não for possível acessar a raiz do site, use métodos alternativos de bloqueio, como tagsmeta
. -
Os arquivos robots.txt podem ser postados em subdomínios (por exemplo,
https://site.example.com/robots.txt
) ou em portas não padrão (comohttps://example.com:8181/robots.txt
). - Os arquivos robots.txt são aplicados somente aos caminhos no protocolo, no host e na porta em que foram postados. Ou seja, as regras em
https://example.com/robots.txt
são aplicadas somente aos arquivos emhttps://example.com/
, não a subdomínios, comohttps://m.example.com/
, nem a protocolos alternativos, comohttp://example.com/
. - O robots.txt precisa ser um arquivo de texto codificado em UTF-8 (o que inclui ASCII). É possível que o Google ignore caracteres que não fazem parte do intervalo UTF-8, o que pode tornar as regras do robots.txt inválidas.
Como criar regras do robots.txt
As regras são instruções para os rastreadores sobre quais partes do site podem ser rastreadas. Siga estas diretrizes ao adicionar regras ao seu arquivo robots.txt:
- Um arquivo robots.txt é constituído por um ou mais grupos (conjunto de regras).
-
Cada grupo consiste em várias regras (também conhecidas como diretivas), uma regra por linha. Cada grupo começa com uma linha de
User-agent
que especifica o destino dos grupos. - Um grupo disponibiliza as seguintes informações:
- A quem o grupo se aplica (o user agent).
- Quais diretórios ou arquivos esse user agent pode acessar.
- Quais diretórios ou arquivos esse user agent não pode acessar.
- Os rastreadores processam os grupos de cima para baixo. Um user agent pode corresponder a somente um conjunto de regras (o primeiro e mais específico grupo que for correspondente a determinado user agent). Se houver vários grupos para o mesmo user agent, eles vão ser combinados em um único grupo antes do processamento.
-
Por padrão, um user agent pode rastrear uma página ou um diretório que não esteja bloqueado por uma regra
disallow
. -
As regras diferenciam maiúsculas de minúsculas. Por exemplo,
disallow: /file.asp
será aplicado emhttps://www.example.com/file.asp
, mas não emhttps://www.example.com/FILE.asp
. -
O caractere
#
marca o início de um comentário. Os comentários são ignorados durante o processamento.
Os rastreadores do Google são compatíveis com as seguintes regras em arquivos robots.txt:
-
user-agent:
[obrigatório, um ou mais por grupo] a regra especifica o nome do cliente automático conhecido como rastreador do mecanismo de pesquisa a que a regra se aplica. Essa é a primeira linha de qualquer grupo de regras. Os nomes dos user agents do Google podem ser encontrados na lista de user agents do Google. O uso de um asterisco (*
) corresponde a todos os rastreadores, exceto aos diversos rastreadores AdsBot, que precisam ser nomeados explicitamente. Exemplo:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[ao menos uma ou mais entradasdisallow
ouallow
por regra] é um diretório ou uma página, referente ao domínio raiz, que você não quer que o user agent rastreie. Se a regra se referir a uma página, use o nome completo dela conforme exibido no navegador. É preciso começar com um caractere/
. No caso de um diretório, é necessário terminar com uma marca/
. -
allow:
[ao menos uma ou mais entradasdisallow
ouallow
por regra] é uma página ou um diretório, referente ao domínio raiz, que pode ser rastreado pelo user agent citado anteriormente. É usado para substituir uma regradisallow
para permitir o rastreamento de um subdiretório ou de uma página em um diretório não permitido. Para uma única página, especifique o nome completo dela conforme exibido no navegador. É preciso começar com um caractere/
. No caso de um diretório, é preciso terminar com uma marca/
. -
sitemap:
[opcional, zero ou mais por arquivo] é a localização de um sitemap do site. O URL do sitemap precisa ser totalmente qualificado. O Google não supõe nem verifica as variações de http/https/www/sem www. O uso dos sitemaps é uma boa maneira de indicar qual conteúdo o Google deve rastrear, em vez de o que pode ou não pode ser rastreado pelo mecanismo de pesquisa. Saiba mais sobre os sitemaps. Exemplo:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
Todas as regras, exceto sitemap
, são compatíveis com o caractere curinga *
em prefixos, sufixos ou strings completas de caminhos.
As linhas que não corresponderem a nenhuma dessas regras vão ser ignoradas.
Leia nossa página sobre como o Google interpreta a especificação de robots.txt para conferir a descrição completa de cada regra.
Fazer upload do arquivo robots.txt
Depois de salvar o arquivo robots.txt no seu computador, ele vai poder disponibilizado para os rastreadores de mecanismos de pesquisa. Não há uma determinada ferramenta que possa ajudar com isso, porque a forma como você faz upload do arquivo robots.txt para seu site depende das arquiteturas do servidor e do site. Entre em contato com a empresa de hospedagem ou pesquise a documentação dela. Por exemplo, pesquise "fazer upload de arquivos no Infomaniak".
Depois de fazer upload do arquivo robots.txt, confira se ele está acessível publicamente e se o Google pode fazer a análise.
Testar a marcação do arquivo robots.txt
Para testar se o arquivo robots.txt recém-enviado está acessível para o público, abra uma janela de navegação anônima (ou equivalente) no seu navegador e acesse o local do arquivo robots.txt. Por exemplo, https://example.com/robots.txt
. Quando o conteúdo do seu arquivo robots.txt for exibido, vai estar tudo pronto para testar a marcação.
O Google oferece duas opções para corrigir problemas com a marcação de robots.txt:
- O relatório de robots.txt no Search Console. Só é possível usar esse relatório para arquivos robots.txt que já podem ser acessados no seu site.
- Se você é um desenvolvedor, confira e ajude a construir a biblioteca robots.txt de código aberto do Google, que também é usada na Pesquisa Google. Você pode usar essa ferramenta para testar arquivos robots.txt localmente no seu computador.
Enviar o arquivo robots.txt para o Google
Depois que você fizer upload e testar o arquivo robots.txt, os rastreadores do Google vão encontrar e começar a usar seu arquivo robots.txt automaticamente. Não é necessário fazer nada. Se você alterou seu arquivo robots.txt e precisa atualizar a cópia em cache do Google o mais rápido possível, saiba como enviar um arquivo robots.txt atualizado.
Regras úteis do arquivo robots.txt
Veja aqui algumas regras úteis do arquivo robots.txt:
Regras úteis | |
---|---|
Não permitir o rastreamento do site inteiro |
Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados. User-agent: * Disallow: / |
Não permitir o rastreamento de um diretório e o conteúdo dele |
Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Permitir acesso a um único rastreador |
Somente o User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Permitir acesso a todos os rastreadores, exceto um deles |
O User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Não permitir o rastreamento de uma página da Web |
Por exemplo, não permitir a página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Impedir o rastreamento do site inteiro, exceto um subdiretório |
Os rastreadores só podem acessar o subdiretório User-agent: * Disallow: / Allow: /public/ |
Bloquear uma imagem específica das Imagens do Google |
Por exemplo, não permitir a imagem User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Bloquear todas as imagens do seu site das Imagens do Google |
O Google não consegue indexar imagens e vídeos sem rastreá-los. User-agent: Googlebot-Image Disallow: / |
Não permitir o rastreamento de arquivos de um tipo específico |
Por exemplo, não permitir o rastreamento de todos os arquivos User-agent: Googlebot Disallow: /*.gif$ |
Não permitir o rastreamento de um site inteiro, mas permitir o |
Essa implementação oculta as páginas dos resultados da pesquisa, mas o rastreador da Web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Usar os caracteres curinga * e $ para corresponder a URLs que terminam com uma string específica.
|
Por exemplo, não permitir todos os arquivos User-agent: Googlebot Disallow: /*.xls$ |