Cómo escribir y enviar un archivo robots.txt
Puedes controlar a qué archivos pueden acceder los rastreadores en tu sitio mediante un archivo robots.txt.
Los archivos robots.txt deben situarse en la raíz de los sitios. Por ejemplo, si tu sitio es www.example.com
, este archivo debe estar en www.example.com/robots.txt
. Se trata de un archivo de texto sin formato que debe cumplir el estándar de exclusión de robots.
Los archivos robots.txt constan de una o varias reglas. Cada regla bloquea o permite el acceso de todos o de un rastreador determinado a una ruta de archivo concreta del dominio o subdominio en el que se aloja el archivo robots.txt. A menos que especifiques lo contrario en el archivo robots.txt, de forma implícita das permiso para rastrear todos los archivos.
A continuación, se muestra un archivo robots.txt sencillo con dos reglas:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Esto es lo que hace el archivo robots.txt:
-
El user-agent Googlebot no puede rastrear ninguna URL que comience por
https://example.com/nogooglebot/
. - El resto de los user-agents pueden rastrear todo el sitio. Se podría haber omitido esta regla y el resultado habría sido el mismo, ya que los user-agents pueden rastrear todo el sitio de forma predeterminada.
-
El archivo de sitemap del sitio está en
https://www.example.com/sitemap.xml
.
Consulta más ejemplos en la sección Sintaxis.
Directrices básicas para crear un archivo robots.txt
Para crear un archivo robots.txt y hacer que sea accesible y útil, hay que seguir cuatro pasos:
- Crear un archivo llamado robots.txt.
- Añadir reglas al archivo robots.txt.
- Sube el archivo robots.txt a la raíz de tu sitio.
- Probar el archivo robots.txt.
Crear un archivo robots.txt
Puedes crear archivos robots.txt con prácticamente cualquier editor de texto; por ejemplo, Bloc de notas, TextEdit, vi y emacs pueden crear archivos robots.txt válidos. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados, como comillas curvas, que pueden causar problemas a los rastreadores. Guarda el archivo con la codificación UTF-8 si aparece la opción para hacerlo en el cuadro de diálogo para guardar.
Reglas de formato y ubicación:
- El archivo debe llamarse robots.txt.
- Solo puede haber un archivo robots.txt por sitio.
-
El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URLs de
https://www.example.com/
, el archivo robots.txt debe estar enhttps://www.example.com/robots.txt
. No se puede colocar en un subdirectorio, comohttps://example.com/pages/robots.txt
. Si no sabes cómo acceder a la raíz de tu sitio web o necesitas permisos para hacerlo, ponte en contacto con tu proveedor de servicios de alojamiento web. Si no puedes acceder a esa raíz, usa un método de bloqueo alternativo, como las etiquetasmeta
. -
Los archivos robots.txt se pueden publicar en un subdominio (como
https://website.example.com/robots.txt
) o en puertos no estándar (comohttps://example.com:8181/robots.txt
). - Los archivos robots.txt se aplican únicamente a las rutas del protocolo, del host y del puerto en los que se publican. Es decir, las reglas de
https://example.com/robots.txt
solo se aplican a los archivos dehttps://example.com/
, no a sus subdominios, comohttps://m.example.com/
, o a protocolos alternativos, comohttp://example.com/
. - Los archivos robots.txt deben estar codificados en UTF-8, que incluye ASCII. Google puede ignorar los caracteres que no formen parte del intervalo de UTF-8, lo que puede provocar que las reglas de robots.txt no sean válidas.
Cómo escribir reglas de robots.txt
Las reglas son instrucciones que permiten a los rastreadores saber qué partes de un sitio pueden rastrear. Sigue estas directrices al añadir reglas a tu archivo robots.txt:
- Los archivos robots.txt constan de uno o varios grupos (conjunto de reglas).
-
Cada grupo consta de varias reglas (también denominadas "directivas"). Debe añadirse una directiva por línea. Cada grupo comienza con una línea
User-agent
en la que se indica el objetivo de los grupos. - En un grupo se proporciona la siguiente información:
- A quién o quiénes se aplica el grupo; es decir, el user‑agent.
- A qué directorios o archivos puede acceder ese user-agent.
- A qué directorios o archivos no puede acceder ese user-agent.
- Los rastreadores procesan grupos de arriba abajo y los user-agents solo pueden coincidir con un conjunto de reglas, que es el primer grupo más específico que coincide con un user-agent determinado. Si hay varios grupos para el mismo user-agent, se combinarán en un solo grupo antes del procesamiento.
-
De forma predeterminada, los user‑agent pueden rastrear todas las páginas y directorios que no estén bloqueados por una regla
disallow
. -
En las reglas se distingue entre mayúsculas y minúsculas. Por ejemplo,
disallow: /file.asp
se aplica ahttps://www.example.com/file.asp
, pero no ahttps://www.example.com/FILE.asp
. -
El carácter
#
marca el principio de un comentario. Los comentarios se ignoran durante el procesamiento.
Los rastreadores de Google admiten las siguientes reglas en archivos robots.txt:
-
user-agent:
[Debe haber al menos una por grupo] Esta regla indica el nombre del cliente automático, denominado "rastreador de buscador", al que se aplica la regla. Es la primera línea de cualquier grupo de reglas. Puedes consultar nombres de user-agents en la lista de Google de user-agents. El asterisco (*
) se aplica a todos los rastreadores, excepto a los de AdsBot, que deben nombrarse explícitamente. Por ejemplo:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[En cada regla debe haber por lo menos una entradadisallow
oallow
] Indica un directorio o una página del dominio raíz que no quieres que rastree el user-agent. Si la regla hace referencia a una página, debe ser el nombre completo de la página, tal como se muestra en el navegador. Debe comenzar con un carácter/
y, si hace referencia a un directorio, debe terminar con el carácter/
. -
allow:
[En cada regla debe haber por lo menos una entradadisallow
oallow
] Indica los directorios o las páginas del dominio raíz que el user‑agent que se haya especificado en el grupo debe rastrear. Sirve para anular la regladisallow
y permitir que se rastree un determinado subdirectorio o una determinada página de un directorio bloqueado. Si se trata de una sola página, especifica su nombre completo tal como se muestra en el navegador. Debe comenzar con un carácter/
y, si hace referencia a un directorio, debe terminar con el carácter/
. -
sitemap:
[Opcional; puede haber uno, varios o ninguno en cada archivo] Indica la ubicación de un sitemap de este sitio web. La URL del sitemap debe ser una URL cualificada, ya que Google no comprueba alternativas con o sin www, o con http o https. Los sitemaps son una buena forma de indicar el contenido que Google debe, puede o no puede rastrear. Consulta más información sobre los sitemaps. Ejemplo:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
En todas las reglas, salvo en sitemap
, se puede usar el comodín *
como prefijo, sufijo o cadena de ruta.
Se ignorarán las líneas que no coincidan con ninguna de estas reglas.
Lee nuestra página acerca de la interpretación de Google sobre la especificación de robots.txt para consultar una descripción completa de cada regla.
Subir el archivo robots.txt
Una vez que hayas guardado el archivo robots.txt en tu ordenador, podrás ponerlo a disposición de los rastreadores de los buscadores. No hay ninguna herramienta que pueda ayudarte con este paso, ya que la forma de subir el archivo robots.txt al sitio depende de la arquitectura del servidor y del sitio. Ponte en contacto con tu empresa de alojamiento o busca su documentación. Por ejemplo, busca "subir archivos infomaniak".
Después de subir el archivo robots.txt, comprueba si es de acceso público y si Google puede analizarlo.
Probar el marcado del archivo robots.txt
Para comprobar si el archivo robots.txt que has subido es de acceso público, abre una ventana de navegación privada (o equivalente) en tu navegador y desplázate a la ubicación del archivo robots.txt. Por ejemplo, https://example.com/robots.txt
. Si ves el contenido del archivo robots.txt, ya puedes probar el marcado.
Google ofrece dos opciones para probar el marcado de los archivos robots.txt:
- El Probador de robots.txt de Search Console. Esta herramienta solo se puede utilizar con archivos robots.txt que ya estén accesibles en tu sitio.
- Si eres desarrollador, consulta la biblioteca de robots.txt de código abierto de Google, que también se utiliza en la Búsqueda de Google. Puedes usar esta herramienta para probar archivos robots.txt en tu propio ordenador.
Enviar el archivo robots.txt a Google
Una vez que hayas subido y probado tu archivo robots.txt, los rastreadores de Google buscarán y empezarán a usar el archivo robots.txt automáticamente. No tienes que hacer nada. Si has actualizado tu archivo robots.txt y necesitas actualizar la copia almacenada en caché de Google lo antes posible, consulta cómo enviar un archivo robots.txt actualizado.
Reglas útiles de los archivos robots.txt
A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:
Reglas útiles | |
---|---|
Bloquear el rastreo de todo el sitio web |
Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente. User-agent: * Disallow: / |
Bloquear el rastreo de un directorio y de su contenido |
Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Permitir que acceda un solo rastreador |
Solo User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Permitir que accedan todos los rastreadores, excepto uno concreto |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Bloquear el rastreo de una sola página web |
Por ejemplo, puedes bloquear la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Bloquear el rastreo de todo el sitio excepto un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
Bloquear una imagen concreta para que no aparezca en Google Imágenes |
Por ejemplo, puedes inhabilitar la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Bloquear todas las imágenes que haya en tu sitio para que no aparezcan en Google Imágenes |
Google no puede indexar imágenes ni vídeos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
Bloquear el rastreo de un tipo de archivo concreto |
Por ejemplo, impedir que se rastreen todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
Bloquear el rastreo de todo el sitio, pero permitir |
Con esta regla, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Usar los comodines * y $ para que las URLs coincidan y terminen en una cadena concreta
|
Por ejemplo, no se permiten archivos User-agent: Googlebot Disallow: /*.xls$ |