Viernes, 28 de marzo del 2025
En las publicaciones anteriores sobre el protocolo de exclusión para robots (REP), ya hemos hablado de lo que puedes hacer con sus distintos componentes, como el archivo robots.txt y los controles a nivel de URI. En esta entrada, analizaremos cómo este protocolo puede desempeñar un papel complementario en la relación, en constante evolución, entre los clientes automáticos y la Web humana.
El REP, concretamente el archivo robots.txt, se convirtió en un estándar en el 2022 (RFC9309).
Sin embargo, la parte más compleja se llevó a cabo antes de su estandarización: fue la prueba del tiempo entre 1994 y el 2022 lo que lo hizo lo suficientemente popular como para que lo adoptaran miles de millones de hosts y prácticamente todos los operadores de rastreadores importantes (excluyendo los rastreadores adversariales, como los escáneres de malware). Es una solución sencilla y elegante para expresar preferencias con una sintaxis simple pero versátil.
En sus 25 años de existencia, apenas ha tenido que evolucionar desde su forma original. Solo ha recibido una regla allow
si tenemos en cuenta las reglas que son compatibles con los rastreadores de todo el mundo.
Esto no significa que no haya otras reglas; cualquier operador de rastreador puede crear sus propias reglas. Por ejemplo, reglas como "clean-param
" y "crawl-delay
" no forman parte de RFC9309, pero se admiten en algunos buscadores, aunque no en la Búsqueda de Google.
La regla "sitemap
", que tampoco forma parte de RFC9309, es compatible con todos los buscadores principales. Si recibe suficiente apoyo, podría convertirse en una regla oficial en el REP.
De hecho, el REP puede recibir "actualizaciones". Es un protocolo compatible con una gran variedad de dispositivos y debería evolucionar junto con Internet. No es imposible hacer cambios, pero no es fácil. No debería ser fácil, precisamente porque el REP cuenta con un amplio respaldo. Como ocurre con cualquier cambio en un estándar, debe haber un consenso de que los cambios benefician a la mayoría de los usuarios del protocolo, tanto por parte de los editores como de los operadores de rastreadores.
Debido a su simplicidad y a que se ha adoptado ampliamente, el REP es un candidato excelente para incorporar nuevas preferencias de rastreo: por ejemplo, miles de millones de editores ya están familiarizados con robots.txt y su sintaxis, por lo que les resulta más natural hacer cambios en él. Por otro lado, los operadores de rastreadores ya tienen analizadores y comparadores sólidos y bien probados (y Google también ha abierto el código de su analizador de robots.txt), lo que significa que es muy probable que no haya problemas de análisis con las nuevas reglas.
Lo mismo ocurre con las extensiones a nivel de URI de REP, el encabezado HTTP X-robots-tag
y la etiqueta meta correspondiente. Si es necesario crear una nueva regla para aplicar las preferencias de exclusión voluntaria, se pueden ampliar fácilmente. ¿Cómo?
Lo más importante que puedes hacer como lector es hablar de tu idea en público y reunir apoyos. Como el REP es un estándar público, ninguna entidad puede hacer cambios unilaterales en él. Por supuesto, pueden implementar la compatibilidad con algo nuevo, pero eso no se convertirá en EL estándar. Sin embargo, si hablamos de ese cambio y demostramos al ecosistema (tanto a los operadores de rastreadores como al ecosistema de publicación) que beneficia a todos, conseguiremos un consenso, lo que allanará el camino para actualizar el estándar.
Del mismo modo, si al protocolo le falta algo, habla de ello públicamente. sitemap
se convirtió en una regla muy utilizada en robots.txt porque era útil tanto para los creadores de contenido como para los buscadores, lo que allanó el camino para que se adoptara la extensión. Si tienes una nueva idea para una regla, pregunta a los usuarios de robots.txt y a los creadores qué opinan al respecto y trabaja con ellos para resolver los posibles problemas que puedan surgir y redactar una propuesta.
Si tu objetivo sirve al bien común, merece la pena.
Echa un vistazo al resto de la serie Recordatorios sobre robots:
Duplicate content and multiple site issues
Tuesday, September 15, 2009 Last month, I gave a talk at the Search Engine Strategies San Jose conference on Duplicate Content and Multiple Site Issues. For those who couldn't make it to the conference or would like a recap, we've reproduced the talk
Recommendations for webmaster friendly hosting services
Monday, September 14, 2009 Most of the recommendations we've made in the past are for individual webmasters running their own websites. We thought we'd offer up some best practices for websites that allow users to create their own websites or host
A spider's view of Web 2.0
Wednesday, November 07, 2007 Many webmasters have discovered the advantages of using Ajax to improve the user experience on their sites, creating dynamic pages that act as powerful web applications. But, like Flash, Ajax can make a site difficult for
Server location, cross-linking, and Web 2.0 technology thoughts
Thursday, August 02, 2007 Held on June 27th, Searchnomics 2007 gave us (Greg Grothaus and Shashi Thakur) a chance to meet webmasters and answer some of their questions. As we're both engineers focused on improving search quality, the feedback was