漫游器知识回顾：面向未来的 robots 协议

2025 年 3 月 28 日，星期五

在之前关于 robots 协议 (REP) 的帖子中，我们探讨了您可以使用其各个组成部分（即 robots.txt 和 URI 级控制）执行的操作。在本文中，我们将探讨 REP 如何在自动客户端与人类网络之间不断变化的关系中发挥支持作用。

REP（特别是 robots.txt）已于 2022 年成为 RFC9309 标准。不过，在标准化之前，我们就已经完成了繁重的工作：经过 1994 年到 2022 年之间时间的考验，它已经足够流行，被数十亿主机和几乎所有主要抓取程序运营商（不包括恶意软件扫描程序等对抗性抓取程序）采用。它是一种简单而优雅的解决方案，可使用简单且多样的语法来表达偏好设置。在 25 年的历史中，它几乎没有从原始形式演变，如果我们只考虑抓取工具普遍支持的规则，它只会有一个 allow 规则。

这并不意味着没有其他规则；任何抓取工具运营商都可以制定自己的规则。例如，“clean-param”和“crawl-delay”等规则不属于 RFC9309，但某些搜索引擎（但不是 Google 搜索）支持这些规则。 “sitemap”规则（同样不属于 RFC9309）也受所有主流搜索引擎支持。如果获得足够的支持，它可能会成为 REP 中的正式规则。

因为 REP 实际上可以获得“更新”。该协议广受支持，应该随着互联网的发展而发展。对其进行更改并非不可能，但并不容易；也确实不应该容易，因为 REP 得到了广泛支持。如同对标准作出任何更改时一样，必须形成这样的共识：即此类更改应能让协议的大多数用户从中受益，无论这些用户是发布商，还是抓取工具运营商。

由于 REP 简单易用且广为采用，因此是执行新的抓取偏好设置的绝佳选择：例如，数十亿发布商已经熟悉 robots.txt 及其语法，因此做出更改更应该是面向发布商。另一方面，抓取工具运营商已经拥有经过充分测试的强大解析器和匹配器（Google 也开源了自己的 robots.txt 解析器），这意味着新规则很可能不会出现解析问题。

REP URI 级别的扩展、X-robots-tag HTTP 标头及其对应的元标记也是如此。如果需要使用新规则来执行停用偏好设置，则可以轻松扩展。但如何做到这一点呢？

作为读者，您能做的最重要的事情就是公开谈论您的想法，并为该想法争取支持者。由于 REP 是一项公开标准，因此任何实体都无法单方面对其进行更改；当然，他们可以对新标准提供支持，但这不会成为标准。但如果谈论这一变化，并向生态系统（包括抓取工具运营商和发布生态系统）展示这种变化会让所有人受益，这将有助于达成共识，并为更新标准铺平道路。

同样，如果协议缺少某些内容，请公开讨论。sitemap 成为 robots.txt 中广受支持的规则，是因为它对内容创作者和搜索引擎都很有用，这为采用该扩展铺平了道路。如果您对某条规则有新的想法，请询问 robots.txt 的使用者和创建者对此有何看法，并与他们合作解决他们提出的潜在（和可能）问题，并撰写一份提案。

如果您的目的是为了造福大众，那么就值得。

发布者：Google 搜索关系团队的 Gary Illyes

漫游器知识回顾：面向未来的 robots 协议 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

查看漫游器知识回顾系列的其他文章：

漫游器知识回顾：面向未来的 robots 协议