robots.txt 中有关不受支持规则的注意事项

2019 年 7 月 2 日,星期二

昨天,我们宣布了将 Google 的生产 robots.txt 解析器开源。这是一个激动人心的时刻,让我们为将来可能发布的开源项目铺平了道路!反馈很有帮助,我们热切希望从开发者网站站长那里收集问题。有一个问题很突出,我们将在这篇博文中予以解决:
为什么代码中未包含其他规则(例如抓取延迟)的代码处理程序?

我们昨天发布的互联网草案为未纳入标准中的规则提供了可扩展架构。这意味着,如果抓取工具希望支持自己的代码行(如 unicorns: allowed),就可以做到。为了演示在解析器中是什么样的,我们在开源 robots.txt 解析器中加入了一个非常常见的代码行“站点地图”。

在将解析器库开源的过程中,我们分析了 robots.txt 规则的使用。具体而言,我们侧重于互联网草稿不支持的规则,例如 crawl-delaynofollownoindex。由于这些规则从未由 Google 记录,因此在 Googlebot 中的使用频率非常低。再深入挖掘,我们发现,在互联网上的所有 robots.txt 文件中,只有 0.001% 不存在这些规则的用法与其他规则相悖的情况。此类错误会影响网站在 Google 搜索结果中的显示效果,我们认为这不符合网站站长的预期。

为了维护健康的生态系统并准备未来可能发布的开源版本,我们将于 2019 年 9 月 1 日弃用所有用于处理不受支持且未发布的规则(例如 noindex)的代码。对于依赖于 robots.txt 文件(用于控制抓取)中的 noindex 索引编制规则的用户,我们还提供了一些备选方案:

  • robots meta 标记中的 noindex:HTTP 响应标头和 HTML 均支持 noindex 规则,此类规则是在允许抓取时从索引中移除网址的最有效方法。
  • 404410 HTTP 状态代码:这两种状态代码都表示该网页不存在,这会在此类网址抓取和处理完毕后将其从 Google 索引中移除。
  • 密码保护:除非标记用于表示订阅或付费内容,否则为网页设置登录限制通常会将网页从 Google 索引中移除。
  • robots.txt 中的 Disallow:搜索引擎只能将已知的网页编入索引,因此阻止抓取相应网页通常意味着系统不会将其内容编入索引。虽然搜索引擎也可以根据其他网页中的链接将网址编入索引,而不查看内容本身,但我们的目标是在将来降低此类网页的曝光度。
  • Search Console“移除网址”工具:该工具可让您快速轻松地从 Google 搜索结果中暂时移除网址。

如需有关如何从 Google 搜索结果中移除信息的更多指导,请访问我们的帮助中心。如有任何疑问,可以通过 Twitter网站站长社区离线和在线)联系我们。