新的开源 robots.txt 项目

2020 年 9 月 21 日,星期一

去年,我们面向开源领域发布了在生产系统中使用的 robots.txt 解析器和匹配器。从那时起,我们发现人们使用它构建新工具、向开源库贡献内容(有效改进了我们的生产系统,由衷感谢大家!),并发布新的语言版本(如 golangrust),这可让开发者更轻松地构建新工具。

Google 的实习季即将结束,我们想在此重点介绍两项与 robots.txt 相关的新功能,这两项新功能是 Google 搜索开源团队的两名实习生开发的,他们是 Andreea DutulescuIan Dolzhanskii

robots.txt 规范测试

首先,我们将面向 robots.txt 解析器开发者发布由 Andreea 创建的测试框架。该项目提供的测试工具可以验证 robots.txt 解析器是否遵循(或在多大程度上遵循)robots 协议。目前,还没有官方的全面方法可用于评估解析器的正确性,因此 Andreea 开发了一款工具,可用于创建遵循该协议的 robots.txt 解析器。

Java robots.txt 解析器和匹配器

接着,我们将发布由 Ian 创建的 C++ robots.txt 解析器官方 Java 端口。Java 是 GitHub 上第三大最受欢迎的编程语言,Google 也广泛使用该语言,所以它成为用户最想使用的语言端口并不奇怪。该解析器在功能和行为方面是 C++ 解析器的一对一转换,并且已针对大量 robots.txt 规则进行了全面的对等性测试。相关团队已经计划在 Google 生产系统中使用 Java robots.txt 解析器,我们希望您也能从中受益。

一如既往,我们欢迎您为这些项目做出贡献。如果您使用 C++ robots.txt 解析器或这些新功能构建内容,请告诉我们,我们可以帮助您进行推广!如果您发现了错误,请在 GitHub 上提交问题或直接发出拉取请求,以帮助我们修正错误。如果您对这些项目有任何疑问或意见,请通过 Twitter 与我们联系!

非常荣幸 Andreea 和 Ian 能够加入我们,也很遗憾他们的实习就此结束。他们的贡献有助于打造更好的互联网平台,非常期待他们将来可以回到 Google。