Google 的 robots.txt 解析器现在开放源代码了

2019 年 7 月 1 日,星期一

25 年来,robots 协议只是一项通行标准。这有时会产生令人不快的影响。一方面,对于网站站长来说,这意味着在极端情况下会出现不确定性,例如在文本编辑器的 robots.txt 文件中包含 BOM 字符时。另一方面,对于抓取工具和工具开发者来说,它还带来了不确定性;例如,它们该如何处理大小为数百兆字节的 robots.txt 文件?

Googlebot 将一个网站开箱

今天,我们宣布,我们将带头使 REP 成为一项互联网标准。这是重要的一步,但对于解析 robots.txt 文件的开发者来说,这会带来额外的工作。

我们随时为您提供帮助:我们将 C++ 库开放了源代码,我们的生产系统使用该库来解析和匹配 robots.txt 文件中的规则。该库已存在 20 年,其中包含 90 年代编写的代码段。此后,该库不断完善;我们了解了网站站长们如何编写 robots.txt 文件和我们必须要解决的极端情况,并在适当的情况下将多年来了解到的信息也添加到了互联网草案中。

我们还在开源软件包中添加了一个测试工具,可帮助您测试一些规则。构建后,它的用法非常简单:

robots_main <robots.txt content> <user_agent> <url>

如果您想了解该库,请前往我们的 GitHub 代码库查找 robots.txt 解析器。我们期待您可以使用它打造精彩网站!如果您使用该库构建了一些东西,请在 Twitter 上给我们留言,如果您对该库有任何意见或疑问,请访问 GitHub