抓取预算对 Googlebot 而言有何意义

2017 年 1 月 16 日，星期一

最近，我们听到了很多种关于“抓取预算”的定义，但我们尚未找到一个能够向外部全面描述“抓取预算”含义的术语。这篇博文将会阐明我们实际上已有的定义以及这对 Googlebot 来说意味着什么。

首先，我们想强调一下，大多数发布商都不必担心下文所述的抓取预算。如果新网页预计会于发布当日被抓取，网站站长便无需重点关注抓取预算。同样，如果某个网站所拥有的网址数不足几千个，则大部分时间 Google 都会高效抓取该网站。

如果网站规模更大，或者网站会根据网址参数自动生成网页，那么网站所有者需要更加重视该如何安排抓取优先级、抓取时间以及网站托管服务器可以分配多少抓取资源。

抓取速度上限

Googlebot 经过精心设计，是一名优秀的网上公民。它的主要任务是抓取网站，同时确保其抓取操作不会导致网站的用户体验下降。为此，我们提出了“抓取速度上限”这个概念，用于限制对某个具体网站的最高抓取速度。

简而言之，此概念表示 Googlebot 可以使用多少同时载入的并行连接来抓取网站，以及它在完成一次抓取后需要等待多久才能执行下一次抓取。抓取速度可能会变快或变慢，具体取决于下面这几个因素：

抓取状况：如果网站在一段时间内的响应速度很快，抓取速度上限便会升高，这意味着 Googlebot 可以使用更多的连接进行抓取。如果网站运行速度变慢或出现服务器错误，这一上限便会降低，Googlebot 能抓取的网页随之减少。
Search Console 中设定的抓取速度上限：网站所有者可以降低 Googlebot 对其网站的抓取速度。但请注意，设置更高的抓取速度上限并不会自动提高抓取速度。

即使未达到抓取速度上限，如果没有索引编制需求，Googlebot 的活动量也会很小。下面这两大因素在确定抓取需求方面起着重要作用：

此外，诸如网站迁移之类的网站级事件也可能会导致抓取需求上升，以便将新网址下的内容重新编入索引。

在综合考虑了抓取速度和抓取需求之后，我们将“抓取预算”定义为 Googlebot 可以且需要抓取的网址的数量。

根据我们的分析，具有大量的低附加值网址可能会不利于对网站进行抓取并将其编入索引。我们发现，低附加值网址可分为以下几类（按影响程度从低到高排序）：

将服务器资源浪费在此类网页上会使确实有价值的网页失去被抓取的机会，这可能会显著延迟我们在网站上发现精彩内容的时间。