优化抓取预算

本指南介绍了如何优化 Google 对频繁更新的超大型网站的抓取。

如果您的网站中没有大量经常更新的网页,或者您的网页一般在发布当日就被抓取,那么您无需阅读本指南。对于 Google 搜索,只需及时更新站点地图并定期检查索引涵盖范围即可。

本指南的适用对象

虽然本指南中的建议通常都是不错的做法,但本指南是一份高级指南,主要面向以下类型的网站:

  • 内容更改较为频繁(每周一次)的大型网站(非重复网页数量超过 100 万个)
  • 内容每日更改飞快的中大型网站(非重复网页数量超过 10000 个)
  • 网站的全部网址中有很大一部分被 Search Console 归类为已发现 - 尚未编入索引

抓取的一般理论

网络是一个近乎无限的空间,Google 无法浏览每个可用网址并将其编入索引。因此,Google 抓取工具在抓取任何一个网站(由主机名定义)时,能投入的时间是有限的。例如,https://www.example.com/https://code.example.com/ 是两个不同的主机名,因此具有单独的抓取预算。Google 在抓取网站上投入的时间和资源通常称为网站的“抓取预算”,它由两个主要元素决定:抓取容量上限和抓取需求

抓取容量上限

Google 不希望在抓取您的网站时,导致您的服务器过载。为防止出现这种情况,Google 抓取工具会计算抓取容量上限,即 Google 最多可以使用多少同时载入的并行连接来抓取网站,以及各次抓取之间的时间延迟。计算抓取容量上限是为了既能涵盖您的所有重要内容,又不会导致您的服务器负载过重。

抓取容量上限可能会升高或降低,具体取决于下面这几个因素:

  • 抓取状况:如果网站在一段时间内的响应速度很快,则抓取容量上限会升高,即 Googlebot 可以使用更多的连接进行抓取。如果网站运行速度变慢或出现服务器错误,这一上限便会降低,Google 能抓取的网页随之减少。
  • Google 的抓取上限:虽然 Google 的计算机数量很多,但不是无穷尽的。我们仍需根据已有的资源做出选择。

抓取需求

在抓取网页方面,每种抓取工具都有自己的“需求”。例如,当网站投放动态广告定位条件时,AdsBot 的抓取需求通常会更高;Google 购物对商家 Feed 中的商品有更高的抓取需求;而 Googlebot 的需求则会根据网站的规模、更新频率、网页质量以及与其他网站相比的相关性而有所不同。

一般来说,下面这几个因素在确定抓取需求方面起着重要作用:

  • Google 感知到的网址目录:如果没有您的引导,Google 会尝试抓取在您网站上发现的所有或大多数网址。如果这些网址中有很多是重复的,或者您由于其他某种原因(网址已被移除、不重要等)不希望 Google 抓取这些网址,则它们会浪费大量 Google 抓取您网站的时间。这一因素是最能得到您的积极控制的。
  • 热门程度:Google 往往会更加频繁地抓取互联网上较为热门的网址,以便在系统中及时更新这些网址的内容。
  • 过时性:我们的系统希望尽可能频繁地重新抓取文档,以便将所有更改收入囊中。

此外,诸如网站迁移之类的网站级事件也可能会导致抓取需求上升,以便重新处理新网址下的内容。

总结

在综合考虑了抓取容量和抓取需求之后,Google 将网站的“抓取预算”定义为 Google 可以且希望抓取的一组网址。即使未达到抓取容量上限,如果抓取需求较低,Google 也会降低对网站的抓取频率。

最佳做法

为了最大限度地提高抓取效率,请遵循以下最佳实践:

  • 管理网址目录:使用适当的工具告知 Google 要抓取哪些网页和不抓取哪些网页。如果 Google 花费太多时间抓取不应抓取的网址,Google 抓取工具就可能认为不值得花时间查看您网站的其余部分(或为此增加您的抓取预算)。
    • 整合重复内容 消除重复内容,将重点放在抓取独特内容(而不是独一无二的网址)上。
    • 使用 robots.txt 禁止抓取网址某些网页可能对用户很重要,但您不一定希望它们显示在 Google 平台上或被 Google 的系统重新处理。例如在链接页上显示重复信息的无限滚动网页或以不同方式排序的同一网页。如果您无法按照第 1 条中的说明整合此类网页,请使用 robots.txt 屏蔽这些不重要的网页。使用 robots.txt 屏蔽网址会阻止 Google 抓取这些网址,并显著降低其他 Google 系统处理这些网址(例如被 Google 搜索编入索引)的几率。
    • 针对永久移除的网页返回 404410 状态代码。Google 不会忘记自己发现的网址,但 404 状态代码会明确告知 Google 不要再次抓取该网址。 但是,被屏蔽的网址将会在您的抓取队列中保留较长一段时间,并会在取消屏蔽后被重新抓取。
    • 消除 soft 404 错误。系统会继续抓取 soft 404 网页,这会浪费您的预算。请查看“索引涵盖范围”报告中是否存在 soft 404 错误。
    • 及时更新站点地图。Google 会定期读取您的站点地图,因此请务必添加您希望 Google 抓取的所有内容。如果您的网站包含更新后的内容,我们建议您添加 <lastmod> 标记。
    • 避免使用很长的重定向链,以免对抓取产生负面影响。
  • 提高网页的加载速度 如果 Google 能够更快地加载和渲染您的网页,我们或许可以从您的网站中读取更多内容。
  • 调试抓取预算方面的问题 检查您的网站在抓取时是否遇到任何可用性问题,并寻找提高抓取效率的方法。

如何获得更多抓取预算?

您可以通过以下两种方式增加抓取预算:

  • 添加更多服务器资源:如果您的网站因服务器容量不足而无法被抓取(例如,您在网址检查工具中看到已超出主机负载),请在业务允许的情况下添加更多服务器资源。
  • 针对您想触达的 Google 产品,提升内容品质:Google 会根据与特定 Google 产品相关的因素,来决定分配给每个网站的抓取资源。例如,对于 Google 搜索,这包括热门程度、总体用户价值、内容独特性和服务容量等因素。