关于抓取的误区和事实
检验您对 Google 如何抓取网站的了解程度。
压缩我的站点地图会增加我的抓取预算。
正确
错误
不会。压缩后的站点地图仍必须从服务器中提取,因此,发送压缩后的站点地图并不能让 Google 节省太多的抓取时间或工作量。
Google 会优先抓取较新的内容,因此我最好不断微调自己的网页。
正确
错误
对于 Google 搜索,内容是按质量评分的,与新旧无关。请根据需要创建和更新您的内容,但为了使网页看起来是最新状态,人为地做出一些无关紧要的更改及更新网页日期,这样并不能带来额外效果。
Google 会优先抓取旧内容(具有更高的权重),而不是新内容。
正确
错误
如果您的网页很实用,那就很实用,与新旧无关。
Google 会优先抓取简洁网址,并且不喜欢查询参数。
正确
错误
我们可以抓取参数。
网页的加载速度和渲染速度越快,被 Google 抓取的几率就越大。
正确
一方面是正确的,因为我们的资源同时受到时间与抓取漫游器数量的限制。如果您可以在有限的时间内向我们提供更多网页,我们能够抓取的网页就越多。但是,我们可能会将更多时间投入到抓取包含更重要信息的网站上,即使该网站的运行速度可能更慢。对您来说,让用户更快速地看到您的网站内容可能比提高网站速度以扩大您的抓取涵盖范围更重要。帮助 Google 抓取正确的内容比每次都抓取所有内容要简单得多。请注意,抓取网站涉及检索和渲染内容。渲染网页所花费的时间与请求网页所花费的时间一样重要。
因此,提高网页的渲染速度也会提高抓取速度。
错误
小型网站的抓取频率不及大型网站。
正确
错误
如果某个网站包含经常变更的重要内容,我们便会经常抓取该网站,无论其规模如何。
内容越靠近首页,对 Google 来说就越重要。
正确
部分正确
网站的首页通常是网站中最重要的网页,直接链接到首页的网页可能会被视为更重要,因此抓取频率更高。不过,这并不意味着这些网页的排名会高于网站上的其他网页。
错误
网址版本控制是鼓励 Google 重新抓取我的网页的好方法。
正确
部分正确
使用经版本控制的网址或许能够吸引 Google 尽快重新抓取您的网页,但通常没必要这样做,而且如果网页实际上并未更改,就会浪费抓取资源。如果您使用了经过版本控制的网址指明新内容,我们建议只有在网页内容发生有意义的更改时,才更改网址。
错误
网站速度和错误会影响我的抓取预算。
正确
使网站运行速度变快既能改善用户体验,又能提高抓取速度。对于 Google 的抓取工具来说,网站运行速度快表明服务器运转正常,因此它可以通过相同数量的连接获得更多的网站内容。反之,出现大量的
5xx HTTP 响应状态代码(服务器错误)或连接超时情况则表明服务器运转不正常,因此 Googlebot 的抓取速度会下降。我们建议您密切关注 Search Console 中的“抓取统计信息”报告,并让服务器错误的数量保持较低水平。
错误
抓取是 Google 搜索中的一项排名因素。
正确
错误
提高抓取速度未必会使网站在 Google 搜索结果中的排名升高。
Google 会根据多种因素对结果进行排名,虽然抓取是网页显示在搜索结果中的必要条件,但它不是一项排名因素。
备用网址和嵌入式内容会计入抓取预算中。
正确
通常,Googlebot 所抓取的任何网址都会计入网站的抓取预算中。
AMP 或 hreflang 等备用网址以及 CSS 和 JavaScript 等嵌入式内容(包括 XHR 提取)可能必须被抓取,此时它们将会耗用网站的抓取预算。
错误
我可以使用“crawl-delay”规则控制 Google 抓取工具。
正确
错误
“crawl-delay”不是一项标准的 robots.txt 规则,所以 Google 抓取工具不会处理它。
nofollow 规则会影响抓取预算。正确
部分正确
被抓取的任意网址都会影响抓取预算,因此即使您的网页将某个网址标记为
nofollow,只要您网站上的其他网页或网络上的任何网页未将相应链接标记为 nofollow,Googlebot 就仍会抓取该网址。
错误
我可以使用
noindex 来控制抓取预算。正确
部分正确
被抓取的任何网址都会影响抓取预算,Google 必须抓取该网页才能找到
不过,
noindex 规则。
不过,
noindex 可帮助您将内容排除在索引之外。如果您想确保这些网页最终不会编入 Google 的索引,请继续使用 noindex 而不必担心抓取预算。另外,请务必注意,如果您通过 noindex 或其他方式从 Google 的索引中移除网址,Google 抓取工具可以专注于访问您网站上的其他网址,这意味着从长远来看,noindex 可以间接地为您的网站释放一些抓取预算。
错误
提供
4xx HTTP 状态代码的网页在浪费抓取预算。正确
错误
提供
4xx HTTP 状态代码(429 除外)的网页不会浪费抓取预算。Google 曾尝试抓取该网页,但只收到状态代码,没有其他内容。