关于 Google 网页抓取的须知事项

Google 抓取开放式网络已有 30 多年,我们经常会收到有关网页抓取工具运作方式的问题。为了回答其中一些问题,我们整理了以下有关 Google 抓取工具的事实信息,以便您了解这些工具如何帮助我们整理全球信息,将用户与网络上的内容联系起来。

什么是抓取?简而言之,抓取是 Google“查看”网页的方式

抓取是指使用自动化软件发现新网页并了解这些网页的过程。这样一来,当您在 Google 上搜索网页时,我们就知道该网页存在,并可将其纳入搜索结果中。所有搜索引擎都依赖于抓取来了解可能存在的网页和信息。您可以观看我们关于 Google 搜索如何抓取网页的视频,详细了解相关信息。

我们有很多抓取工具;它们各自承担着重要的工作

Googlebot 是我们最知名的抓取工具,用于确保 Google 搜索中的结果始终是最新鲜、最准确的。我们还有专门针对其他平台(例如 Google 图片和 Google 购物)的抓取工具。我们提供了最常用的抓取工具及其用途的完整文档。我们的抓取工具使用易于识别的用户代理名称和已知的互联网地址。这样一来,网站所有者就可以确信他们看到的 Google 抓取工具是合法的。

我们会重复抓取网页,以查找最新更新并提供最新的搜索结果

为了及时抓取重大新闻报道,我们可能会每隔几分钟重新抓取新闻首页。在另一些情况下,如果一个网站多年来都未曾更新,我们可能会选择等待一个月再重新抓取。网站所有者可以使用站点地图文件告知我们哪些网页是新网页或更新后的网页,从而影响重新抓取的频率。

频繁抓取是一个好迹象!

如果我们经常抓取您的网站,这表明您的网页包含用户想要查找的新鲜或高度相关的内容,并且我们的系统也识别到了这种需求。在线购物就是一个很好的例子:我们会经常抓取电子商务网站,以便在搜索结果中显示零售商最新的价格、促销信息和库存状态。

随着网页变得越来越复杂,Google 的抓取量也随之增加

我们频繁重新抓取的另一个原因是,为了充分了解网页的丰富程度及其提供的内容。我们的抓取工具运用一种名为“渲染”的技术,能够完整加载网站,从而像真人一样“看到”网页。多年来,网页变得越来越复杂;移动版页面的中位数大小从 816 KB 增加到 2.3 MB,现在需要加载超过 60 个不同的文件,包括图片和互动组件。因此,为了捕捉网页最真实、最完整的面貌,我们可能需要多次抓取同一个页面,甚至更多次,因为新的元素会源源不断地被添加进来。

我们会自动优化抓取

我们的抓取工具经过精心设计,可高效运行,并会自行调整,力求将对网站所有者的影响降到最低。例如,当网站速度变慢或返回错误时,我们的抓取速度会自动变化,以免网站的服务器超载。我们会缓存抓取到的内容,从而有效避免不必要的重复抓取。随着抓取工具对网站的了解越来越深入,它们也能识别出哪些部分无需频繁抓取;例如,那些一直显示到 9999 年的日历,可能就不需要我们完整地抓取每一个年份。网站所有者可以通过明确哪些内容无需抓取来提供帮助,这不仅能为网站节省基础设施成本,还能让整个互联网运行得更高效。

未经许可,Google 抓取工具绝不会访问付费或订阅内容

默认情况下,如果某个网页无法在开放网络上自由访问(比如内容需要登录才能查看),那么我们的抓取工具也同样无法触及。如果网站所有者希望明确授权 Google 访问订阅页面(例如,以便 Google 可以引导用户找到这些内容),我们已准备好具体的指南供他们参考。如果您选择让我们的抓取工具访问您的订阅内容,则可以使用结构化数据,这样既能继续向真实用户显示登录界面,又不会触犯我们的网络垃圾规则。您还可以利用预览控件,让订阅内容不出现在网页预览中。

网站所有者可以控制抓取的内容和方式

我们遵守开放式网络标准,例如 robots.txt,这是一个简单的文本文件,让网站所有者能够清晰地告诉像我们这样的抓取工具,应该如何与他们的页面互动。Robots.txt 文件与 robots 元标记相辅相成,让网站能够轻松地告诉 Google 和其他服务如何访问它们的内容。他们可以阻止网页显示在搜索结果中。他们可以使用站点地图告知我们他们希望抓取的新内容。此外,他们还可以通过抓取预算来管理我们抓取其网站的频率。

我们的标准抓取工具始终尊重网站对其内容访问和使用方式的选择。

完成抓取后,我们可能会多次利用这些数据,从而避免对网站发出不必要的重复请求。即使我们重复利用这些数据,也始终尊重网站通过 robots.txt 做出的选择,以及我们通过该开放网络协议提供的各项控制措施。例如,网站可以在 robots.txt 中使用 Google-Extended,来决定他们的内容是否用于训练未来版本的 Gemini 模型,以及其他用途。使用 Google-Extended 不会影响网站在 Google 搜索中被收录,我们也不会将其用作搜索排名衡量因素。

我们为网站所有者提供了众多工具,助您轻松管理 Google 抓取体验,其中就包括免费的 Google Search Console。它会告诉您我们抓取了多少内容,以及这样做的原因。它还能帮助网站诊断服务器停机或速度缓慢等问题。此外,Search Console 还会为您提供全面的数据,让您清晰了解网站页面在 Google 搜索中的展示情况,以及用户如何与它们互动。

我们的抓取工具可帮助用户找到网络上的优质内容,我们也在不断探索,让它们变得更强大、更高效。