Google 用户触发的抓取工具列表

用户触发的抓取工具由用户启动,以在 Google 产品中执行抓取功能。例如,Google 网站验证工具会根据用户的请求执行操作,或者 Google Cloud (GCP) 上托管的网站具有允许网站用户检索外部 RSS Feed 的功能。由于是用户请求的抓取,因此这些抓取工具通常会忽略 robots.txt 规则。Google 抓取工具的常规技术属性也适用于用户触发的抓取工具。

用户触发的抓取工具使用的 IP 范围会发布在 user-triggered-fetchers.jsonuser-triggered-fetchers-google.json 对象中。用户触发的抓取工具的反向 DNS 掩码(取决于抓取工具是 Google 还是用户拥有)分别与 ***-***-***-***.gae.googleusercontent.comgoogle-proxy-***-***-***-***.google.com 匹配。

以下列表显示了用户触发的抓取工具、它们在 HTTP 请求中显示的用户代理字符串以及它们关联的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。

HTTP 请求中的用户代理

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)
相关产品 Feedfetcher 用于为 Google 新闻和 PubSubHubbub 抓取 RSS 或 Atom Feed。
HTTP 请求中的用户代理

GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/google-producer)
相关产品 Google 发布商中心会抓取并处理发布商明确提供的 Feed,以便在 Google 新闻着陆页中使用。
HTTP 请求中的用户代理
移动版代理

Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
桌面版代理

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
曾用代理(已弃用) google-speakr
相关产品 根据用户请求,Google Read Aloud 会使用文字转语音 (TTS) 技术来抓取并朗读网页内容。
HTTP 请求中的用户代理

Mozilla/5.0 (compatible; Google-Site-Verification/1.0)
相关产品 Google 网站验证工具会抓取 Search Console 验证令牌。