更新用于抓取智能手机版内容的Googlebot用户代理

2014年2月14日星期五

原文: A new Googlebot user-agent for crawling smart phone content
作者:智能手机搜索工程师,Zhijian He

多年来,Google一直在针对功能手机和智能手机使用不同的抓取工具来抓取内容并将其编入索引,而所有这些移动设备专用抓取工具都称为Googlebot移动版。由于功能手机和智能手机的功能存在很大差异,我们曾多次遇到过以下情况:网站站长实际上只想屏蔽针对功能手机的抓取或编入索引操作,但无意中屏蔽了针对智能手机的抓取或编入索引操作。抓取工具在名称上未加以区分导致Google不仅无法将某些网站的智能手机版内容编入索引,也无法确定这些网站是否针对智能手机进行了优化。

针对智能手机推出的新型Googlebot

为了在名称上对抓取工具加以区分并让网站站长拥有更大的控制权,我们将在3到4周后,不再将针对智能手机的“ Googlebot-Mobile ”用作用户代理。之后,针对智能手机的用户代理将直接使用“Googlebot”进行标识,但仍会在用户代理字符串的其他位置列出“mobile”字样。下面列出了新型和旧型用户代理:

针对智能手机的新型Googlebot用户代理:
Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot /2.1; + https://www.google.com/bot.html )

针对智能手机的 Googlebot-Mobile 用户代理(即将停止使用):
Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot-Mobile /2.1; +https://www.google.com/bot.html)

此项更改只会影响针对智能手机的Googlebot移动版用户代理。常规Googlebot的用户代理不会发生变化,并且其余两个Googlebot-Mobile抓取工具将继续在其用户代理字符串中提及功能手机设备。请参考以下示例:

常规Googlebot用户代理:
Mozilla/5.0 (compatible; Googlebot/2.1;
+https://www.google.com/bot.html)

其余两个针对功能手机的Googlebot移动版用户代理:
  • SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +https://www.google.com/bot.html)
  • DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +https://www.google.com/bot.html)

抓取和编入索引

请注意此项用户代理更新带来的以下重大影响: 针对智能手机的新型Googlebot抓取工具将遵从Googlebot(而非Googlebot-Mobile)的robots.txt指令、 robots元标记指令和HTTP header指令 。例如,使用新型抓取工具后,以下robots.txt指令将屏蔽针对智能手机的新型Googlebot用户代理以及常规Googlebot执行的所有抓取操作:

User-agent: Googlebot
Disallow: /

以下robots.txt指令将屏蔽Google的功能手机抓取工具执行的抓取操作:

User-agent: Googlebot-Mobile
Disallow: /

根据我们的内部分析,受此项更新影响的网址不到0.001%,而此项更新可让网站站长更好地控制对其内容的抓取和编入索引操作。与往常一样,如果您有任何问题,可以: