给托管服务商和网站管理员的一些建议

2011年12月29日星期四

发表者:Pierre Far,网站管理员趋势分析专员
原文: Tips for hosting providers and webmasters

一些网站管理员在论坛上咨询影响他们站点托管的问题,为帮助托管服务商和站长们识别、诊断以及解决这些问题,我们与您分享一些常见的问题及解决方法。

• 拦截Googlebot 抓取功能 。这是一个非常普遍的问题,通常因防火墙配置错误或DoS保护系统所致,有时也因站点运行的内容管理系统所致。保护系统是形成好的托管服务的重要组成部分,通过配置来拦截异常的服务器频繁的请求,但有时也可自动完成。然而Googlebot通常会执行比个人用户更多的请求,所以这些保护系统也会决定拦截Googlebot,并阻止其抓取您的网站。如需查验此类问题,您可以使用网站管理员工具中的 Googlebot抓取方式 功能,并查看网站管理员工具显示的其它 抓取错误

我们向那些希望更有效地控制Googlebot抓取功能并提高抓取效率的网站管理员和托管服务商提供了几个工具:

o 我们就如何使用 拒绝googlebot协议 配置 URL 参数 来控制“Googlebot抓取方式”功能提供了详细的帮助。
o 如果您担心使用Googlebot的代理程序,我们提供了一个方法来 验证该抓取工具是否为Googlebot。
o 如果您想改变Googlebot抓取您的站点的频率,您可在网站管理员工具中验证您的网站,并且 改变Googlebot的抓取速度 。托管服务商也可验证他们IP地址的所有权。

更多信息请查询 抓取和索引FAQ

• 可用性问题。 我们常见的另一类问题是当Googlebot (及用户)试图访问站点时,网站无法浏览。这通常是由DNS问题、服务器过载引起的超时和拒绝链接问题、错误的内容分发网络配置(CDNs)、以及很多其它类型的错误造成的。当Googlebot遇到这些问题时,我们将之视为 网址无法访问错误 抓取错误 并在网站管理员工具中报告该错误。

• 无效SSL证书 。要想SSL证书对您的网站生效,必须将它们与站点名称相匹配。常见问题包括过期的SSL证书,以及因服务器上所有网站使用同一个证书而导致的服务器错误配置。在这些情况下,大部分浏览器会试图警告用户,Google则通过网站管理员工具发送一条信息来警告网站管理员。要解决这些问题,就要确保您所使用的SSL证书对所有网站的域名以及您用户访问的子域名都有效。

• 通配符DNS 。网站可通过配置来响应所有子域名的请求。例如,example.com的网站可以通过配置用来响应来自foo.example.com,made-up-name.example.com以及所有其它子域名的请求。

在某些情况下,这是网站管理员所希望发生的,例如一个用户生成内容的网站可自行选择给予每个账户各自的子域名。但在某些情况下,网站管理员可能不希望发生这种行为,因为这也许会引起不同的主机名将内容进行不必要的复制,还可能影响Googlebot抓取功能。

若想尽量减少通配符DNS设置中的出现的各种问题,您可以将您的网站设置成不使用它们,或者将您的服务器设置成对不存在的主机名不能成功响应,亦或拒绝连接或直接返回HTTP 404 页面。

• 虚拟主机错误配置 。这种问题的特征是同一个服务器上托管的多主机和/或域名总是只返回一个站点的内容。换言之,尽管服务器托管多个站点,但它不管请求内容是什么却只返回一个站点。要诊断此问题,您需要验证服务器是否正确地响应了HTTP 主页面。

• 通过特定的URL托管复制内容 。很多主机基于测试/开发的目的,为您的网站提供URL。例如,如果您在托管网站example.com上托管https://a.com/,托管提供商可能会提供如 https://a.example.com/ 或 https://example.com/~a/这样的URL地址来作为您网站的入口。我们建议不要将这些特定的URL托管设置成可被公开访问的状态(通过密码保护它们);即便这些URL可被访问,我们的算法通常选择网站管理员所想要的URL地址。如果我们的算法 选择特定的URL托管 ,您可通过正确执行 规范化 技术来对我们的算法做出改动,从而选择您首选的URL。

• 软错误页面 。某些托管服务商用HTTP 200状态码(表示“成功”)而不是HTTP错误状态码来显示错误页面。例如,一个出现“页面无法访问”字样的错误页面可能会返回HTTP 200而不是404,从而造成 软404 页面;一条“网站暂时无法访问”信息返回的可能是HTTP 200,而不是正确地返回503HTTP状态码。我们努力检测软错误页面,但当我们的算法无法检测出主机软错误页面时,这些页面的错误内容可能被列入索引,导致分级或 跨域选择网址 的问题。

检测返回的状态码很简单:只需采用任一一种工具,如 Googlebot抓取方式 ,查看服务器返回的HTTP页面。如果一个错误页面返回的是HTTP 200,那么我们可以改变配置使其返回正确的HTTP错误状态码。同样,请留意网站管理员工具软404报告中有关抓取错误页面的诊断方法。

• 内容修改和框架(frames) 。网站管理员可能惊讶于看到页面内容被托管服务商修改,尤其是在页面插入脚本或图片。除此之外,主机还可能通过使用frames或iframe将内容嵌入其它页面来托管内容。如果想查看主机是否以您意料之外的方式修改您的内容,只需查看主机托管页面的源代码,并将其与您上传的代码进行比较。

请注意某些服务器端代码的修改可能非常有用。例如,一个使用Google Apache 加速模块 或其它工具的服务器可能会压缩代码来优化页面载入速度。

• 垃圾信息和恶意软件 。我们经常看见有部分主机和大量子域名服务成为恶意软件和垃圾邮件的主要来源,鉴于此,我们进行一些细微的操作来保护用户和提高搜索质量,但如果我们发现特定的主机上绝大部分站点发送垃圾信息或传播恶意软件时,我们就不得不对整个主机采取行动。为帮您控制恶意软件,我们提供:
o 适用于托管服务商的 网络管理员安全浏览警报
o 适用于个人网站的管理员工具的 恶意软件通知
o 适用于开发人员的 安全浏览API

我们希望以上几点能帮助托管服务商和网站管理员诊断和解决这些问题。除此之外,我们还在质量方面也有所思考,如服务的质量以及支持的有用性。如果您有问题或需要更多帮助,请咨询我们 网站管理员帮助论坛