2008年11月11日星期二
原文: Advanced Website Diagnostics with Google Webmaster Tools
发表于:2008年9月30日星期二,上午11: 07
运营网站是一件很复杂的事情,所以我们提供了 网站管理员工具 来帮助您发现潜在的问题,并防止它们演变成真正的问题。这些发现的问题中,有一些相对来讲比较小(比如有 重复的标题和描述 ),但也有一些是比较大的问题(比如我们无法访问您的网站)。尽管网站管理员工具无法确切地告诉您需要做哪些具体的改动,但是它可以帮助您发现一些需要您解决的潜在问题。
让我们来看一下我们在 网站管理员支持论坛 里碰到的几个例子:
您的服务器是否把Googlebot当作普通的网站访问者?
尽管Googlebot尽力表现的像一个普通用户,但有一些服务器可能还是会感到困惑而以比较奇怪的方式进行回应。比如,当用户以Googlebot为user-agent进行访问时, 虽然您的服务器在大多数时间里都可以完美无暇地工作,但是有一些运行IIS的服务器会返回服务器错误(或者其他一些和发生服务器错误相关的操作)。在网站管理员支持论坛里,我们曾经碰到过IIS服务器返回 500错误(服务器错误) 和 404错误(文件找不到) 出现在“网络抓取”诊断部分的情况,还有 提交网站地图(Sitemap)文件时出现302错误 。如果您的服务器重定向到错误页面,您应该确保我们可以抓取这个错误页面,并且确保服务器返回正确的错误代码。当您做好这些以后,我们就可以在网站管理员工具里显示这些错误。如果您想了解关于这个问题的更多信息及可能的解决方法,请参阅:
https://todotnet.com/archive/0001/01/01/7472.aspx 和 https://www.kowitz.net/archive/2006/12/11/asp.net-2.0-mozilla-browser-detection-hole.aspx 。
如果您的网站托管在运行Microsoft IIS的服务器上,请记住,自然情况下 网址是区分大小写的 (我们也是如此处理他们的)。这包括那些出现在 robots.txt文件 里的网址。如果您的服务器以不区分网址大小写的形式工作,您应该小心处理这一部分。例如,“disallow: /paris”将阻止我们访问/paris,而不是/Paris。
您的网站是否存在一些系统性的已损坏的链接?
现代内容管理系统(CMS)经常会导致一些问题,而这些问题往往能够影响大批的网页。有时候这些问题很直接,当您在浏览这些页面时就可以发现;有时候,靠您自己很难发现这些问题。如果某个类似上述的问题产生了大量损坏的链接,它们一般会显示在您网站管理员工具帐户的“网络抓取”诊断部分(列出那些正常返回404代码的已损坏的网址)。在最近的一个个案中,一个网站的 RSS feed出了一个小的编码错误 ,结果导致超过60,000个坏的网址显示在该网站的网站管理员工具帐户里。您一定能理解,我们更愿意将时间花在抓取内容而不是这些404错误页面上:) 。
您的网站是否将用户导向其他地方?
许多网站都有自己关注的特定地域的用户群。我们发现这类网站有时会将其他地域的访问者重定向到一个不同的页面。然而,请记住Googlebot不一定来自于您期望的目标地域,所以也有可能被重定向到其他页面。这可能意味着Googlebot不能访问您的主页。如果发生这种情况的话,网站管理员工具在验证您的网站时可能会出现问题,导致 您的网站无法通过验证 。当然,这不是网站无法通过验证的唯一原因,但是如果您的网站经常出现这种情况,最好还是调查一下原因。在这个问题上,请确保用对待那个地域的用户一样的方式对待Googletbot,否则可被视为“ 内容伪装 ”。
您的服务器是否在我们抓取时无法访问?
即使最好的网站也会出现这种情况——服务器宕机以及防火墙过度保护。如果在我们试图访问您的网站时出现这种情况的话,我们就无法对您的网站进行抓取,而且您可能不知道我们已经尝试去抓取过您的网站了。幸运的是,我们会跟踪这些问题,当我们无法访问您的网站时,您可以在管理员工具帐户里发现 “网络无法访问”及“robots.txt 文件无法访问” 错误。
您的网站是否被黑了?
黑客有时候会在出问题的页面上添加些奇怪的、远离主题的隐藏内容和链接。如果是隐藏的话,您可能不会马上注意到它。尽管如此,它还是有可能成为一个大问题。虽然消息中心会就某些类型的隐藏文本向您发出提醒,但是您最好也要多留意一些。网站管理员工具“统计信息”项目下的“Googlebot看到的内容” 会显示与您网站内容有关的关键字 ,如果您在那里看到一些完全不相关的关键字,那么您的网站有很大可能被黑掉了,您最好能尽快调查一下发生了什么事情。您也可以使用 谷歌快讯 (Google Alerts)或者使用[site:example.com 垃圾关键词]进行查询,在这里“垃圾关键词”是指一些像色情, 伟哥, 曲马多(tramadol,一种镇静剂), 性及其他一些您的网站上一般不会出现的词语。如果您发现您的网站真的被攻击了,我推荐您参阅我们博客上的另外一篇帖子—— 我的网站被黑掉了,怎么办?
网站管理员工具可以发现很多关于网站的问题;上述问题只是我们最近碰到的问题当中比较普通的一些罢了。因为有一些问题真的很难发现,在它们真正成为问题之前您不妨去看一下您的网站管理员工具帐户,看看能不能发现一些问题的苗头。如果您发现一些您确实无法解决的问题,为什么不在 网站管理员支持论坛 上发贴来寻求专家们的帮助呢?
今天,您检查您的网站了吗?