揭秘“重复内容处罚”

2008年10月7日星期二

发表者: Susan Moskwa, 网站管理员趋势研究员

原文: Demystifying the "duplicate content penalty"
发表于: 2008年9月12日星期五，上午8: 30

重复内容始终是一个经常被谈论的话题。我们不断地发表关于这方面的文章，人们也在不断地提出问题。特别是，我还听到有很多网站管理员担心自己受到了“重复内容处罚”。

在这里请允许我们把这个问题一次性跟大家讲清楚：根本不存在所谓的“重复内容处罚”。至少，也不是大多数人谈论时所认为的那样。

有一些处罚是和抄袭其他网站的内容有关的，比如完全抄袭并且发布其他网站的内容，或者在完全没有提供任何其他附加价值的情况下发布这些抄袭的内容。这些都是我们不提倡的做法，您可以在网站管理员指南里找到有关此问题的清晰的论述:

请不要创建含有大量重复内容的多个页面、子域或者域。
请避免使用那种“一个模子印出来”（cookie cutter）的方式创建网站，比如没有或者很少原创内容的联属计划。
如果您的网站参与联属计划，请确保您的网站可提供附加价值。提供独特且相关的内容，使用户首先有理由访问您的网站。

（请注意，我们不希望您从其他网站那里抄袭内容，但是如果其他人抄袭了您的网站就是另外一回事了；如果您担心别人抄袭了您的网站，请您参考这篇文章）。

但是我听到的一些担心重复性内容的网站管理员所谈论的并不是抄袭或者域名农场(domain farms)；他们讨论的是诸如在同一个域上有多个网址指向相同的内容。比如，www.example.com/skates.asp?color=black&brand=riedell
和www.example.com/skates.asp?brand=riedell&color=black。这种类型的重复性内容可能会对您网站在搜索结果中的表现有潜在的影响，但是它不会使您的网站受到惩罚。下面这段文字来自我们关于重复内容的帮助文章：

除非重复内容看起来意在欺骗用户并操纵搜索引擎结果，否则，我们不会对有重复内容的网站采取特别措施。如果您的网站存在重复内容问题，而您又未遵循上述建议，我们会自行以恰当的方式选择在搜索结果中显示的内容版本。

这种非恶意的重复是比较常见的，特别是很多内容管理系统(CMS)缺省条件下对此处理的并不是很好。因此，当人们谈到此种类型的重复性内容会影响您的网站时，并不是因为您可能会因此受到处罚，而仅仅是由于网站和搜索引擎的工作方式所造成的。

大多数搜索引擎都力求保持一定程度的多样性：他们想在搜索结果页上向您展示十个不同的搜索结果，而不是含有相同内容的十个不同的网址。为此，谷歌试着去掉重复的内容从而使用户较少看到这些多余的重复性的内容。您可以在这篇博客里了解更多的细节，其中谈到

当我们探测重复内容时，比如由网址参数造成的衍生网址，我们会将这些相似的网址放在同一组里。
我们会选择我们认为最能代表这一组的网址在搜索结果里进行展示。
我们还会对这一组网址的特性进行相应的整理，像链接的受欢迎程度，并将其合并到此代表性网址上。

作为网站管理员，上述过程可能会影响到您的是：

在步骤二中，谷歌所认为最具有代表性的网址并不一定和您的想法一致。如果您想控制究竟是www.example.com/skates.asp?color=black&brand=riedell 还是www.example.com/skates.asp?brand=riedell&color=black出现在我们的搜索结果中的话，您或许想采取适当措施以减少您的重复内容。告诉我们哪一个是您比较喜欢的网址的有效方法之一就是将其列入您的网站地图 (Sitemap) 里。
在步骤三中，如果我们无法探测出某一特定页面的所有重复性页面的话，我们在对其页面特性进行整合时就不可能包括所有这些重复性页面的特性。这可能会削弱这一特定内容的排名竞争力，因为他们被分散分配到了多个网址上。

在大多数情况下，谷歌可以很好的处理此类重复内容。然而，对于那些不同域名上的重复性内容，您或许需要再考虑一下。尤其是，当您决定建立一个网站而它的目的从本质上来讲就是内容抄袭和重复的话，如果您的商业模式又依赖于搜索引擎的流量，那么除非您可以给用户带来很多的附加价值，不然对于建立此类网站您还是要三思而后行。举个例子，我们有时听到来自Amazon.com的联盟网站说他们网站上那些完全由Amazon提供的内容很难有好的排名。这难道是因为谷歌想阻止他们卖《 Everyone Poops 》这本书吗？不；这是因为如果他们的网站提供完全一样的内容的话，他们怎么可能会比Amazon的排名更好呢？对于在线购物来讲，Amazon在很多方面具有权威性（对于一个典型的Amazon联盟网站来说更是如此），一般的谷歌搜索用户可能想看到的是Amazon上的原始信息，除非这个联盟网站提供了相当数量的、额外的附加值给用户。

最后，想一下重复内容给您网站带宽带来的影响吧。重复内容会造成抓取效率低下：当Googlebot在您的网站上发现了十个网址，在它知道这些网址含有完全相同的内容之前（如上所述，也就是在我们能够对他们进行归类之前），它必须对这十个网址逐一进行抓取。Googlebot耗费在抓取重复性内容上的时间和资源越多，它用来抓取其他内容的时间也就相对变少了。

总而言之，网站上的重复性内容会以多种方式影响您的网站。但是除非您是恶意抄袭造成内容重复，否则这些方式不会构成对您网站的处罚。这也意味着：

当您清除了无恶意的重复性内容时，您无须提交重新收录的请求。
如果您是一个介于初级到中级经验值之间的网络管理员，您可能不需花费过多精力来担心重复性内容，因为大多数搜索引擎都有方法来处理它。
通过澄清和杜绝关于重复性内容处罚的杜撰之说，您可以帮到您的网站管理员同行们！解决重复性内容的方法完全在您的掌控之中，这里有几篇较好的文章您可以参考。

揭秘“重复内容处罚” 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

揭秘“重复内容处罚”