2008年7月6日星期日
发表者:Sven Naumann,搜索质量组
原文: Duplicate content due to scrapers发表于:2008年6月9日星期一,上午3:40
重复内容一直是网站管理员们热议的话题之一,我们觉得很有必要对在各种会议上和 网站管理员支持论坛 中我们被问及的常见问题作以下统一解答。
在做深入探讨之前,我想先简要谈谈网站管理员们经常担忧的一个问题:在大多数情况下,网站管理员往往对擅自抄袭和传播自己内容的第三方无能为力。我们知道这并不能归咎于网站管理员们,这也就意味着同一内容出现在许多不同网站其本身并不理所当然地被认为是违反了 网站管理员指南 。这仅仅导致了Google必须增加一个额外步骤,即鉴别内容的原创来源,而这正是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来负面影响。
一般而言,我们把网站内容雷同问题主要分为两种情况:
- 站内内容重复,比如同一内容(经常是无意识地)在您的网站内重复出现。
- 站间内容重复,比如您网站的内容(同样,经常也是无意识地)在其他网站重复出现。
第二种情形可能是有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。同时,网络代理服务器也经常抓取通过代理方式访问的网站的部分内容。当在不同网站遇到相同内容的时候,我们会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。这也意味着,当您发现有人剽窃了您的内容时,您大可不必过分担心它对您的网站在谷歌搜索排名上的负面影响。
如果您将自己网站的内容与他人分享, 但同时还希望自己的网站被识别为原创来源的话,您需要请合作伙伴在其网站内容上添加指向您原创内容的链接。您也可以在Vanessa Fox最近发表的文章 Ranking as the original source for content you syndicate 找到其他有关处理这一问题的建议。
有些网站管理员会有这样的疑问: 什么原因会导致有时候抄袭内容反而比原创内容的排名还要高呢?这应该是个特例,但如果您真的遇到这种情况,请您务必做到:
- 检查一下您的内容是否能被我们抓取。您可能无意间在 robots.txt文件中阻止了部分内容被正常访问。
- 您可以检查一下Sitemap文件,看看您自己是否改动过那些被抄袭的特定内容。
- 检查您的网站是否符合网站管理员指南。
如果您想更深入地讨论这一话题,请浏览我们的 网站管理员支持论坛 。
如果希望阅读本文德语版,请点击阅读“ Duplicate Content aufgrund von Scraper-Sites ”。