Google搜索质量介绍

2008年6月4日星期三

Udi Manber, 工程事务副总裁,搜索质量

原文:
Introduction to Google Search Quality
发表于:2008年5月20日星期二 下午06:20

搜索质量团队是一支负责
Google 搜索结果排名的团队。我们的工作非常明确:每天都有数以亿计的人们 Google 发出搜索请求 Google 需要在短短几分之一秒的时间内从数十亿网页中挑选出符合搜索要求的 页面,并且以恰当的排序提供给用户。虽然近期我们也在做一些其他工 作,但请允许我以后再向您详细介绍。


虽然很多人都在使用 Google 的搜索服务,但令人吃惊的是很少有人了解 Google 的搜索排名。这是我们的过错,但实际上我们是有意进行保密的 。坦诚布公地说,很大程度上,我们需要对我们所从事的工作保密 。这主要有两个原因:竞争和欺诈滥用行为。竞争是很容易理解的 。没有哪一家公司愿意与对手分享其核心技术;至于欺诈滥用行为 ,如果我们将排名算法公布于众,会使这个搜索系统容易被人为操纵 。通过保密来保证安全从来都不是最好的办法,所以我们也不完全依赖 它,但保密措施也确实帮助我们避免了许多被欺诈滥用的可能。

排名算法的细节从很多方面来说都堪称是 Google 皇冠上的宝石。我们感到非常自豪也特别注意保护它们。据估计 ,已有一千多名程序员(科学家)将自己多年的研究成果贡献在它们的 发展中,因而它们的创新速度从没有放缓过。

但保持完全神秘并不是理想状态,这篇博客就是我们想要改善此状况的 一种努力。我们会努力做到定期向大家介绍新产品,讲解已有产品 ,提供建议,传播信息,进而增进交流。现在就让我介绍一些关于我们 团队的信息,以此作为与大家沟通的开始。更多的博客也将会陆续发布

借此机会我想简单的介绍一下自己。我的名字是 Udi Manber ,目前担任工程事务副总裁,负责搜索质量的相关工作。我在 Google 工作已超过两年,在搜索技术方面已经有差不多 20 年的从业经历。

负责精确排名技术的小组是整个团队的核心。对搜索结果进行排名是很 困难的,比一般人想象的要难得多。原因之一是语言本身天然具有模糊 性,而记录信息的文档也五花八门,没有一定的法则。目前 ,还没有一个如何传达信息的统一标准,因此我们需要试图理解任何人 以任何理由写出的所有网页。而且,这只是问题的一部分 。我们还需要理解人们提出的、平均少于三个单词的搜索提问 ,并将它们映射到我们对所有网络文档的理解中。更不用说每个人都有 不同的需要。我们必须尽最大努力在几毫秒内满足这些需求。

在我们的排名算法中,最有名的部分是 PageRank ,它是由谷歌的两位创始人 ——LarryPage Sergey Brin 开发出来的。目前 PageRank 仍被使用,只是它已成为了一个更大系统中的一部分 。其他部分包括语言模型(处理短语、同义词、符号 、拼写错误的能力等),查询模式(我们不仅要考虑语言本身 ,还要考虑人们如何使用语言),时间模型(有些问题要靠互联网上仅 仅产生才三十分钟的最新网页来解答,而另一些问题则需由经受了时间 考验的网页来解答),和个性化模式(并不是所有人都想得到同样的答 案)。

在我们的团队中,还有一个小组负责评估我们的工作 。评估方式有许多种,但目标都是一致的:提高用户体验 。这不是主要目标,而是唯一目标。这里既有每分钟都在进行的自动评 估(确保系统运行正常),对总体质量的周期性评估 ,还有更重要的是为具体算法改进而开展的评估,这也是最重要的 。当一名工程师有一个新想法或开发出一种新算法时 ,我们都会对其想法进行全面测试。我们有一个统计小组专门负责统计 数据,同时评估这些新想法的价值。我们每周都会(有时甚至一周两次 )召开专门会议审议这些新想法并且批准新方案的开展。在 2007 年,我们共推出了 450 多个新改进,平均每周推出 9 个。其中的一些改进是简单而明显的 —— 举例来说,我们解决了希伯来语缩写检索词的问题(在希伯来语中 ,缩写词是由最后一个字符旁的( " )来标识的,因此, IBM 的缩写将是 IB"M );当然也有一些改进是非常复杂的——举例来说,在一月份我们对 PageRank 算法做了显著改进。绝大部分时间里我们都在寻求改进搜索结果的相关 性,但同时我们也在开展以简化算法为目的的项目。毕竟 ,简单一些总是好的。

在过去两年中,跨国界搜索一直是我们关注的重点。这意味着我们要精 通所有语言,而不仅仅是那些主要的语种。以去年为例 ,我们在阿塞拜疆语上取得了重大进展,而这种语言世界上仅有 800 万人在使用。在过去几个月,我们进行了多种语言的拼写检查 ,包括爱沙尼亚语,加泰罗尼亚语,塞尔维亚语,塞尔维亚克罗地亚语 ,乌克兰语,波斯尼亚语,拉脱维亚语,菲律宾他加禄语 ,斯洛文尼亚和波斯语。我们建立了一个遍布全球的网络体系来为我们 提供反馈意见,同时还有来自 Google 全球各部分的讲不同语言的员工自愿帮助我们改进搜索结果。

还有一个小组是专门致力于对搜索特性和用户界面的改进 。一个强大的引擎对于一辆好汽车是非常必要的,但并不是足够的 。好车还要舒适和易于驾驶。 Google 的搜索用户界面非常简洁,很少有用户曾经浏览过 搜索帮助页面 ,因为不借助它用户也能使用得得心应手(但是阅读这些帮助页面总是 有益的,而且我们一直在努力完善它们)。当我们添加新特性时 ,我们会努力确保它们具有直观性并且易于每个人使用。过去一年中 ,我们做的最明显的变化是 整合搜索 。其他变化还包括 谷歌笔记本 (Google Notebook) 自定义搜索引擎 (Custom Search Engine),当然还包括在 iGoogle 上的改进 。用户界面小组由一个专门负责进行用户研究和评估新特性的专家团队 组成。他们的足迹遍布世界各地,有时甚至到用户的家中去了解他们最 自然的使用习惯。 (不过不用担心,他们是不会搞突然袭击或是不请自来的 !)

我们还有一个小组专门负责与 网络垃圾和各种类型的欺诈滥用行为 作斗争 。他们处理的问题非常广泛:从隐藏文本到充斥大量无用关键词而偏离 主题的网页,以及其他许多旨在提高搜索结果排名的恶意行为 。这个小组密切跟踪网络垃圾的最新发展趋势并研究出行之有效的对策 ;与所有其他小组一样,他们的工作也是国际性的。反网络垃圾小组与 Google 网站管理员中心 小组紧密合作,从而能与大家分享他们的心得 ,并听取网站管理员们的意见。

还有其他一些小组投身于其他的专门项目。总之,我们的组织结构是比 较非正式的。人员具有灵活性,新项目随时都有可能开始。

对于搜索,其中很关键的一点就是用户的期望始终在快速增长 。明天的检索查询要比今天的更具挑战性。就像运算速度受摩尔定律支 配,每 18 个月要成倍增长一样,搜索中也有一个隐形的规律,那就是最难的那部 分搜索查询其复杂性在短时间内就会成倍增加,变得更为复杂 。这是不可能进行精确衡量的,但我们都能亲身感受到 。我们知道自己不能总停留在现有状态上,我们必须努力工作 ,迎接挑战。正如我刚才所说的,在未来几个月中我们将继续为您提供 搜索质量改进的最新消息,敬请关注。