2008年7月16日星期三
Improved Flash indexing
发表于:2008年6月30日星期一,晚上9: 31
我们收到过许多期望我们改进对 Adobe Flash 文件索引问题的建议。今天,索引团队的软件工程师 Ron Adler 和 Janis Stipins ,将就我们最近在 Flash文件 索引编制上取得的改进与大家进行更深入的探讨和交流。
问: 目前哪些 Flash文件能更好地被谷歌索引到呢?
我们改善了对所有类型 SWF 文件中的文字内容的索引能力,其中包括像按钮或菜单这样的 Flash “小工具”,独立自成一体的 Flash 网站,以及所有介于两者之间的 Flash 形式。
问:这些 Flash 文件中的哪些内容能被谷歌更好地索引呢?
用户在与您的 Flash 文件互动过程中所看到的一切文本内容都将得到更好地索引。如果您的网站包含 Flash ,其中的文字内容会被Google用来生成您网站的摘要。同时,出现在 Flash 文件中的文字可以用来匹配用户在 Google 搜索框中输入的搜索查询。
除了索引 Flash 文件中的文本内容,我们现在也能够识别在 Flash 文件中的出现的 URL ,并且把这些链接纳入搜索引擎机器人爬行的目标队列中,就像对待那些非 Flash 网页中出现的 URL 一样。例如,如果您的 Flash 应用程序中包含指向您网站内部页面的链接,Google现在能够更好地发现并抓取您的网站。
问:那么 Flash 文件中包含的非文本内容呢,比如图片?
目前,我们只能识别和索引 Flash 文件中的文本内容。如果您的 Flash 文件里只有图片,我们将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个 Flash 按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的 Flash 按钮生成任何錨文本。
还应注意到的是,我们无法索引 FLV 文件,比如在 YouTube 上播放的视频,因为这些文件没有包含任何文字元素。
问: Google 是怎样识别 Flash 文件里的内容呢?
我们开发出了一种算法,这种算法可以使Google机器人能够模仿人类通过点击按钮、输入内容等方式来了解 Flash 文件。我们的算法能够记住沿途它遇到的所有文字内容,其后这些内容都能被索引到。我们无法告诉您更多的保密细节,但是我们可以告诉您,通过使用 Adobe 的新型可检索性 SWF 数据库,这种算法的有效性得到了进一步提高。
问:我怎样做才能使 Google 索引到我的 Flash 文件中出现的文本呢?
基本上,您不需要做任何事情。我们已经取得的技术改进,使这项功能的实现,无需网页设计者或网站管理员做任何特别的操作。如果您的网站上有 Flash 内容,我们会在现有技术能力的基础上,尽最大能力对它们自动进行索引(详见接下来的问题)。
也就是说,您应该了解 Google 现在已经可以识别那些展现在您网站访问者面前的文字信息。如果你希望 Google 忽略一些次要内容,如 " 版权 " 或 " 加载 " 等信息,您可以考虑把那些文本替换为图片,这样它们就不会被我们抓取到了。
问:在索引 Flash 文件上, Google 遇到的主要技术难题是什么?
目前的问题主要体现在三个方面,这也正是我们在努力解决的:
1 、 Googlebot 不能执行某些类型的 JavaScript 程序。因此,如果您的网页通过 JavaScript 加载 Flash 文件的话, Google 可能无法识别该 Flash 文件,在这种情况 下,它将不会被索引到。
2 、目前,我们还无法把那些通过您的 Flash 文件加载的外来内容和您的 Flash 文件整合起来。也就是说,如果您的 Flash 文件加载了一个 HTML 文件,或一个 XML 文件,或另一个 SWF 文件等等, Google 将分别索引这些资源,但是它们将不会被认为是您 Flash 文件内容的一部分。
3 、虽然我们能够索引在网络上出现的几乎所有语种的 Flash ,但在识别用双向语言书写的 Flash 内容还有一定困难。在这个问题解决之前,我们将无法识别和索引 Flash 文件中的希伯来文或阿拉伯文的内容。
但是,在这些问题上我们也已经取得了相当的进展,所以,敬请期待我们进一步的改进!
附:
发表于:2008年6月30日星期一,晚上9: 31
我们收到过许多期望我们改进对 Adobe Flash 文件索引问题的建议。今天,索引团队的软件工程师 Ron Adler 和 Janis Stipins ,将就我们最近在 Flash文件 索引编制上取得的改进与大家进行更深入的探讨和交流。
问: 目前哪些 Flash文件能更好地被谷歌索引到呢?
我们改善了对所有类型 SWF 文件中的文字内容的索引能力,其中包括像按钮或菜单这样的 Flash “小工具”,独立自成一体的 Flash 网站,以及所有介于两者之间的 Flash 形式。
问:这些 Flash 文件中的哪些内容能被谷歌更好地索引呢?
用户在与您的 Flash 文件互动过程中所看到的一切文本内容都将得到更好地索引。如果您的网站包含 Flash ,其中的文字内容会被Google用来生成您网站的摘要。同时,出现在 Flash 文件中的文字可以用来匹配用户在 Google 搜索框中输入的搜索查询。
除了索引 Flash 文件中的文本内容,我们现在也能够识别在 Flash 文件中的出现的 URL ,并且把这些链接纳入搜索引擎机器人爬行的目标队列中,就像对待那些非 Flash 网页中出现的 URL 一样。例如,如果您的 Flash 应用程序中包含指向您网站内部页面的链接,Google现在能够更好地发现并抓取您的网站。
问:那么 Flash 文件中包含的非文本内容呢,比如图片?
目前,我们只能识别和索引 Flash 文件中的文本内容。如果您的 Flash 文件里只有图片,我们将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个 Flash 按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的 Flash 按钮生成任何錨文本。
还应注意到的是,我们无法索引 FLV 文件,比如在 YouTube 上播放的视频,因为这些文件没有包含任何文字元素。
问: Google 是怎样识别 Flash 文件里的内容呢?
我们开发出了一种算法,这种算法可以使Google机器人能够模仿人类通过点击按钮、输入内容等方式来了解 Flash 文件。我们的算法能够记住沿途它遇到的所有文字内容,其后这些内容都能被索引到。我们无法告诉您更多的保密细节,但是我们可以告诉您,通过使用 Adobe 的新型可检索性 SWF 数据库,这种算法的有效性得到了进一步提高。
问:我怎样做才能使 Google 索引到我的 Flash 文件中出现的文本呢?
基本上,您不需要做任何事情。我们已经取得的技术改进,使这项功能的实现,无需网页设计者或网站管理员做任何特别的操作。如果您的网站上有 Flash 内容,我们会在现有技术能力的基础上,尽最大能力对它们自动进行索引(详见接下来的问题)。
也就是说,您应该了解 Google 现在已经可以识别那些展现在您网站访问者面前的文字信息。如果你希望 Google 忽略一些次要内容,如 " 版权 " 或 " 加载 " 等信息,您可以考虑把那些文本替换为图片,这样它们就不会被我们抓取到了。
问:在索引 Flash 文件上, Google 遇到的主要技术难题是什么?
目前的问题主要体现在三个方面,这也正是我们在努力解决的:
1 、 Googlebot 不能执行某些类型的 JavaScript 程序。因此,如果您的网页通过 JavaScript 加载 Flash 文件的话, Google 可能无法识别该 Flash 文件,在这种情况 下,它将不会被索引到。
2 、目前,我们还无法把那些通过您的 Flash 文件加载的外来内容和您的 Flash 文件整合起来。也就是说,如果您的 Flash 文件加载了一个 HTML 文件,或一个 XML 文件,或另一个 SWF 文件等等, Google 将分别索引这些资源,但是它们将不会被认为是您 Flash 文件内容的一部分。
3 、虽然我们能够索引在网络上出现的几乎所有语种的 Flash ,但在识别用双向语言书写的 Flash 内容还有一定困难。在这个问题解决之前,我们将无法识别和索引 Flash 文件中的希伯来文或阿拉伯文的内容。
但是,在这些问题上我们也已经取得了相当的进展,所以,敬请期待我们进一步的改进!
附:
改进之前搜索结果中的Flash网站
改进之后搜索结果中的Flash网站, 搜索查询 [nasa deep impact animation]