Google 如何针对存在语言或字母系统不一致问题的文档生成标题

2022 年 6 月 3 日,星期五

本周,我们在算法方面进行了一些改进,以便识别标题元素与其内容采用不同语言或字母系统编写的文档,并选择与文档语言和字母系统类似的标题。这是基于以下一般原则:文档标题应该与其主要内容使用同一种语言或字母系统来编写。这是我们可能不再局限于网页搜索结果标题的标题元素的原因之一。

多语言标题

多语言标题用两种不同的语言或字母系统重复同一短语。最常见的格式是在原始标题文本中附加英文版本。

गीतांजलि की जीवनी - Geetanjali Biography in Hindi

在此示例中,标题由两部分组成(用连字符分隔),它们以不同的语言(印地语和英语)表示相同的内容。虽然标题采用两种语言,但文档本身只使用印地语编写。我们的系统检测到这种不一致的情况,可能只使用印地语标题文字,例如:

गीतांजलि की जीवनी

拉丁文字标题

音译是指用一种语言编写的内容转换为使用不同字母系统或字母的另一种语言。例如,假设某首歌曲的网页标题是用印地语写的,但经过音译后使用了拉丁字符,而不是印地语的母语梵文:

jis desh me holi kheli jati hai

在这种情况下,我们的系统会尝试使用网页上占据主导地位的字母系统查找替代标题,本例中可能是:

जिस देश में होली खेली जाती है

摘要

一般情况下,我们的系统往往使用网页的标题元素。如果网页包含多语言或音译标题,我们的系统可能会寻找与网页主导语言相匹配的替代标题。因此,最好提供与网页主要内容的语言和/或字母系统相匹配的标题。

欢迎在我们的论坛中进一步提供反馈,包括以英语日语讨论此主题的现有帖子。