文字识别 v2

机器学习套件文字识别 v2 API 可以识别任何中文、梵文、日语、韩语和拉丁语字符集中的文本。此 API 还可用于自动执行数据输入任务，例如处理信用卡、收据和名片。

主要功能

识别各种文字和语言的文本 支持识别中文、梵文、日语、韩语和拉丁字母的文字
分析文本结构支持检测符号、元素、行和段落
识别文本的语言 识别识别出的文本的语言
实时识别：可以在各种设备上实时识别文本

文字结构

文本识别器将文本细分为块、行、元素和符号。大致说来：

块是一组连续的文本行，例如段落或列。
线条是同一轴上的一组连续字词，并且
一个元素 (Element) 是同一轴上的一组连续字母数字字符（“字词”），或其他语言中的字词是一个字词
Symbol 是大多数拉丁语言中同一轴上的单个字母数字字符，或其他字符

下图按降序突出显示了上述各项的示例。第一个突出显示的块以青色显示，表示文本块。第二组突出显示的蓝色块是“文本行”。最后，第三组突出显示的块（深蓝色）是“Words”。

对于所有检测到的所有块、线、元素和符号，该 API 会返回边界框、角点、旋转信息、置信度分数、识别的语言和识别的文本。

示例结果

识别的文本
文字	Wege der parlamentarischen Demokratie
推挡次数	（1 个块）

文本块 0
文字	民主党人民共和国议会大厦
Frame	（296、665 - 796、882）
角点	(296, 719)、(778, 665)、(796, 828)、(314, 882)
可识别的语言代码	de
线条	（3 行）

第 0 行
文字	韦格德
Frame	（434、678 - 670、749）
角点	(434, 705)、(665, 678)、(670, 722)、(439, 749)
可识别的语言代码	de
置信度分数	0.8766741
旋转角度	-6.6116457
元素	（2 个元素）

元素 0
文字	韦格
Frame	（434、689 - 575、749）
角点	(434, 705)、(570, 689)、(575, 733)、(439, 749)
可识别的语言代码	de
置信度分数	0.8964844
旋转角度	-6.6116457
元素	（4 个元素）

符号 0
文字	西
Frame	（434、698 - 500、749）
角点	(434, 706)、(495, 698)、(500, 741)、(439, 749)
置信度分数	0.87109375
旋转角度	-6.611646

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-07-25。