CN113780267A

CN113780267A - 文字识别的方法、装置、设备和计算机可读介质

Info

Publication number: CN113780267A
Application number: CN202010789024.5A
Authority: CN
Inventors: 魏雪; 何云龙; 赖荣凤; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2021-12-10

Abstract

本发明公开了文字识别的方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：利用待识别图像的模板图像，校正所述待识别图像，获得校正图像；采用文字识别模型识别所述校正图像中的字符串，定位所述校正图像中字符串的位置，以及获知所述校正图像中字符串的文字；基于所述模板图像中的识别区域，所述校正图像中字符串的位置和所述校正图像中字符串的文字，确定所述校正图像的识别结果，所述识别结果包括所述模板图像的识别区域的项目和所述校正图像在所述识别区域的文字。该实施方式能够提高不同证件或票据中的文字识别效率。

Description

文字识别的方法、装置、设备和计算机可读介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文字识别的方法、装置、设备和计算机可读介质。

背景技术

证件或票据识别具有广泛的应用场景，包括身份认证系统，财务报销系统，以及信息录入系统等。一种识别模型只能识别一种特定证件或票据，如：身份证识别，驾驶证识别或增值税专用发票识别等。

为了获得性能较好的识别模型，首先需要收集大量特定图像，并标注其中的关键字符串；然后利用所标注的图像训练识别模型，识别模型输出图像中关键字符串的识别结果。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：对于新增识别需求无法复用已有识别模型，需要重新收集并标注大量图像建立识别模型，因此存在不同证件或票据中的文字识别效率较低的技术问题。

发明内容

有鉴于此，本发明实施例提供一种文字识别的方法、装置、设备和计算机可读介质，能够提高不同证件或票据中的文字识别效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文字识别的方法，包括：

利用待识别图像的模板图像，校正所述待识别图像，获得校正图像；

采用文字识别模型识别所述校正图像中的字符串，定位所述校正图像中字符串的位置，以及获知所述校正图像中字符串的文字；

基于所述模板图像中的识别区域，所述校正图像中字符串的位置和所述校正图像中字符串的文字，确定所述校正图像的识别结果，所述识别结果包括所述模板图像的识别区域的项目和所述校正图像在所述识别区域的文字。

所述利用待识别图像的模板图像，校正所述待识别图像，获得校正图像，包括：

将所述待识别图像中的字符串与所述模板图像中的锚点字符串进行匹配，以得到所述待识别图像中与所述模板图像中的锚点字符串的编辑距离最小的目标字符串；

利用所述锚点字符串与所述目标字符串之间的位置关系，校正所述待识别图像，获得校正图像。

所述待识别图像中的字符串是利用文字识别模型识别所述待识别图像得到的。

所述利用所述锚点字符串与所述目标字符串之间的位置关系，校正所述待识别图像，获得校正图像，包括：

根据所述锚点字符串与所述目标字符串之间的位置关系，建立仿射变换矩阵；

根据所述仿射变换矩阵，将所述待识别图像变换为所述校正图像。

所述锚点字符串的数量为4个或4个以上。

所述基于所述模板图像中的识别区域，所述校正图像中字符串的位置和所述校正图像中字符串的文字，确定所述校正图像的识别结果，所述识别结果包括所述模板图像的识别区域的项目和所述校正图像在所述识别区域的文字，包括：

基于所述模板图像中的识别区域，和所述校正图像中字段字符串所在区域，得到所述校正图像中字段字符串的交并比，所述校正图像中字段字符串所在区域由所述字段字符串的位置确定；

按照所述校正图像中字段字符串的交并比，确定所述校正图像的识别区域；

将所述模板图像的识别区域的项目和所述校正图像的识别区域的文字，作为所述识别结果。

所述按照所述校正图像中字符串的交并比，确定所述校正图像的识别区域，包括：

将所述校正图像中具有最大交并比的区域，作为所述校正图像的识别区域。

根据本发明实施例的第二方面，提供了一种文字识别的装置，包括：

校正模块，用于利用待识别图像的模板图像，校正所述待识别图像，获得校正图像；

识别模块，用于采用文字识别模型识别所述校正图像中的字符串，定位所述校正图像中字符串的位置，以及获知所述校正图像中字符串的文字；

确定模块，用于基于所述模板图像中的识别区域，所述校正图像中字符串的位置和所述校正图像中字符串的文字，确定所述校正图像的识别结果，所述识别结果包括所述模板图像的识别区域的项目和所述校正图像在所述识别区域的文字。

所述校正模块，具体用于将所述待识别图像中的字符串与所述模板图像中的锚点字符串进行匹配，以得到所述待识别图像中与所述模板图像中的锚点字符串的编辑距离最小的目标字符串；

根据本发明实施例的第三方面，提供了一种文字识别的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：利用待识别图像的模板图像，校正待识别图像，获得校正图像；采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字；基于模板图像中的识别区域，校正图像中字符串的位置和校正图像中字符串的文字，确定校正图像的识别结果，识别结果包括识别区域的项目和在识别区域的文字。对于不同证件或票据，无需重新训练识别模型，仅需要设置对应的模板图像，进而能够提高不同证件或票据中的文字识别效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的行驶证的示意图；

图2是根据本发明实施例的身份证的示意图；

图3是根据本发明实施例的文字识别的方法的主要流程的示意图；

图4是根据本发明实施例的校正待识别图像的流程示意图；

图5是根据本发明实施例的模板图像的示意图；

图6是根据本发明实施例的锚点字符串所在区域与对应的目标字符串所在区域示意图；

图7是根据本发明实施例的利用位置关系获得校正图像的示意图；

图8是根据本发明实施例的校正图像的示意图；

图9是根据本发明实施例的确定校正图像的识别结果的流程示意图；

图10是根据本发明实施例的文字识别的装置的主要结构的示意图；

图11是本发明实施例可以应用于其中的示例性系统架构图；

图12是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

一般来说，用于训练文字识别模型的标注数据中的票据主体占比大且保持水平。而在实际识别图像中，票据主体占比不定且可能倾斜。

因此，在识别过程中，文字识别模型的识别结果多与物体检测模型结合使用。待识别图像首先通过物体检测模型，提取票据主体并校正到水平；校正后的待识别图像送入文字识别模型，获得识别结果；最后，通过对某些特定字符串识别结果做出修正并结构化识别结果，特定字符串包括某些固定样式字符串和内容可枚举字符串，如：身份证中出生字符串，民族字符串等。除了文字识别模型，物体检测模型也需要大量标注数据，特定字符串的后处理也需要先验知识。

整个识别过程研发需要花费数周的时间。收集的数据越多，模型的泛化能力越好，识别准确率越高，相对应耗费的时间成本，以及计算资源成本也越多。同时多数情况下，数据标注是由专业标注团队完成，需要统一标注规则，并且培训众多标注人员。

针对特定标注数据获得的定制化识别方式只能作用于特定识别需求，例如身份证图像识别方式不能复用于行驶证图像或是发票图像。

以行驶证与身份证为例，参见图1，图1是根据本发明实施例的行驶证的示意图。参见图2，图2是根据本发明实施例的身份证的示意图。

基于身份证图像训练得到的物体检测模型无法有效检测出行驶证主体。身份证图像与行驶证图像背景颜色，字符串分布均不相同。

识别行驶证图像和身份证图像无法直接复用一个识别模型；继续参见图1，识别文字中，行驶证中注册日期字符串包含数字0的特殊形式，并且年月日中间用短划线间隔。继续参见图2，身份证中出生日期字符串不包含特殊字符且存在年月日三个特定汉字。

出现新的识别需求时，技术人员需要重新收集并标注大量数据以训练新的检测模型与识别模型。之前花费大量时间，人力资源，计算资源获得的标注数据和识别模型都不再发挥作用。开发周期长，投入成本大的特点阻碍了快速响应客户在特定场景下丰富的识别需求。因此，存在不同证件或票据中的文字识别效率较低的技术问题。

为了解决不同证件或票据中的文字识别效率较低的技术问题，可以采用以下本发明实施例中的技术方案。

参见图3，图3是根据本发明实施例的文字识别的方法主要流程的示意图，利用待识别图像的模板图像获得校正图像，进而获知字符串的位置和字符串的文字。基于模板图像中的识别区域，结合字符串的位置和文字，确定校正图像的识别结果。如图3所示，具体包括以下步骤：

S301、利用待识别图像的模板图像，校正待识别图像，获得校正图像。

在本发明实施例中，待识别图像是需要识别的字符串所在的图像。作为一个示例，待识别图像可以是包括身份号码的身份证图像。作为另一个示例，待识别图像可以是包括注册日期的行驶证图像。

可以利用终端的摄像头采集待识别图像。作为一个示例，为了识别待识别图像中的字符串，可以先通过终端的摄像头采集待识别图像。然后，采用本发明实施例的方案识别文字。

对于每个待识别图像而言，均有对应的模板图像。模板图像是每个证件或票据所对应的图像。作为一个示例，对于身份证而言，可以预先设置身份证的模板图像；对于行驶证而言，可以预先设置行驶证的模板图像。

可以理解的是，对于每个待识别图像，均有预先设置对应的模板图像。在识别待识别图像的过程中，可以利用待识别图像的模板图像校正待识别图像，以获得校正图像。

这是因为，由于拍摄角度或其他原因，待识别图像存在倾斜不是水平位置，或主体位置占比较少的情况。主体位置占比较少是指，证件或票据所占用的面积与待识别图像的面积比值较小，如：上述比值小于0.5。

利用文字识别模型识别上述待识别图像，识别准确率较低，且无法确定识别结果是否为需要识别的字符串，即该识别字符串是否可以作为最终识别结果输出。

参见图4，图4是根据本发明实施例的校正待识别图像的流程示意图，具体包括：

S401、将待识别图像中的字符串与模板图像中的锚点字符串进行匹配，以得到待识别图像中与模板图像中的锚点字符串的编辑距离最小的目标字符串。

在待识别图像中包括多个字符串，为了获得待识别图像中的字符串。可以利用文字识别模型识别待识别图像中的字符串。也就是说，待识别图像的字符串是利用文字识别模型识别待识别图像得到的。

在本发明实施例中，文字识别模型是利用包含各类字符串的图像训练得到的。需要说明的是，由于文字识别模型并不是针对特定证件或票据，训练数据并不局限于特定证件图像或票据图像，因此可以以包括各类字符串的图像作为训练数据，持续迭代优化文字识别模型。这样训练得到的文字识别模型泛化能力更好。

可以理解的是，文字识别模型能够输出待识别图像中所有字符串，但由于待识别图像大小，方向与模板图像不同，且无法判断识别字符串是否属于模板图像中识别区域，并不能将文字识别模型输出的全部识别结果作为最终的文字识别结果。

模板图像是每个证件或票据所对应的图像。模板图像是在图像清晰，角度端正的证件或票据图像上，选择版式中内容及位置相对固定的字符串作为锚点字符串。记录锚点字符串的位置和锚点字符串的文字，选择待识别的字符串所在区域作为识别区域，记录识别区域的位置，并为每一个识别区域创建一个key或id以作标识，即识别区域的项目。为了提高识别结果准确率，可以记录待识别字符串的类型。作为一个示例，待识别字符串的类型可以包括以下一种或多种，数字、汉字和字母。

参见图5，图5是根据本发明实施例的模板图像的示意图。图5中以黑色实框圈出的是锚点字符串，锚点字符串包括：姓名，出生，社会保障号码，以及人力资源和社会保障局。

图5中以黑色虚框圈出的是识别区域，识别区域包括以下字符串所在区域，张三，男，汉，1940年7月1日，以及987654321，以上识别区域的项目分别为：持卡人姓名，持卡人性别，持卡人民族，持卡人出生日期，持卡人保障号码。

在本发明实施例中，为了确保校正的准确性，锚点字符串的数量为4个或4个以上。其中，锚点字符串可以分布在模板图像的四周。

继续参见图5，图5中锚点字符串：姓名，分布于模板图像的上侧；锚点字符串：出生，分布于模板图像的中侧；锚点字符串：社会保障号码，分布于模板图像的左侧；锚点字符串：人力资源和社会保证局，分布于模板图像的下侧。

在本发明实施例中，可以通过字符串间的编辑距离进行匹配。即，将待识别图像中的字符串与模板图像中的锚点字符串进行匹配，以得到待识别图像中与模板图像中的锚点字符串的编辑距离最小的目标字符串。其目的在于，获知待识别图像与模板图像的相对位置关系。

具体来说，编辑距离是针对两个字符串的差异程度的量化量测，量测方式是计算至少需要多少次的处理操作才能将一个字符串变成另一个字符串。处理操作包括三种：插入，删除，替换。

作为一个示例，字符串kitten和sitting，将kitten转换为sitting；需要进行以下操作：

第1步：k替换为s：kitten-->sitten。

第2步：e替换为i：sitten-->sittin。

第3步：添加g：sittin-->sitting。

即，字符串kitten和sitting的编辑距离为3。

对于待识别图像的每个字符串，分别计算与模板图像中锚点字符串之间的编辑距离。匹配到与该锚点字符串编辑距离最小的目标字符串。可以理解的是，与该锚点字符串编辑距离最小的目标字符串即该锚点字符串在待识别图像中对应的字符串。

参见图6，图6是根据本发明实施例的锚点字符串所在区域与对应的目标字符串所在区域示意图。图6中左图是待识别图像，图6中右图是模板图像。

待识别图像中不仅包括证件，而且还包括证件的背景，即证件尺寸额外的白色背景。对于待识别图像的每个字符串，分别计算与模板图像中锚点字符串之间的编辑距离。

进而以虚线连接与锚点字符串对应的目标字符串，上述对应的目标字符串即与该锚点字符串编辑距离最小的字符串。如：社会保障号码，相匹配的字符串是社会保障号码，两个字符串一样，编辑距离最小，为0。

S402、利用锚点字符串与目标字符串之间的位置关系，校正待识别图像，获得校正图像。

锚点字符串与目标字符串相对应，进而可以获知目标字符串与锚点字符串之间的位置关系。作为一个示例，目标字符串：姓名，在待识别图像中位置为距离左边60毫米，距离下边35毫米。在模板图像中的位置为距离左边20毫米，距离下边5毫米。其中，模板图像左上角位置为距离左边0毫米，距离下边0毫米。

参见图7，图7是根据本发明实施例的利用位置关系获得校正图像的示意图，具体包括：

S701、根据锚点字符串与目标字符串之间的位置关系，建立仿射变换矩阵。

利用锚点字符串与目标字符串之间的位置关系，可以计算出两组位置之间的仿射变换矩阵。将计算出的仿射变换矩阵作用于待识别图片，即可提取出票据主体，获得校正图像。校正图像大小，方向均与模板图像保持一致。

S702、依据仿射变换，将待识别图像变换为校正图像。

仿射变换是二维坐标到二维坐标之间线性变换，可以表示为乘以一个矩阵，再加上一个平移向量的形式。仿射变换保持了二维图形的平直性以及平行性。平直性是直线经过变换后依旧为直线。平行性是二维图形之间的相对位置关系保持不变，平行线依旧为平行线，且直线上点的位置顺序不发生改变。

利用仿射变换矩阵能够提取待识别图像的主体，将提取到待识别图像的主体作为校正图像。校正图像大小，方向与所述模板图像一致。

参见图8，图8是根据本发明实施例的校正图像的示意图。可获知，图8中校正图像的方向与尺寸，均与模板图像的方向和尺寸一致。

在图4的实施例中，由于原始待识别图像方向与尺寸，与模板图像不同，进而影响文字识别的准确性。本发明实施例中，无需训练物体检测模型，而是针对不同类别的待识别图像预设模板图像，利用待识别图像的模板图像，校正待识别图像获得校正图像。

由于模板图像并不需要额外的标注数据以及计算资源，并且适用于各类证据或票据，可以快速响应变化丰富的识别需求。

S302、采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字。

校正图像在方向和尺寸上，与模板图像一致。那么可以采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字。

需要说明的是，文字识别模型并不是针对特定证件或票据，因此可以利用包括各类字符串的图像训练得到的文字识别模型。在本发明实施例中，此处所使用的文字识别模型可以与S401中的文字识别模型相同。

采用文字识别模型可以识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字。

S303、基于模板图像中的识别区域，校正图像中字符串的位置和校正图像中字符串的文字，确定校正图像的识别结果，识别结果包括模板图像的识别区域的项目和校正图像在识别区域的文字。

在模板图像中包括识别区域，识别区域是识别结果涉及的区域。以图5所示的模板图像为例，其中识别区域为其中黑色虚框。可以在校正图像中字符串中，基于模板图像中的识别区域，确定校正图像的识别结果。

继续参见图5，图5模板图像的识别区域的项目是姓名。由于校正图像与模板图像相对应，校正图像在模板图像的识别区域的文字，即属于校正图像的识别结果。

参见图9，图9是根据本发明实施例的确定校正图像的识别结果的流程示意图，具体包括：

S901、基于模板图像中的识别区域，和校正图像中字符串所在区域，得到校正图像中字符串的交并比，校正图像中字符串所在区域由字符串的位置确定。

依据校正图像中字符串的位置可以确定，校正图像中字符串所在区域。作为一个示例，在采用文字识别模型识别校正图像中的字符串过程中，字符串位于候选框中，可以将候选框的区域作为校正图像中字符串所在区域。

继续参见图8，图8中字符串：王五所在的区域，即校正图像中字符串所在的区域。

基于模板图像中的识别区域，和校正图像中字符串所在区域，得到校正图像中字符串的交并比。

示例性地，可以将校正图像放置于模板图像之上，模板图像中的识别区域，和校正图像中字符串所在区域，存在交叠。进而可以计算得到校正图像中字符串的交并比。

交并比(Intersection over Union)是在目标检测中使用的一个概念。在本实施例中的交并比指的是候选框(candidate bound)与识别区域的交叠率。即，候选框与识别区域的交集和并集的比例。最理想情况是完全重叠，即比值为1。

S902、按照校正图像中字符串的交并比，确定校正图像的识别区域。

可以基于校正图像中字符串的交并比，确定校正图像的识别区域。在本发明实施例中，将校正图像中具有最大交并比的区域，作为校正图像的识别区域。可以理解的是，校正图像中最大交并比的区域，是待识别字符串所在的区域。

S903、将模板图像的识别区域的项目和校正图像的识别区域的文字，作为识别结果。

校正图像的识别区域，即图8中的字符串：王五的所在区域，与模板图像的识别区域相对应。确定校正图像的识别区域之后，由于已利用文字识别模型识别校正图像中的字符串，因此可以获知校正图像中属于识别区域的文字。

在本发明实施例中，识别区域的项目在建立模板图像识别区域时已经生成，与识别字符串作为结构化结果返回。

继续参见图8，图8中项目为姓名的识别区域对应识别文字为：王五。

可以理解的是，识别结果包括模板图像中识别区域的项目和校正图像的识别区域的文字。

在图9的实施例中，校正图像中字符串的位置和校正图像中字符串的文字，结合模板图像中的识别区域，确定校正图像的识别结果。

在上述实施例中，利用待识别图像的模板图像，校正待识别图像，获得校正图像；采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字；基于模板图像中的识别区域，校正图像中字符串的位置和校正图像中字符串的文字，确定校正图像的识别结果，识别结果包括识别区域的项目和识别区域的文字。对于不同证件或票据，无需重新训练识别模型，仅需要设置对应的模板图像，进而能够提高不同证件或票据中的文字识别效率。

参见图10，图10是根据本发明实施例的文字识别的装置的主要结构的示意图，文字识别的装置可以实现文字识别的方法，如图10所示，文字识别的装置具体包括：

校正模块1001，用于利用待识别图像的模板图像，校正待识别图像，获得校正图像。

识别模块1002，用于采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字。

确定模块1003，用于基于模板图像中的识别区域，校正图像中字符串的位置和校正图像中字符串的文字，确定校正图像的识别结果，识别结果包括模板图像的识别区域的项目和校正图像在识别区域的文字。

在本发明的一个实施例中，校正模块1001，具体用于将所述待识别图像中的字符串与所述模板图像中的锚点字符串进行匹配，以得到所述待识别图像中与所述模板图像中的锚点字符串的编辑距离最小的目标字符串；

在本发明的一个实施例中，所述待识别图像中的字符串是利用文字识别模型识别所述待识别图像得到的。

在本发明的一个实施例中，校正模块1001，具体用于根据所述锚点字符串与所述目标字符串之间的位置关系，建立仿射变换矩阵；

依据所述仿射变换矩阵，将所述待识别图像变换为所述校正图像。

在本发明的一个实施例中，锚点字符串的数量为4个或4个以上。

在本发明的一个实施例中，确定模块1003，具体用于基于所述模板图像中的识别区域，和所述校正图像中字符串所在区域，得到所述校正图像中字符串的交并比，所述校正图像中字符串所在区域由所述字符串的位置确定；

按照所述校正图像中字符串的交并比，确定所述校正图像的识别区域；

在本发明的一个实施例中，确定模块1003，具体用于将校正图像中具有最大交并比的区域，作为校正图像的识别区域。

图11示出了可以应用本发明实施例的文字识别的方法或文字识别的装置的示例性系统架构1100。

如图11所示，系统架构1100可以包括终端设备1101、1102、1103，网络1104和服务器1105。网络1104用以在终端设备1101、1102、1103和服务器1105之间提供通信链路的介质。网络1104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1101、1102、1103通过网络1104与服务器1105交互，以接收或发送消息等。终端设备1101、1102、1103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1101、1102、1103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1105可以是提供各种服务的服务器，例如对用户利用终端设备1101、1102、1103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的文字识别的方法一般由服务器1105执行，相应地，文字识别的装置一般设置于服务器1105中。

应该理解，图11中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图12，其示出了适于用来实现本发明实施例的终端设备的计算机系统1200的结构示意图。图12示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(CPU)1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统1200操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

根据本发明实施例的技术方案，利用待识别图像的模板图像，校正待识别图像，获得校正图像；采用文字识别模型识别校正图像中的字符串，定位校正图像中字符串的位置，以及获知校正图像中字符串的文字；基于模板图像中的识别区域，校正图像中字符串的位置和校正图像中字符串的文字，确定校正图像的识别结果，识别结果包括识别区域的项目和识别区域的文字。对于不同证件或票据，无需重新训练识别模型，仅需要设置对应的模板图像，进而能够提高不同证件或票据中的文字识别效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文字识别的方法，其特征在于，包括：

2.根据权利要求1所述文字识别的方法，其特征在于，所述利用待识别图像的模板图像，校正所述待识别图像，获得校正图像，包括：

3.根据权利要求2所述文字识别的方法，其特征在于，所述待识别图像中的字符串是利用文字识别模型识别所述待识别图像得到的。

4.根据权利要求2所述文字识别的方法，其特征在于，所述利用所述锚点字符串与所述目标字符串之间的位置关系，校正所述待识别图像，获得校正图像，包括：

5.根据权利要求2所述文字识别的方法，其特征在于，所述锚点字符串的数量为4个或4个以上。

6.根据权利要求1所述文字识别的方法，其特征在于，所述基于所述模板图像中的识别区域，所述校正图像中字符串的位置和所述校正图像中字符串的文字，确定所述校正图像的识别结果，所述识别结果包括所述模板图像的识别区域的项目和所述校正图像在所述识别区域的文字，包括：

基于所述模板图像中的识别区域，和所述校正图像中字符串所在区域，得到所述校正图像中字符串的交并比，所述校正图像中字符串所在区域由所述字符串的位置确定；

7.根据权利要求6所述文字识别的方法，其特征在于，所述按照所述校正图像中字符串的交并比，确定所述校正图像的识别区域，包括：

8.一种文字识别的装置，其特征在于，包括：

9.根据权利要求8所述文字识别的装置，其特征在于，所述校正模块，具体用于将所述待识别图像中的字符串与所述模板图像中的锚点字符串进行匹配，以得到所述待识别图像中与所述模板图像中的锚点字符串的编辑距离最小的目标字符串；

10.一种文字识别的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。