CN110135427B

CN110135427B - 用于识别图像中的字符的方法、装置、设备和介质

Info

Publication number: CN110135427B
Application number: CN201910291030.5A
Authority: CN
Inventors: 郭贺; 钦夏孟; 韩钧宇; 朱胜贤
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-07-27
Anticipated expiration: 2039-04-11
Also published as: CN110135427A

Abstract

根据本公开的实施例，提供了用于识别图像中的字符的方法、装置、设备和介质。一种识别图像中的字符的方法包括：提取图像的特征表示；通过对特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，多个字符识别模型分别被配置用于识别多个类型的字符；以及利用多个字符识别模型来分别处理多个注意力特征表示，以识别图像中与多个类型相关的字符。以此方式，可以更直接、准确且快速地识别出图像中期望的字符。

Description

用于识别图像中的字符的方法、装置、设备和介质

技术领域

本公开的实施例主要涉及图像处理领域，并且更具体地，涉及用于识别图像中的字符的方法、装置、设备和计算机可读存储介质。

背景技术

学字符识别(OCR)是将图像中呈现的字符识别为计算机中可读字符的过程。OCR具有广泛的应用，一些示例应用包括网络图片文字识别、卡证识别(例如身份证、银行卡、名片识别等)、票据识别(例如增值税发票、行程单、火车票、出租车票识别等)、车牌识别等等。在一些应用中，通常需要识别图像中的若干有用字符，摈弃其他无关字符。传统的OCR技术存在流程复杂、识别准确度不高等问题。因此，期望能够以有效方式实现更准确的字符识别。

发明内容

根据本公开的示例实施例，提供了用于识别图像中的字符的方案。

在本公开的第一方面中，提供了一种识别图像中的字符的方法。该方法包括提取图像的特征表示；通过对特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，多个字符识别模型分别被配置用于识别多个类型的字符；以及利用多个字符识别模型来分别处理多个注意力特征表示，以识别图像中与多个类型相关的字符。

在本公开的第二方面中，提供了一种用于识别图像中的字符的装置。该装置包括特征提取模块，被配置为提取所述图像的特征表示；注意力机制模块，被配置为通过对所述特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，所述多个字符识别模型分别被配置用于识别多个类型的字符；以及字符识别模块，被配置为利用所述多个字符识别模型来分别处理所述多个注意力特征表示，以识别所述图像中与所述多个类型相关的字符。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境的示意图；

图2示出了根据本公开的一些实施例的用于识别图像中的字符的系统的示意框图；

图3示出了根据本公开的一些实施例的图2的字符识别模型和注意力机制部分的示例结构的示意框图；

图4示出了根据本公开的一些实施例的在训练阶段中图2的系统的示意框图；

图5示出了根据本公开的一些实施例的识别图像中的字符的方法的流程图；

图6示出了根据本公开的实施例的用于识别图像中的字符的装置的示意框图；以及

图7示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在环境100中，计算设备110被配置为识别输入的图像102中的一个或多个字符。在本文中，术语“字符”指的是任何计算机可读的字符，包括但不限于数字、各种语言的字母或词语、各个领域的符号等等。要从中识别字符的图像102可以是以任何方式采集的任何格式的图像，诸如由图像采集设备捕获的图像、扫描仪扫描的图像、计算机截图等。图像102中的字符可以是被印刷、打印、手写或者以其他方式被写到纸张、胶卷或者任何其他介质上。

在一些示例中，图像中的字符识别可以被应用在对卡证、票据、车牌、证书等等图像中的字符进行识别。在图1的示例中，图像102是航空运输电子客票行程单的数字图像，其中呈现的字符包括电子客票号(例如“1097781855”)、旅客姓名(例如“侯琼宝”)、出发地(例如“上海浦东T1 PVG”)、目的地(例如“大连周水子DLC”)和航班号(例如“9C8977”)等等。计算设备110可以从图像102中识别这些类型的字符中的一个或多个。计算设备110还可以输出识别结果104，其中以计算机可识别或可编辑的形式呈现识别的字符。例如，识别结果104可以包括从图像102中识别的电子客票号码、旅客姓名、出发地、目的地、航班号等。

计算设备110可以被配置有适当的软件和硬件来实现字符的识别。计算设备110可以是任何类型的服务器设备、移动设备、固定设备或便携式设备，包括服务器、大型机、计算节点、边缘节点、移动电话、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、多媒体计算机、多媒体平板或者其任意组合，包括这些设备的配件和外设或者其任意组合。

应当理解，图1中给出的输入图像和输出识别结果仅是一个具体示例。根据配置，可以输入图像中的更多类型、更少类型或者其他不同类型的字符。任何其他图像也可以被输入到计算设备110中以便识别其中的字符。

在传统方案中，从图像中识别字符通常基于字符识别和后处理，主要流程涉及检测模块、识别模块和模板匹配模块。检测模块用于检测图像中可能存在的文字，这样的文字检测是目标检测在文字领域的具体应用，但相比于目标检测而言，还具有背景复杂、文字大小不确定、字体类型不确定、易受到图像中光照和遮挡影响等特点。通常，检测模块采用基于图像纹理、基于成分等检测技术来检测图像中的文字。例如，基于成分的方法首先从图像中提取候选成分，再通过滤波器或分类器去掉非文字部分，然后从过滤/分类后的候选文字部分中检测文本。

识别模块用于识别候选区域中的文字。传统的文字识别可以采用基于单字识别的方案或基于行的识别方案。基于单字识别的方案首先将文字行或块切分成单字，然后利用神经网络对单字进行分类。基于行识别的方案直接将文字行的识别认为是一个序列识别的文字，以识别出整个行中的一个序列的文字。模板匹配模块也称为后处理模块，用于将经过文字检测和文字识别两个阶段得到的文字的位置信息和语义信息对文字进行定位、排版，以输出结构化结果。

传统方案存在流程繁琐、复杂的问题，需要对图像逐步实现文字检测、识别、模板匹配等一系列过程。在这样的流程中很容易发生错误累计。例如，如果检测的文字位置不准确，在模板匹配时会导致无法映射到所关心的字段。此外，这样的方案中识别能力的上限受限于检测和识别阶段，如果无法识别出需要的字段，则需要加入更多的候选框去再次尝试识别。另一方面，在这样的传统方案中，在训练神经网络时需要对利用候选框来标注整个图像的文字区域，并且还需要标注每个文字区域中的具体内容。这种标注方法耗时长、成本高。传统方案的维护成本也非常高昂，通常针对一些特定的不良场景需要大量修改后处理逻辑，并且往往优化空间非常有限。

根据本公开的实施例，提出了一种改进的识别图像中的字符方案。在该方案中，利用多个字符识别模型来分别单独识别图像中多个类型的字符。具体地，从图像中提取的特征表示通过注意力机制的引入而处理为针对多个字符识别模型的相应的多个注意力特征表示。多个字符识别模型被分别用于处理多个注意力特征表示，以从图像中识别出对应类型的字符。以此方式，可以更直接、准确且快速地识别出图像中期望的字符。

以下将参考附图来更详细讨论本公开的示例实施例。

首先参考图2，其中示出了根据本公开的一些实施例的用于识别图像中的字符的系统200的示意框图。系统200可以被实现在图1的计算设备110中。

如图2所示，系统200包括特征提取部分210、注意力机制部分220和字符识别部分230。字符识别部分230包括多个字符识别模型232-1、232-2、……232-N，其中N表示字符识别模型的数目并且N是大于等于2的整数。为便于讨论，多个字符识别模型也可以被统称为或单独称为字符识别模型232。多个字符识别模型232分别被配置为识别多个类型的字符。每个类型的字符对应于图像中的一定区域。在一些实施例中，一个类型的字符也可以被称为一个字段。换言之，每个字符识别模型232主要用于从图像中识别出对应类型的字符。字符识别模型的数目N可以被预先配置或者可以由用户指定。

具体地，特征提取部分210被配置为获取图像102并且提取图像102的特征表示212。特征表示212可以表征图像102中呈现的信息。图像的特征提取将在下文中详细描述。

注意力机制部分220被配置为对特征表示212应用注意力机制，以确定针对多个字符识别模型232的相应的多个注意力特征表示222-1、222-2、……、222-N。为便于讨论，多个注意力特征表示也可以被统称为或单独称为多个注意力特征表示222。在确定针对每个字符识别模型232的注意力特征表示222时，注意力机制部分220将特征表示212中无助于识别相应类型的字符的特征信息过滤掉，并且保留特征表示中有助于识别相应类型的字符的特征信息。在一些实施例中，针对每个字符识别模型232，注意力机制部分220确定针对给定字符识别模型的注意力掩模。注意力掩模指示特征表示212中对该字符识别模型要识别的类型的字符的重要度高于预定阈值的一部分特征信息，特征表示212中其余部分的特征信息可以被认为是对于要识别的类型的字符的重要度较低的特征信息。注意力机制部分220可以通过将注意力掩模和特征表示212组合，来确定针对给定字符识别模型的注意力特征表示222。

由于不同字符识别模型232要识别的字符类型不同，所确定的注意力特征表示222也不相同。与表征图像102全局信息的特征表示212相比，注意力特征表示222更关注于图像102中能够有助于对应的字符识别模型232识别出相应类型的字符的那部分信息。

相应的注意力特征表示222被提供作为对应的字符识别模型232的输入。字符识别部分230中的多个字符识别模型232被用于分别处理相应的注意力特征表示222，以识别图像102中与多个类型相关的字符。多个字符识别模型232的识别结果可以提供为针对图像102的识别结果104。

通常，在很多应用中，期望识别类似图像中对应类型的不同字符。这些图像的不同区域往往呈现与对应类型相关的字段，其中的字符信息可能不断变化。例如，可能期望识别用户拍摄的行程单中各个类型的字段中的字符，在这个示例中，行程单的图像可以包括电子客票号、旅客姓名、出发地、目的地、承运人、航班号、日期、时间、票价等等类型的字符。在关于身份证识别的示例中，身份证的图像可以包括姓名、性别、民族、出生日期、住址、公民身份号码等类型的字符。当然，以上仅给出了若干示例应用以及其中可能的字符类型，其他应用场景和字符类型也可以是可能的。

根据本公开的实施例，通过注意力机制的使用，对应的字符识别模型232被配置为从相应的注意力特征表示中识别出各自类型相关的字符。在一些实施例中，多个字符识别模型232可以被配置为识别图像102中所关心的一些类型的字符，而忽略其他类型的字符。例如，多个字符识别模型232可以分别被配置为识别“电子客票号”、“旅客姓名”、“出发地”、“目的地”和“航班号”这些类型的字符。图像中的其他字符，诸如时间、印章、水印、可能的广告信息等均会被忽略。在一些实施例中，如果图像102中不包括某个类型的字符，相应字符识别模型232的输出可能是空，指示没有识别出相应类型的字符。

字符识别模型232的数目与期望识别的字符类型的数目相关。在一些实施例中，由一个字符识别模型232识别的字符的类型可以对应于图像102中具有相关联的语义的至少两个区域的字符。例如，单个字符识别模型232可以被配置为识别图像中“出发地”和“目的地”区域的字符，因为这两个区域中可能呈现的字符在语义上都表示地理区域。多个字符识别模型232中可以存在一个或多个这样的字符识别模型232。

以此方式，无需具体地检测和匹配各个类型的字符在图像102中的具体位置，多个字符识别模型232即可相应识别这些类型的字符。此外，这样的字符识别方式也适合用于对字符的类型通常变化较小、而字符在图像中的位置变化程度较大的图像进行识别。例如，在名片的示例中，名片中通常包括姓名、职位、联系方式、地址等类型，但由于排版设计不同，这些类型的字符之间的相对位置关系变化较大，根据本公开的实施例的字符识别方案也有利于从这样的图像中准确地识别字符。

在一些实施例中，多个字符识别模型232中的一个、一些或全部可以基于机器学习模型，也称为神经网络。在另外一些实施例中，特征提取部分210和/或注意力机制部分220的部分或全部功能的实现也可以基于神经网络。

注意，在本文中，“神经网络”有时也可以被称为“基于神经网络的模型”、“学习网络”、“学习模型”、“网络”或“模型”。这些术语在本文中可互换地使用。神经网络是多层处理模型，其具有由非线性单元组成的一个或多个层用于处理接收到的输入，以产生相应输出。一些神经网络包括一个或多个隐藏层以及输出层。每个隐藏层的输出被用作神经网络中下一层(即下一隐藏层或输出层)的输入。神经网络的每个层根据预定的参数集的取值来处理输入以生成相应的输出。神经网络中各个层的参数集的取值通过训练过程来确定。

在基于神经网络的一些实施例中，系统200可以被表示为一种编码器-解码器的神经网络架构，其中特征提取部分210和注意力机制部分220对输入的图像102进行特征提取和编码，而字符识别部分230对来自注意力机制部分220的输入进行解码，以获得字符识别的结果104。

在一些实施例中，特征提取部分210可以利用基于卷积神经网络(CNN)的模型来实现图像102的特征提取。在基于CNN的模型中，隐藏层通常包括一个或多个卷积层，用于对输入执行卷积操作。除了卷积层之外，基于CNN的模型中的隐藏层还可以包括一个或多个激励层，用于利用激励函数对输入执行非线性映射。常用的激励函数例如包括修正线性单元(ReLu)，tanh函数等等。在一些模型中，在一个或多个卷积层之后可能连接有一个激励层。此外，基于CNN的模型中的隐藏层还可以包括池化(pooling)层，用于压缩数据和参数的量，以减少过拟合。池化层可以包括最大池化(max pooling)层、平均池化(average pooling)层等。池化层可以被连接在连续的卷积层中间。此外，基于CNN的模型还可以包括全连层，全连层通常可以被设置在输出层的上游。

基于CNN的模型是深度学习领域中熟知的技术，在此不再赘述。在不同模型中，卷积层、激励层和/或池化层的各自的数目、各个层中处理单元的数目和配置以及各个层之间的相互连接关系可以具有不同变化。在一些示例中，可以利用诸如inception_v3、GoogleNet等CNN结构来实现图像102的特征提取。当然，应当理解，当前已使用的或者将来待开发的各种CNN结构均可以被用于提取图像102的特征表示212。本公开的实施例的范围在此方面不受限制。

利用基于CNN的模型提取的特征表示212有时也可以被称为特征图，其以二维图像的形式表征图像102的信息。由特征提取部分210输出的特征图的数目还与卷积处理时的通道数目相关。在一些示例中，特征表示212可以被表示为一个三维张量，其维度可以表示为(H，W，C)，其中H和W分别表示特征图的高度和宽度，而C表示特征图的通道数目，即有多个二维的特征图。

在一些实施例中，注意力机制部分220也可以基于神经网络的模型来实现注意力特征表示222的确定。基于神经网络的模型可以包括一个或多个层，用于处理特征表示212(例如，特征图)，以确定针对各个字符识别模型232的注意力特征表示222。具体地，基于神经网络的模型可以确定针对各个字符识别模型232的注意力掩模。在特征表示212以特征图形式被提供时，注意力掩模也可以被表示为二维图像形式，每个注意力掩模可以指示一个特征图中的各个像素位置的特征信息是否重要。例如，针对每个像素位置，通过值“1”来指示该像素位置的特征信息对于字符识别而言重要度较高(例如高于预定阈值)，并且通过值“0”来指示相应像素位置的特征信息的重要度较低，从而可以被过滤掉。

通过将针对各个字符识别模型232的注意力掩模与从图像102提取的特征图进行组合，可以确定相应的注意力特征表示232。注意力掩模可以将特征图中与识别对应类型的字符无关的特征信息过滤掉，使得字符识别模型232可以更多注意到有助于识别对应类型的字符的特征信息。由于不同字符识别模型232被配置为识别不同类型的字符，因此针对这些模型确定的注意力掩模不相同，由此确定的注意力特征表示222也不相同。

在一些实施例中，多个字符识别模型232中的一个或多个模型可以利用基于循环神经网络(RNN)的模型来实现字符识别。在基于RNN的模型中，隐藏层的输出不仅与输入有关，而且还与隐藏层前一时刻的输出有关。基于RNN的模型具有记忆功能，能够记忆模型前一次(前一时刻)的输出，并且进行反馈用于与当前输入一起产生当前时刻的输出。隐藏层的中间输出有时也称为中间状态或中间处理结果。由此，隐藏层的最终输出可以认为是对当前输入与过去记忆总和的处理结果。基于RNN的模型可以采用的处理单元例如包括长短时记忆(LSTM)单元、门控循环单元(GRU)等。基于RNN的模型是深度学习领域中熟知的技术，在此不再赘述。根据所选择的循环算法的不同，基于RNN的模型可以具有不同变形。应当理解，当前已使用的或者将来待开发的各种RNN结构均可以被用于从输入的注意力特征表示222来识别相应类型的字符。

图3示出了图2的系统200中的注意力机制部分220和字符识别部分230中的字符识别模型232的示例结构的框图。在图3的示例中，仅示出了字符识别部分230中的一个字符识别模型232，该字符识别模型232利用基于RNN的模型332来实现，特别是基于LSTM处理单元来实现。为了更好理解，在图3中，按层级展开基于RNN的模型332的处理。基于RNN的模型332中隐藏层的每次处理可以被认为是一个时刻。图3示出了基于RNN的模型332在多个时刻处的处理。

在时刻t，由注意力机制部分220确定并且被输入到基于RNN的模型332的注意力特征表示222可以被表示为：

其中W和H分别表示特征图形式的特征表示212的宽度和高度，和通道数目；u_t,c表示时刻t确定的通道c的注意力特征图，并且c的取值范围从1到通道数目C；a_t,i,j表示时刻t由注意力机制部分220提供的注意力掩模a_t中针对特征图的像素位置(i，j)的取值(通常取值为0或1)，i和j的取值范围由二维特征图的宽度和高度决定；f_i,j,c表示特征图在像素位置(i，j)的特征信息。如果通道数目C大于1，可以利用公式(1)确定每个通道对应的注意力特征图。所有确定的注意力特征图组成时刻t的注意力特征表示222(可以被统一表示为“u_t”)。

在时刻t，基于RNN的模型332可以处理前一时刻t-1确定的注意力特征表示u_t-1外，还考虑前一次处理(即前一时刻t-1)中基于RNN的模型332的输出，即针对对应类型的字符的识别结果(由符号“c_t-1”指示)。在一些实施例中，可以利用预定的权重来组合注意力特征表示u_t-1和前一时刻t-1基于RNN的模型332的输出c_t-1，这可以被表示为：

x_t＝W_c*c_t-1+W_u1*u_t-1 公式(2)

其中x_t表示时刻t由基于RNN的模型332的隐藏层处理的信息，权重W_c和W_u1通过针对基于RNN的模型332的训练过程来确定，训练过程将在下文中详细讨论。除了x_t之外，基于RNN的模型332的隐藏层还处理前一次处理(即前一时刻t-1)中基于RNN的模型332的另一中间处理结果，被表示为s_t-1。随着隐藏层的处理，基于RNN的模型332可以输出时刻t的中间处理结果，被表示为：

(o_t，s_t)＝RNN(x_t,s_t-1) 公式(3)

在时刻t，基于RNN的模型332的识别结果可以输出层334对时刻t的中间处理结果o_t和时刻t的注意力特征表示u_t进行加权组合之后，利用诸如映射函数(诸如softmax函数)对加权组合的结果进行处理，以确定时刻t中对多个候选字符的预测得分。这可以被表示为如下：

o*_t＝Softmax(W_oo_t+W_u2u_t) 公式(4)

其中权重W_o和W_u2通过针对基于RNN的模型332的训练过程来确定。进一步地，输出层334确定多个候选字符中具有较高或最高得分的候选字符，以作为时刻t的字符预测结果。这可以被表示为如下：

c_t＝Argmax_c(o*_t(t)) 公式(5)

为便于图示，在图3中仅示出了在一个时刻处的输出层334的处理，在之前或之后的时刻，均可以继续类似处理。在图3的示例中，在时刻0，由基于RNN的模型332的隐藏层处理的信息可以是0。

基于RNN的模型332在多个时刻预测的字符形成一个字符串，以作为最终的识别结果。

以上提及了在基于RNN的模型332中各个时刻t要利用由注意力机制部分220提供的注意力掩模a_t。因此，注意力机制部分220在基于RNN的模型332循环过程中可以不断更新针对该模型的注意力掩模a_t。图3还示出了注意力机制部分220的一个具体示例。在图3的实施例中，注意力机制部分220可以包括掩模确定部分322和掩模施加部分326。

掩模确定部分322可以被配置为确定基于RNN的模型332在时刻t要使用的注意力掩模324(被表示为a_t)。在一些实施例中，掩模确定部分322可以基于特征表示212和模型332在时刻t输出的中间处理结果s_t来确定时刻t的注意力掩模324a_t。在一个示例中，掩模确定部分322可以被实现为一个神经网络模型，其隐藏层利用预定的权重来组合特征表示212和中间处理结果，并且其激励层利用诸如tanh等激励函数对加权组合的结果进行处理，并且输出层利用诸如映射函数(诸如softmax函数)对加权组合的结果进行处理。例如，掩模确定部分322中的处理可以被表示为：

其中a_t,i,j表示时刻t由注意力机制部分220提供的注意力掩模324a_t中针对特征图的像素位置(i，j)的取值(通常取值为0或1)；权重W_s和W_f通过针对掩模确定部分322的模型的训练过程来确定；V_a表示一个预定向量，并且上标T表示向量的转置操作。

注意力机制部分220中的掩模施加部分326被配置为将注意力掩模324a_t与特征表示212进行组合，以确定时刻t被输入到基于RNN的模型332的注意力特征表示222(被表示为u_t)。

图3仅示出了单个字符识别模型232以及注意力机制部分220对字符识别模型232的注意力特征表示的提供。针对图2的字符识别部分230中的多个字符识别模型232，可以以与图3类似的方式实现字符识别模型232。在一些实施例中，针对不同字符识别模型232，注意力机制部分220均可以利用相同参数值(例如公式(6)中的权重W_s和W_f、向量V_a)确定它们的注意力特征表示222，但由于每个字符识别模型232提供的中间处理结果s_t的不同，得到的注意力特征表示222也不同。换言之，在系统200中，多个不同字符识别模型232共享特征提取部分210和注意力机制部分220。

应当理解，图3仅示出了字符识别模型232以及注意力机制部分220的一个具体示例。在其他实施例中，取决于用于实现字符识别的模型的不同和/或所采用的注意力机制的不同，字符识别模型232和/或注意力机制部分220的具体结构可以存在其他变形。本公开的实施例的范围在此方面不受限制。

在一些实施例中，不同于完全相互独立的运行，字符识别模型232可以以相互引导方式执行字符识别。具体地，多个字符识别模型232可以按照预定顺序执行各自的处理。在这样的顺序处理中，前一字符识别模型232生成的中间处理结果被提供给后一字符识别模型232，以此类推，直到最后一个字符识别模型232。参考回到图2，在字符识别部分230中，各个字符识别模型232之间可选地存在处理结果的传递。

后一字符识别模型232可以将这样的中间处理结果和相应的注意力特征表示232一起作为模型输入来进行处理，以便识别该通过处理中间处理结果和相应注意力特征表示来识别相应类型的字符。例如，在基于RNN的模型的示例实施例号，中间处理结果可以是基于RNN的模型输出的中间状态o_t、s_t等。在一些示例中，中间处理结果可以是基于RNN的模型最后一次处理输出的。因此，不同字符识别模型之间的中间状态可以在模型之间转移。由于前一字符识别模型232的处理使得中间处理结果可以包含一些重要的字符位置、语义等信息，这样的信息有助于提高后一字符识别模型232的抗干扰性，提高识别准确度，实现整体相互促进的效果。

在一些实施例中，多个字符识别模型232的处理的顺序可以根据需要被预先确定或配置。在一些实施例中，这样的顺序可以根据这些字符识别模型232要识别的字符类型在图像中的相对位置来确定，这特别适合于输入图像中各个类型的字符按特定结构布局的情况。例如，可以将各个字符类型在图像中从上到下、从左到后的顺序或者按相反顺序确定为多个字符识别模型232的顺序。应当理解，任何其他顺序也是可行的。本公开的实施例的范围在此方面不受限制。

在以上讨论的实施例中，各个字符识别模型库232、特征提取部分210和/或注意力机制部分220可以基于机器学习模型的方式来实现。在以上讨论中，这些机器学习模型的参数的取值假设已经被确定，从而这些模型可以利用预定的参数值来对输入进行处理，以提供相应输出。机器学习模型的参数的取值是通过训练过程来确定。在训练过程中，向机器学习模型输入训练数据，例如要识别的各个图像，并且监测机器学习模型在当前参数值的情况下生成的预测识别结果，即预测字符。通过确定预测字符与各个图像中已知的真实字符之间的差异，来继续更新机器学习模型的当前参数值，以使得这样的差异不断降低，直到符合差异最小化或者符合预定准则。此时，可以认为机器学习模型被训练到收敛状态。在收敛状态下机器学习模型的最终参数值可以被用于后续执行实际的字符识别。

可以利用当前已知的或者将来待开发的各种模型训练方法来执行对系统200中各个机器学习模型的训练。在一些实施例中，对于系统200，可以采用端到端的训练方式，即将整个系统200认为是一个机器学习模型，以使得整体机器学习模型被训练到能够对给定输入提供符合要求的输出。

在以上讨论的一些实施例中，多个字符识别模型232按预定顺序指定处理。在这种情况下，在模型训练阶段，可也可以按照该预定顺序来训练多个字符识别模型232。在这样的预定顺序中，在前一字符识别模型232被训练到收敛状态之后才开始后一字符识别模型232的训练。也就是说，在前一个字符识别模型232被训练时，后一字符识别模型232的参数值不进行更新。在后一字符识别模型232的训练期间，前一字符识别模型232生成的中间处理结果被提供给后一字符识别模型232，以用于后一字符识别模型232的训练。具体而言，在后一字符识别模型232的训练期间，继续向系统200提供用于训练的图像。在这样的输入基础上，前一字符识别模型232生成的中间处理结果被提供给后一字符识别模型232，后一字符识别模型232将这样的中间处理结果和从当前输入的图像确定的注意力特征表示一起进行处理。在后一字符识别模型232的训练期间，仅该模型的参数的取值被更新。

按照预定顺序，不断更新各个字符识别模型232，直到最后一个字符识别模型。这样的按顺序训练单次仅训练单个字符识别模型，从而使得模型收敛更容易。此外，已训练到收敛状态的模型的中间处理结果可以更好地引导后一字符识别模型的训练，提高模型识别的准确度上限。

在一些实施例中，系统200的训练数据可以包括合成图像和真实采集图像。合成图像和真实采集图像在不同训练阶段被使用。图4示出了根据本公开的一些实施例的在训练阶段中图2的系统的示意框图。在第一训练阶段(A)，利用合成图像410来训练系统200，特别是系统200中的多个字符识别模型232中的一个或多个。不同于真实采集图像，合成图像410是通过将多个字符识别模型232要识别的类型的样本字符合成到背景图像中而生成的。

图4还是以电子行程单为例进行说明。假设多个字符识别模型232分别要识别“电子客票号”、“旅客姓名”、“出发地”、“目的地”和“航班号”这些类型的字符，如图4所示，合成图像410的背景图像是空白的航空运输电子客票行程单。通过将这些类型的样本字符，诸如电子客票号“7812893776”、旅客姓名“黄峥”、出发地“成都CTU”、目的地“深圳宝安”、航班号“HU7626”这些字符合成到空白的航空运输电子客票行程单中，可以得到合成图像410。合成图像410然后可以作为训练输入被输入到系统200。在系统200的各个参数的当前取值基础上，系统200提供预测识别结果412。通过预测识别结果412与合成图像410中已知的各个字符之间的差异，可以更新系统200的参数的取值。

应当理解，虽然仅示出了一个合成图像412，在第一训练阶段(A)中，可以利用多个不同的合成图像412来进行训练。这些不同的合成图像412中可以包括不同的样本字符，但类型相同。通过利用这样的合成图像作为训练数据来执行训练，可以引导字符识别模型232在第一训练阶段(A)中首先注意到它们各自要识别的类型的字符在图像中的相对位置。

在一些实施例中，在第二训练阶段(B)中，利用真实采集图像420来训练系统200，特别是系统200中的多个字符识别模型232中的一个或多个。与合成图像410相比，真实采集图像420中可能包括与要识别的字符类型无关的更多其他字符。真实采集图像420可以有助于更精细调整系统200的参数的取值，使得系统200能够学习到如何处理在实际应用中被输入的图像。

在第二训练阶段(B)中，真实采集图像420可以作为训练输入被输入到系统200。此时系统200的各个参数具有在第一训练阶段(A)中确定的取值。系统200在当前取值的基础上处理输入的真实采集图像420，并提供预测识别结果422。通过预测识别结果422与合成图像420中已知的各个字符之间的差异，可以进一步更新系统200的参数的取值。在第二训练阶段(B)中可以使系统200被训练到收敛状态。

在一些实施例中，可以利用不同类型的图像作为训练图像来训练系统200。例如，除了与航空运输电子客票行程单相关的图像之外，还可以利用与火车票、汽车票相关的图像作为训练数据去训练系统200。这样，训练得到的系统200可以被更广泛地应用于从不同类型的图像中识别出其中可能包括的特定类型的字符。

图5示出了根据本公开的一些实施例的识别图像中的字符的方法500的流程图。方法500可以由图1的计算设备110来实现，例如由被实现在计算设备110中的系统200来实现。为便于讨论，将参照图1来描述方法500。应当理解，虽然以特定顺序示出，方法500中的一些步骤可以以与所示出的不同顺序或者以并行方式执行。本公开的实施例在此方面不受限制。

在框510，计算设备110提取图像的特征表示。在框520，计算设备110通过对特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，多个字符识别模型分别被配置用于识别多个类型的字符。框530，计算设备110利用多个字符识别模型来分别处理多个注意力特征表示，以识别图像中与多个类型相关的字符。

在一些实施例中，处理多个注意力特征表示包括：按照预定顺序利用多个字符识别模型来分别处理多个注意力特征表示，多个字符识别模型中的前一字符识别模型生成的中间处理结果被提供给后一字符识别模型，以供后一字符识别模型通过处理中间处理结果和相应注意力特征表示来识别相应类型的字符。

在一些实施例中，多个字符识别模型按照预定顺序被训练得到，并且在多个字符识别模型中的前一字符识别模型被训练到收敛状态之后，前一字符识别模型生成的中间处理结果被提供用于后一字符识别模型的训练。

在一些实施例中，多个字符识别模型中的至少一个字符识别模型在第一训练阶段利用合成图像被训练，并且在随后的第二训练阶段利用真实采集图像被训练，合成图像通过将多个类型的样本字符合成到背景图像中而生成。

在一些实施例中，提取图像的特征表示包括：利用基于卷积神经网络的模型来提取图像的特征表示。

在一些实施例中，确定多个注意力特征表示包括：针对多个字符识别模型中的给定字符识别模型，确定针对给定字符识别模型的注意力掩模，注意力掩模指示特征表示中对该字符识别模型要识别的类型的字符的重要度高于预定阈值的一部分特征信息；以及通过将注意力掩模和特征表示组合，来确定针对给定字符识别模型的注意力特征表示。

在一些实施例中，多个字符识别模型中的至少一个字符识别模型包括基于循环神经网络的模型。

在一些实施例中，多个类型中的至少一个类型对应于图像中至少两个区域的字符，至少两个区域的字符具有相关联的语义。

图6示出了根据本公开实施例的用于识别图像中的字符的装置600的示意性框图。装置600可以被包括在图1的计算设备110中或者被实现为计算设备110。如图6所示，装置600包括特征提取模块610，被配置为提取图像的特征表示。装置600还包括注意力机制模块620，被配置为通过对特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，多个字符识别模型分别被配置用于识别多个类型的字符。装置600进一步包括字符识别模块630，被配置为利用多个字符识别模型来分别处理多个注意力特征表示，以识别图像中与多个类型相关的字符。

在一些实施例中，字符识别模块包括：按顺序识别模块，被配置为按照预定顺序利用多个字符识别模型来分别处理多个注意力特征表示，多个字符识别模型中的前一字符识别模型生成的中间处理结果被提供给后一字符识别模型，以供后一字符识别模型通过处理中间处理结果和相应注意力特征表示来识别相应类型的字符。

在一些实施例中，特征提取模块包括：基于模型的提取模块，被配置为利用基于卷积神经网络的模型来提取图像的特征表示。

在一些实施例中，注意力机制模块包括：针对多个字符识别模型中的给定字符识别模型，掩模确定模块，被配置为确定针对给定字符识别模型的注意力掩模，注意力掩模指示特征表示中对该字符识别模型要识别的类型的字符的重要度高于预定阈值的一部分特征信息；以及掩模施加模块，被配置为通过将注意力掩模和特征表示组合，来确定针对给定字符识别模型的注意力特征表示。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图1的计算设备110。如图所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法500。例如，在一些实施例中，方法500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的方法500的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法500。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种识别图像中的字符的方法，包括：

提取所述图像的特征表示；

通过对所述特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，所述多个字符识别模型分别被配置用于识别多个类型的字符；以及

按照预定顺序利用所述多个字符识别模型来分别处理所述多个注意力特征表示，以识别所述图像中与所述多个类型相关的字符，所述多个字符识别模型中的前一字符识别模型生成的中间处理结果被提供给后一字符识别模型，以供所述后一字符识别模型通过处理所述中间处理结果和相应注意力特征表示来识别相应类型的字符。

2.根据权利要求1所述的方法，其中所述多个字符识别模型按照所述预定顺序被训练得到，并且

其中在所述多个字符识别模型中的前一字符识别模型被训练到收敛状态之后，所述前一字符识别模型生成的中间处理结果被提供用于所述后一字符识别模型的训练。

3.根据权利要求1所述的方法，其中所述多个字符识别模型中的至少一个字符识别模型在第一训练阶段利用合成图像被训练，并且在随后的第二训练阶段利用真实采集图像被训练，所述合成图像通过将所述多个类型的样本字符合成到背景图像中而生成。

4.根据权利要求1所述的方法，其中提取所述图像的特征表示包括：

利用基于卷积神经网络的模型来提取所述图像的特征表示。

5.根据权利要求1所述的方法，其中确定所述多个注意力特征表示包括：针对所述多个字符识别模型中的给定字符识别模型，

确定针对所述给定字符识别模型的注意力掩模，所述注意力掩模指示所述特征表示中对该字符识别模型要识别的类型的字符的重要度高于预定阈值的一部分特征信息；以及

通过将所述注意力掩模和所述特征表示组合，来确定针对所述给定字符识别模型的注意力特征表示。

6.根据权利要求1所述的方法，其中所述多个字符识别模型中的至少一个字符识别模型包括基于循环神经网络的模型。

7.根据权利要求1所述的方法，其中所述多个类型中的至少一个类型对应于所述图像中至少两个区域的字符，所述至少两个区域的字符具有相关联的语义。

8.一种用于识别图像中的字符的装置，包括：

特征提取模块，被配置为提取所述图像的特征表示；

注意力机制模块，被配置为通过对所述特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示，所述多个字符识别模型分别被配置用于识别多个类型的字符；以及

字符识别模块，被配置为利用所述多个字符识别模型来分别处理所述多个注意力特征表示，以识别所述图像中与所述多个类型相关的字符，其中所述字符识别模块包括：

按顺序识别模块，被配置为按照预定顺序利用所述多个字符识别模型来分别处理所述多个注意力特征表示，所述多个字符识别模型中的前一字符识别模型生成的中间处理结果被提供给后一字符识别模型，以供所述后一字符识别模型通过处理所述中间处理结果和相应注意力特征表示来识别相应类型的字符。

9.根据权利要求8所述的装置，其中所述多个字符识别模型按照所述预定顺序被训练得到，并且

10.根据权利要求8所述的装置，其中所述多个字符识别模型中的至少一个字符识别模型在第一训练阶段利用合成图像被训练，并且在随后的第二训练阶段利用真实采集图像被训练，所述合成图像通过将所述多个类型的样本字符合成到背景图像中而生成。

11.根据权利要求8所述的装置，其中所述特征提取模块包括：

基于模型的提取模块，被配置为利用基于卷积神经网络的模型来提取所述图像的特征表示。

12.根据权利要求8所述的装置，其中所述注意力机制模块包括：针对所述多个字符识别模型中的给定字符识别模型，

掩模确定模块，被配置为确定针对所述给定字符识别模型的注意力掩模，所述注意力掩模指示所述特征表示中对该字符识别模型要识别的类型的字符的重要度高于预定阈值的一部分特征信息；以及

掩模施加模块，被配置为通过将所述注意力掩模和所述特征表示组合，来确定针对所述给定字符识别模型的注意力特征表示。

13.根据权利要求8所述的装置，其中所述多个字符识别模型中的至少一个字符识别模型包括基于循环神经网络的模型。

14.根据权利要求8所述的装置，其中所述多个类型中的至少一个类型对应于所述图像中至少两个区域的字符，所述至少两个区域的字符具有相关联的语义。

15.一种电子设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。