CN113159053A

CN113159053A - 图像识别方法、装置及计算设备

Info

Publication number: CN113159053A
Application number: CN202110459094.9A
Authority: CN
Inventors: 范湉湉; 卢永晨; 黄灿; 王长虎
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-23

Abstract

本申请实施例提供一种图像识别方法、装置及计算设备，该方法包括：获取待处理的第一图像；将所述第一图像输入光学字符识别网络中，得到所述第一图像中的文字信息，其中所述光学字符识别网络是经过语义分割网络辅助训练过的，所述语义分割网络用于预测图像中文字的位置信息，并且和所述光学字符识别网络共享所述光学字符识别网络的中间层提取的特征。本申请通过语义分割网络辅助训练光学字符识别网络，使得光学字符识别网络自动注意到第一图像中的文字区域，进而减轻了光学字符识别网络的预测难度，从而提升光学字符识别网络的精度，实现对复杂场景，例如严重弯曲、旋转、垂直的文字的准确识别。

Description

图像识别方法、装置及计算设备

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种图像识别方法、装置及计算设备。

背景技术

随着深度学习的发展，目标识别技术愈发成熟，例如光学字符识别(OpticalCharacter Recognition，OCR)是一种对图像进行分析识别处理，获取图像内文本及版面信息的方法。

但是，在一些场景中，例如餐厅标牌、产品标签、公司徽标等，会出现文字的形状复杂畸变的情况，例如文本严重弯曲、旋转、垂直等，在这些场景中，目前的目标识别技术，无法准确识别出图像中的文字。

发明内容

本申请实施例提供一种图像识别方法、装置及计算设备，用于实现对图像中文字的准确识别。

第一方面，本申请实施例提供一种图像识别方法，包括：

获取待处理的第一图像；

将所述第一图像输入光学字符识别网络中，得到所述第一图像中的文字信息，其中所述光学字符识别网络是经过语义分割网络辅助训练过的，所述语义分割网络用于预测图像中文字的位置信息，并且和所述光学字符识别网络共享所述光学字符识别网络的中间层提取的特征。

第二方面，本申请实施例提供一种图像识别装置，包括：

第一获取单元，用于获取待处理的第一图像；

识别单元，用于将所述第一图像输入光学字符识别网络中，得到所述第一图像中的文字信息，其中所述光学字符识别网络是经过语义分割网络辅助训练过的，所述语义分割网络用于预测图像中文字的位置信息，并且和所述光学字符识别网络共享所述光学字符识别网络的中间层提取的特征。

第三方面，本申请实施例提供一种计算设备，包括处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质包括计算机指令，当所述指令被计算机执行时，使得所述计算机实现如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得计算机实施第一方面所述的方法。

本申请实施例提供的图像识别方法、装置及计算设备，通过语义分割网络辅助训练光学字符识别网络，使得光学字符识别网络自动注意到第一图像中的文字区域，进而减轻了光学字符识别网络的预测难度，从而提升光学字符识别网络的精度，实现对复杂场景，例如严重弯曲、旋转、垂直的文字的准确识别。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请涉及的待训练的光学字符识别网络和语义分割网络的示意图；

图2为本申请实施例涉及的一种光学字符识别网络的训练方法的流程示意图；

图3为本申请实施例涉及的一种光学字符识别网络的训练方法的流程示意图；

图4为本申请涉及的另一种待训练的光学字符识别网络和语义分割网络的示意图；

图5为本申请实施例涉及的一种transformer网络的结构示意图；

图6为本申请涉及的另一种待训练的光学字符识别网络和语义分割网络的示意图；

图7为本申请实施例提供的一种图像识别方法的流程示意图；

图8为本申请实施例训练好的光学字符识别网络的结构示意图；

图9为本申请实施例提供的图像识别装置的一种结构示意图；

图10为本申请实施例提供的图像识别装置的另一种结构示意图；

图11为本申请实施例涉及的计算设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请实施例涉及人工智能技术领域，具体涉及一种图像识别方法、装置及计算设备。

为了便于理解本申请的实施例，首先对本申请实施例涉及到的相关概念进行如下简单介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

应理解，在本发明实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

首先对神经网络的训练过程进行介绍。

图1为本申请涉及的待训练的光学字符识别网络和语义分割网络的示意图。

其中，语义分割网络用于预测出图像中文字的位置信息。

其中，光学字符识别网络用于识别图像中的文字。

如图1所示，光学字符识别网络包括中间层，该中间层与语义分割网络的输入层连接。光学字符识别网络的中间层的输出为语义分割网络的输入。该语义分割网络用于辅助训练光学字符识别网络，使得训练后的图像隐式编码图像中文字的位置信息，进而提高光学字符识别网络对文字的识别准确性。

在一些实施例中，上述语义分割网络为可插拔分支，在训练阶段，该语义分割网络辅助该光学字符识别网络学习文字的位置信息，在实际预测阶段，可以移除该语义分割网络，使用学习了文字的位置信息的光学字符识别网络来识别图像中的文字，从而在不增加预测时间和计算复杂度的情况下，提升光学字符识别网络对文字的识别准确性。

图2为本申请实施例涉及的一种光学字符识别网络的训练方法的流程示意图。如图1和图2所示，本申请实施例的方法包括：

S201、获取训练图像；

S202、使用训练图像对光学字符识别网络和语义分割网络进行端到端的训练，其中语义分割网络的输入为光学字符识别网络的中间层的输出。

本申请实施例的执行主体为具有模型训练功能的装置，例如图像识别装置。在一些实施例中，该图像识别装置为计算设备。在一些实施例中，上述图像识别装置为计算设备中具有数据处理功能的单元，例如为计算设备中的处理器。本申请实施例以执行主体为计算设备为例进行说明。

在一些实施例中，上述计算设备可以为终端设备，例如终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑、智能摄相机等。

上述训练图像可以理解为训练图像集中的一张训练图像，其中训练图像集中每一张训练图像的训练过程相同，为了便于阐述，本实施例以一张训练图像为例进行说明。

在一些实施例中，在每次训练过程内，对光学字符识别网络输入一张训练图像。在该张训练图像训练完后，输入下一张训练图像开始训练。

在一些实施例中，在每次训练过程内，可以输入多张训练图像，使用多张训练图像同时对图1所示的模型进行训练。

如图1所示，获取训练图像后，将该训练图像输入光学字符识别网络，光学字符识别网络的中间层输出特征图，将该特征图输入语义分割网络，对光学字符识别网络和语义分割网络进行端到端的训练。具体是，使用训练图像对光学字符识别网络进行训练，使用光学字符识别网络的中间层输出的特征图对光学字符识别网络和语义分割网络进行训练，由于该语义分割网络与光学字符识别网络共享光学字符识别网络的中间层，因此，随着训练的进行，光学字符识别网络自动隐式编码了文字的位置信息，使得光学字符识别网络可以自动注意到图片中的文字区域，降低了光学字符识别网络的预测难度，从而提升了光学字符识别网络的识别精度。

下面参照图3对上述S202中使用训练图像对光学字符识别网络和语义分割网络进行端到端的训练进行详细介绍。

图3为本申请实施例涉及的一种光学字符识别网络的训练方法的流程示意图，如图3所示，上述S202包括：

S301、将训练图像输入光学字符识别网络中，得到光学字符识别网络的中间层输出的第一特征图，以及光学字符识别网络预测的训练图像中文字信息；将第一特征图输入语义分割网络，得到语义分割网络预测的训练图像中文字的位置信息；

S302、根据光学字符识别网络预测的文字信息与训练图像中文字的真实信息之间的差异，以及语义分割网络预测的文字的位置信息与文字在训练图像中的真实位置信息之间的差异，对光学字符识别网络和语义分割网络进行端到端训练。

本实施例中，光学字符识别网络的中间层输出特征图，将该特征图即为第一特征图。

在一些实施例中，在训练之前，对训练图像中文字的真实位置信息进行标注，同时，对训练图像中文字的真实信息进行标注。

在训练时，如图1所示，将训练图像输入光学字符识别网络，该光学字符识别网络的中间层输出第一特征图，光学字符识别网络预测出训练图像中文字信息。在一些实施例中，文字信息包括文字的类型、文字的形状等。其中，中间层输出的第一特征图作为语义分割网络的输入，输入到语义分割网络中，语义分割网络预测出该训练图像中文字的位置信息。

对光学字符识别网络预测的文字信息与训练图像中文字的真实信息进行比较，得到光学字符识别网络预测的文字信息与训练图像中所述文字的真实信息之间的差异。对语义分割网络预测的文字的位置信息与文字在训练图像中的真实位置信息进行比较，得到语义分割网络预测的文字的位置信息与文字在训练图像中的真实位置信息之间的差异。根据光学字符识别网络预测的文字信息与训练图像中文字的真实信息之间的差异，以及语义分割网络预测的文字的位置信息与文字在所述训练图像中的真实位置信息之间的差异，对光学字符识别网络和语义分割网络进行端到端训练。

在一些实施例中，根据光学字符识别网络预测的文字信息与训练图像中文字的真实信息，计算光学字符识别网络对应的损失，根据语义分割网络预测的文字的位置信息与文字在所述训练图像中的真实位置信息，计算语义分割网络对应的损失，根据计算得到的光学字符识别网络对应的损失和语义分割网络对应的损失，对光学字符识别网络和语义分割网络中的参数进行调节，实现端到端的训练。

在一种可能的实现方式中，光学字符识别网络的中间层为事先训练好的，在上述根据光学字符识别网络对应的损失和语义分割网络对应的损失，对光学字符识别网络和语义分割网络中的参数进行调节时，可以对光学字符识别网络的中间层的参数不进行调整。

可选的，光学字符识别网络计算损失所使用的损失函数包括如下任意一种：对数损失函数、平方损坏函数、指数损失函数、交叉熵损失函数、均方误差损失函数。

可选的，语义分割网络计算损失所使用的损失函数包括如下任意一种：对数损失函数、平方损坏函数、指数损失函数、交叉熵损失函数、均方误差损失函数。

在一些实施例中，光学字符识别网络包括卷积神经网络，第一特征图为卷积神经网络的输出的特征图。也就是说，上述所述的光学字符识别网络的中间层为光学字符识别网络中的卷积神经网络。

其中，卷积神经网络(Convolutional Neural Networks，简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks，简称FNN)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks，SIANN)”。

在一些实施例中，上述卷积神经网络可以为浅层卷积神经网络(shallow CNN)，该浅层卷积神经网络输出训练图像的第一特征图。

在一些实施例中，如图4所示，语义分割网络包括去卷积层，该去卷积层用于将第一特征图转换为第二特征图。

其中，去卷积层也称为反卷积层，去卷积层可以看成是卷积层的逆过程，以卷积层得到的特征图作为输入，进行反卷积，得到反卷积结果，用以验证显示各卷积层提取到的特征图是否准确。

可选的，该第二特征图的大小与训练图像的大小一致，例如训练图像的大小为16X16，即训练图像包括16行像素点，每行像素点包括16个像素点。对应的，第二特征图的大小也为16X16。

在一些实施例中，上述第二特征图可以理解为对第一特征图进行反卷积，得到的训练图像。

在一些实施例中，图4中的去卷积层包括至少一个去卷积子层。可选的，至少一个去卷积层串联，即上一个去卷积层的输出为下一个去卷积层的输入。

继续参照图4，语义分割网络还包括字符分割层，该字符分割层与去卷积层连接，即去卷积层对卷积神经网络输出的第一特征图进行去卷积，得到第二特征图，并将该第二特征图输入字符分割层，该字符分割层基于该第二特征图，预测训练图像中文字的位置信息。

在一些实施例中，语义分割网络输出的文字的位置信息为文字在训练图像中位置的二值化掩膜。

在一些实施例中，光学字符识别网络除了包括卷积神经网络外，还包括文字识别模块，该文字识别模块的输入端与卷积神经网络的输出端连接，该文字识别模块基于卷积神经网络输出的第一特征图，识别出训练图像中文字。

在一些实施例中，上述文字识别模块可以为transformer网络。

图5为本申请实施例涉及的一种transformer网络的结构示意图。需要说明的是，图5只是一种示例，本申请实施例涉及的transformer网络的结构包括但不限于图5所示。

如图5所示，transformer网络包括编码组件和解码组件组成。

其中，编码组件包括至少一个编码器(encoder)，图5左侧的“NeX”表示编码器的个数。在一些实施例中，编码组件包括6个编码器。所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成4个子层，包括多头注意力层(multi-headattention)、加和与归一化(add&norm)层、位置感知前馈层(locality aware feed-forward)和加和与归一化层。在一些实施例中，位置感知前馈网络为全连接的前馈神经网络。

卷积神经网络对当前输入进行处理，得到多个特征向量；当前编码器，从当前编码器的上一层获取M个输入向量。针对M个输入向量中的每一个输入向量，以该输入向量为中心，基于预设的注意力窗口范围内的各个输入向量与该输入向量之间的关联度，得到该输入向量对应的中间向量。参照该方式，可以确定出M个输入向量中每个输入向量对应的中间向量。接着，将M个中间向量合并为Q个输出向量。若当前编码器为编码组件中的最后一个编码器，则将该编码器输出的Q个输出向量作为当前输入的特征表示。

下面结合具体实例对多头注意力层(Multi-HeadAttention)、加和与归一化(add&norm)层和位置感知前馈层(locality aware feed-forward)分别进行介绍。

(1)多头注意力层(Multi-HeadAttention)

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。注意力机制的本质思想可以改写为如下公式：

其中，Lx＝||Source||代表Source的长度，公式含义即将Source中的构成元素想象成是由一系列的数据对构成，此时给定目标Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。从概念上理解，把Attention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。自注意力机制可以理解为内部Attention(intra attention)，Attention机制发生在Target的元素Query和Source中的所有元素之间，自注意力机制指的是在Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target＝Source这种特殊情况下的注意力计算机制。

在一些实施例中，attention可由以下公式(1)表示：

attention_output＝Attention(Q,K，V) (1)

Multi-HeadAttention由多个Self-Attention组成。流入Self-Attention的输入值会通过三个不同的层形成三个向量：query(Q)、keys(K)、values(V)。Attention功能可以看成是将query和一系列key-value对映射成输出，query，keys，values和output都是向量。output是values的加权和，对每个value设置的权重是通过计算query和其对应的key的相关函数(compatibility function)得到的。multi-head attention通过h个不同的线性变换对Q，K，V进行投影，根据如下公式(2)和(3)将不同的attention结果拼接起来：

MultiHead(Q，K，V)＝Concant(head₁，...，head_h)W^O (2)

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V) (3)

其中，W^O、W_i ^Q、W_i ^K、W_i ^V为学习矩阵。

(2)加和与归一化层(add&norm)

将Multi-HeadAttention输出向量与最初的输入向量通过Add层以及LayerNormalization层，Add层起到两层神经网络结果相加的作用，LayerNormalization起到层归一化的作用。加和与归一化层可以防止梯度消失，加快收敛。

(3)位置感知前馈层(locality aware feed-forward)

位置感知前馈层主要是提供非线性变换。位置感知前馈网络是个全连接层。该前馈层单独且相同地应用于每个位置。它由两个线性变换组成，之间有一个ReLU激活。尽管线性变换在不同位置上是相同的，但层与层之间使用不同的参数。前馈层的另一种描述方式是两个内核大小为1的卷积。输入和输出的维度为dmodel＝512，内部层的维度为dff＝2048。

其中，解码组件包括至少一个解码器(Decoder)，Decoder和Encoder的结构差不多，但是多了一个attention的sub-layer，这里先明确一下decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出对应i-1位置decoder的输出。decoder中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

解码：这里要注意一下，训练和预测是不一样的。在训练时，解码是一次全部解码出来，用上一步的真值来预测；而预测时，因为没有真值了，需要逐一进行预测。

解码组件还包括嵌入层，嵌入层可以称为输入嵌入(input embedding)层。当前输入可以为文本输入，例如可以为一段文本，也可以为一个句子。文本可以为中文文本，也可以为英文文本，还可以为其他语言文本。嵌入层在获取当前输入后，可以对该当前输入中各个词进行嵌入处理，可得到各个词的特征向量。在输入嵌入层，可以对当前输入中的各个词进行词嵌入处理，从而得到各个词的词嵌入向量。在位置编码层，可以获取各个词在该当前输入中的位置，进而对各个词的位置生成位置向量。在一些示例中，各个词的位置可以为各个词在该当前输入中的绝对位置。当得到当前输入中各个词的词嵌入向量和位置向量时，可以将各个词的位置向量和对应的词嵌入向量进行组合，得到各个词特征向量，即得到该当前输入对应的多个特征向量。多个特征向量可以表示为具有预设维度的嵌入矩阵。可以设定该多个特征向量中的特征向量个数为M，预设维度为H维，则该多个特征向量可以表示为M×H的嵌入矩阵。

位置编码(Positional Encoding)

transformer模型中缺少解释输入序列中单词顺序的方法。为了解决该问题，transformer给编码组件和解码组件的输入添加了一个额外的位置编码(PositionalEncoding)，用于学习词的位置，或者用于学习在一个句子中不同的词之间的距离，输出一个位置向量。这个位置向量的具体计算方法有很多种，例如计算方法如公式(4)和(5)所示：

其中，pos是指当前词在句子中的位置，i是指向量中每个值的索引，在偶数位置使用正弦编码，在奇数位置使用余弦编码。

在一些实施例中，编码端的位置编码可以为自适应2D位置编码。

上述对图5所示的transformer网络进行介绍，需要说明的是，图5只是一种示例，本申请的transformer网络还可以包括比图5所示更多的网络层或更少的网络层。

在一具体的实施例中，图6为本申请涉及的另一种待训练的光学字符识别网络和语义分割网络的示意图，如图6所示，光学字符识别网络包括卷积神经网络和transformer网络，语义分割网络包括去卷积层和字符分割层，其中卷积神经网络的输出端分别与去卷积层的输入端和transformer网络的输入端连接。

示例性的，训练图像的文字为字符A、B、C，将训练图像输入卷积神经网络，该卷积神经网络对该训练图像进行处理，输出训练图像的第一特征图，一方面，卷积神经网络将该第一特征图分别输入transformer网络，transformer网络对第一特征图进行处理，识别出训练图像中的字符A、B、C。

另一方面，卷积神经网络将该第一特征图输入语义分割网络中的去卷积层。去卷积层对第一特征图进行反卷积处理，输出第二特征图，并将第二特征图输入字符分割层，字符分割层对第二特征图进行字符分割，预测出训练图像中字符A、B、C在训练图像中的位置信息。

使用语义分割网络对应的损失函数，计算语义分割网络预测的字符在训练图像中的位置信息与字符在训练图像中的位置信息在训练图像中的真实位置信息之间的第一损失，以及使用光学字符识别网络对应的损失函数，计算光学字符识别网络识别出的训练图像中字符信息和训练图像中字符真实信息之间的第二损失。根据第一损失，反向训练语义分割网络和卷积神经网络，根据第二损失，反向训练光学字符识别网络中的识别网络和卷积神经网络。

随着训练的进行，语义分割网络预测的文字位置信息与文字的真实位置信息接近，使得语义分割网络有效编码了文字的位置信息。而由于该语义分割网络与光学字符识别网络共享CNN部分，CNN提取的第一特征图同时用于文字识别和文字位置信息预测。随着训练的进行，CNN自动隐式编码了文字的位置信息，由于CNN为光学字符识别网络的一部分，进而使得光学字符识别网络可以自动注意到图像中的文字区域，进而减轻了光学字符识别网络的预测难度，从而提升光学字符识别网络的精度，实现对复杂场景，例如严重弯曲、旋转、垂直的文字的准确识别。

另外，由于该语义分割网络和光学字符识别网络在训练阶段是同时端到端训练的，光学字符识别网络中的transformer网络帮助CNN提取文字的语义信息，语义分割网络帮助CNN提取文字的位置信息，两种信息相互补充，因此强化了CNN的特征提取能力。

上文对光学字符识别网络的训练过程进行详细介绍，下面对光学字符识别网络的预测过程进行介绍。

图7为本申请实施例提供的一种图像识别方法的流程示意图，即本申请实施例主要介绍使用上述训练好的光学字符识别网络，对第一图像进行文字识别的过程。如图7所示，包括：

S701、获取待处理的第一图像；

S702、将该第一图像输入光学字符识别网络中，得到第一图像中的文字信息。

其中，光学字符识别网络是经过语义分割网络辅助训练过的，语义分割网络用于预测图像中文字的位置信息，并且和光学字符识别网络共享光学字符识别网络的中间层提取的特征。

上述待处理的第一图像包括至少一个文字。

在一些实施例中，训练好的光学字符识别网络与训练好的语义分割网络连接在一起，例如图6所示。将第一图像输入光学字符识别网络，该光学字符识别网络识别出第一图像中的文字，由于光学字符识别网络中的CNN部分可以自动注意到图像中的文字区域，进而减轻了光学字符识别网络的预测难度，从而提升光学字符识别网络的精度。同时，CNN部分输出的特征图输入到语义分割网络，该语义分割网络识别出第一图像中文字的位置信息。

在一些实施例中，待光学字符识别网络训练好后，将语义分割网络移除，得到如图8所示的光学字符识别网络。将第一图像输入光学字符识别网络，该光学字符识别网络识别出第一图像中的文字。

本申请的光学字符识别网络，通过语义分割网络辅助训练光学字符识别网络，使得光学字符识别网络自动注意到第一图像中的文字区域，进而降低了光学字符识别网络的预测难度，从而提升光学字符识别网络的精度，实现对复杂场景，例如严重弯曲、旋转、垂直的文字的准确识别。

图9为本申请实施例提供的图像识别装置的一种结构示意图。该图像识别装置可以是计算设备，也可以是计算设备的部件(例如，集成电路，芯片等等)。如图9所示，该图像识别装置100可以包括：

第一获取单元110，用于获取待处理的第一图像；

识别单元120，用于将所述第一图像输入光学字符识别网络中，得到所述第一图像中的文字信息，其中所述光学字符识别网络是经过语义分割网络辅助训练过的，所述语义分割网络用于预测图像中文字的位置信息，并且和所述光学字符识别网络共享所述光学字符识别网络的中间层提取的特征。

图10为本申请实施例提供的图像识别装置的另一种结构示意图。如图10所示，该图像识别装置100还可以包括：

第二获取单元130，用于获取训练图像；

训练单元140，用于使用所述训练图像对所述光学字符识别网络和所述语义分割网络进行端到端的训练，其中所述语义分割网络的输入为所述光学字符识别网络的中间层的输出。

在一些实施例中，训练单元140，具体用于将所述训练图像输入所述光学字符识别网络中，得到所述光学字符识别网络的中间层输出的第一特征图，以及所述光学字符识别网络预测的所述训练图像中文字信息；将所述第一特征图输入所述语义分割网络，得到所述语义分割网络预测的所述训练图像中文字的位置信息；根据所述光学字符识别网络预测的文字信息与所述训练图像中所述文字的真实信息之间的差异，以及所述语义分割网络预测的文字的位置信息与所述文字在所述训练图像中的真实位置信息之间的差异，对所述光学字符识别网络和所述语义分割网络进行端到端训练。

在一些实施例中，所述光学字符识别网络包括卷积神经网络，所述第一特征图为所述卷积神经网络的输出的特征图。

在一些实施例中，所述语义分割网络包括去卷积层，所述去卷积层用于将所述第一特征图转换为第二特征图。

可选的，所述第二特征图的大小与所述训练图像的大小一致。

在一些实施例中，所述语义分割网络还包括字符分割层，所述字符分割层基于所述第二特征图，预测所述训练图像中所述文字的位置信息。

可选的，所述语义分割网络输出的为所述文字在所述训练图像中位置的二值化掩膜。

在一些实施例中，所述光学字符识别网络还包括识别网络，所述识别网络的输入端与所述卷积神经网络的输出端连接，用于根据所述卷积神经网络输出的第一特征图识别出所述训练图像中的文字。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图9所示的装置100可以对应于执行本申请实施例的方法中的相应主体，并且装置100中的各个单元的前述和其它操作和/或功能分别为了实现方法等各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能单元的角度描述了本申请实施例的装置和系统。应理解，该功能单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件单元组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。可选地，软件单元可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图11为本申请实施例涉及的计算设备的框图，该计算设备用于执行上述实施例所述的图像识别方法，具体参见上述方法实施例中的说明。

图11所示的计算设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如，存储器201、处理器202、通信接口203之间可以采用网络连接的方式，实现通信连接。或者，上述计算设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图11是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设备200。

存储器201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器201可以存储程序，当存储器201中存储的程序被处理器202执行时，处理器202和通信接口203用于执行上述方法。

处理器202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路。

处理器202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器202读取存储器201中的信息，结合其硬件完成本申请实施例的方法。

通信接口203使用例如但不限于收发器一类的收发模块，来实现计算设备200与其他设备或通信网络之间的通信。例如，可以通过通信接口203获取数据集。

当上述计算设备200包括总线204时，总线204可包括在计算设备200各个部件(例如，存储器201、处理器202、通信接口203)之间传送信息的通路。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

综上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待处理的第一图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练图像；

使用所述训练图像对所述光学字符识别网络和所述语义分割网络进行端到端的训练，其中所述语义分割网络的输入为所述光学字符识别网络的中间层的输出。

3.根据权利要求2所述的方法，其特征在于，所述使用所述训练图像对所述光学字符识别网络和所述语义分割网络进行端到端的训练，包括：

将所述训练图像输入所述光学字符识别网络中，得到所述光学字符识别网络的中间层输出的第一特征图，以及所述光学字符识别网络预测的所述训练图像中文字信息；

将所述第一特征图输入所述语义分割网络，得到所述语义分割网络预测的所述训练图像中文字的位置信息；

根据所述光学字符识别网络预测的文字信息与所述训练图像中所述文字的真实信息之间的差异，以及所述语义分割网络预测的文字的位置信息与所述文字在所述训练图像中的真实位置信息之间的差异，对所述光学字符识别网络和所述语义分割网络进行端到端训练。

4.根据权利要求3所述的方法，其特征在于，所述光学字符识别网络包括卷积神经网络，所述第一特征图为所述卷积神经网络的输出的特征图。

5.根据权利要求4所述的方法，其特征在于，所述语义分割网络包括去卷积层，所述去卷积层用于将所述第一特征图转换为第二特征图，且所述第二特征图的大小与所述训练图像的大小一致。

6.根据权利要求5所述的方法，其特征在于，所述语义分割网络还包括字符分割层，所述字符分割层基于所述第二特征图，预测所述训练图像中文字的位置信息。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述语义分割网络输出的为所述文字在图像中位置的二值化掩膜。

8.根据权利要求4所述的方法，其特征在于，所述光学字符识别网络还包括文字识别模块，所述文字识别模块的输入端与所述卷积神经网络的输出端连接，用于根据所述卷积神经网络输出的第一特征图识别出所述训练图像中的文字。

9.一种图像识别装置，其特征在于，包括：

第一获取单元，用于获取待处理的第一图像；

10.一种计算设备，其特征在于，包括：存储器，处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如上述权利要求1至8任一项所述的图像识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的图像识别方法。