CN111046859B

CN111046859B - 字符识别方法及装置

Info

Publication number: CN111046859B
Application number: CN201811184618.2A
Authority: CN
Inventors: 朱尧
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-09-29
Anticipated expiration: 2038-10-11
Also published as: CN111046859A

Abstract

本申请提供一种字符识别方法及装置，方法包括：将待识别图像输入到字符识别模型，由本字符识别模型通过字符定位网络在待识别图像中定位字符关键点，输出到本字符识别模型中的字符矫正网络，由字符矫正网络在待识别图像中利用字符关键点和预设位置点的对应关系确定待识别图像中的字符区域对应的矫正图像，并输出矫正图像给本字符识别模型中的字符识别网络识别矫正图像中的字符。由于字符矫正网络可对存在倾斜、旋转、形变等问题的图像矫正，因此识别结果稳定性好且识别准确率高，且本字符识别模型通过字符定位网络定位字符关键点并通过字符矫正网络和字符识别网络可得到结果，无需从图像中检测精确字符框，也无需进行分割，因此识别准确率高。

Description

字符识别方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种字符识别方法及装置。

背景技术

目前的字符识别技术通常包括字符区域定位和字符分割两个模块。在基于深度学习方法中，字符识别技术需要通过多个深度学习模型来实现，即先将图像输入特征提取模型提取图像的特征，然后再将特征提取模型输出的特征输入目标检测模型检测字符框，最后再将目标检测模型输出的字符框和特征提取模型输出的特征输入字符分割模型进行字符分割。

然而，这种多个深度学习模型独立存在，每个深度学习模型之间均有数据交互，因此会存在冗余计算，占用内存空间，导致字符识别速度低。

发明内容

有鉴于此，本申请提供一种字符识别方法及装置，以解决相关技术中的字符识别方式识别速度低的问题。

根据本申请实施例的第一方面，提供一种字符识别方法，所述方法包括：

将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在所述待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，并输出所述矫正图像给本字符识别模型中的字符识别网络识别所述矫正图像中的字符；获取所述字符识别模型输出的字符识别结果。

根据本申请实施例的第二方面，提供一种字符识别装置，所述装置包括：

字符识别模块，用于将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在所述待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，并输出所述矫正图像给本字符识别模型中的字符识别网络识别所述矫正图像中的字符；获取模块，用于获取所述字符识别模型输出的字符识别结果。

根据本申请实施例的第三方面，提供一种电子设备，包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现上述字符识别方法的步骤。

基于上述描述可知，由于整个识别过程全部在字符识别模型内部实现，不存在多个模型与外部平台的数据交互，从而可以提高识别速度，同时也降低了维护难度。又由于通过字符识别模型中的字符矫正网络可以对存在倾斜、旋转、形变等问题的图像进行矫正，因此本字符识别模型的字符识别结果稳定性好，且识别准确率高。又由于输入一张图像到字符识别模型后，模型直接输出字符识别结果，因此能够真正实现端到端的字符识别。另外，本字符识别模型只需通过字符定位网络在图像中定位到字符关键点，并通过字符矫正网络和字符识别网络便可得到字符识别结果，无需从图像中检测精确的字符框，也无需进行分割，因此可进一步提高识别准确率。

附图说明

图1为本申请根据一示例性实施例示出的一种字符字符识别模型的结构图；

图2A为本申请根据一示例性实施例示出的一种字符识别方法的实施例流程图；

图2B为本申请根据图2A所示实施例示出的一种定位出的字符关键点示意图；

图2C为本申请根据图2A所示实施例示出的一种预设位置点示意图；

图2D为本申请根据图2A所示实施例示出的一种矫正图像示意图；

图3为本申请根据一示例性实施例示出的另一种字符识别方法的实施例流程图；

图4为本申请根据一示例性实施例示出的一种电子设备的硬件结构图；

图5为本申请根据一示例性实施例示出的一种字符识别装置的实施例结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

相关技术中通过多个深度学习模型(包含特征提取模型、目标检测模型、字符分割模块)实现的字符识别技术存在以下问题：1、多个深度学习模型独立存在，每个深度学习模型与外部平台均有数据交互，因此会存在冗余计算，占用内存空间，字符识别速度低。2、如果图像存在倾斜、形变等的问题，可能无法得到识别结果，因此上述字符识别技术稳定性差。3、字符分割模型进行字符分割的准确性依赖于目标检测模型检测字符框的准确性，因此分割任务的依赖性强，如果检测到的字符框不够准确，则很容易出现分割错误。

基于此，图1为本申请根据一示例性实施例示出的一种字符识别模型结构图，如图1所示，将待识别图像输入到已训练的字符识别模型，先由本字符识别模型通过字符定位网络在待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由字符矫正网络在待识别图像中利用该字符关键点和预设位置点的对应关系确定待识别图像中字符区域对应的矫正图像，并输出矫正图像给本字符识别模型中的字符识别网络识别矫正图像中的字符，从而可获取到字符识别模型输出的字符识别结果。

基于上述描述可知，由于整个识别过程全部在字符识别模型内部实现，不存在多个模型与外部平台的数据交互，从而可以提高识别速度，同时也降低了维护难度。又由于通过字符识别模型中的字符矫正网络可以对存在倾斜、形变等问题的图像进行矫正，因此本字符识别模型的字符识别结果稳定性好，且识别准确率高。又由于输入一张图像到字符识别模型后，模型直接输出字符识别结果，因此能够真正实现端到端的字符识别。另外，本字符识别模型只需通过字符定位网络在图像中定位到字符关键点，并通过字符矫正网络和字符识别网络便可得到字符识别结果，无需从图像中检测精确的字符框，也无需进行分割，因此可进一步提高识别准确率。

下面以具体实施例对本申请的技术方案进行详细阐述。

图2A为本申请根据一示例性实施例示出的一种字符识别方法的实施例流程图，结合上述图1所示的字符识别模型结构，本字符识别模型是预先训练得到的，可以包括字符定位网络、字符矫正网络、字符识别网络。如图2A所示，该字符识别方法包括如下步骤：

步骤201：将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由字符矫正网络在待识别图像中利用字符关键点和预设位置点的对应关系确定待识别图像中字符区域对应的矫正图像，并输出矫正图像给本字符识别模型中的字符识别网络识别矫正图像中的字符。

在一实施例中，针对字符定位网络在待识别图像中定位字符关键点的过程，可以先通过本字符定位网络中的特征提取网络提取待识别图像的特征，并输出给本字符定位网络中的关键点回归网络，由关键点回归网络利用提取的特征进行字符关键点提取。

其中，待识别图像可以是自然场景(如店铺名识别、广告牌识别等场景)下的灰度图，也可以是特定场景(如车牌识别、名片识别、证件识别等场景)下的灰度图。特征提取网络可以包含多个卷积层和池化层，但每次池化之前需至少卷积一次。关键点回归网络可以包含全连接层和多个回归层。提取的字符关键点可以是待识别图像中字符区域的边缘点，其个数可以根据实际需求进行设置，如图2B所示，图2B中的“+”表示字符关键点，其个数为16个。

在一实施例中，针对字符矫正网络在待识别图像中利用字符关键点和预设位置点的对应关系确定待识别图像中字符区域对应的矫正图像的过程，可以依据字符关键点和预设位置点的对应关系确定对应的TPS(Thin Plate Spline，薄板样条函数)变换矩阵，在创建一个空白的矫正图像之后，针对矫正图像中的每个位置点，利用TPS变换矩阵确定该位置点在待识别图像中对应的坐标点，并利用该坐标点附近像素点的像素值插值得到矫正像素值，并将矫正像素值添加到矫正图像中的该位置点上。

其中，字符关键点的个数与预设位置点的个数一致，预设位置点可以按照一定规则设置，假设字符关键点的个数为n，预先设置预设位置点的规则可以是：该预设位置点为两行平行的位置点，两行位置点之间距离为预设高度h，每行位置点的长度为预设长度w，每行位置点中相邻位置点之间的间距相等，按照此规则设置n个位置点。创建的矫正图像的大小可以是w*h，坐标点附近像素点可以是坐标点四个角上的像素点，例如，矫正图像中的某一位置点在待识别图像中对应的坐标点为(100.5，2.6)，该坐标点附近像素点为(100，2)、(101，2)、(100，3)、(101，3)。

需要说明的是，由于变换矩阵是由字符关键点与预设位置点的对应关系得到的，因此通过变换矩阵确定的空白矫正图像中每一位置点在待识别图像中对应的坐标点所对应的区域即为字符区域，进而由每个坐标点附近像素点插值得到矫正像素值组成的图像即为字符区域对应的矫正图像。

在一示例性场景中，再如图2B所示，通过字符定位网络在待识别图像中定位字符关键点，得到图2B中所示字符关键点，记为P＝{P₁,P₂,…P₁₆}，如图2C所示，预设位置点记为P’＝{P’₁，P’₂，...P’₁₆}，依据P和P’的对应关系确定TPS变换矩阵，并创建一个w*h大小空白的矫正图像，然后通过该TPS变换矩阵确定矫正图像中每个位置点在待识别图像中的坐标点，并利用坐标点附近像素点的像素值进行插值，得到矫正像素值，并利用矫正像素值填充矫正图像中的对应位置点，从而得到如图2D所示的矫正图像。

在一实施例中，针对字符识别网络识别所述矫正图像中的字符的过程，可以通过本字符识别网络中的卷积神经网络提取矫正图像的特征，并输出给本字符识别网络中的循环神经网络，由循环神经网络对该特征进行加权编码，并输出加权编码后的特征给本字符识别网络中的解码网络，由解码网络对加权编码后的特征解码得到至少一个特征序列，并输出至少一个特征序列给本字符识别网络中的分类层，由分类层对每个特征序列进行分类，以得到每个特征序列对应的字符。

其中，卷积神经网络(CNN)可以是基于ResNet(Residual Neural Network，深度残差网络)结构的神经网络。解码网络可以是基于Attention Model(注意力模型)结构的网络。

步骤202：获取字符识别模型输出的字符识别结果。

基于上述所示的场景，将图2D中的矫正图像输入字符识别网络后，可以获取到“GIORDANO”的字符识别结果。

本申请实施例中，可以将待识别图像输入到已训练的字符识别模型，先由本字符识别模型通过字符定位网络在待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由字符矫正网络在待识别图像中利用该字符关键点和预设位置点的对应关系确定待识别图像中字符区域对应的矫正图像，并输出矫正图像给本字符识别模型中的字符识别网络识别矫正图像中的字符，从而可获取到字符识别模型输出的字符识别结果。

图3为本申请根据一示例性实施例示出的另一种字符识别方法的实施例流程图，基于上述图2A所示实施例的基础上，本实施例以如何训练字符识别模型为例进行示例性说明，如图3所示，训练字符识别模型的流程可以包括：

步骤301：获取包含字符的训练样本。

在一实施例中，可以获取各种自然场景或特定场景下的图像，并对图像中包含的字符进行标注，从而得到训练样本。

其中，训练样本的数量可以根据实践经验设置。

步骤302：利用训练样本训练对字符识别模型进行端到端训练，直至训练次数达到预设次数，停止训练。

在一实施例中，在训练过程中，可以通过计算字符识别模型每次输出的字符识别结果相对标注的字符的损失值，以对字符识别模型中的参数进行调整，直至训练次数达到预设次数，停止训练。其中，训练次数可以根据实践经验设置。

至此，完成上述图3所示流程，通过图3所示流程，可以实现单一字符识别模型的训练，无需独立分开训练字符识别模型中的每个神经网络，可以避免分开训练产生的错误传递问题。

图4为本申请根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口401、处理器402、机器可读存储介质403和总线404；其中，通信接口401、处理器402和机器可读存储介质403通过总线404完成相互间的通信。处理器402通过读取并执行机器可读存储介质403中与字符识别方法的控制逻辑对应的机器可执行指令，可执行上文描述的字符识别方法，该方法的具体内容参见上述实施例，此处不再累述。

本申请中提到的机器可读存储介质403可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质403可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

图5为本申请根据一示例性实施例示出的一种字符识别装置的实施例结构图，如图5所示，所述字符识别装置包括：

字符识别模块510，用于将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在所述待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，并输出所述矫正图像给本字符识别模型中的字符识别网络识别所述矫正图像中的字符；

获取模块520，用于获取所述字符识别模型输出的字符识别结果。

在一可选实现方式中，所述字符识别模块510，具体用于在字符定位网络在所述待识别图像中定位字符关键点过程中，通过本字符定位网络中的特征提取网络提取所述待识别图像的特征，并输出给本字符定位网络中的关键点回归网络；所述关键点回归网络利用提取的特征进行字符关键点提取。

在一可选实现方式中，所述字符识别模块510，具体用于在所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像过程中，依据所述字符关键点和预设位置点的对应关系确定对应的薄板样条函数TPS变换矩阵，所述字符关键点的个数与所述预设位置点的个数一致；创建一个空白的矫正图像；针对所述矫正图像中的每个位置点，利用所述TPS变换矩阵确定该位置点在所述待识别图像中对应的坐标点，并利用所述坐标点附近像素点的像素值插值得到矫正像素值，并将所述矫正像素值填充到所述矫正图像中的该位置点上。

在一可选实现方式中，所述字符识别模块510，具体用于在所述字符识别网络识别所述矫正图像中的字符过程中，通过本字符识别网络中的卷积神经网络提取所述矫正图像的特征，并输出给本字符识别网络中的循环神经网络；所述循环神经网络对所述特征进行加权编码，并输出加权编码后的特征给本字符识别网络中的解码网络；所述解码网络对所述加权编码后的特征解码得到至少一个特征序列，并输出所述至少一个特征序列给本字符识别网络中的分类层；所述分类层对每个特征序列进行分类，以得到每个特征序列对应的字符内容。

在一可选实现方式中，所述装置还包括(图5中未示出)：

训练模块，用于获取包含字符的训练样本；利用所述训练样本训练对所述字符识别模型进行端到端训练，直至训练次数达到预设次数，停止训练。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种字符识别方法，其特征在于，所述方法包括：

将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在所述待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，并输出所述矫正图像给本字符识别模型中的字符识别网络识别所述矫正图像中的字符；

所述字符识别网络识别所述矫正图像中的字符，包括：通过本字符识别网络中的卷积神经网络提取所述矫正图像的特征，并输出给本字符识别网络中的循环神经网络；所述循环神经网络对所述特征进行加权编码，并输出加权编码后的特征给本字符识别网络中的解码网络；所述解码网络对所述加权编码后的特征解码得到至少一个特征序列，并输出所述至少一个特征序列给本字符识别网络中的分类层；所述分类层对每个特征序列进行分类，以得到每个特征序列对应的字符内容；

获取所述字符识别模型输出的字符识别结果。

2.根据权利要求1所述的方法，其特征在于，字符定位网络在所述待识别图像中定位字符关键点，包括：

通过本字符定位网络中的特征提取网络提取所述待识别图像的特征，并输出给本字符定位网络中的关键点回归网络；

所述关键点回归网络利用提取的特征进行字符关键点提取。

3.根据权利要求1所述的方法，其特征在于，所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，包括：

依据所述字符关键点和预设位置点的对应关系确定对应的薄板样条函数TPS变换矩阵，所述字符关键点的个数与所述预设位置点的个数一致；

创建一个空白的矫正图像；

针对所述矫正图像中的每个位置点，利用所述TPS变换矩阵确定该位置点在所述待识别图像中对应的坐标点，并利用所述坐标点附近像素点的像素值插值得到矫正像素值，并将所述矫正像素值填充到所述矫正图像中的该位置点上。

4.根据权利要求1所述的方法，其特征在于，所述字符识别模型通过如下方式训练：

获取包含字符的训练样本；

利用所述训练样本训练对所述字符识别模型进行端到端训练，直至训练次数达到预设次数，停止训练。

5.一种字符识别装置，其特征在于，所述装置包括：

字符识别模块，用于将待识别图像输入到已训练的字符识别模型，以由本字符识别模型通过字符定位网络在所述待识别图像中定位字符关键点，并输出到本字符识别模型中的字符矫正网络，以由所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像，并输出所述矫正图像给本字符识别模型中的字符识别网络识别所述矫正图像中的字符；

所述字符识别模块，具体用于在所述字符识别网络识别所述矫正图像中的字符过程中，通过本字符识别网络中的卷积神经网络提取所述矫正图像的特征，并输出给本字符识别网络中的循环神经网络；所述循环神经网络对所述特征进行加权编码，并输出加权编码后的特征给本字符识别网络中的解码网络；所述解码网络对所述加权编码后的特征解码得到至少一个特征序列，并输出所述至少一个特征序列给本字符识别网络中的分类层；所述分类层对每个特征序列进行分类，以得到每个特征序列对应的字符内容；

获取模块，用于获取所述字符识别模型输出的字符识别结果。

6.根据权利要求5所述的装置，其特征在于，所述字符识别模块，具体用于在字符定位网络在所述待识别图像中定位字符关键点过程中，通过本字符定位网络中的特征提取网络提取所述待识别图像的特征，并输出给本字符定位网络中的关键点回归网络；所述关键点回归网络利用提取的特征进行字符关键点提取。

7.根据权利要求5所述的装置，其特征在于，所述字符识别模块，具体用于在所述字符矫正网络在所述待识别图像中利用所述字符关键点和预设位置点的对应关系确定所述待识别图像中的字符区域对应的矫正图像过程中，依据所述字符关键点和预设位置点的对应关系确定对应的薄板样条函数TPS变换矩阵，所述字符关键点的个数与所述预设位置点的个数一致；创建一个空白的矫正图像；针对所述矫正图像中的每个位置点，利用所述TPS变换矩阵确定该位置点在所述待识别图像中对应的坐标点，并利用所述坐标点附近像素点的像素值插值得到矫正像素值，并将所述矫正像素值填充到所述矫正图像中的该位置点上。

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现权利要求1-4任一所述方法的步骤。