CN107067005A

CN107067005A - 一种中英混合ocr字符切割的方法及装置

Info

Publication number: CN107067005A
Application number: CN201710226748.7A
Authority: CN
Inventors: 郑华滨; 潘嵘; 王经宇; 黄正杰
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2017-08-18

Abstract

本发明涉及一种中英混合OCR字符切割的方法，该方法包括如下步骤：步骤1，获取待切割的所述中英混合OCR字符图像；步骤2，模型的训练，通过对全卷积神经网络模型的训练，使所述模型能够正确预测所述图像中每个横坐标像素点的类别，所述类别为一个二分类任务，即将所述像素点分为切割点或非切割点；步骤3，模型的使用，通过后处理流程最终给出正确的字符切割点。本发明将多种字体的中英混合字符切割准确率提高到了98%左右，并且避免了复杂的处理流程和手工设置的规则，提高了算法的自适应能力。

Description

一种中英混合OCR字符切割的方法及装置

技术领域

本发明涉及一种字符分割方法，更具体的，涉及一种中英混合OCR字符切割的方法及装置。

背景技术

现有技术中，OCR字符分割最简单的方法是投影法，但是该方法难以正确切割粘连字符。另外的一些改进方法采用了负责的处理流程以及手工设置的特定规则，但其规则只针对单种语言，未能很好处理中英双语混合的情形。

现有技术中，作者为K. Wang, J. Jin, and Q. Wang发表的《High performancechinese/english mixed ocr with character level language identification》，其字符分割流程框架如图1所示，该方法首先分别抽取出字符图像中包含中文字符与英文字符的区域，然后再对各自区域应用适配中文/英文字符切割的算法流程进行处理。但该方法实现复杂，难以调试。所以设计一种简单高效的字符切割方法是亟不可待的。

发明内容

本发明的目的就是提出一种流程简单、无需手动设置规则、适合中英混合情形的OCR字符切割技术。

为实现上述目的，本发明提供了一种中英混合OCR字符切割的方法，该方法包括如下步骤：

步骤1，获取待切割的所述中英混合OCR字符图像；

步骤2，模型的训练，通过对全卷积神经网络模型的训练，使所述模型能够正确预测所述图像中每个横坐标像素点的类别，所述类别为一个二分类任务，即将所述像素点分为切割点或非切割点；

步骤3，模型的使用，通过后处理流程最终给出正确的字符切割点。

更具体的，在步骤2中采用后向传播算法训练所述全卷积神经网络。

更具体的，所述步骤2进一步包括：如果所述像素点位置是所述切割点，则为正类，否则为负类。

更具体的，在步骤3中所述后处理流程具体包括以下步骤：

所述全卷积神经网络在每个横坐标像素点位置给出0到1之间的概率，按照阈值0.5进行二值化，变成0或1的分类；

对于相邻的连续n个正类点，取它们的中点做为切割点，其余周边点即使也是合理的切割点，也选择丢弃；

相邻两个切割点构成一个切割段，统计此段内的图像像素值分布，判断此段内是否为空白，如果是，选择丢弃；

按照剩下的切割段切除图片块，从而完成字符切割。

更具体的，在所述模型训练的过程中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。

根据本发明的另一方面，还提供了一种中英混合OCR字符切割的装置，该装置包括：

获取模块，获取待切割的所述中英混合OCR字符图像；

模型训练模块，用于通过对全卷积神经网络模型的训练，使所述模型能够正确预测所述图像中每个横坐标像素点的类别，所述类别为一个二分类任务，即将所述像素点分为切割点或非切割点。

模型使用模块，用于通过后处理流程最终给出正确的字符切割点。

更具体的，在所述模型训练模块中采用后向传播算法训练所述全卷积神经网络。

更具体的，所述模型训练模块进一步用于：如果所述像素点位置是所述切割点，则为正类，否则为负类。

更具体的，所述后处理流程具体包括：

所述全卷积神经网络在每个横向像素位置给出0到1之间的概率，按照阈值0.5进行二值化，变成0或1的分类；

按照剩下的切割段切除图片块，从而完成字符切割。

更具体的，在所述模型训练模块中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。

本发明的技术效果在于：将多种字体的中英混合字符切割准确率提高到了98%左右，并且避免了复杂的处理流程和手工设置的规则，提高了算法的自适应能力。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了背景技术中的一种字符分割方法流程图；

图2示出了本发明一种中英混合OCR字符切割的方法流程图；

图3示出了本发明一实施例的全卷积神经网络具体架构示意图；

图4示出了本发明一种中英混合OCR字符切割的装置框架图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图2示出了根据本发明一种字符验证码识别的深度学习方法的流程图。

如图2所示，根据本发明的一种中英混合OCR字符切割的方法，包括：

步骤1，获取待切割的所述中英混合OCR字符图像；

步骤2，模型的训练，通过对全卷积神经网络模型的训练，使所述模型能够正确预测所述图像中每个横坐标像素点的类别，所述类别为一个二分类任务，即将所述像素点分为切割点或非切割点。

具体的，本发明采用图像语义分割技术和全卷积神经网络。图像语义分割技术是对图像中的每一个像素进行分类标注的技术，广泛应用于自动驾驶、无人机、穿戴式设备等应用中。

本发明中将OCR字符分割问题定义为一个图像语义分割问题，即步骤2中，通过模型的训练，在图像的每一个横坐标像素点上进行一个二分类任务，将此像素点分为切割点或非切割点，在整个图像上就是在进行语义分割任务。

然后，在步骤3中使用用全卷积神经网络模型。全卷积神经网络是一类深度卷积神经网络，通过卷积操作缩小特征图尺寸，通过反卷积操作扩大特征图尺寸。本发明从OCR字符切割的需要出发，对此类模型进行了针对性的简化，即原始模型是对所有横纵像素点做多分类，本发明中的全卷积神经网络是对所有的横像素点做二分类。

根据本发明的一个实施例，将字符分割任务定义成如下形式的语义分割问题：待分割的图片长W像素宽H像素，内容是一行中英混合字符串。其中总共W个横坐标像素点位置上有总共W个二分类任务。如果该像素位置是切分点，则为正类，否则为负类。

本发明使用的具体全卷积神经网络模型架构如图3示。

更具体的，本发明采用后向传播算法训练神经网络模型，使其尽可能正确预测每个横坐标像素点的类别。

具体而言，在所述全卷积神经网络模型训练之后的使用阶段中，神经网络可能将一个正类像素的周边几个像素也分为正类，这是合理且允许的，不过因此需要一些后处理流程才能最终给出正确的字符切割点。该后处理流程如下：

1.全卷积神经网络在每个横向像素位置给出0到1之间的概率，按照阈值0.5进行二值化，变成0或1的分类；

2.对于相邻的连续n个正类点，取它们的中点做为切割点，其余周边点即使也是合理的切割点，也选择丢弃；

3.相邻两个切割点构成一个切割段，统计此段内的图像像素值分布，判断此段内是否为空白，如果是，选择丢弃；

4.按照剩下的切割段切除图片块，从而完成字符切割。

更具体的，在训练所述全卷积神经网络模型的过程中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。

图4示出了本发明一种中英混合OCR字符切割的装置框架图。

如图4所示，该装置包括：

获取模块，获取待切割的所述中英混合OCR字符图像；

模型训练模块，用于通过对全卷积神经网络模型的训练，使所述模型能够正确预测所述图像中每个横坐标像素点的类别，所述类别为一个二分类任务，即将所述像素点分为切割点或非切割点；

具体的，在所述模型训练模块中采用后向传播算法训练所述全卷积神经网络。

具体的，所述模型训练模块进一步用于：如果所述像素点位置是所述切割点，则为正类，否则为负类。

具体的，所述后处理流程具体包括：

按照剩下的切割段切除图片块，从而完成字符切割。

具体的，在所述模型训练模块中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。

本发明是第一个将OCR字符切割问题转换为图像语义分割问题的方法。

本发明利用了字符切割问题的特性，让全卷积神经网络只需要在每个横向像素点做二分类，而不需要在所有横纵像素点进行，大大减少了模型的负担，优化了分类性能。

此外，在本发明的全卷积神经网络中采用本动态损失函数权重技术。将多种字体的中英混合字符切割准确率提高到了98%左右，并且避免了复杂的处理流程和手工设置的规则，提高了算法的自适应能力。

在本说明书的描述中，术语“一个实施例”的描述意指结合该实施例或示例描述的具体特征、结构或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中英混合OCR字符切割的方法，其特征在于，该方法包括如下步骤：

步骤1，获取待切割的所述中英混合OCR字符图像；

2.根据权利要求1所述的一种中英混合OCR字符切割的方法，其特征在于，在步骤2中采用后向传播算法训练所述全卷积神经网络。

3.根据权利要求1或2所述的一种中英混合OCR字符切割的方法，其特征在于，所述步骤2进一步包括：如果所述像素点位置是所述切割点，则为正类，否则为负类。

4.根据权利要求3所述的一种中英混合OCR字符切割的方法，其特征在于，在步骤3中所述后处理流程具体包括以下步骤：

按照剩下的切割段切除图片块，从而完成字符切割。

5.根据权利要求3所述的一种中英混合OCR字符切割的方法，其特征在于，在所述模型训练的过程中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。

6.一种中英混合OCR字符切割的装置，其特征在于，该装置包括：

获取模块，获取待切割的所述中英混合OCR字符图像；

7.根据权利要求6所述的一种中英混合OCR字符切割的装置，其特征在于，在所述模型训练模块中采用后向传播算法训练所述全卷积神经网络。

8.根据权利要求6或7所述的一种中英混合OCR字符切割的装置，其特征在于，所述模型训练模块进一步用于：如果所述像素点位置是所述切割点，则为正类，否则为负类。

9.根据权利要求8所述的一种中英混合OCR字符切割的装置，其特征在于，所述后处理流程具体包括：

按照剩下的切割段切除图片块，从而完成字符切割。

10.根据权利要求8所述的一种中英混合OCR字符切割的装置，其特征在于，在所述模型训练模块中需要对不同类的损失函数动态施加不同的权重，具体做法是：初始化正类权重为0.9，负类权重为0.1，每次迭代后如果正类召回率高于负类召回率，则降低正类权重，增加负类权重，反之则增加正类权重，降低负类权重。