CN113837119A

CN113837119A - 一种基于灰度图像识别易混淆字符的方法及设备

Info

Publication number: CN113837119A
Application number: CN202111142126.9A
Authority: CN
Inventors: 郑颖; 刘武; 王璇
Original assignee: Fuzhou Symbol Information Technology Co ltd
Current assignee: Fuzhou Symbol Information Technology Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-24
Anticipated expiration: 2041-09-28
Also published as: CN113837119B

Abstract

本发明涉及一种基于灰度图像识别易混淆字符的方法及设备，所述方法包括以下步骤：输入原始图像，通过文字识别引擎识别图像中的字符类型，并判断该字符是否属于易混淆字符，若属于易混淆字符，则进行纠正处理；纠正处理包括以下步骤：获取该字符的灰度图像，遍历灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值；选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值；根据灰度阈值，将灰度图像中灰度值大于灰度阈值的像素点的置为黑点，将灰度值小于于灰度阈值的像素点的置为白点，生成二值化图像；根据二值化图像中字符的形态轮廓，纠正该字符的字符类型。

Description

一种基于灰度图像识别易混淆字符的方法及设备

技术领域

本发明涉及一种基于灰度图像识别易混淆字符的方法及设备，属于图像处理和文字识别技术领域。

背景技术

目前，国际上使用机读码种类大致有3种，多用于护照的2行*44个字符类型，用于身份证卡的2行*36个字符类型以及3行*30个字符类型。当前主要采用OCR识别技术来完成对这些证件的机读码的识读，这些证件上的机读码包含的持证人的相关身份信息，一般包括了证件号码、国籍、出生年月、姓名等数据。对于持证人的证件号码、国籍、出生年月等信息机读码区皆有其对应的校验算法来校验OCR识别结果的正确性，但是对于持证人的姓名以及各国选填的信息部分通常没有相关的校验算法，这就容易造成这部分没有校验的信息数据出现识别错误，需要人工进行校对以及手动矫正。虽然通过手动矫正可以提高识别的精确度，但是手动矫正是一个耗时费力的过程，识别速度有待提高。

一般在实际应用的场景中，电子设备会因为各种环境因素造成采集到的的图像出现不规律的灰度跳变，这就容易造成一些局部形态上存在着相似的字符之间的识别混淆，比如持证人姓名部分的字母类型中的P和F等。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种基于灰度图像识别易混淆字符的方法，基于原字符的灰度图像，通过找寻字符图像对应的形态轮廓，对形态轮廓进行二次判断来对易混淆字符之间的重新判断纠正，以此降低OCR识别过程对容易混淆字符的识别错误率，减少人工校对矫正的耗时，从而提高OCR识别的效率。

本发明的技术方案如下：

技术方案一：

一种基于灰度图像识别易混淆字符的方法，包括以下步骤：

初步识别；输入原始图像，通过文字识别引擎识别图像中的字符类型，并根据字符类型判断该字符是否属于易混淆字符，所述易混淆字符为字形上存在相似容易误识别的字符；若属于易混淆字符，则进行纠正处理；若不属于，则跳过，保留识别结果，不进行纠正处理；

所述纠正处理包括以下步骤：

获取所述字符图像的像素点梯度；获取该字符的灰度图像，遍历所述灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值；

计算灰度阈值；统计所有像素点的梯度值，选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值；

对图像进行二值化；根据所述灰度阈值，将灰度图像中灰度值大于灰度阈值的像素点的置为黑点，将灰度值小于于灰度阈值的像素点的置为白点，生成二值化图像；

字符纠正；根据二值化图像中字符的形态轮廓，获取其二值轮廓图的目标像素点的边缘变化情况，依据该边缘变化情况满足何种字符的形态特征，从而确定该字符类型。

进一步的，所述遍历所述灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值的具体步骤为：

选取待进行纠正处理的目标字符图像中的一像素点作为坐标原点，建立水平直角坐标系；

记所述像素点对应的灰度值为P(x,y)；

根据以下公式计算每一像素点的梯度值G：

进一步的，所述统计所有像素点的梯度值，选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值的具体步骤为：

统计所有像素点的梯度值，并得到各个梯度值对应的像素点个数；

取超过总像素点个数的25％时所对应的梯度值作为梯度阈值；

统计所有梯度值大于梯度阈值的像素点的灰度值，取均值作为所述灰度阈值。

进一步的，所述字符纠正的具体步骤为：

设置一数组，将灰度图像中每一行最后一置为白点的像素点的x坐标依次记录至数组中；

根据数组中的x坐标变化绘制变化曲线；

根据所述变化曲线的轮廓纠正灰度图像中的字符类型。

技术方案二：

一种基于灰度图像识别易混淆字符的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

所述纠正处理包括以下步骤：

记所述像素点对应的灰度值为P(x,y)；

根据以下公式计算每一像素点的梯度值G：

进一步的，所述字符纠正的具体步骤为：

根据数组中的x坐标变化绘制变化曲线；

根据所述变化曲线的轮廓纠正灰度图像中的字符类型。

本发明具有如下有益效果：

1、本发明一种基于灰度图像识别易混淆字符的方法及设备，通过判断该字符类型是否属于容易混淆的字符以及是否存在误读的可能性，一旦存在较大的误读可能，基于字符的灰度图像进行针对轮廓的二值化，找出字符所对应的轮廓，根据轮廓的形态特点，重新对字符进行判断，可以降低容易混淆字符之间的识别错误率，减少人工矫正的耗时，提高OCR识别的效率。

2、本发明一种基于灰度图像识别易混淆字符的方法及设备，设通过计算梯度值识别灰度图像中灰度跳变区域的像素点，再根据灰度跳变区域像素点的灰度值计算出用以识别轮廓边界的灰度阈值，根据灰度阈值能准确的对灰度图像进行二值化。

3、本发明一种基于灰度图像识别易混淆字符的方法及设备，通过灰度图像中每一行最后一置为白点的像素点的位置绘制变化曲线，能够形象的表示字符的轮廓形态，提高字符识别的效率和精确度。

附图说明

图1为本发明一实施例的流程图；

图2为本发明实施例中灰度图像的示例图；

图3为本发明实施例中字符P的二值化图像示例图；

图4为本发明实施例中字符F的二值化图像示例图；

图5为本发明实施例中字符P的变化曲线示例图；

图6为本发明实施例中字符F的变化曲线示例图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一：

参见图1，一种基于灰度图像识别易混淆字符的方法，包括以下步骤：

初步识别；输入原始图像，使用文字识别引擎，例如OCR技术和神经网络模型(例如目前已经比较成熟的用于目标检测的深度学习网络模型，比如Faster-RCNN、SSD和Yolo等)对原始图像中的字符类型进行识别，并根据字符类型判断该字符是否属于易混淆字符，这里规定易混淆字符为字形上存在相似容易误识别的字符，并且在经过文字识别引擎识别之后，二者字符的可能概率相近，比如P和F、L和I等等，一旦二者的识别概率相近时，则属于易混淆字符，可以预先将易混淆字符录入到系统中，由系统判断识别出的字符是否属于易混淆字符，若属于易混淆字符，则进行纠正处理，若不属于易混淆字符，则跳过，保留识别结果，不进行纠正处理，直接输出字符的识别结果。

本实施例中，基于原字符的灰度图像，通过找寻字符图像对应的形态轮廓，对形态轮廓进行二次判断来对易混淆字符进行重新判断和纠正，以此降低OCR识别过程对容易混淆字符的识别错误率，减少人工校对矫正的耗时，从而提高OCR识别的效率，所述纠正处理包括以下步骤：

参见图2，一张灰度图像中，一般图像边界轮廓处的像素点的上下相邻像素点之间、左右相邻像素点之间存在着较为明显的灰度跳变，因此可以根据相邻像素点之间的灰度梯度差来对图像进行二值化，得到轮廓二值图；

首先获取像素点相对于相邻像素点的梯度，获取该字符的灰度图像，遍历所述灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值；

计算灰度阈值，由于灰度图像中各像素点的灰度值变化范围为0～255，因此，对于像素点之间的灰度梯度差的范围也是0～255，准备一个大小为256的数组T，初始化为0，用于统计每个梯度值对应的像素点个数。统计所有像素点的梯度值，一般图像中边界即灰度跳变明显的位置，存在较大的梯度值，因此为了获取大致的二值轮廓图；

参见图3和图4，对图像进行二值化，根据所述灰度阈值，将灰度图像中灰度值大于灰度阈值的像素点的置为黑点(即像素值设置为0)，将灰度值小于于灰度阈值的像素点的置为白点(即像素值设置为255)，生成二值化图像，图3为字符P的二值化图像，图4为字符F的二值化图像。

字符纠正，根据二值化图像中字符的形态轮廓，确定该字符的字符类型；若二值化图像识别出的字符类型与文字识别引擎识别出的字符类型不一致，则进行纠正，将二值化图像识别出的字符类型替代原先识别出的字符类型；若识别出的字符类型一致，则不进行处理。

本实施例在已经对图像利用文字识别引擎确定字符类型之后，进一步通过判断该字符类型是否属于容易混淆的字符以及是否存在误读的可能性，一旦存在较大的误读可能，基于字符的灰度图像进行针对轮廓的二值化，找出字符所对应的轮廓，根据轮廓的形态特点，重新对字符进行判断，可以降低容易混淆字符之间的识别错误率，减少人工矫正的耗时，提高OCR识别的效率。

实施例二：

选取待进行纠正处理的目标字符图像中的一像素点作为坐标原点，建立水平直角坐标系；如图2所示，以图像左上角的像素点为坐标原点，水平向右为x正方向，竖直向下为y正方向，记图像宽度为w，高度为h，为了计算原图像中每个像素点的上下相邻像素点、左右相邻像素点的灰度差，这里统计原图中x方向范围为1～w-2,y方向范围为1～h-2内的像素点(x,y)对应的梯度差；

记所述像素点对应的灰度值为P(x,y)，其中x∈[1,w-2],y∈[1,h-2]。

对应的梯度G(x,y)计算公式包括但不限于：

得到的对应的梯度G进行统计个数，T_G＝T_G+1(G∈[0,255])。

进一步的，所述选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值的具体步骤为：

对范围内每个像素点计算梯度值，总共统计(w-2)*(h-2)个像素点的梯度值，得到各个梯度值对应的像素点个数。由于边界轮廓处的灰度跳变较明显，即对应的梯度值较大，因此对统计得到的梯度取较高的值作为梯度阈值，这里由梯度最高值对应的像素点个数开始统计求和，取超过总像素点个数的25％对应的梯度值作为梯度阈值G_n(n∈[0,255])；以25％作为阈值，可以较好的得到该字符的完整轮廓形态，即至少保证轮廓点的个数超过字符图像总像素点个数的1/4。并且该阈值可以较好的突出字符的形态特征。

根据选取得到的梯度阈值，一旦梯度图像中的某个点对应的梯度值G(x,y)大于该梯度阈值，即可认为原灰度图像中该点(x,y)可能在边界轮廓位置，计算统计这些可能的边界轮廓位置对应的像素点的灰度值P(x,y)，取均值作为灰度阈值P_n:

其中P(x,y)需满足条件G(x,y)>G_n，m为满足条件的像素点个数。

进一步的，所述根据二值化图像中字符的形态轮廓，纠正该字符的字符类型的具体步骤为：

准备一个大小为二值图像高度h的数组，将灰度图像中每一行最后一置为白点的像素点的x坐标依次记录至数组中；

由一张图像宽度为w，高度为h的二值图像的右下角(w-1,h-1)按照y轴负方向记录图像每一行对应的最后一个像素白点的位置，得到数组中的x坐标变化绘制变化曲线；

参见图5和图6，图5为字符P的变化曲线，图6为字符F的变化曲线，由记录得到的每行对应的最后一个像素白点的位置中，如果在图像高度h的范围内，记录的最后一个像素白点的位置{x₀,x₁,x₂,.....,x_h-1}呈现出明显的先增加后减少再增加的趋势，即出现两个波峰，并且两个波峰中间包含一个波谷的情况，即可判断该字符是F。若只出现一个波峰，没有波峰之间包含波谷的情况即可认为是字母P。

实施例三：

初步识别；输入原始图像，通过OCR技术和神经网络模型(例如目前已经比较成熟的用于目标检测的深度学习网络模型，比如Faster-RCNN、SSD和Yolo等)对原始图像中的字符类型进行识别，并根据字符类型判断该字符是否属于易混淆字符，这里规定易混淆字符为字形上存在相似容易误识别的字符，并且在经过文字识别引擎识别之后，二者字符的可能概率相近，比如P和F、L和I等等，一旦二者的识别概率相近时，则属于易混淆字符，可以预先将易混淆字符录入到系统中，由系统判断识别出的字符是否属于易混淆字符，若属于易混淆字符，则进行纠正处理，若不属于易混淆字符，则跳过，保留识别结果，不进行纠正处理，直接输出字符的识别结果。

实施例四：

对应的梯度G(x,y)计算公式包括但不限于：

得到的对应的梯度G进行统计个数，T_G＝T_G+1(G∈[0,255])。

对范围内每个像素点计算梯度值，总共统计(w-2)*(h-2)个像素点的梯度值，得到各个梯度值对应的像素点个数。由于边界轮廓处的灰度跳变较明显，即对应的梯度值较大，因此对统计得到的梯度取较高的值作为梯度阈值，这里由梯度最高值对应的像素点个数开始统计求和，取超过总像素点个数的25％对应的梯度值作为梯度阈值G_n(n∈[0,255])。

其中P(x,y)需满足条件G(x,y)>G_n，m为满足条件的像素点个数。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于灰度图像纠正易混淆字符的方法，其特征在于，包括以下步骤：

所述纠正处理包括以下步骤：

2.根据权利要求1所述的一种基于灰度图像识别易混淆字符的方法，其特征在于，所述遍历所述灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值的具体步骤为：

记所述像素点对应的灰度值为P(x,y)；

根据以下公式计算每一像素点的梯度值G：

3.根据权利要求2所述的一种基于灰度图像识别易混淆字符的方法，其特征在于，所述统计所有像素点的梯度值，选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值的具体步骤为：

4.根据权利要求2所述的一种基于灰度图像识别易混淆字符的方法，其特征在于，所述字符纠正的具体步骤为：

根据数组中的x坐标变化绘制变化曲线；

根据所述变化曲线的轮廓纠正灰度图像中的字符类型。

5.一种基于灰度图像识别易混淆字符的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

所述纠正处理包括以下步骤：

6.根据权利要求5所述的一种基于灰度图像识别易混淆字符的设备，其特征在于，所述遍历所述灰度图像中各像素点的灰度值，基于每一像素点及其相邻像素点的灰度差值计算各像素点的梯度值的具体步骤为：

记所述像素点对应的灰度值为P(x,y)；

根据以下公式计算每一像素点的梯度值G：

7.根据权利要求6所述的一种基于灰度图像识别易混淆字符的设备，其特征在于，所述统计所有像素点的梯度值，选取一个梯度值作为梯度阈值，计算超过该梯度阈值的像素点的灰度平均值作为灰度阈值的具体步骤为：

8.根据权利要求6所述的一种基于灰度图像识别易混淆字符的设备，其特征在于，所述字符纠正的具体步骤为：

根据数组中的x坐标变化绘制变化曲线；

根据所述变化曲线的轮廓纠正灰度图像中的字符类型。