CN112381177A

CN112381177A - 一种基于深度学习的表盘数字字符识别方法及系统

Info

Publication number: CN112381177A
Application number: CN202011417200.9A
Authority: CN
Inventors: 张辉; 齐小龙; 杨育; 陈瑶; 朱鹏程; 张胜文; 方喜峰; 朱成顺; 杨林初
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-19

Abstract

本发明公开了一种基于深度学习的表盘数字识别方法及系统，该方法用训练好的神经网络对表盘数字完成识别，首先对表盘数字采集并预处理图像；对图像处理后的表盘数字图像制作数字标签；然后用制作好的数字标签样本图像进行神经网络训练，经过多次试验达到一定识别能力和自适应性；最后用已经训练好的神经网络进行表盘数字识别。按照本发明的表盘数字识别方法，精确的获得表盘的数字，提高识别速度、识别精度的稳定性。

Description

一种基于深度学习的表盘数字字符识别方法及系统

技术领域

本发明涉及图像处理和模式识别技术领域，具体涉及一种基于深度学习的表盘数字字符识别方法及系统。

背景技术

针对传统表盘数字采用基于模板匹配的视觉识别方式，易出现因半字状态导致的误识别问题，由于在采集表盘数字时，由于拍摄角度的问题，导致识别准确率低。

中国专利CN109902751 A，公开日2019年6月18日，申请号201910160157.3，一种融合卷积神经网络和半字模板匹配的表盘数字字符识别方法，首先获取带有全字半字标签的分割好的灰度图，接着将标签筛选分类，若标签为0则进行半字识别，若标签为1则进行全字识别；最后按照图像输入的顺序，依次输出灰度图的识别结果。该方法准确率较高，但算法训练过程较为复杂。

中国专利CN109543676A，公开日2019年03月29日，申请号CN201811324700.0，一种基于图像处理的字轮型水表数字字符识别方法。该发明采用图像边缘特征，对于半字处理采用多模板拼接方式，该方法可以识别字符，但是需首先判断是否为全字，若第一次误判，则会直接导致误识。该发明采用欧氏距离判断待匹配图像与模板匹配程度，对于半字则产生较低的匹配度，全字匹配与半字匹配的匹配程度量级不同，容易误判。

发明内容

发明目的：为了克服现有技术的不足，在拍摄表盘数字时应拍摄角度的造成的识别误差，本发明提供一种基于深度学习的表盘数字字符识别方法，该方法可以解决采集表盘数字时，识别准确率低的问题，本发明还提供一种基于深度学习的表盘数字字符识别系统。

技术方案：本发明所述的基于深度学习的表盘数字字符识别方法，包括训练阶段和测试阶段，其中训练阶段包括：

(1)以任意角度拍摄表盘数字图像和根据表盘样式仿真制作表盘图像，形成图像数据库；其中，图像中的字符包括全字字符和半字字符，全字字符为整个数字字符图像都完整地在表盘内的数字字符，半字字符为表盘范围内出现一个数字的下半部分和另一位相邻数字的半部分的数字字符；

(2)将保存的图像进行预处理；

(3)用步骤(1)中的图像数据库制作训练样本，即按照0,1,2…9这10个完整数字形态和与其相邻的数字过渡状态出现的表盘数字形态进行分类；

(4)将上述训练样本带入深度神经网络框架，进行训练，得到各连接层的权重值，并将预处理后的图像输入到训练好的卷积神经网络中进行自动识别，得到识别结果；

测试阶段包括：

(5)采集实际工作情况下的表盘数字图像，并进行图像预处理；

(6)将处理好的表盘数字图像带入训练好的深度神经网络中，并得到最终的识别结果；

学习阶段：

加入增量学习框架，定期更新图形数据库，再进行增量学习训练，提高神经网络的鲁棒性。

进一步的，包括：

所述步骤(1)中，以任意角度拍摄表盘数字图像：

若拍摄镜头与表盘平行，则直接进入步骤2，否则，

若拍摄镜头与表盘之间有一定角度，则对图像进行仿射变换和透视变换处理。

进一步的，包括：

仿射变换关系表示为：

其中，(t_x，t_y)表示平移量，(x‘,y',1)、(x,y,1)分别是平面中相对应两点的坐标，

为旋转、伸缩、切变得合成变换的矩阵表示；

透视变换矩阵实现表盘倾斜校正，透视变换关系表示为：

其中，u和v是原始图像的某点坐标，

表示图像线性变换，[a₁₃a₂₃]^T用于产生图像透视变换，[a₃₁ a₃₂]表示图像平移；

将上式变换为等式形式，即

其中，(x＝x‘/w’，y＝y‘/w’)为变换后的图像的坐标。

进一步的，包括：

所述步骤(1)中，根据表盘样式仿真制作表盘图像，其中全字字符由键盘输入，半字字符通过滑动窗口截取

进一步的，包括：

所述步骤(2)中，预处理包括：将采集的图像做低通滤波处理以消除图像中的噪声以及再进行直方图均衡化处理，从而增强图像对比度。

进一步的，包括：

所述步骤(3)中，制作训练样本包括：

将采集的图像按数字区域分开，若表盘数字是0,1,2…9这10个完整数字形态中的几个，则用对应的数字在该数字区域标识；若表盘数字存在由0,1,2…9中两个相邻数字，则：

如果组成半子字符的上半字字长大于下半字字长，则用上半字字长对应的数字在该数字区域表示，

如果组成半子字符的上半字字长小于下半字字长，则用下半字字长对应的数字在该数字区域表示；

如果组成半字字符的上下半字字长相等，则用上下半字的平均值标识。

另一方面，本发明提供基于深度学习的表盘数字字符识别系统，包括训练阶段和测试阶段：

训练阶段包括：

图像采集模块，用于以任意角度拍摄表盘数字图像和根据表盘样式仿真制作表盘图像，形成图像数据库；其中，图像中的字符包括全字字符和半字字符，全字字符为整个数字字符图像都完整地在表盘内的数字字符，半字字符为表盘范围内出现一个数字的下半部分和另一位相邻数字的半部分的数字字符；

预处理模块，用于将保存的图像进行预处理；

训练样本制作模块，用于制作训练样本，按照0,1,2…9这10个完整数字形态和与其相邻的数字过渡状态出现的表盘数字形态进行分类；

网络训练模块，用于将上述训练样本带入深度神经网络框架，进行训练，得到各连接层的权重值，并将预处理后的图像输入到训练好的卷积神经网络中进行自动识别，得到识别结果；

测试阶段包括：

采集实际工作情况下的表盘数字图像，并进行图像预处理；将处理好的表盘数字图像带入训练好的深度神经网络中，并得到最终的识别结果。

在上面的基础上，本发明还提供一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现上述所述的方法。

有益效果：本发明将表盘全状态识别，最后按顺序输出整个表盘的识别结果，从而减少不必要的模板匹配过程，减少模型训练步骤，提高表盘数字字符的识别正确率，为表盘数字字符半字全字的分开识别提供了新思路，并融合神经网络，可广泛应用于需要进行数字字符识别的领域。

附图说明

图1为本发明一实施例的识别方法流程图；

图2为本发明一实施例的仿射变换的结果示意图；

图3为本发明一实施例的透视变换的结果示意图；

图4为本发明一实施例的半字定义的示意图；

图5为本发明一实施例的半字符的标签表示图；

图6为本发明一实施例的仿真制作的具有全字和半字的表盘样式图；

图7为本发明一实施例所述的仿真制作半字表盘的方法图；

图8为本发明一实施例所述的仿真制作的样本图；

图9为本发明一实施例的识别结果示意图；

图10为本发明一实施例所述的电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1所示，本发明采用以下方案实现：一种基于深度学习的表盘全状态高精度识别方法，具体包括以下步骤：

步骤1：拍摄表盘数字图像，拍摄镜头可与表盘平面平行或成一定角度，同时本申请还采用仿真制作表盘样图像，并将采集的图像和仿真制作的图像保存，得到图像数据库；

其中，仿真制作表盘样本方法如下：

如上所示，如6表盘样式，由全字和半字组成。其中，全字由键盘输入，半字由图7中的滑动窗口截取。如图8是制作的其中一个样本。

若采用拍照采集表盘数字图像，若不是在表盘正上方拍摄，需把图像进行仿射变换处理；若是正上方拍摄直接进行下一步；

如图2和3所示，仿射变换关系表示为：

为旋转、伸缩、切变得合成变换的矩阵表示；

透视变换矩阵实现表盘倾斜校正，透视变换关系表示为：

其中，u和v是原始图像的某点坐标，

将上式变换为等式形式，即

其中，(x＝x‘/w’，y＝y‘/w’)为变换后的图像的坐标。

步骤3：将保存的图像进行预处理操作，转变为灰度图，同时为了尽量减少周围环境对表盘数字图像的影响，采用高斯滤波等图像增强方法，为后续步骤做准备；

步骤3.1：将步骤3得到图像做低通滤波处理以消除图像中的噪声，低通滤波是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序而改变。它有的时候也被叫做高频去除过滤或者最高去除过滤。低通过滤是高通过的对立。

低通滤波是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。但是阻隔、减弱的幅度则会依据不同的频率以及不同的滤波程序(目的)而改变。它有的时候也被叫做高频去除过滤或者最高去除过滤。低通过滤是高通过的对立。

图像的能量大部分集中在幅度谱的低频和中频度，而图像的边缘和噪声对应于高频部分。因此能降低高频成分幅度的滤波器就能减弱噪声的影响。

Butterworth低通滤波器是一种物理上可以实现的低通滤波器n阶，截断频率为d0的Butterworth低通滤波器的转移函数为：

步骤3.2：步骤2.1处理后的图像再进行直方图均衡化处理，增强图像对比度。直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。这种方法通常用来增加许多图像的局部对比度，尤其是当图像的有用数据的对比度相当接近的时候。通过这种方法，亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度，直方图均衡化通过有效地扩展常用的亮度来实现这种功能。

直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸，重新分配图像像素值，使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布直方图分布。

直方图均衡化步骤

(1)建立原图像的灰度直方图：

灰度直方图表示数字图像中每一灰度级(0-255)与其出现频数(该灰度像素的数目)间的统计关系。用横坐标表示灰度级，纵坐标表示频数或者概率。

按照直方图的定义可以表示为：

式中：N为一幅图像的总像素数，n_k为第k级灰度的像素数，P_nk表示该灰度级出现的相对频数；

(2)直方图的均衡化：把原始图像的直方图换成均匀分布的形式，这样就增加了图像灰度值的动态范围，从而达到增强图像整体对比度的效果，具体方法如下：

(21)列出原图像的灰度级S_k；

(22)统计原始图像各灰度级的像素个数n_k；

(23)计算原始图像直方图各灰度级的频率数；

(24)计算原始图像的累计直方图；

(25)取整计算:t_k＝int[(N-1)t_k+k/N]；

(26)确定S_k与t_k映像关系；

(27)统计新的直方图中各灰度级的像素值数目n_kl；

(28)计算新的直方图：

步骤3.3：将经过上述处理的图像二值化；

步骤4：制作训练样本，按照0,1,2…9这10个完整数字形态与其相邻的数字过渡状态共20个可能出现的表盘数字形态进行分类；

本实施例定义全字为整个数字字符图像都完整地在表盘内的数字字符，半字定义为表盘范围内出现一个数字的下半部分和另一位相邻数字的半部分的数字字符，如图4所示，由于出现两种不同类型的数字，所以用不同类型的数字标签来区分两种类型的数字，然后深度学习来训练样本，可以大大提高数字字符的识别速度和准确度。

步骤4.1得到的表盘数字图像按数字区域划分开；

步骤4.2若表盘数字是0,1,2…9这10个完整数字形态中的几个，则用对应的数字在该数字区域标识；

如图5所示，若表盘数字存在由0,1,2…9中两个相邻数字，如果组成半字符的上半字字长大于下半字字长，则用上半字字长对应的数字在该数字区域表示，如果组成半子字符的上半字字长小于下半字字长，则用下半字字长对应的数字在该数字区域表示；若组成半字字符的上下半字字长相等，则用上下半字的平均值标识。

长度表示可采用半字符所在的表盘的外框的上边缘和下边缘作为分界线，上半字字长为：计算外框的上边缘到上半字的下边沿的长度，下半字字长为：计算外框下边缘到下半字的上边沿的长度，将两个长度比较大小，即可计算得到上半字字长和下半字字长，在仿真图像时，该上下外框对应为滑动窗口的宽，该种表示方法可以不仅扩充了样本数量，且使得标签更加符合现实情况。

步骤5：将上述训练样本带入YOLO深度神经网络框架，进行训练，得到各连接层的权重值；

步骤5.1：输入测试集图片和标签以及训练集图片和标签，其中全字共有0至9共10个字符，半字共有01至90共10个字符；

步骤5.2：用YOLO训练一个前向传输的卷积神经网络；

步骤5.3：保存该卷积神经网络的各项权重值；

步骤5.4：将输入的全字灰度图输入到训练好的卷积神经网络中进行自动识别,得到识别结果。

步骤6：采集实际工作情况下的表盘数字图像，并进行图像预处理，处理步骤同步骤二；

步骤7：将处理好的表盘数字图像带入训练好的深度神经网络中，并得到最终的识别结果。按照以上步骤的顺序，依次输出识别结果，如图9所示，本实施实例识别结果为：00188，识别结果与实际相符合，识别正确。

步骤8：加入增量学习框架，定期进行增量训练，提高鲁棒性，利用人工抽检出其中的可信度接近阈值的实例，对其进行校验，根据校验结果，核查样本，并作为新的训练样本，在定期的增量训练中进行训练。

另一方面，本发明还提供一种基于深度学习的表盘数字字符识别系统，包括训练阶段和测试阶段：

训练阶段包括：

图像采集模块，用于以任意角度拍摄表盘数字图像，手动调整具有完整数字的图像与具有过渡状态数字下的图像，并将采集的图像进行保存，形成图像数据库；其中，具有过渡状态数字下的图像指该图像中存在两个相邻的数字上半部分和下半部分同时显示；

预处理模块，用于将保存的图像进行预处理；

网络训练模块，用于将上述训练样本带入Yolo深度神经网络框架，进行训练，得到各连接层的权重值，并将预处理后的图像输入到训练好的卷积神经网络中进行自动识别，得到识别结果；

测试阶段包括：

参阅图10所示，本发明实施例中，一种电子设备结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器310(CenterProcessing Unit，CPU)、存储器320、输入设备330和输出设备340等，输入设备330可以包括键盘、鼠标、触摸屏等，输出设备340可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器320可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器310提供存储器320中存储的程序指令和数据。在本发明实施例中，存储器320可以存储基于深度学习的表盘数字字符识别方法的程序。

处理器310通过调用存储器320存储的程序指令，处理器310用于按照获得的程序指令执行上述任一种基于深度学习的表盘数字字符识别方法的步骤。

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的基于深度学习的表盘数字字符识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的表盘数字字符识别方法，其特征在于，包括训练阶段和测试阶段，其中训练阶段包括：

(2)将保存的图像进行预处理；

测试阶段包括：

学习阶段：

2.根据权利要求1所述的基于深度学习的表盘数字字符识别方法，其特征在于，所述步骤(1)中，以任意角度拍摄表盘数字图像：

若拍摄镜头与表盘平行，则直接进入步骤2，否则，

3.根据权利要求2所述的基于深度学习的表盘数字字符识别方法，其特征在于，仿射变换关系表示为：

为旋转、伸缩、切变得合成变换的矩阵表示；

透视变换矩阵实现表盘倾斜校正，透视变换关系表示为：

其中，u和v是原始图像的某点坐标，a₃₃＝1，

表示图像线性变换，[a₁₃ a₂₃]^T用于产生图像透视变换，[a₃₁ a₃₂]表示图像平移；

将上式变换为等式形式，即

其中，(x＝x‘/w’，y＝y‘/w’)为变换后的图像的坐标。

4.根据权利要求1所述的基于深度学习的表盘数字字符识别方法，其特征在于，所述步骤(1)中，根据表盘样式仿真制作表盘图像，其中全字字符由键盘输入，半字字符通过滑动窗口截取。

5.根据权利要求1所述的基于深度学习的表盘数字字符识别方法，其特征在于，所述步骤(2)中，预处理包括：将采集的图像做低通滤波处理以消除图像中的噪声以及再进行直方图均衡化处理，从而增强图像对比度。

6.根据权利要求1所述的基于深度学习的表盘数字字符识别方法，其特征在于，所述步骤(3)中，制作训练样本包括：

7.一种基于深度学习的表盘数字字符识别系统，其特征在于，包括训练阶段和测试阶段：

训练阶段包括：

预处理模块，用于将保存的图像进行预处理；

测试阶段包括：

8.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现权利要求1至6任一项所述的方法。