CN114463757A

CN114463757A - 基于机器视觉的工业场景字符端侧推理训练装置及方法

Info

Publication number: CN114463757A
Application number: CN202210105713.9A
Authority: CN
Inventors: 熊帆; 陈�田
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-10

Abstract

本发明公开了基于机器视觉的工业场景字符端侧推理训练装置及方法，包括以下步骤：A1：图像阈值分割，将原始灰度图像通过基于积分图运算的快速自适应阈值分割转换为二值化图像；A2：提取文本字段图像，对经过阈值分割后的图像进行闭操作，得到旋转矩形区域图像；A3：文本字段图像校正，通过仿射变换算法对得到的旋转矩形图像进行方向校正；A4：图像字符识别，将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组，然后输出字符识别结果。本发明提出的图像阈值分割方法，积分图的快速运算，与现有的采用高斯局部阈值分割的方法相比，可大大提高图像二值化的效能，减少分割所用时间，与OTSU法相比，本申请的分割效果更好，识别精度更高。

Description

基于机器视觉的工业场景字符端侧推理训练装置及方法

技术领域

本发明涉及图像处理技术领域，尤其涉及到基于机器视觉的工业场景字符端侧推理训练装置及方法。

背景技术

光学字符识别是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。工业场景下的光学字符识别多用于提取产品表面的型号、序列号、日期等关键信息，对于产品物料的管理与追溯具有重大意义。目前该领域下的字符识别技术多以传统的图像处理及模板匹配算法为主，通过事先制作各个字符的图像模板，在处理新采集的图像时首先利用投影法、连通域分析等算法定位到单个字符。再将其截取出为单字符子图像，并与所有模板图像进行匹配比较，即计算实际字符图像与模板图像的重合度，将重合度最高的模板图像对应的字符类别作为该字符图像所属的字符；此外，一些机器学习算法也逐渐被应用于该技术领域，如采用支持向量机算法或BP神经网络作为单字符的分类器，即通过在远端计算设备平台训练模型，再将模型部署到工业现场，实现字符的识别。

目前，基于传统图像处理、模板匹配算法进行字符识别，同一个字符图像需要对每一个模板图像进行遍历，这种方式效率低下，算法冗余度高。同时在面对产品线更新、出现多字体的字符图像时，需要重新制作模板和修改算法。此外这种方法鲁棒性差，如果产品表面出现脏污或印字不均，极容易导致单个字符分割失败，进而导致识别准确率低；对于机器学习或基本神经网络的方法，模型的训练与推理通常是割裂开来的，即在模型训练完成、投入现场部署应用之后，很难再对其进行更新与维护。

本申请的申请人通过建设现有技术发现了如下相关专利文献：专利文献1(CN202110053548.2)公开了一种字符识别提取方法，与之相比本发明无需事先制作字符库，而是通过更加智能的深度学习方法实现字符内容的识别，同时支持识别模型的自主更新，可用性更加，效果更好；专利文献2(CN202011457524.5)与之相比本专利的是以文本字段为基本单位，而不是将单个字符作为目标检测的对象，本专利提出使用的CRNN网络中的循环神经网络具有一定程度地上下文语义结合能力，具有更好的识别效果，如果以YOLO这种目标检测算法很难去分辨如0和O这种相似的字符，同时召回率也会比较低，容易漏字；可见现有技术中虽然已经存在一些字符识别方法，但任存在诸多缺陷。

发明内容

本发明的目的是提供基于机器视觉的工业场景字符端侧推理训练装置及方法，通过以文本字段为基本单位而不是单个字符，利用图像处理算法实现文本字段区域图像的提取，相比传统方法的单字符提取方案更加高效，能够解决现有技术的文本区域提取失误或遗漏的问题。通过CRNN深度学习神经网络实现文本字段图像的字符识别，比传统的模板匹配方法更加简单高效，同时鲁棒性和准确性也更高，能够克服现有技术的字符易识别出错的缺点。同时支持在现场的工业计算平台实现端侧的模型学习和训练，能够使得系统可以应对不同字体的识别需求，能够解决现有技术可用性差、难扩展的问题。

本发明的上述技术目的是用过以下技术方案实现的：

一种基于机器视觉的工业场景字符端侧推理训练方法，包括以下步骤：

A1：图像阈值分割，将原始灰度图像通过基于积分图运算的快速自适应阈值分割转换为二值化图像；

A2：提取文本字段图像，对经过阈值分割后的图像进行闭操作，得到旋转矩形区域图像；

A3：文本字段图像校正，通过仿射变换算法对得到的旋转矩形图像进行方向校正；

A4：图像字符识别，将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组，然后输出字符识别结果。

本发明的进一步设置为：所述卷积循环神经网络模型的训练方法包括以下步骤：

B1：制作训练卷积循环神经网络模型所需要的数据集；

B2：基于深度学习框架搭建卷积循环神经网络模型，调取数据集对模型进行参数调整与优化；

B3：如果训练完成后得到的卷积循环神经网络模型的准确率小于预定值P,则将重新执行上述B2步骤，如果得到的卷积循环神经网络模型的准确率大于或等于预定值P，则将卷积循环神经网络模型用于步骤A4的图像字符识别中。

本发明的进一步设置为：所述积分图局部像素的求和公式为：

公式中图像积分图内每个点的值I(x,y)对应着原始图像中该点f(x，y)左上角的所有像素灰度值之和；

基于积分图的自适应阈值分割法表示公式为：

公式中的f(x，y)为原灰度图中某像素的灰度值，公式中的c表示所选取邻域的像素个数总和，公式中的t为用于调节分割效果的常数参数；当该式成立时，积分图阈值分割将二值化图像对应的像素值置为255，否则置为0。

本发明的进一步设置为：所述图像操作的公式为：

公式中的A表示原图像，公式中的B表示一定大小的结构元素，公式中符号·表示闭操作，

表示形态学膨胀操作，

表示形态学腐蚀操作，，即通过结构元素B先对原图像A进行膨胀，再用结构元素B对结果图像进行腐蚀。

本发明的进一步设置为：所述仿射变换算法的公式为：

公式中的u、v对应着经过仿射变换后的像素点坐标，a₂、a₁、a₀、b₂、b₁、b₀为仿射矩阵的各子元素,x、y对应着仿射变换前的像素坐标。

本发明的进一步设置为：所述数据集包括裁切至文本字段最小外界边缘的图像集和对应的标注信息文本，标注信息文本中每一行保存每张训练图像的文件路径和对应的字符串内容。

本发明的进一步设置为：所述将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组，卷积循环神经网络模型组中包含多个不同的子卷积循环神经网络模型，每个卷积循环神经网络模型的输出结果经过投票器进行投票，根据各子结果的重复数量及置信度情况选出最佳的预测结果，将最佳预测结果作为最后的字符识别结果输出。

一种基于机器视觉的工业场景字符端侧推理训练装置，包括：

传送机构，所述传送机构用于输送待测工件；

支撑机构，所述支撑机构设置在传送机构上；

机器视觉机构，所述机器视觉机构用于获取待测工件的图像信息；

控制组件，所述控制组件与传送机构以及机器视觉机构连接，用于控制传送机构的工作状态并接收处理机器视觉机构获取的图像信息。

本发明的进一步设置为：所述机器视觉机构包括：设置在支撑机构上的工业相机，工业相机上安装有工业相机镜头，所述工业相机的下方设置有红外同轴光源。

本发明的进一步设置为：所述控制组件包括包括：工业计算机，所述工业计算机的接口分别与显示器、键盘、以及鼠标连接，所述显示器通过以太网总线与总线控制器连接，所述总线控制器分别与机器视觉机构以及电机驱动器连接，所述电机驱动器与传送机构连接。

综上所述，本发明具有以下有益效果：

1)本发明专利提出的图像阈值分割方法，积分图的快速运算，与现有的采用高斯局部阈值分割的方法相比，可大大提高图像二值化的效能，减少分割所用时间，与OTSU法相比，本申请的分割效果更好，识别精度更高；

2)本发明专利提出的字符端侧推理训练装置，采用基于以太网总线的控制方案，相比传统工业控制系统更加高速高精；

3)本发明专利提出的字符端侧推理训练方法可以实现工业现场的自主模型训练，而不需要依赖将数据传至远端的服务器或第三方机构，可以实现离线式地提高识别系统的准确率；即使现场产线更新、产品表面出现新型的字体，本发明专利提出的整体方案依然能保证良好的持续可用性，仅需对识别模型进行适应性地训练微调即可。

附图说明

图1是基于机器视觉的工业场景字符端侧推理训练的算法基本流程图。

图2基于机器视觉的工业场景字符端侧推理训练装置结构示例图。

图3为阈值分割的示例结果图。

图4闭操作的示例效果图。

图5方向校正后效果示例图。

图6提取的文本字段示例图。

图7为CRNN模型的基本结构图。

图8为训练数据集的示例图。

附图标记：1-支撑机构1，11-工业相机、12-工业相机镜头、13-为红外同轴光光源、2-传送机构、21-待测工件、3-工业计算机、31-显示器、32-键盘、33-鼠标、34-以太网总线、35-电机驱动器、36-总线控制器

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。

如图2所示，以芯片作为实例对象进行说明，本发明提出的一种基于机器视觉的工业场景字符端侧推理训练方法，包括以下步骤：

所述卷积循环神经网络模型的训练方法包括以下步骤：

B1：制作训练卷积循环神经网络模型所需要的数据集；

所述积分图局部像素的求和公式为：

基于积分图的自适应阈值分割法表示公式为：

公式中的f(x，y)为原灰度图中某像素的灰度值，公式中的c表示所选取邻域的像素个数总和，公式中的t为用于调节分割效果的常数参数；当该式成立时，积分图阈值分割将二值化图像对应的像素值置为255，否则置为0。本实施例中，设c＝8，t＝0.14，分割结果如图3所示。

所述图像操作的公式为：

表示形态学膨胀操作，

表示形态学腐蚀操作，，即通过结构元素B先对原图像A进行膨胀，再用结构元素B对结果图像进行腐蚀。通过闭操作将各个单个字符区域图像连通在一起，在结果图像中查找轮廓，从中筛选出符合规则的轮廓，进而得到所得轮廓相应的最小带角度的旋转矩形区域图像。本实施例采用的结构元素B大小为3×3，闭操作的效果如图4所示。通过闭操作将各个单个字符区域图像连通在一起，在结果图像中查找轮廓，从中筛选出符合规则的轮廓，进而可得到所得轮廓相应的最小带角度的旋转矩形区域图像。

所述仿射变换算法的公式为：

公式中的u、v对应着经过仿射变换后的像素点坐标，a₂、a₁、a₀、b₂、b₁、b₀为仿射矩阵的各子元素,各元素参数值可根据需要进行设置,x、y对应着仿射变换前的像素坐标；仿射矩阵的元素值与目标区域对应的旋转矩形区域的角度有关，本示例的图像方向校正效果如图5所示。

如图6所示，文本字段区域经过仿射变换完成方向校正之后，即可提取出原始灰度图像中所含的文本字段图像。

如图7所示，对于提取的文本字段图像通过预训练过的CRNN网络模型进行推理识别，CRNN网络模型的基本结构。

如图8所示，在现场的工业计算机平台可进行模型的训练微调，需要构建的数据集，在现场的计算机平台端侧，用户可通过程序界面将现场所推理的实时图像添加到本地数据集，实际的图像数据与基础数据集一起对模型进行训练微调，直到达到可用的模型推理效果。

所述数据集包括裁切至文本字段最小外界边缘的图像集和对应的标注信息文本，标注信息文本中每一行保存每张训练图像的文件路径和对应的字符串内容。

所述将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组，卷积循环神经网络模型组中包含多个不同的子卷积循环神经网络模型，每个卷积循环神经网络模型的输出结果经过投票器进行投票，根据各子结果的重复数量及置信度情况选出最佳的预测结果，将最佳预测结果作为最后的字符识别结果输出。

如图2所示，一种基于机器视觉的工业场景字符端侧推理训练装置，包括：

传送机构2，所述传送机构2用于输送待测工件21；

支撑机构1，所述支撑机构1设置在传送机构2上；

机器视觉机构，所述机器视觉机构用于获取待测工件21的图像信息；

控制组件，所述控制组件与传送机构2以及机器视觉机构连接，用于控制传送机构2的工作状态并接收处理机器视觉机构获取的图像信息。

所述机器视觉机构包括：设置在支撑机构1上的工业相机11，工业相机11上安装有工业相机镜头12，所述工业相机11的下方设置有红外同轴光源13。

所述控制组件包括包括：工业计算机3，所述工业计算机3的接口分别与显示器31、键盘32、以及鼠标33连接，所述显示器31通过以太网总线34与总线控制器36连接，所述总线控制器36分别与机器视觉机构以及电机驱动器35连接，所述电机驱动器35与传送机构连接。

在本实施例中，芯片图像尺寸为762×382，分别采用OTSU法、高斯局部阈值分割与本发明专利提出的积分图自适应阈值分割三种方法对图像进行处理，统计分割时间并对比分割效果，在同样使用Intel i7 CPU处理器进行运算的情况下OTSU法阈值分割平均时间分别为0.42ms；高斯局部阈值分割平均时间为24.98ms、本发明提出的积分图自适应阈值分割平均时间为1.78ms，与高斯局部阈值分割法相比要快速十倍之多，并且分割效果也比作为全局阈值法的OTSU算法要好，兼具处理速度和质量，具有良好的应用前景。

本发明的具体工作原理：工业计算机通过以太网总线发送一组脉冲信号给总线控制器，总线控制器进而控制电机驱动器组使传送机构以一定的动、停节拍使待测工件移动到红外同轴光光源下方，当总线控制器通过位置比较信号判断待测工件已经到达指定位置时，以太网总线与总线控制器给工业相机发送一个触发信号，控制工业相机和红外同轴光源同步工作，点亮红外同轴光源的同时，红外同轴光源的发光体光线经过红外同轴光源的光学玻璃反射到产品表面的字符上，字符的反射光通过光学玻璃、滤光镜之后进入工业相机的镜头，最后通过镜头聚焦到工业相机的相机芯片上采集一帧图像，相机采集到字符图像信息通过以太网总线返回至工业计算机进行分析和识别，返回该图像中所包含的字符文本信息，并于显示器中进行显示，用户可通过键盘、鼠标对识别结果出错的图像进行订正，并将数据保存至工业计算机，实现数据存档，同时也会用于模型的训练与优化。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述卷积循环神经网络模型的训练方法包括以下步骤：

B1：制作训练卷积循环神经网络模型所需要的数据集；

3.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述积分图局部像素的求和公式为：

基于积分图的自适应阈值分割法表示公式为：

4.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述图像操作的公式为：

表示形态学膨胀操作，

表示形态学腐蚀操作，即通过结构元素B先对原图像A进行膨胀，再用结构元素B对结果图像进行腐蚀。

5.根据权利要求1所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述仿射变换算法的公式为：

6.根据权利要求2所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述数据集包括裁切至文本字段最小外界边缘的图像集和对应的标注信息文本，标注信息文本中每一行保存每张训练图像的文件路径和对应的字符串内容。

7.根据权利要求2所述的一种基于机器视觉的工业场景字符端侧推理训练方法，其特征在于，所述将提取的文本字段图像传入经过预训练的卷积循环神经网络模型组，卷积循环神经网络模型组中包含多个不同的子卷积循环神经网络模型，每个卷积循环神经网络模型的输出结果经过投票器进行投票，根据各子结果的重复数量及置信度情况选出最佳的预测结果，将最佳预测结果作为最后的字符识别结果输出。

8.一种基于机器视觉的工业场景字符端侧推理训练装置，其特征在于，包括：

传送机构(2)，所述传送机构(2)用于输送待测工件(21)；

支撑机构(1)，所述支撑机构(1)设置在传送机构(2)上；

机器视觉机构，所述机器视觉机构用于获取待测工件(21)的图像信息；

控制组件，所述控制组件与传送机构(2)以及机器视觉机构连接，用于控制传送机构(2)的工作状态并接收处理机器视觉机构获取的图像信息。

9.根据权利要求8所述的一种基于机器视觉的工业场景字符端侧推理训练装置，其特征在于，所述机器视觉机构包括：

设置在支撑机构(1)上的工业相机(11)，工业相机(11)上安装有工业相机镜头(12)，所述工业相机(11)的下方设置有红外同轴光源(13)。

10.根据权利要求8所述的一种基于机器视觉的工业场景字符端侧推理训练装置，其特征在于，所述控制组件包括包括：

工业计算机(3)，所述工业计算机(3)的接口分别与显示器(31)、键盘(32)、以及鼠标(33)连接，所述显示器(31)通过以太网总线(34)与总线控制器(36)连接，所述总线控制器(36)分别与机器视觉机构以及电机驱动器(35)连接，所述电机驱动器(35)与传送机构连接。