CN113191358B

CN113191358B - 金属零件表面文本检测方法和系统

Info

Publication number: CN113191358B
Application number: CN202110603294.7A
Authority: CN
Inventors: 谷朝臣; 官同坤; 王臻
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-01-24
Anticipated expiration: 2041-05-31
Also published as: CN113191358A

Abstract

本发明提供了一种金属零件表面文本检测方法和系统，包括：预处理步骤：识别金属表面字符图像，对金属表面字符图像进行图像增强，得到预处理图像；前景特征聚焦步骤：基于预处理图像，通过深度卷积网络高亮文本区域的图像特征，得到显著图；多尺度矫正步骤：利用显著图的像素信息过滤金字塔网络不同层级的背景文本框，通过修正特征网络对被选中的文本框进行评估和预测，得到修正文本框；后处理步骤：计算修正文本框的实例分数，结合预测分数，应用非极大值抑制算法得到最终文本框位置。本发明解决了金属属性和工业环境导致的背景复杂的文本检测问题，实现了金属零件字符图像自动分割，输出高精度文本定位框，提高了检测精度。

Description

金属零件表面文本检测方法和系统

技术领域

本发明涉及文本检测技术领域，具体地，涉及一种金属零件表面文本检测方法和系统。

背景技术

文本信息作为信息时代关键一环，应用在网络电子信息、文本印刷、交通标志和产品商标等等，在科技时代起着越来越重要的作用，因此对于光学字符识别(OCR)的研究，在智能自动化、信息处理、AI等领域发挥着重要作用。企业资源计划的业务场景中孵化的光学字符识别(OCR)应用程序已受到广泛关注，例如手势识别，包装印刷识别和金属表面字符识别。其中，在许多工业场景中，金属零件的跟踪是最具挑战性的。

直接金属零件标识技术是零件产品标识的主要手段，是指在制造和生产零部件时，直接把已确定的零部件信息打印在产品本身，主要包含激光雕刻、针孔打标和喷墨标识三种方式。OCR技术对金属零件表面字符标识的研究和分析，可以在各类机器的加工生产线上快速识别零件型号，生产信息和生产商等信息，防止人工因识别疲劳导致错误的发生，提高生产效率。

现有的文本检测方法主要研究自然场景复杂性的影响，然而由于金属零件表面字符数据集较难收集，而且在金属零件文本检测领域，存在着金属表面强反光、金属质地差异较大、字符排列不一、前景和背景对比度较差以及金属纹理背景复杂等问题，导致文本检测框定位不够精准，这对应用金属零件追踪的字符识别是困难的。

专利文献CN110222680A(申请号：CN201910416098.1)公开了一种城市生活垃圾物品外包装文本检测方法：采集城市垃圾物品外包装的图像数据集，并对图像数据集中的每个图像的文本区域进行标注；对标注完成的图像数据集中的每个图像根据文本区域的标注生成文本分数特征图和多通道位置特征图，构成每个图像的训练标签；将图像数据集中的图像按照9：1的比例分为训练集和测试集；构建全卷积神经网络模型并进行训练，得到训练好的全卷积神经网络模型；利用训练好的全卷积神经网络模型获取待检测图像的预测文本区域；阈值筛选阶段；非极大值抑制阶段，得到最终的文本区域检测结果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种金属零件表面文本检测方法和系统。

根据本发明提供的金属零件表面文本检测方法，包括：

预处理步骤：识别金属表面字符图像，对金属表面字符图像进行图像增强，得到预处理图像；

前景特征聚焦步骤：基于预处理图像，通过深度卷积网络高亮文本区域的图像特征，得到显著图；

多尺度矫正步骤：利用显著图的像素信息过滤金字塔网络不同层级的背景文本框，通过修正特征网络对被选中的文本框进行评估和预测，得到修正文本框；

后处理步骤：计算修正文本框的实例分数，结合预测分数，应用非极大值抑制算法得到最终文本框位置。

优选的，所述预处理步骤包括：

图像增强步骤：基于RGB图像自适应直方图均衡增强金属表面字符图像的局部对比度，同时采用拉普拉斯算子锐化金属表面字符图像，保留高频信息和高亮文本字符细节，得到预处理图像。

优选的，所述前景特征聚焦步骤包括：

语义分割步骤：将金属表面字符图像送入多层次卷积网络，设置平行卷积结构和通道注意力机制融合高层次特征，增加自适应算子凸显低层次特征前景和背景的差值，并合并高层次特征和低层次特征得到显著图；

前景聚焦步骤：将显著图与带有标签信息的掩码图进行比较，为对比度和辨识度低于预设阈值的区域设置分割阈值获取更多的前景文本特征。

优选的，所述多尺度矫正步骤包括：

多边形选择步骤：对显著图进行图像二值化处理，并将二值化结果作为掩码过滤不同层次的卷积网络生成的文本框和排除背景区域文本框，刷选得到多尺度的建议文本框；

位置矫正步骤：应用ROI池化模型对建议文本框编码到固定形状，提取ROI区域特征，送入分类和回归网络得到修正文本框。

优选的，所述后处理步骤包括：

重新打分步骤：根据二值化后的显著图计算修正文本框的实例得分，并结合修正文本框的预测得分，对每一个修正文本框重新评估分值；

非极大值抑制步骤：应用NMS方法滤除重复的文本框，得到最终的文本框位置。

根据本发明提供的金属零件表面文本检测系统，包括：

预处理模块：识别金属表面字符图像，对金属表面字符图像进行图像增强，得到预处理图像；

前景特征聚焦模块：基于预处理图像，通过深度卷积网络高亮文本区域的图像特征，得到显著图；

多尺度矫正模块：利用显著图的像素信息过滤金字塔网络不同层级的背景文本框，通过修正特征网络对被选中的文本框进行评估和预测，得到修正文本框；

后处理模块：计算修正文本框的实例分数，结合预测分数，应用非极大值抑制算法得到最终文本框位置。

优选的，所述预处理模块包括：

图像增强模块：基于RGB图像自适应直方图均衡增强金属表面字符图像的局部对比度，同时采用拉普拉斯算子锐化金属表面字符图像，保留高频信息和高亮文本字符细节，得到预处理图像。

优选的，所述前景特征聚焦模块包括：

语义分割模块：将金属表面字符图像送入多层次卷积网络，设置平行卷积结构和通道注意力机制融合高层次特征，增加自适应算子凸显低层次特征前景和背景的差值，并合并高层次特征和低层次特征得到显著图；

前景聚焦模块：将显著图与带有标签信息的掩码图进行比较，为对比度和辨识度低于预设阈值的区域设置分割阈值获取更多的前景文本特征。

优选的，所述多尺度矫正模块包括：

多边形选择模块：对显著图进行图像二值化处理，并将二值化结果作为掩码过滤不同层次的卷积网络生成的文本框和排除背景区域文本框，刷选得到多尺度的建议文本框；

位置矫正模块：应用ROI池化模型对建议文本框编码到固定形状，提取ROI区域特征，送入分类和回归网络得到修正文本框。

优选的，所述后处理模块包括：

重新打分模块：根据二值化后的显著图计算修正文本框的实例得分，并结合修正文本框的预测得分，对每一个修正文本框重新评估分值；

非极大值抑制模块：应用NMS方法滤除重复的文本框，得到最终的文本框位置。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明基于精修位置和分类特征的金属零件表面文本检测方法，针对金属表面具有低对比度、强反光、字符凸凹不一和复杂纹理的现象，通过自适应直方图均衡化和图像锐化增强金属表面字符对比度，并设计聚焦前景的语义分割方法，突出了字符区域文本特征；

(2)本发明针对金属零件文本定位不精确的现象提出了一种快速且有效的多边形选择算法，有效过滤掉背景框，并为修正网络提供更多精确的前景框用于回归，改善了定位效果；

(3)本发明结合预测位置框的实例得分，提出重新打分机制，不仅得到定位精准的检测框，而且提高了文本检测的综合指标。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为金属零件表面文本检测的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明采用自适应直方图均衡化和图像锐化方法对RGB图像预处理；再针对金属零件表面低对比度、强反光和字符腐蚀等特点，分别采用了高层级特征和低层级特征的注意力机制聚焦文本特征；然后采用基于前景的分割损失函数检测更多的低对比度和难以区分的文本区域特征，进一步提高分割效果；针对算法的预测框易在文本边缘区域出现定位不准确的问题，根据分割得到的显著图挑选出较好的预测框，然后对建议框进行二次修正；基于矫正框的位置和分数，计算矫正框的实例分数，并采用重新打分机制对全部矫正框进行甄别；最后，根据非极大值抑制算法得到最终的预测框，并结合计算IOU从预测框的精确度，召回率，综合指数及IOU等指标建立文本检测评估体系，实现了对文本检测算法的数字化定量评价。

根据本发明提供的一种基于精修位置和分类特征的金属零件表面文本检测方法，包括：

预处理步骤：识别金属表面字符图像，通过预处理令金属表面字符图像进行图像增强，得到高质量的预处理图像；

前景特征聚焦步骤：输入预处理后的金属表面字符图像，通过深度卷积网络高亮文本区域的图像特征，得到分割后的显著图；

多尺度矫正步骤：利用显著图的像素信息过滤金字塔网络不同层级的背景文本框，被选中的文本框送入修正特征网络再次评估；

后处理步骤：提取修正网络预测框在显著图的图像特征得到实例分数，基于修正特征网络预测的分类分数，结合实例分数和分类分数进行建议框重新打分，应用非极大值抑制后处理方法得到最终修正文本框。

具体地，所述预处理步骤包括：

图像增强步骤：基于RGB图像自适应直方图均衡增强金属零件图像的局部对比度，同时采用拉普拉斯算子锐化金属零件图像，保留高频信息和高亮文本字符细节，得到预处理图像。

具体地，所述前景特征聚焦步骤包括：

语义分割步骤：将金属零件字符图像送入多层次卷积网络，设置平行卷积结构和通道注意力机制融合高层次特征，增加自适应算子凸显低层次特征前景和背景的差值，并合并高层次特征和低层次特征得到显著图；

前景聚焦步骤：将语义分割步骤得到的显著图与带有标签信息的掩码图进行比较，为低对比度和难辨识的区域设置分割阈值交换更多的前景文本特征。

具体地，所述多尺度矫正步骤包括：

多边形选择步骤：根据语义分割后的显著图二值化的结果，作为掩码过滤不同层次的卷积网络生成的文本框，排除背景区域文本框，刷选得到多尺度的建议文本框；

位置矫正步骤：应用RROI池化模型对多边形选择步骤产生的建议文本框编码到固定形状，提取ROI区域特征，送入分类和回归网络得到修正的文本框。

具体地，所述后处理步骤包括：

重新打分步骤：根据二值化后的显著图计算修正文本框实例得分，并结合修正文本框的预测分数，对每一个修正后的文本框重新评估分值；

如图1所示，本发明基于前景的特征聚焦的分割方法，多尺度位置矫正方法和文本框重新打分机制对增强后的金属零件图像进行处理，实现了文本框的检测和定位，包括如下步骤：

步骤100图像预处理，包括步骤110和步骤120，采用自适应直方图均衡化和图像锐化对图像增强，改善图像质量，为后续的处理做准备；

步骤110：金属零件图像的对比度增强，基于自适应直方图均衡对图像的不同局部采用不同的增强方案，增强对比度同时保留图像细节；

步骤120：基于拉普拉斯算子实现图像锐化，保留图像高频信息，高亮文本区域细节特征，拉普拉斯算子为：

步骤200：基于前景特征聚焦的分割，包含步骤210、步骤220、步骤230，基于ResNet-FPN架构的金字塔网络分层级设置注意力机制，融合多层级特征去增强层级特征关联性，并合并高层次特征和低层次特征得到显著图，然后设计聚焦前景的损失函数促进低对比度文本图像的分割。

步骤210：低层级网络具有更多的细节，差的语义感知能力，而高层级网络拥有更多语义性的信息，较少的细节特征。对高层级网络设计一种并行结构，通过相互交换信息来融合高级特征图的多分辨率子网，确保多分辨率子网的每个级别包含更高分辨率的特征信息，从而丰富子网的空间特征。对低层级网络的每个通道进行加权去高亮文本特征，获得更多的语义信息。

具体地，设金字塔网络分为P₂,P₃,P₄,P₅四层，Conv,DConv,UConv分别代表不同的卷积类型，c是通道数量，j代表特征图上的像素点，CA是通道注意力机制，并取P₂作为低层次网络，P₃,P₄,P₅作为高层次网络，则对低层级特征做如下处理：

L_map＝Conv(P₂)

高层次网络具有多尺度子网，做如下处理获得更多的细节特征：

然后融合高层次特征图

和低层次特征图

形成受监督显著图S_map。

步骤220：根据金属表面上的低对比度字符的特点，当专注于消除背景噪音时，文本边缘字符特征可能会片段式缺失，很容易导致回归位置不正确，因此更加关注前景，首先引入Dice作为损失函数L_dice去解决正负样本不均衡的问题，然后依据以下两个初衷设计分割损失机制促进显著性图分割：a)包括尽可能多的文本特征；b)最小化错误检测的数量。假设标签为S_gt，并且标签与S_map的差值为S_Diff，提出了以下的损失函数。

L_a＝(S_Diff≥1/2)*(1-F)

L_b＝(-S_Diff≥1/2)*F

γ表示平衡参数，F表示S_map二值化后的结果，Δ表示可允许错检率的上限，以换取在低对比度和难以区分的区域中检测更多文本特征。

步骤230：复杂的金属零件背景容易对后续的分类网络和回归网络造成干扰，因此，把语义分割得到的显著图应用到每一个层级子网中，高亮分类和回归网络中的文本特征，抑制背景噪声，具体如下：

所述分类网络和回归网络是指两个共同结构、不同参数组成的子网络，它们由四个3*3的卷积层和一个3*5的卷积层组成。金字塔网络的每一层在显著图加权后，分别用于分类和回归任务。这种方法有效抑制了背景噪声，也尽可能地保留更多文本特征，生成的预测框具有高的匹配精度，不足的是预测框的位置不能有效地覆盖文本，这对后续实现金属追踪是困难的，这个问题可以在后续的基于显著图的二次回归中得到解决。

步骤300基于显著图的多尺度矫正步骤，包含步骤310、步骤320，使用基于前景聚焦的分割结果，采用多边形选择算法，并应用精修模型对建议框进行重新校准。

步骤310：金字塔网络的每一层经过分类和回归子网络都会产生预测框，然而尤其是针对倾斜的文本，预测框的位置不够精确，因此基于分割得到的显著图去获得依附于前景前k＝500个预测框并馈送进精修特征网络，具体的算法如下：

步骤320：应用RROI池化模型对多边形选择步骤产生的建议文本框编码到固定形状，从ResNet-FPN框架中提取ROI区域特征，送入分类和回归网络得到修正的文本框位置和分数。

步骤400：重新打分机制，包含步骤410、步骤420，基于二值化后的显著图计算修正文本框实例得分，并结合修正文本框的预测分数，对每一个修正后的文本框重新评估分值；

步骤410：根据修正网络生成的文本框的位置和分数，结合提取显著图框计算修正文本框实例得分，重新评估每一个文本框的分数。假定建议文本框的分类分数为S_c，实例分数为S_I，具体流程如下：

P_V＝{ρ¹,…,ρⁿ}

其中：μ被设为1/4，P_V为建议框从S_map中提取到的像素集。

步骤420：应用了NMS(non-maximum suppression)算法去除重复文本框，并基于预测框与标签的IOU值建立精确度，召回率和综合分数等指标建立文本检测评估体系。

精确度计算公式：

召回率计算公式：

综合分数计算公式：

其中，tp，fp，fn分别代表命中文本框的数量，识别错误的文本框和丢失的文本框。

本发明解决了在工业环境下金属零件表面文本信息的定位问题，以帮助工业生产线上金属零件的追踪和记录；通过对金属零件表面字符标识的研究和分析，可以在各类机器的加工生产线上快速识别零件型号，尺寸和生产商等信息，防止人工因识别疲劳导致错误的发生，提高生产效率。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种金属零件表面文本检测方法，其特征在于，包括：

后处理步骤：计算修正文本框的实例分数，结合预测分数，应用非极大值抑制算法得到最终文本框位置；

所述预处理步骤包括：

图像增强步骤：基于RGB图像自适应直方图均衡增强金属表面字符图像的局部对比度，同时采用拉普拉斯算子锐化金属表面字符图像，保留高频信息和高亮文本字符细节，得到预处理图像；

所述前景特征聚焦步骤包括：

前景聚焦步骤：将显著图与带有标签信息的掩码图进行比较，为对比度和辨识度低于预设阈值的区域设置分割阈值获取更多的前景文本特征；

所述多尺度矫正步骤包括：

位置矫正步骤：应用ROI池化模型对建议文本框编码到固定形状，提取ROI区域特征，送入分类和回归网络得到修正文本框；

所述后处理步骤包括：

2.一种金属零件表面文本检测系统，其特征在于，包括：

后处理模块：计算修正文本框的实例分数，结合预测分数，应用非极大值抑制算法得到最终文本框位置；

所述预处理模块包括：

图像增强模块：基于RGB图像自适应直方图均衡增强金属表面字符图像的局部对比度，同时采用拉普拉斯算子锐化金属表面字符图像，保留高频信息和高亮文本字符细节，得到预处理图像；

所述前景特征聚焦模块包括：

前景聚焦模块：将显著图与带有标签信息的掩码图进行比较，为对比度和辨识度低于预设阈值的区域设置分割阈值获取更多的前景文本特征；

所述多尺度矫正模块包括：

位置矫正模块：应用ROI池化模型对建议文本框编码到固定形状，提取ROI区域特征，送入分类和回归网络得到修正文本框；

所述后处理模块包括：