CN112365501A

CN112365501A - 一种基于卷积神经网络的焊件轮廓检测算法

Info

Publication number: CN112365501A
Application number: CN202110042501.6A
Authority: CN
Inventors: 赵壮; 陆骏; 孙书丽; 高鹏; 王兴国; 冯琳; 吴梓剑
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-02-12
Anticipated expiration: 2041-01-13
Also published as: CN112365501B

Abstract

本发明涉及一种基于卷积神经网络的焊件轮廓检测算法，包括以下步骤：1.建立基础网络，建立基于RCF网络改进的跳层解码融合网络作为基础网络；2.构建跳层解码融合模块；3.引入ASPP模块；4.引入注意力机制模块。本发明在基于RCF网络改进的跳层解码融合网络增加解码路径，并采用点乘的方式融合不同尺度的信息，利用高层的语义信息来约束低层网络，避免在融合过程中低层特征引入过多的背景纹理信息，提升目标边缘检测的精度；对RCF网络中减少下采样次数导致的网络感受野减小的问题，引入ASPP模块，在不损失特征图分辨率的同时，扩大感受野并增强语义信息；引入改进的注意力机制模块，使网络更加专注目标的焊缝和外轮廓区域。

Description

一种基于卷积神经网络的焊件轮廓检测算法

技术领域

本发明涉及一种基于卷积神经网络的焊件轮廓检测算法，属于焊缝边缘检测技术领域。

背景技术

针对自动化焊接视觉辅助系统中，传统的边缘检测算法在待焊接工件轮廓的检测上具有较多的局限性。第一，传统的边缘检测方法不做区分地检测出图像中所有的边缘；第二，传统的算法在部分流程涉及到了一些参数的设置，如滤波的卷积核大小、Canny边缘检测中的高低阈值等，这些参数需要结合具体的图像来相应的设置，使得传统算法将很难适应实际复杂多变的工业焊接环境，因此鲁棒性不好。

综上所述，单纯利用传统算法难以达到理想的焊缝边缘检测效果。卷积神经网络拥有十分强大的图像空间特征和语义特征的学习能力，因此被广泛应用于各类计算机视觉任务的特征提取。经过训练，高层的神经网络能够抽象出帮助区分目标与非目标边缘的语义信息，从而有效地从众多边缘中筛选出有用的焊缝边缘，因此是焊缝边缘检测领域较为理想的一种边缘检测算法。这类算法在焊缝边缘检测方面表现出优良的性能，但是仍然存在一定程度的误检、断线等问题。

发明内容

为了解决上述技术问题，本发明提供一种基于卷积神经网络的焊件轮廓检测算法，其具体技术方案如下：

基于卷积神经网络的焊件轮廓检测算法，其特征在于：包括以下步骤：

步骤一：建立基础网络：建立基于RCF网络改进的跳层解码融合网络作为基础网络；

步骤二：构建跳层解码融合模块：构建上采样路径，使用点乘的方式将高层网络的语义信息引入到底层特征，以滤除目标内部及背景中的干扰边缘，跳层解码融合结构包括RCF网络下采样层，跳层解码融合结构进行若干次上采样操作，下采样层与对应的上采样层点乘融合后得到若干个不同尺寸的侧输出特征图；

步骤三：引入ASPP模块：在基于RCF改进的网络中引入ASPP模块，作为跳层解码融合结构的输入特征，ASPP模块对给定的输入特征以不同的采样率的多个并行空洞卷积进行采样，为每个采样率提取的特征在单独的分支中进一步处理，最后使用通道拼接方法融合不同尺度的卷积特征，生成最终结果；

步骤四：引入注意力机制模块：在基于RCF改进的网络中引入注意力机制模块，首先通过激活函数ReLU增强输入特征的非线性，再通过1*1*1的卷积操作将通道数降为1，并利用Sigmoid函数将特征映射到0-1区间，得到注意力权重图，将该权重图与输入特征进行元素乘操作，得到调整权重后的特征图，最后在上述的注意力机制基础上增加短连接路径，重新调整权重后的特征与输入特征，并以像素逐点求和的方式叠加；

进一步的，所述步骤一中RCF网络的主干网络为VGG16网络，所述VGG16网络设置有交替堆叠的13个卷积层、5个池化层和3个全连接层。

进一步的，所述步骤二中构建跳层解码融合模块，通过从高到低逐步对高层级特征做上采样操作，并与上一层级的特征做点乘操作，使用高层级特征对低层级的特征做约束以滤除部分干扰边缘。

进一步的，所述步骤二中RCF网络下采样层由5个卷积块和4个池化层组成。

进一步的，所述池化层依次为第一池化层、第二池化层、第三池化层和第四池化层，所述第一池化层、第二池化层和第三池化层的步长均为2，所述第四池化层的步长为1。

进一步的，所述步骤二中下采样路径进行4次池化操作，并相应得到5个层级的侧输出特征图，所述侧输出特征图从低层到高层依次划分为第一层级特征图、第二层级特征图、第三层级特征图、第四层级特征图和第五层级特征图，所述第四层级特征图和第五层级特征图尺度和通道数保持一致外，从第一层级到第四层级特征图，高层级的特征图较低一层级的特征图的高度和宽度减半，通道数增加一倍。

进一步的，所述步骤三中ASPP模块包括1个1*1空洞卷积和3个3*3且膨胀率分别为2、4、6的空洞卷积，所述空洞卷积的卷积核数量均为512个。

本发明的有益效果：

本发明在基于RCF网络改进的跳层解码融合网络增加了解码路径，并采用跳层连接的方式融合不同尺度的信息，利用高层的语义信息来约束低层网络，避免在融合过程中低层特征引入过多的背景纹理信息，提升了目标边缘检测的精度；对于RCF网络中减少下采样次数所导致的网络感受野减小的问题，在网络中引入了ASPP模块，在不损失特征图分辨率的情况下扩大了感受野并增强了语义信息；引入了改进的注意力机制模块，使得网络更加专注于目标的焊缝和外轮廓区域，进一步提升了算法的性能。

附图说明

图1是本发明的流程图，

图2是本发明的RCF网络结构示意图，

图3是本发明的跳层解码融合结构示意图，

图4是本发明的两个层级融合的过程示意图，

图5是本发明的普通卷积示意图，

图6是本发明的空洞卷积示意图，

图7是本发明的ASPP模块结构示意图，

图8是本发明原始的注意力机制模块示意图，

图9是本发明的注意力机制模块示意图，

图10是本发明的实验检测效果对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，本发明的基于卷积神经网络的焊件轮廓检测算法。

首先，建立基础网络，建立基于RCF网络改进的跳层解码融合网络作为基础网络。如图2所示的RCF网络结构，RCF的主干网络为VGG16网络，VGG16网络由13个卷积层、5个池化层和3个全连接层按一定规则交替堆叠而成。RCF网络融合了VGG16网络5个卷积阶段的特征，由低层到高层每个阶段的感受野逐渐变大，从而可以捕获到不同尺度的上下文信息。每一个阶段的特征图经过反卷积和裁剪后输出与原始输入图像同样大小的特征图，低层特征拥有丰富的位置信息，高层特征拥有丰富的语义信息，通过融合不同尺度的特征使得网络可以同时兼备丰富的位置和语义信息，从而表现出良好的检测效果。另外RCF网络还去除了VGG16网络末尾的全连接层，使得网络可以接收任意尺度的输入。但是，经过实验发现，在焊件轮廓检测任务中，RCF网络仍然存在误检、断线、边缘过粗等问题，为了进一步提高焊缝边缘检测的精度，本发明对焊件图像提出了一种基于RCF网络改进的跳层解码融合网络。

一种基于RCF网络改进的跳层解码融合网络具有三点改进。

其一，构建跳层解码融合模块。深度学习卷积神经网络是一个典型的非线性变换结构，主要由卷积层、池化层和激活层组成。增加网络模型的深度通常意味着网络非线性表征能力的增强，能够学习更复杂的变换关系，从而拟合出更复杂的特征。低层网络特征具有丰富的空间细节信息，边缘更加细腻，能够精确的定位边缘。但是低层特征感受野较小，无法获取充足的上下文信息和语义信息，因此低层网络对目标边缘和非目标边缘的判别能力较弱，容易将背景边缘误判为焊缝边缘，从而使得低层特征误检较为严重。随着网络深度的加深以及感受野逐渐增大，高层网络能够获取更丰富的语义信息从而可以更好的区分目标边缘和非目标边缘，输出特征将会更集中于目标边缘，因此高层输出的焊缝边缘误检相对较少。RCF网络采用通道连接的方式对多层级的特征进行融合，既可以保留细节信息又能获取语义信息。但是采用这种方式进行特征融合时，低层的输出特征包含更多细节信息但是却杂乱无章，从而引入了较多的目标内部以及背景纹理信息。在焊缝边缘检测任务中，工件及背景中会出现与焊缝和轮廓边缘特征相似的干扰边缘，这无疑又增加了检测的难度。

针对上述问题，利用高层网络丰富的语义信息来帮助网络区分目标边缘和干扰边缘，从而更好地滤除目标内部以及背景中的干扰边缘。为了更好地在低层特征中融入语义信息，采用了类似Unet中的编码-解码器结构，构建了跳层解码融合结构。通过从高到低逐步对高层级特征做上采样操作之后与上一层级的特征做点乘操作，使用高层级特征对低层级的特征做约束以滤除部分干扰边缘，在保留边缘细节的同时减少了背景纹理的融入，从而提升了算法的抗干扰能力。整体的跳层解码融合结构如图3所示。在图3中，左边虚线框内是RCF网络下采样部分，由5个卷积块和4个2*2大小的池化层组成。其中前三个池化层步长为2，最后一个池化层步长为1，因此实际上共进行了三次下采样操作，最终得到四种不同尺度的侧输出特征图。从低层到高层依次为新的侧输出层1、新的侧输出层2，新的侧输出层3，新的侧输出层4，新的侧输出层5，这5个层级，除后两个层级特征图尺度保持一致外，从低到高特征图的高度和宽度依次减小为上一层级的一半，而通道数增加一倍。

跳层解码融合结构的具体实现方式是，除最后一层外，从高层向低层推进，首先高层特征图做2倍上采样操作得到与待约束的低层特征图同等级的尺度，再经过一个卷积核大小为3*3、通道数减半的卷积层进行通道压缩和特征再提取，使得两种特征图具有相同的通道数。最后，将经过上采样和卷积操作的高层级特征图裁剪为低层级特征图的大小，并与该低层级的特征图做点乘操作进行融合，最后以融合后的特征图作为较低层级的输出特征图。接着，融合后的特征图再以同样的方式与较低层级特征进行融合，直至融合完所有尺度的特征，得到图3中右边虚线框中新的侧输出特征。该网络从高层向低层逐步递进，来融合相邻两个层级，共有4个融合单，即5->4,4->3,3->2,2->1。第5层的最高层特征图不需要做任何处理，仍然使用原始特征图作第5层的输出。第4层和第5层具有相同的尺度，因此只需要对第5层的特征图做通道压缩就可以与第4层做融合处理。其它层则使用经过上述融合单元后输出的特征图取代当前层的输出特征图，最后使用RCF网络中的损失计算方式来训练网络。

如图4所示为两个层级融合的具体过程。Unet算法在融合两个层级的特征图时是在通道上做连接操作，而本次采用的是图像的像素点乘操作，点乘操作的特点是当两个像素值同为1时点乘的结果为1，而其他情况结果均为0。在各层级输出的特征图中，低层级的焊缝边缘比较精细，通常位于更高层级输出特征图的目标边缘区域内，因此点乘操作不会损失低层级的细节特征，并且还可以滤除多余的纹理干扰。点乘操作的好处是既可以保留低层目标边缘原本的细节信息，又可以利用高层的语义信息来有效地抑制非目标边缘，并且还可以不增加太多的计算量。

其二，引入ASPP模块。在卷积神经网络中，池化过程不仅能够缩小图像尺寸，减少计算量，还可以扩大每个像素的感受野，使得图像中每个像素都包含更大范围的上下文信息。在一定程度内随着池化层数的增加，网络的感受野逐渐增大使得网络能够获取更丰富的全局信息，网络对特征的判别能力也随之增强。但与此同时，特征图的分辨率会成倍地下降，导致越来越多的内部数据结构和空间细节信息丢失。虽然可以通过上采样、线性插值等方法使特征图恢复到输入图像的分辨率，但却无法完全恢复和重建这些丢失的细节信息，从而导致高层的特征模糊不清。如果原始输入图像尺寸为224*224，假设共有四个池化层，那么网络最高层特征图的尺寸将为14*14，即宽度和高度各缩小了16倍，理论上在最高层任何小于16个像素的物体信息都无法重建。感受野与空间分辨率两者之间似乎具有一定的矛盾性，一种最简单明了的解决方法是选取适当层数的池化层，在两者之间找到一个好的平衡点。而空洞卷积模块和空洞空间卷积池化金字塔模块的出现使得网络能够在不损失特征分辨率的同时扩大其感受野，从而获取更多的上下文信息。为了减少池化层导致的细节损失，自然需要去除部分池化层，空洞卷积便应运而生。空洞卷积，又叫膨胀卷积，它不仅能够明确地控制特征图响应的分辨率，还能够有效地扩大滤波器的视野以并入较多的上下文信息，并且不会增加参数量和计算量。其具体的实现方法就是在标准的卷积核中填充rate个0，其中rate是膨胀率，表示卷积核中相邻的权重之间间隔为rate-1, 普通的卷积rate默认是1。如图5和图6所示，分别为普通卷积和膨胀率为2的空洞卷积具体运算过程。

空洞空间卷积池化金字塔模块是由一系列的空洞卷积构建而成，该模块是DeepLab中用于语义分割的一个模块。DeepLab系列工作结合多尺度信息和空洞卷积的特点提出了ASPP模块，并列使用了四个不同扩张率的空洞卷积，并将其输出特征采用通道连接的方式进行融合。由上可知，空洞卷积并不会降低特征图的分辨率等级，因此该模块可以在不牺牲特征空间分辨率的同时增大特征感受野。因为HED网络引入了太多的池化层，使得网络最高层的特征图分辨率过低。边缘检测的预测是像素级的，网络输出图像需要与输入图像的尺寸保持一致，因此需要对高层的特征进行相应的上采样，但是上采样并不能恢复丢失的细节信息，从而导致高层的边缘很粗糙。在RCF网络中，为了改善这一问题，将最后一层池化层的步长设置为1，相当于减少了一次下采样过程，但是这使得网络的感受野变小，削弱了高层特征的语义信息。针对这个问题，在基于RCF改进的网络中引入了ASPP模块。通过对单个尺度提取的卷积特征进行重采样，在不降低图像分辨率的同时增加网络的感受野，即在网络的conv5_3层引入了ASPP模块，作为跳层解码融合结构的输入特征。ASPP模块对给定的输入特征以不同采样率的多个并行空洞卷积进行采样，为每个采样率提取的特征在单独的分支中进一步处理，最后使用通道拼接方法融合不同尺度的卷积特征，以生成最终结果，相当于以多个比例捕捉图像的上下文，能够获取更加丰富的语义信息。其中，ASPP模块包含了四种不同采样率的空洞卷积：一个1×1卷积和三个3×3的膨胀率rate分别为2,4,6的空洞卷积，卷积核数量均为512个，其结构如图7所示。

其三，引入注意力机制模块。注意力机制借鉴了人类视觉的选择性注意力机制，是一种符合人脑和人眼的计算机感知机制，其基本思想就是通过训练让网络自身学会注意力，即着重关注目标信息，忽略与目标无关的信息。视觉注意力机制是人眼视觉所特有的大脑信号处理机制。人眼视觉可以快速地扫描全局视野，找到需要着重关注的目标区域，即注意力焦点，然后在该目标区域投入更多的注意力，从而可以获得更多的有关目标物体的细节信息，并且抑制其他无用的非目标信息。这使得人类能够高效地利用有限的注意力资源，快速地从大量信息中选择出有用信息，这大大地提高了人类对视觉信息处理的准确性和效率。

在没有注意力机制的网络中，网络对图片中所有特征的处理是完全等同的。虽然通过训练网络可以学习到图片中各种不同的特征，但是对于神经网络来说这些特征都拥有相同的重要度，实际上并没有什么差别，因此网络不会过多地关注或者忽视某些区域。如果将注意力机制应用于神经网络中，通过训练网络就可以学习到各种特征的重要度，从而将注意力集中到图片中一些重要的区域内，并减少对其他无关信息的关注。深度学习中的注意力机制本质上和人类的选择性视觉注意力机制类似，核心目标也是让计算机迅速地从众多信息中筛选出对当前任务更关键的目标信息，从而帮助网络提高模型的性能。因此，搭建具有注意力机制的神经网络则开始显得尤为重要。近几年来，深度学习与视觉注意力机制结合的研究工作大都集中于使用掩码来形成注意力机制，其原理在于通过另一层新的权重，通过学习训练将图片数据中关键的特征标识出来，让深度神经网络学到每一张新图片中需要关注的区域，也就形成了注意力。为了使网络更有效地抑制不相关的背景区域，着重提取有用的目标特征，在RCF网络中引入了注意力机制模块，通过生成一个门控信号来控制空间中不同位置特征的重要程度。其结构如图8所示。其中

是解码部分的特征，

是编码部分的特征，

与

相加融合后作为注意力机制模块的输入，通过1x1x1卷积层分别与ReLU和Sigmoid结合，生成一个权重图。具体的实现方式是：首先使用激活函数Relu增强特征的非线性，然后经过1×1×1的卷积操作将通道数降为1，并利用Sigmoid函数将特征映射到0-1区间得到注意力权重图，值越大的区域特征就越重要。接着使用Resample重采样器将特征图重新采样到的原始大小，最后将该权重图与输入特征

进行元素乘操作，得到调整权重后的特征图。与多阶段CNNs定位模型相比，注意力机制模块无需训练大量额外的模型参数以及多个模型。

为了在提升网络性能的同时不引入过多额外的计算量，只在网络低层conv1_2层和高层conv5_3层特征各引入一个注意力机制模块。以conv1_2作输入特征为例，注意力机制模块如图9所示，因特征图大小保持一致，无需重新采样，故此处去除了注意力机制模块中的Resample层；另外在该模块的基础上增加了短连接路径，将重新调整权重后的特征与输入特征以像素逐点求和的方式叠加。引入该模块后，特征图则更倾向于在目标边缘区域取得较大的值，在背景区域取得较小的值，从而有助于提高焊缝和外轮廓检测的精度。实验过程中，采用工业相机采集到的焊件数据集图像的尺寸为1920

1200，为了方便网络训练将其裁剪为400

400尺寸的图像作为网络输入。原始的焊缝和外轮廓数据集包含训练图像4000张，测试图像600张，实验结果如图10所示。图10中a列为原图，图10中b列为原图进行轮廓标注后的图，图10中c列为使用传统RFC算法的检测效果图，图10中d列为改进后的RFC算法的检测效果图。因此，从图中得出，本发明的基于卷积神经网络的焊件轮廓检测算法得到的效果图，轮廓清晰，目标边缘检测的精度高，没有多余的干扰目标。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于卷积神经网络的焊件轮廓检测算法，其特征在于：包括以下步骤：

步骤四：引入注意力机制模块：在基于RCF改进的网络中引入注意力机制模块，首先通过激活函数ReLU增强输入特征的非线性，再通过1*1*1的卷积操作将通道数降为1，并利用Sigmoid函数将特征映射到0-1区间，得到注意力权重图，将该权重图与输入特征进行元素乘操作，得到调整权重后的特征图，最后在上述的注意力机制基础上增加短连接路径，重新调整权重后的特征与输入特征，并以像素逐点求和的方式叠加。

2.根据权利要求1所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述步骤一中RCF网络的主干网络为VGG16网络，所述VGG16网络设置有交替堆叠的13个卷积层、5个池化层和3个全连接层。

3.根据权利要求1所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述步骤二中构建跳层解码融合模块，通过从高到低逐步对高层级特征做上采样操作，并与上一层级的特征做点乘操作，使用高层级特征对低层级的特征做约束以滤除部分干扰边缘。

4.根据权利要求1所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述步骤二中RCF网络下采样层由5个卷积块和4个池化层组成。

5.根据权利要求4所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述池化层依次为第一池化层、第二池化层、第三池化层和第四池化层，所述第一池化层、第二池化层和第三池化层的步长均为2，所述第四池化层的步长为1。

6.根据权利要求1所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述步骤二中下采样路径进行4次池化操作，并相应得到5个层级的侧输出特征图，所述侧输出特征图从低层到高层依次划分为第一层级特征图、第二层级特征图、第三层级特征图、第四层级特征图和第五层级特征图，所述第四层级特征图和第五层级特征图尺度和通道数保持一致外，从第一层级到第四层级特征图，高层级的特征图较低一层级的特征图的高度和宽度减半，通道数增加一倍。

7.根据权利要求1所述的基于卷积神经网络的焊件轮廓检测算法，其特征在于：所述步骤三中ASPP模块包括1个1*1空洞卷积和3个3*3且膨胀率分别为2、4、6的空洞卷积，所述空洞卷积的卷积核数量均为512个。