CN111680706A

CN111680706A - 一种基于编码和解码结构的双通道输出轮廓检测方法

Info

Publication number: CN111680706A
Application number: CN202010553252.2A
Authority: CN
Inventors: 陈利; 王晓东; 蔡欣展; 刘艳艳
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-18
Anticipated expiration: 2040-06-17
Also published as: CN111680706B

Abstract

本发明提出一种基于编码和解码结构的双通道输出轮廓检测方法。编码阶段通过改进后的VGG16网络提取图像特征信息，解码阶段自底向上融合不同尺度特征信息，并使用同一标签对两个通道的输出轮廓图进行深度监督。本发明通过自底向上逐层解码的方式融合不同尺度特征图，提取的图像特征信息更加丰富；在特征融合阶段加入通道注意力结构，并且使用子像素卷积进行特征图采样；设计了合适的损失函数以解决训练样本不平衡的难点；使用数据增强的方法对数据集进行了扩增，增加了模型的泛化能力。本发明能够有效地提取BSDS500公共数据集和自定义木雕轮廓检测数据集图像的目标轮廓且检测轮廓线比较精细。

Description

一种基于编码和解码结构的双通道输出轮廓检测方法

技术领域

本发明属于图像处理与计算机视觉领域，涉及一种基于编码和解码结构的双通道输出轮廓检测方法，本质上就是利用卷积神经网络对图像像素点进行二分类的问题。

背景技术

轮廓检测是计算机视觉领域中的核心任务，通过数字图像丰富的特征信息提取图像中目标轮廓，是目标检测、语义分割、缺陷识别等高级视觉任务的基础。由于光照、摄影设备精度、目标轮廓复杂程度等方面的原因，精确提取图像目标轮廓仍是一项具有挑战性的任务。

传统的边缘检测算子方法是通过寻找数字图像中亮度明显变化的像素点进行轮廓检测。基于统计学、机器学习的轮廓检测方法将图像像素点邻域的颜色、纹理以及梯度等特征信息融合，再使用支持向量机、随机森林等分类算法对像素点进行分类。上述两种方法都是基于图像局部信息进行特征提取，检测精度较低且很难区分目标轮廓线与背景边缘线。

卷积神经网络是目前人工智能领域的研究热点，通过卷积神经网络实现图像目标轮廓检测本质上就是对图像像素点进行轮廓与非轮廓二分类。构造端到端的卷积神经网络对图像目标轮廓进行监督学习，能够学习到丰富的图像全局特征，相较于传统的边缘检测算子和机器学习方法更适用于轮廓检测任务。现阶段基于卷积神经网络的轮廓检测算法主要存在检测的轮廓线粗糙、定位不准以及训练样本不平衡等难点。

发明内容

针对现阶段基于卷积神经网络的轮廓检测模型的不足，本发明从网络结构和损失函数两方面对现阶段主流的轮廓检测模型进行分析与改进，提出了一种基于编码和解码结构的双通道输出轮廓检测模型，并应用于自定义木雕图案轮廓检测任务。

本发明提出的基于编码和解码结构的双通道输出轮廓检测模型由特征提取阶段和特征解码阶段构成，特征提取阶段是利用卷积神经网络对图像进行特征提取，特征解码阶段是对特征提取阶段输出的小尺度特征图进行逐层二倍上采样运算，并与特征提取阶段同一层级特征图进行特征通道融合，将特征图恢复到原始图像尺度，最后采用相同的标签轮廓图和自定义损失函数对两个通道输出的特征图进行监督训练，将输出的特征图进行像素点的轮廓、非轮廓二分类。

本发明技术方案如下：

一种基于编码和解码结构的双通道输出轮廓检测方法，具体的实现步骤如下：

本发明提出的轮廓检测模型主要由特征提取模块、残差融合单元和特征解码模块构成。

一、特征提取模块：通过三个步长为1、卷积核大小为3的标准卷积提取图像全局特征信息，并使用批量归一化对数据进行规范和LeakRelu激活函数增加模型非线性表达能力，然后使用子像素卷积的反向运算进行下采样运算，降低特征图尺度。

二、残差融合单元：残差融合单元首先将特征提取块中的各层特征图进行特征叠加融合，然后通过一个残差连接与标准卷积运算后的特征图进行特征叠加融合，最后使用逐点卷积运算，降低特征图通道数量。

三、特征解码模块：通过子像素卷积对上一层输出特征图进行上采样运算，并将上采样后的特征图与特征提取阶段同层级的输出特征图进行特征通道融合，然后使用改进的通道注意力结构对融合后的特征图通道进行加权，最后再使用逐点卷积运算降低特征图通道数。

本发明所采用的损失函数融合Focal Loss和Dice Loss两种损失函数，通过实验设置合理的权重，一定程度上解决了正负样本不平衡的问题。

使用本发明提出的轮廓检测方法提取图像目标轮廓的主要过程如下：

一、数据预处理阶段：选取BSDS500公共数据集和南开大学校训、容止格言木雕自定义轮廓检测数据集作为验证本发明性能的数据集，通过数据增强算法对原始数据集进行扩增，并进行均值方差归一化处理。

二、模型搭建、训练阶段：使用Keras中函数式API进行模型搭建，自定义损失函数和评价指标，同时使用Yield生成器生成小批次的数据集进行模型训练。采用Xavier初始化法对模型参数进行初始化，通过反向传播算法更新卷积核参数，选用Adam优化方法寻找最优解，采用学习率衰减的策略。

三、模型检测阶段：使用训练好的轮廓检测模型检测测试集中的图像，得到最终的检测轮廓图。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明通过自底向上逐层解码的方式融合不同尺度特征图，提取的图像特征充分融合不同尺度特征信息，相较于边缘检测算子和手工设计特征的方法，提取的图像特征更加丰富，能够有效区分背景边缘线和目标轮廓线。2.本发明在特征融合阶段加入通道注意力结构，更好的学习不同尺度特征图对输出轮廓图的贡献；本发明使用子像素卷积进行特征图采样，降低了特征信息损失且能够更好的重建特征图。3.本发明设计了合适的损失函数以解决训练样本不平衡的难点，使模型更加有效地提取图像中目标轮廓且检测的轮廓线比较精细。4.本发明采用了数据增强的方法对训练数据集进行了扩增，尽可能去拟合真实的数据分布，增加了模型的泛化能力。

实验结果表明，相较于现阶段主流的轮廓检测方法，本发明检测的轮廓线更加精细，能够更好地抑制背景噪声，对图像中目标轮廓提取效果更好。

附图说明

图1为本发明的整体结构图。

图2为本发明的核心结构，其中图(a)为特征提取模块结构图，图(b)为残差融合单元内部结构图，图(c)为特征解码模块结构图。

图3为原始图像数据扩增示意图。

图4为BSDS500公共数据集图像检测轮廓图。

图5为自定义木雕轮廓检测数据集图像检测轮廓图。

具体实施方式

本发明使用NVIDIA公司的GeForce GTX1080Ti型号GPU对轮廓检测模型进行训练，操作系统为64位的Ubuntu 16.04，显存为10G。编程语言为Python 3.6，深度学习框架为TensorFlow 1.14和Keras 2.2.5。

下面结合附图对本发明的核心模块构成、损失函数融合策略进行详细介绍，同时以BSDS500公共数据集为例，介绍模型的训练、检测具体实施步骤。

本发明使用修改后的VGG16作为特征提取网络，将VGG16的全连接层和最后的池化层去掉，将编码阶段分为五个特征图提取模块。通过自底向上逐层解码进行不同尺度特征图融合，很大程度恢复了图像下采样运算带来的图像特征信息损失。在编码阶段的前四个特征提取模块的侧输出后加入了残差融合单元，并与解码阶段同一层级特征图相融合。该发明基于深度监督的思想，在特征提取最后一个阶段和倒数第二阶段的输出特征图进行逐层上采样至原始图像大小，同时将相同层级的特征图进行特征通道融合，最后采用相同的标签轮廓图和自定义损失函数对两个通道输出的特征图进行监督训练。本发明的整体结构如图1所示。

本发明提出的轮廓检测模型包括如下核心模块。

一、特征提取模块

特征提取模块的结构如图2的(a)图所示，通过三个步长为1、卷积核大小为3的标准卷积提取图像全局特征信息。同时，由于标准卷积核的数量越多，提取的特征信息越丰富，所以五个特征提取模块中标准卷积核的数量逐渐增加，分别为64,128,256,512,512。此外，每个标准卷积运算后都使用批量归一化对数据进行规范和LeakRelu激活函数增加模型非线性表达能力。LeakRelu函数是Relu函数的改进，是一种简单的分段线性函数，在正区间内梯度为常数，能够很好的解决梯度消失问题，收敛速度较快，LeakRelu函数表达式如下：

本发明由五个特征提取模块构成，相邻特征提取模块通过下采样运算降低特征图尺度，由于使用池化运算对特征图进行下采样会带来图像特征信息的损失，不适用于轮廓检测此类像素点分类任务。本发明受到子像素卷积运算的启发，通过子像素卷积的反向运算对特征图进行下采样，首先对输入特征图进行特征像素点重新排列，特征图的通道数增加四倍，然后通过逐点卷积运算降低特征图通道数。

二、残差融合单元

残差融合单元的结构如图2的(b)图所示，能够对特征提取阶段各个特征提取块中的特征信息进行整合。首先将特征提取块中的各层特征图进行特征叠加融合，然后使用3*3标准卷积对融合特征进一步整合，并通过一个残差连接与整合后的特征图进行特征叠加，最后使用逐点卷积运算降低特征图通道数量。

三、特征解码模块

特征解码模块的结构如图2的(c)图所示，由子像素卷积运算、特征通道融合运算以及通道注意力结构加权运算构成。

首先通过子像素卷积对上一层输出特征图进行二倍上采样运算，通过标准卷积运算将特征图通道数扩增，再将扩增后的特征图像素点进行重新排列。假设输入特征图大小为f*f*1，使用子像素卷积将输入特征图放大2倍，首先需要通过标准卷积运算将输入特征图的通道数扩增4倍，再将扩增后特征图4个通道的像素点重新排列为4大小的特征图子块，即将f*f*4尺度大小的特征图重新排列为2f*2f*1尺度大小的特征图。

然后将上采样后的特征图与特征提取阶段同层级的输出特征图进行特征通道融合，并使用改进的通道注意力结构对融合后的特征图通道进行加权。即通过全局平均池化将融合后的特征图压缩为一维特征向量，然后使用两个1*1卷积核的标准卷积运算提升该结构非线性表达能力，最后通过Sigmoid激活函数将一维向量的值映射至(0，1)区间，并与输入融合特征图进行逐通道加权。

最后使用逐点卷积运算降低特征图通道数量，为下一步运算做准备。

Focal Loss损失函数可以用来解决轮廓检测任务中正负样本极度不平衡和难分类样本的问题，Dice loss则重点关注真实轮廓图和预测轮廓图两组图像之间的像素相似性，能够得到更加精细的轮廓图。本发明通过设置合理权重融合了Focal Loss和Dice Loss两种损失函数，本发明所采用的融合损失函数如下式：

其中真实标签数据y∈{0，1}，0表示非轮廓像素点，1表示轮廓像素点，

表示预测像素点为轮廓像素点的概率值，w₁和w₂为Dice loss和Focal loss对应的权重，本文通过实验最终选取参数w₁＝0.01、w₂＝1，平衡因子

其中|Y₊|表示标签轮廓图中正样本像素点数量，|Y_-|表示标签轮廓图中负样本像素点数量。

本发明提出的轮廓检测方法检测过程主要包括数据预处理阶段、模型搭建、训练阶段以及模型检测阶段。

一、数据预处理阶段

本方法训练使用BSDS500公共数据集，由500张RGB格式的图像及对应的标签文件组成，其中训练集200张图像，测试集200张图像，验证集100张图像，每一张图像都对应多张手工标注的轮廓标签。同时使用自定义的木雕图案轮廓检测数据集，图像采集自南开大学图书馆中的校训、容止格言木雕图案，检测目标是图像中的文字图案，使用Labelme工具进行图像目标轮廓标注，标注数据集共40张图像，其中训练集32张图像，测试集8张图像。

仅仅通过原始图像数据很难训练出检测精度高、泛化能力强的轮廓检测模型，所以需要使用数据增强算法对原始图像数据进行扩增。以BSDS500公共数据集为例，使用下几种方法对该数据集进行数据增强，数据增强后的图像及标签轮廓图如图3所示。然后使用自定义函数对数据集进行读取，并通过均值方差归一化将图像数据映射为均值为0，方差为1的标准正态分布，使模型能够更好的学习图像特征分布。数据扩增后的BSDS500训练数据集含4800张图像，数据扩增后的南开大学校训、容止格言木雕图案训练集含432张图像。

二、模型搭建、训练阶段

由于本发明提出的轮廓检测模型具有两个输出通路，所以需要使用Keras中函数式API进行模型搭建，同时在网络搭建过程中进行自定义适用于轮廓检测任务的损失函数和评价指标。由于使用的GPU性能有限，一次性将数据加载进显存会发生数据溢出，所以使用Yield生成器生成小批次的数据集进行模型训练，合适的训练批次大小不仅能够减少训练过程中的振荡问题，还可以加快网络收敛。

本发明使用的评价指标是最优数据集尺度(Optimal Dataset Scale，ODS)，对测试集中所有图像轮廓检测输出的概率图设定一个固定的阈值转化为轮廓图，使测试集中所有图像的F1-Score值最大。本发明将阈值的范围设定在[0.3，0.7]区间，步长为0.02，通过计算21个阈值中最大F1-Score值求得ODS值。

F1-Score计算方法如下：

其中P为精确率(Precision)，R为召回率(Recall)，TP表示标注为正样本的像素点预测为正样本，TN表示标注为负样本的像素点预测为负样本，FP表示标注为正样本像素点预测为负样本，FN表示标注为负样本像素点预测为正样本。

本发明使用Xavier初始化法设置卷积核初始参数，使用Adam优化方法寻找最优解，初始化学习率α＝0.001，指数衰减率β₁＝0.9，指数衰减率β₂＝0.999，修正常数∈＝10^-8。此外还采取学习率衰减的策略，随着训练轮数的增加学习率不断减少，衰减率设为0.0001。训练轮数为3000，训练批次为8，同时使用Callbacks回调函数监督模型的训练状态，在训练过程中保存最优模型。

Adam(Adaptive Moment Estimation)算法能够在模型训练过程中自动调整学习率大小，收敛速度较快。训练过程中Momentum和RMSProp的参数更新公式为：

V_dw＝β_iV_dw+(1-β_i)dW,V_ds＝β_lV_db+(1-β_l)db

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²

使用Adam算法需要在指数加权迭代初期进行偏差修正，如公式所示：

Adam算法最终参数更新表达式如下式所示，其中α是学习率，ε是一个极小值，一般取值为10^-8。

三、模型检测阶段

使用本发明提出的轮廓检测模型和现阶段主流的基于卷积神经网络的轮廓检测模型RCF、BDCN模型在BSDS500公共数据集的测试集中进行轮廓检测，检测结果如图4所示。可能看到，RCF模型检测的轮廓线较为粗糙且不能很好的定位，BDCN模型检测的轮廓线不够精细，存在大量背景噪声。本发明提出的方法能够较好的提取图像中目标轮廓，检测的轮廓线比较精细，但存在些许断点。

为了更直观的衡量本发明提出的轮廓检测方法的实际检测效果，在自定义的轮廓检测数据集中进行性能验证，检测的轮廓线如图5所示。可以直观的看出，该轮廓检测模型能够很好的定位图像中文字轮廓的位置，但检测的轮廓线存在断点的现象，这是由于所采集的图像中的目标轮廓与背景较为相似，很难进行区分。

Claims

1.一种基于编码和解码结构的双通道输出轮廓检测方法，其特征在于：采用编码和解码的网络结构，通过改进后的VGG16网络提取图像特征信息，自底向上融合不同尺度特征信息，并使用相同的标签轮廓图和自定义损失函数对两个通道输出的特征图进行监督训练。

2.如权利要求1所述的基于编码和解码结构的双通道输出轮廓检测方法，其特征在于：所述的轮廓检测模型主要由特征提取模块、残差融合单元和特征解码模块构成。

特征提取模块：通过标准卷积运算提取图像全局特征信息，并在标准卷积运算后加入了批量归一化运算和LeakRelu激活函数，然后使用子像素卷积的反向运算进行下采样运算。

残差融合单元：首先将特征提取块中的各层特征图进行特征叠加融合，然后通过一个残差连接与标准卷积运算后的特征图进行特征叠加融合，最后使用逐点卷积运算，降低特征图通道数量。

特征解码模块：通过子像素卷积对上一层输出特征图进行二倍上采样运算，并与特征提取阶段同层级的输出特征图进行特征通道融合，然后使用改进的通道注意力结构对融合后的特征图通道进行加权。

3.如权利要求1和2所述的基于编码和解码结构的双通道输出轮廓检测方法，其特征在于：在训练所述的轮廓检测模型时，所使用的损失函数融合了Focal Loss和Dice Loss两种损失函数，其中Dice Loss损失函数的权重为0.01，Focal Loss损失函数的权重为1。

4.如权利要求1所述的基于编码和解码结构的双通道输出轮廓检测方法，其特征在于：所述的轮廓检测方法提取图像目标轮廓的主要过程包含数据预处理阶段、模型搭建和训练阶段以及模型检测阶段。

数据预处理阶段：选取BSDS500公共数据集和南开大学校训、容止格言木雕自定义轮廓检测数据集作为验证本发明性能的数据集，通过数据增强算法对原始数据集进行扩增，并对图像数据进行均值方差归一化处理。

模型搭建、训练阶段：使用Keras中函数式API进行模型搭建，自定义损失函数和评价指标，同时使用Yield生成器生成小批次的数据集进行模型训练。采用Xavier初始化法对模型参数进行初始化，通过反向传播算法更新卷积核参数，选用Adam优化方法寻找最优解，并采用学习率衰减的策略进行训练。

模型检测阶段：使用本发明提出的轮廓检测模型和现阶段主流的轮廓检测模型RCF、BDCN模型在BSDS500公共数据集的测试集中进行轮廓检测，并在自定义的轮廓检测数据集中进行性能验证，得到不错的轮廓检测结果。