CN111325762B

CN111325762B - 基于密集连接解码网络的轮廓检测方法

Info

Publication number: CN111325762B
Application number: CN202010068067.4A
Authority: CN
Inventors: 林川; 崔林昊; 王瞿; 文泽奇; 潘勇才; 刘青正; 张玉薇; 李福章
Original assignee: Guangxi University of Science and Technology
Current assignee: Guangxi University of Science and Technology
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-01-22
Anticipated expiration: 2040-01-21
Also published as: CN111325762A

Abstract

本发明旨在提供一种基于密集连接解码网络的轮廓检测方法，包括以下步骤：A、构建包含初始等级、融合等级、最终等级的深度神经网络结构，其中初始等级及最终等级均设有1个，融合等级设有1‑5个；B、预设训练数据集，输入训练数据集中的训练图像及其真实轮廓图，训练深度神经网络；C、利用双线性插值算法对待检测图像进行处理，分别得到待检测放大图像、待检测缩小图像，分别输入深度神经网络得到输出响应，将各像素点在上述三个轮廓响应图中对应的特征值取平均值，得到各像素点最终轮廓响应特征值；D、对各像素点的最终轮廓响应特征值进行处理，得到最终轮廓图。该方法克服现有技术缺陷，具有融合特征多、检测准确率高的特点。

Description

基于密集连接解码网络的轮廓检测方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于密集连接解码网络的轮廓检测方法。

背景技术

轮廓检测是图像处理及计算机视觉中一个很重要组成部分。从复杂的背景中正确、地检测物体轮廓是一个非常重要而困难的工作。在众多传统的图像处理方法中，应用于轮廓检测较成功的有Canny算子、活动轮廓模型和基于机器学习的轮廓模型等。这些方法主要利用了图像中的亮度，颜色，对比度信息进行检测，难以区分目标轮廓和其他杂乱边界。所以在面对图像中的对比度变化比较大、背景干扰比较多的情况时，这些方法很难得到比较满意的结果。上述算法需要相当多的领域专业知识和精细的处理算法设计，把原始图像数据转换成合适的表示或者特征向量，来构造一个轮廓分类器或者轮廓模型。近几年来，深度学习技术已经成为从原始数据中自动学习特征表示的高效方法。借助深度学习工具，尤其是卷积神经网络，轮廓检测任务有显著的性能提高。

现有的常用的卷积神经网络包括端到端的轮廓检测算法Holistically-NestedEdge Detection(HED)以及Convolutional Encoder-DecoderNetwork(CEDN)网络；HED网络中每个阶段的特征直接反卷积不足以从分重构原始分辨率的图像特征；CEDN网络尽管在解码部分通过组等级的融合来强化解码过程中特征融合问题，不过依然在高分辨率和低分辨率的特征权衡上有所不足；同时由于池化层会导致边缘的输出模糊，而卷积层则会鼓励相邻像素产生相似的响应，难以得到高效准确的轮廓检测结果。

发明内容

本发明旨在提供一种基于密集连接解码网络的轮廓检测方法，该方法克服现有技术缺陷，具有融合特征多、检测准确率高的特点。

本发明的技术方案如下：

一种基于密集连接解码网络的轮廓检测方法，包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

预设初始等级、融合等级、最终等级，其中初始等级及最终等级均设有1个，融合等级设有1-5个；

其中，初始等级中包含5个阶段，分别为阶段Ⅰ-阶段Ⅴ，每个阶段中分别设置有一个以上的卷积层；

所述的阶段Ⅰ的第一卷积层的输入响应为原始图像，阶段Ⅰ的其他卷积层的输入响应为该阶段上一卷积层的输出响应；阶段Ⅱ-阶段Ⅴ中，除了该阶段中的第一卷积层的输入响应之外，该阶段中的其他卷积层的输入响应为上一卷积层的输出响应；阶段Ⅰ-阶段Ⅳ中最后一个卷积层的输出响应，一方面经过最大池化后作为下一个阶段的第一卷积层的输入响应；另一方面，作为输入响应输入到第一个融合等级中；

所述的融合等级中设有1-5个融合层组，各个融合层组包含数量与融合等级数量相同的融合层，同一融合层组中的各个融合层分别与各个融合等级相对应，各个融合层预设有与其相对应的结果图通道数量以及结果图尺寸，同一融合层组中的各个融合层所对应的结果图通道数量以及结果图尺寸相同；

对于各个融合等级中的各个融合层：分别将来自初始等级或上一融合等级的各输入响应中的结果图通道数量以及结果图尺寸调整为该融合层所对应的结果图通道数量以及结果图尺寸，分别得到该融合层的多个预处理响应，其中采用卷积后激活的方式对结果图通道数量进行调整；依次对各预处理响应同一通道的结果图中的各像素点的结果值求均值，作为该通道的各像素点的融合值，从而得到各通道的融合结果图，对各通道的融合结果图的各像素点的融合值进行归一化处理后，作为各通道的融合结果图的各像素点的归一化融合值，并将其作为下一融合等级或最终等级的输入响应；

最终等级包含最终融合层，最终融合层将来自最后一个融合等级的各个输入响应的结果图通道数量调整为单通道，并将来自最后一个融合等级的各个输入响应的结果图尺寸调整为原始图像的尺寸，分别得到最终融合层的多个预处理响应，对各预处理响应的结果图中的各像素点的结果值求均值，作为各像素点的最终融合值，对各像素点的最终融合值进行归一化处理后，得到各像素点的归一化最终融合值，作为各像素点的轮廓响应值，即得到深度神经网络的输出响应；

所述的阶段Ⅰ-阶段Ⅴ以及各融合层涉及的卷积表达式为m*n-k conv+relu，其中，m*n表示卷积核的大小，k表示输出通道数，conv表示卷积公式，relu表示激活函数；m*n、k均为预设值；所述的最终融合层的卷积表达式为m*n-k conv；

B、预设训练数据集，训练数据集包含训练图像及其对应的真实轮廓图，输入训练数据集中的训练图像及其真实轮廓图，预设图像批量大小，权重衰减参数，学习率，学习率衰减，最大迭代次数，优化方案和损失函数，以训练数据集中的训练图像作为输入，对应的真实轮廓图作为理想化输出，训练深度神经网络，调整各个卷积核的参数使得深度神经网络输出响应最接近理想化输出，得到训练完毕的深度神经网络；

C、利用双线性插值算法对待检测图像进行处理，分别得到尺寸是待检测图像2倍的待检测放大图像、尺寸是待检测图像0.5倍的待检测缩小图像，将待检测图像、待检测放大图像、待检测缩小图像分别作为深度神经网络的输入，经过深度神经网络输出分别得到待检测图像轮廓响应图、待检测放大图像轮廓响应图、待检测缩小图像轮廓响应图，将各像素点在上述三个轮廓响应图中对应的特征值取平均值，作为该像素点最终轮廓响应特征值，从而得到各像素点最终轮廓响应特征值；

D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理，得到各像素点的最终轮廓值，进而得到最终轮廓图。

优选地，所述的步骤B中的损失函数具体为：

L_T＝L+βL_S (1)；

L＝-αlogp_i·|L+|-(1-α)log(1-p_i)·|L-|(2)；

其中L+、L-分别表示训练图像的真实轮廓图的边缘像素集及非边缘像素集，i为边缘像素集中的像素点编号，p_i为编号为i的像素点的深度神经网络的轮廓响应值；α＝|L-|/|L|，|L+|、|L-|分别为边缘像素集中像素点个数及非边缘像素集中像素点个数，|L|为|L+|、|L-|之和；

L_S为融合层损失总和，通过对每个融合层的输出响应利用公式(2)进行损失计算后求和得到，β为比例参数。

优选地，所述的卷积均为带有偏置的卷积，偏置的个数与当前的卷积核的个数相对应；

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

其中output_j为当前阶段卷积的第j个输出响应，input_j为当前阶段卷积的第j个输入响应，kernel_j为第j个卷积核，bias_j为第j个偏置，*为卷积符号，j＝1,2,,k，k为当前阶段卷积核的个数。

优选地，所述的激活处理的函数为：

relu(x)＝max(0,x) (4)。

优选地，最初等级涉及的卷积层个数分别为2个、2个、3个、3个、3个；

最初等级涉及的输出通道数分别为64个、128个、256个、512个、512个；

最初等级、融合等级中涉及的的卷积核大小为3*3像素平方。

优选地，所述的对结果图尺寸调整方法为池化或者双线性插值，其中池化对应于将结果图尺寸调整变小，双线性插值对应于将结果图尺寸调整变大；

所述的归一化处理为将各像素点的结果值与大小为1*1像素平方的卷积核进行卷积，并且该卷积核函数为sigmoid函数。

优选地，所述的图像批量大小表示每一批次训练输入的图像数量，其范围为8-32幅，权重衰减范围为(1e-4)-(2e-4)，学习率的范围为(1e-5)-(1e-9)，学习率衰减的范围为0-0.1；最大迭代次数的范围为5000-60000次，优化方案为动量为0.9的随机梯度下降法。

优选地，所述的最大池化为2*2最大池化。

本发明的轮廓检测方法具有更深的解码网络，利用5个阶段的卷积提取图像细部特征，之后采用多组融合层组对多次的特征结果图进行融合，并且在融合时将特征结果图以不同的通道数及尺寸基准进行融合，从而使得不同的细节保留在不同的特征图中，为后续进一步融合保留更多的有效细节特征；融合层组的设置使得低分辨率的粗略特征和高分辨率的精细特征进行了融合，降低遗漏轮廓特征的概率，同时融合层组以及融合等级能够根据实际情况进行设置，更为灵活多变，适用性更强；并且，损失函数不仅考虑最终检测响应与真实轮廓图的差异，同时还结合了各个融合层检测响应与真实轮廓图的差异，使得网络能够更好地提取各个分辨率下的细部特征，提高训练精度；本发明的轮廓检测网络采用全连接的模式，融合层组构建的分辨率组合实现细部特征更深的堆叠，能够实现在抑制强纹理的同时保留弱的边缘，从而提高轮廓识别的成功率。

附图说明

图1本发明实施例1提供的基于密集连接解码网络的轮廓检测方法的深度神经网络的运算结构图；

图2为本发明实施例1融合等级Ⅰ中各融合层的结构示意图；

图3为本发明实施例1融合等级Ⅱ、Ⅲ中各融合层的结构示意图；

图4为本发明实施例1最终融合层的结构示意图；

图5为本发明实施例1方案与文献1方案的轮廓检测效果对比图；

图1中的“3*3-64”、“3*3-128”等表示卷积核的参数，其中“3*3”为卷积核的大小尺寸，“-64”、“-128”等表示卷积核的个数即输出的通道数为64或128等。

具体实施方式

下面结合附图和实施例具体说明本发明。

实施例1

如图1所示，本实施例提供的一种基于密集连接解码网络的轮廓检测方法，包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

所述的阶段Ⅰ-阶段Ⅴ以及各融合层涉及的卷积表达式为m*n-k conv+relu，其中，m*n表示卷积核的大小，k表示输出通道数，conv表示卷积公式，relu表示激活函数；m*n、k均为预设值；所述的最终融合层的卷积表达式为m*n-kconv；

D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理，得到各像素点的最终轮廓值，进而得到最终轮廓图；

所述的步骤B中的损失函数具体为：

L_T＝L+βL_S (1)；

L＝-αlogp_i·|L+|-(1-α)log(1-p_i)·|L-| (2)；

L_S为融合层损失总和，通过对每个融合层的输出响应利用公式(2)进行损失计算后求和得到，β为比例参数；

所述的卷积均为带有偏置的卷积，偏置的个数与当前的卷积核的个数相对应；

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

其中output_j为当前阶段卷积的第j个输出响应，input_j为当前阶段卷积的第j个输入响应，kernel_j为第j个卷积核，bias_j为第j个偏置，*为卷积符号，j＝1,2,,k，k为当前阶段卷积核的个数；

所述的激活处理的函数为：

relu(x)＝max(0,x) (4)；

最初等级涉及的卷积层个数分别为2个、2个、3个、3个、3个；

最初等级、融合等级中涉及的的卷积核大小为3*3像素平方；

所述的对结果图尺寸调整方法为池化或者双线性插值，其中池化对应于将结果图尺寸调整变小，双线性插值对应于将结果图尺寸调整变大；

所述的归一化处理为将各像素点的结果值与大小为1*1像素平方的卷积核进行卷积，并且该卷积核函数为sigmoid函数；

所述的图像批量大小表示每一批次训练输入的图像数量，其范围为8-32幅，权重衰减范围为(1e-4)-(2e-4)，学习率的范围为(1e-5)-(1e-9)，学习率衰减的范围为0-0.1；最大迭代次数的范围为5000-60000次，优化方案为动量为0.9的随机梯度下降法；

所述的最大池化为2*2最大池化。

本实施例的融合等级设有三个，分别为融合等级Ⅰ、融合等级Ⅱ、融合等级Ⅲ，融合层组设有三个，每个融合层组设有三个融合层，分别为融合层Ⅰ、融合层Ⅱ、融合层Ⅲ，其中融合层Ⅰ对应的输出通道数为64个，结果图尺寸为原图尺寸；融合层Ⅱ对应的输出通道数为128个，结果图尺寸为1/2；融合层Ⅲ对应的输出通道数为512个，结果图尺寸为1/8；

图2为融合等级Ⅰ中各融合层的结构示意图，其中X为各融合层所对应的输出通道数，图3为融合等级Ⅱ、Ⅲ中各融合层的结构示意图，图4为最终融合层的结构示意图；

本实施例采用伯克利图像分割数据集(BSDS500)进行训练及检测，采用该数据集中的3幅图(羚羊、鲨鱼、豹)作为待检测图像，将本实施例方法与以下文献1的方法进行轮廓检测结果的对比；

文献1：S.XieandZ.Tu，”Holistically-nestededgedetection,”inInternationalComferenceon ComputerVision,2015,pp.1395-1403；

其中性能评价指标F采用文献1中给出的如下标准：

其中P表示精确率，R表示召回率，性能评测指标F的取值在[0,1]之间，越接近1表示轮廓检测的效果越好，另外，定义容忍度为：在5*5的邻域内检测到的都算正确检测。

对比结果如图5所示，相应的性能评价指标F的数值标示在检测结果图的右上方；

结合图5的结果对比可以看出，本实施例方法在识别准确率及识别效果上均优于文献1方案；

需要说明的是：

在深度神经网络结构中，某一响应(如阶段Ⅰ的输出响应)包含了各个像素点多个通道的特征值，该通道的数量与上一次卷积的卷积核的数量相同；

对某一响应(如阶段Ⅰ的输出响应)的卷积是指利用多个卷积核分别对各个像素点的多个通道的特征值进行卷积，卷积核的个数与该响应中各个像素点的通道数相同；将同一个卷积核对该像素点的多通道的卷积结果叠加，作为该卷积核卷积该像素点的得到特征值，多个卷积核卷积同一像素点得到的特征值即为此次卷积该像素点的响应，各个像素点响应即构成此次卷积的输出响应；

在深度神经网络中，对各个反卷积的上采样倍数进行设定，使得参与各个反卷积处理之后的加法运算的两个响应所对应的图像尺寸相同，以保证加法运算能够顺利完成。

本实施例涉及的深度神经网络训练方法采用文献2中记载的方案：

文献2：

RumelhartD E,Hinton G E,Williams R J.Learning representations byback-propagating error s[J].nature,1986,323(6088):533；

本实施例涉及的最大池化方法、卷积方法采用文献3中记载的方案：

文献3：

LeCunY,Bottou L,Bengio Y,et al.Gradient-basedlearning appliedtodocumentrecognition[J].Proceedings ofthe IEEE,1998,86(11):2278-2324；

本实施例涉及的优化方案的随机梯度下降法采用文献4中记载的方案：

文献4：

JegadeeshN,Titman S.Returns to buying winners and selling losers:Implications for stock m arket efficiency[J].The Journal offinance,1993,48(1):65-91。

本实施例中涉及的非极大值抑制和二值化处理采用文献5中记载的方法，其中包含的两个阈值t_h,t_l设置为t_l＝0.5t_h，由阈值分位数p计算而得，p＝0.1；

文献5：Grigorescu C,Petkov N,Westenberg M.Contour detection based onnonclassical receptive fieldinhibition[J].IEEE Transactions on ImageProcessing,2003,12(7):729-739。

并且，本申请还增加了实施例2(1融合等级,1融合层组)、实施例3(3融合等级,5融合层组)进行对比，采用文献1方案以及实施例1-3方案对伯克利图像分割数据集(BSDS500)进行训练及检测，得到最佳数据集比例(ODS)、最佳图像比例(OIS)的评测结果如表1所示，其中ODS对数据集中的所有图像采用固定的边缘阈值，而OIS为每个图像选择最佳的边缘阈值；

由表1可以看出，本申请实施例1-3的检测结果均优于文献1方案。

表1 BSDS500整体数据集对比表

Claims

1.一种基于密集连接解码网络的轮廓检测方法，其特征在于包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

2.如权利要求1所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

所述的步骤B中的损失函数具体为：

L_T＝L+βL_S (1)；

L＝-αlogp_i·|L+|-(1-α)log(1-p_i)·|L-| (2)；

3.如权利要求2所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

卷积均为带有偏置的卷积，偏置的个数与当前的卷积核的个数相对应；

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

其中output_j为当前阶段卷积的第j个输出响应，input_j为当前阶段卷积的第j个输入响应，kernel_j为第j个卷积核，bias_j为第j个偏置，*为卷积符号，j＝1,2,...,k，k为当前阶段卷积核的个数。

4.如权利要求3所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

所述的激活函数为：

relu(x)＝max(0,x) (4)。

5.如权利要求4所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

最初等级、融合等级中涉及的的卷积核大小为3*3像素平方。

6.如权利要求5所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

对结果图尺寸调整的方法为池化或者双线性插值，其中池化对应于将结果图尺寸调整变小，双线性插值对应于将结果图尺寸调整变大；

7.如权利要求6所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

所述的预设图像批量大小表示每一批次训练输入的图像数量，其范围为8-32幅，权重衰减范围为(1e-4)-(2e-4)，学习率的范围为(1e-5)-(1e-9)，学习率衰减的范围为0-0.1；最大迭代次数的范围为5000-60000次，优化方案为动量为0.9的随机梯度下降法。

8.如权利要求7所述的基于密集连接解码网络的轮廓检测方法，其特征在于：

所述的最大池化为2*2最大池化。