CN109872326A

CN109872326A - 基于深度强化网络跳跃连接的轮廓检测方法

Info

Publication number: CN109872326A
Application number: CN201910072022.1A
Authority: CN
Inventors: 林川; 崔林昊; 万术娟; 王垚; 文泽奇; 张玉薇; 潘勇才; 刘青正; 曹以隽
Original assignee: Guangxi University of Science and Technology
Current assignee: Guangxi University of Science and Technology
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-06-11
Anticipated expiration: 2039-01-25
Also published as: CN109872326B

Abstract

本发明旨在提供一种基于深度强化网络跳跃连接的轮廓检测方法，包括以下步骤：A、构建包含4个等级、5个阶段的深度神经网络结构；B、预设训练数据集，输入训练数据集中的训练图像及其真实轮廓图，训练深度神经网络；C、利用双线性插值算法对待检测图像进行处理，分别得到待检测放大图像、待检测缩小图像，分别输入深度神经网络得到输出响应，将各像素点在上述三个轮廓响应图中对应的特征值取平均值，得到各像素点最终轮廓响应特征值；D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理，得到最终轮廓图。该方法克服现有技术缺陷，具有融合特征多、检测准确率高的特点。

Description

基于深度强化网络跳跃连接的轮廓检测方法

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度强化网络跳跃连接的轮廓检测方法。

背景技术

轮廓检测是图像处理及计算机视觉中一个很重要组成部分。从复杂的背景中正确、地检测物体轮廓是一个非常重要而困难的工作。在众多传统的图像处理方法中，应用于轮廓检测较成功的有Canny算子、活动轮廓模型和基于机器学习的轮廓模型等。这些方法主要利用了图像中的亮度，颜色，对比度信息进行检测，难以区分目标轮廓和其他杂乱边界。所以在面对图像中的对比度变化比较大、背景干扰比较多的情况时，这些方法很难得到比较满意的结果。上述算法需要相当多的领域专业知识和精细的处理算法设计，把原始图像数据转换成合适的表示或者特征向量，来构造一个轮廓分类器或者轮廓模型。近几年来，深度学习技术已经成为从原始数据中自动学习特征表示的高效方法。借助深度学习工具，尤其是卷积神经网络，轮廓检测任务有显著的性能提高。

现有的常用的卷积神经网络包括端到端的轮廓检测算法Holistically-NestedEdge Detection(HED)以及Convolutional Encoder-DecoderNetwork(CEDN)网络；HED网络中每个阶段的特征直接反卷积不足以从分重构原始分辨率的图像特征；CEDN网络尽管在解码部分通过组等级的融合来强化解码过程中特征融合问题，不过依然在高分辨率和低分辨率的特征权衡上有所不足。

发明内容

本发明旨在提供一种基于深度强化网络跳跃连接的轮廓检测方法，该方法克服现有技术缺陷，具有融合特征多、检测准确率高的特点。

本发明的技术方案如下：

一种基于深度强化网络跳跃连接的轮廓检测方法，包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

设定4个等级，分别为等级Ⅰ-等级Ⅳ，其中，等级Ⅰ中包含5个阶段，分别为阶段Ⅰ-阶段Ⅴ，所述的每个阶段中分别设置有一个以上的卷积层；所述的等级Ⅱ中设有5个卷积层，分别对应等级Ⅰ中的阶段Ⅰ阶段Ⅴ，设为卷积层Ⅰ-卷积层Ⅴ；所述的等级Ⅲ设有3个卷积层，分别为卷积层Ⅵ-卷积层Ⅷ；所述的等级Ⅳ设有1个卷积层Ⅸ；

所述的阶段Ⅰ-阶段Ⅴ以及等级Ⅱ的卷积层公式为m*n-k conv+relu，其中，m*n表示卷积核的大小，k表示输出通道数，conv表示卷积公式，relu表示激活函数；m*n、k均为预设值；所述的卷积层Ⅵ-卷积层Ⅸ的卷积层公式为m*n-k conv；

所述的阶段Ⅰ的第一卷积层的输入响应为原始图像，阶段Ⅰ的其他卷积层的输入响应为该阶段上一卷积层的输出响应；

阶段Ⅱ-阶段Ⅴ中，除了该阶段中的第一卷积层的输入响应之外，该阶段中的其他卷积层的输入响应为上一卷积层的输出响应；

阶段Ⅰ-阶段Ⅳ中最后一个卷积层的输出响应，一方面经过最大池化后作为下一个阶段的第一卷积层的输入响应；另一方面，作为输入响应分别输入到等级Ⅱ中对应的卷积层中，得到卷积层Ⅰ-卷积层Ⅳ的输出响应；阶段Ⅴ中最后一个卷积层的输出响应直接作为输入响应输入到卷积层Ⅴ，得到卷积层Ⅴ的输出响应；

将卷积层Ⅲ和卷积层Ⅴ的输出响应分别反卷积处理后相加，并将相加结果反卷积之后作为卷积层Ⅷ的输入响应，得到卷积层Ⅷ的输出响应；

将卷积层Ⅱ和卷积层Ⅳ的输出响应分别反卷积处理后相加，并将相加结果反卷积之后作为卷积层Ⅶ的输入响应，得到卷积层Ⅶ的输出响应；

将卷积层Ⅲ的输出响应反卷积处理后与卷积层Ⅰ的输出响应相加，并将相加结果作为卷积层Ⅵ的输入响应，得到卷积层Ⅵ的输出响应；

将卷积层Ⅵ-卷积层Ⅷ的输出响应相加，并将相加结果作为卷积层Ⅸ的输入响应，得到卷积层Ⅸ的输出响应，即为深度神经网络的输出响应；

B、预设训练数据集，训练数据集包含训练图像及其对应的真实轮廓图，输入训练数据集中的训练图像及其真实轮廓图，预设图像批量大小，权重衰减参数，学习率，学习率衰减，最大迭代次数，优化方案和代价函数，以训练数据集中的训练图像作为输入，对应的真实轮廓图作为理想化输出，训练深度神经网络，确定使得深度神经网络输出响应最接近理想化输出的各个卷积核的参数，得到训练完毕的深度神经网络；

C、利用双线性插值算法对待检测图像进行处理，分别得到尺寸是待检测图像2倍的待检测放大图像、尺寸是待检测图像0.5倍的待检测缩小图像，将待检测图像、待检测放大图像、待检测缩小图像分别作为深度神经网络的输入，经过深度神经网络输出分别得到待检测图像轮廓响应图、待检测放大图像轮廓响应图、待检测缩小图像轮廓响应图，将各像素点在上述三个轮廓响应图中对应的特征值取平均值，作为该像素点最终轮廓响应特征值，从而得到各像素点最终轮廓响应特征值；

D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理，得到各像素点的最终轮廓值，进而得到最终轮廓图。

优选地，所述的步骤B中的代价函数具体为：

其中i为训练时同一批次输入的图像编号，i＝1,2,,,size；size为同一批次图像的数量；X_i为输入的第i幅图像；W为深度神经网络的模型参数；

其中P(X_i；W)＝sigmoid(X_i)，sigmoid为S型生长曲线函数。

优选地，所述的卷积均为带有偏置的卷积，偏置的个数与当前的卷积核的个数相对应；

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

其中output_j为当前阶段卷积的第j个输出响应，input_j为当前阶段卷积的第j个输入响应，kernel_j为第j个卷积核，*为卷积符号，j＝1,2,,k，k为当前阶段卷积核的个数。

优选地，所述的激活处理的函数为：

relu(x)＝max(0,x)(4)。

优选地，所述的反卷积函数为：

其中output_j为当前阶段反卷积的第j个输出响应，input_j为当前阶段反卷积的第j个输入响应，为反卷积符号。

优选地，所述的阶段Ⅰ-阶段Ⅴ对应的卷积层个数分别为2个、2个、3个、3个、3个；

阶段Ⅰ-阶段Ⅴ对应的输出通道数分别为64个、128个、256个、512个、512个；

阶段Ⅰ-阶段Ⅴ对应的卷积核大小为3*3像素平方；

所述的等级Ⅱ-等级Ⅳ对应的输出通道数分别为64个，16个，1个；

等级Ⅱ-等级Ⅳ对应的卷积核大小为3*3像素平方。

优选地，所述的图像批量大小表示每一批次训练输入的图像数量，其范围为8-32幅，权重衰减范围为(1e-4)-(2e-4)，学习率的范围为(1e-5)-(1e-9)，学习率衰减的范围为0-0.1；最大迭代次数的范围为5000-60000次，优化方案为动量为0.9的随机梯度下降法。

优选地，所述的最大池化为2*2最大池化。

本发明的轮廓检测方法具有更深的解码网络，利用5个阶段的卷积提前细部特征，并通过4个等级对各个阶段的输出响应进行“跳跃式”的融合，从而充分融合不同尺度特征图带来的特征，避免遗漏重要特征，同时输入图像通过双线性插值算法进行尺度变换，从而得到更多尺度下的特征信息，以上两个方面的尺度变化及融合，能够实现在抑制强纹理的同时保留弱的边缘，从而提高轮廓识别的成功率。

附图说明

图1本发明提供的基于深度强化网络跳跃连接的轮廓检测方法的深度神经网络的运算结构图；

图2为本发明实施例1方案与文献1、2方案的轮廓检测效果对比图；

图1中的“3*3-64”、“3*3-128”等表示卷积核的参数，其中“3*3”为卷积核的大小尺寸，“-64”、“-128”等表示卷积核的个数即输出的通道数为64或128等。

具体实施方式

下面结合附图和实施例具体说明本发明。

实施例1

如图1所示，本实施例提供的一种基于深度强化网络跳跃连接的轮廓检测方法，包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

D、对各像素点的最终轮廓响应特征值使用非极大值抑制和二值化处理，得到各像素点的最终轮廓值，进而得到最终轮廓图；

所述的步骤B中的代价函数具体为：

其中P(X_i；W)＝sigmoid(X_i)，sigmoid为S型生长曲线函数；

所述的卷积均为带有偏置的卷积，偏置的个数与当前的卷积核的个数相对应；

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

其中output_j为当前阶段卷积的第j个输出响应，input_j为当前阶段卷积的第j个输入响应，kernel_j为第j个卷积核，*为卷积符号，j＝1,2,,k，k为当前阶段卷积核的个数；

所述的激活处理的函数为：

relu(x)＝max(0,x) (4)；

所述的反卷积函数为：

其中output_j为当前阶段反卷积的第j个输出响应，input_j为当前阶段反卷积的第j个输入响应，为反卷积符号；

所述的阶段Ⅰ-阶段Ⅴ对应的卷积层个数分别为2个、2个、3个、3个、3个；

阶段Ⅰ-阶段Ⅴ对应的卷积核大小为3*3像素平方；

等级Ⅱ-等级Ⅳ对应的卷积核大小为3*3像素平方；

所述的图像批量大小表示每一批次训练输入的图像数量，其范围为10幅，权重衰减范围为1e-4，学习率的范围为1e-6，学习率衰减的范围为0.1；最大迭代次数的范围为40000次，优化方案为动量为0.9的随机梯度下降法；α＝1.6；

所述的最大池化为2*2最大池化。

本实施例采用伯克利图像分割数据集(BSDS500)进行训练及检测，采用该数据集中的3幅图(风景、斑马、蝴蝶)作为待检测图像，将本实施例方法与以下文献1、2的方法进行轮廓检测结果的对比；

文献1：D.R.Martin,C.C.Fowlkes,and J.Malik,"Learning to detect naturalimage boundaries using local brightness,color,and texture cues,"IEEETrans.Pattern Anal.Mach.Intell.,vol.26,no.5,pp.530-549,2004；

文献2：P.Arbelaez,M.Maire,C.Fowlkes,and J.Malik,"Contour detection andhierarchical image segmentation,"IEEE Trans.PatternAnal.Mach.Intell.,vol.33,no.5,pp.898-916,2011；

对比结果采用性能评价指标P：

式中n_TP、n_FP、n_FN分别表示检测得到的正确轮廓、错误轮廓以及遗漏的轮廓的数目，评测指标P取值在[0,1]之间，越接近1表示轮廓检测的效果越好，另外，定义容忍度为：在5*5的邻域内检测到的都算正确检测；

对比结果如表1及图2所示；

表1轮廓检测结果(P)对比表

结合表1及图2的结果对比可以看出，本实施例方法在识别准确率及识别效果上均优于文献1及文献2方案。

需要说明的是：

在深度神经网络结构中，某一响应(如阶段Ⅰ的输出响应)包含了各个像素点多个通道的特征值，该通道的数量与上一次卷积的卷积核的数量相同；

对某一响应(如阶段Ⅰ的输出响应)的卷积是指利用多个卷积核分别对各个像素点的多个通道的特征值进行卷积，卷积核的个数与该响应中各个像素点的通道数相同；将同一个卷积核对该像素点的多通道的卷积结果叠加，作为该卷积核卷积该像素点的得到特征值，多个卷积核卷积同一像素点得到的特征值即为此次卷积该像素点的响应，各个像素点响应即构成此次卷积的输出响应；

在深度神经网络中，对各个反卷积的上采样倍数进行设定，使得参与各个反卷积处理之后的加法运算的两个响应所对应的图像尺寸相同，以保证加法运算能够顺利完成。

本实施例涉及的深度神经网络训练方法采用文献3中记载的方案：

文献3：

Rumelhart D E，Hinton G E，Williams R J.Learning representations byback-propagating error s[J].nature,1986,323(6088):533；

本实施例涉及的最大池化方法、卷积方法采用文献4中记载的方案：

文献4：

LeCunY,Bottou L,Bengio Y,et al.Gradient-basedlearning appliedtodocumentrecognition[J].Proceedings ofthe IEEE,1998,86(11):2278-2324；

本实施例涉及的优化方案的随机梯度下降法采用文献5中记载的方案：

文献5：

JegadeeshN,Titman S.Returns to buying winners and selling losers:Implications for stock m arket efficiency[J].The Journal offinance,1993,48(1):65-91。

本实施例中涉及的非极大值抑制和二值化处理采用文献6中记载的方法，其中包含的两个阈值t_h,t_l设置为t_l＝0.5t_h，由阈值分位数p计算而得，p＝0.1；

文献6：Grigorescu C,Petkov N,Westenberg M.Contour detection based onnonclassical receptive fieldinhibition[J].IEEE Transactions on ImageProcessing,2003,12(7):729-739。

Claims

1.一种基于深度强化网络跳跃连接的轮廓检测方法，其特征在于包括以下步骤：

A、构建深度神经网络结构，深度神经网络结构具体如下：

2.如权利要求1所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

所述的步骤B中的代价函数具体为：

其中P(X_i；W)＝sigmoid(X_i)，sigmoid为S型生长曲线函数。

3.如权利要求2所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

卷积conv的公式如下：

output_j＝input_j*kernel_j+bias_j (3)；

4.如权利要求3所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

所述的激活处理的函数为：

relu(x)＝max(0,x) (4)。

5.如权利要求4所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

所述的反卷积函数为：

6.如权利要求5所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

阶段Ⅰ-阶段Ⅴ对应的卷积核大小为3*3像素平方；

等级Ⅱ-等级Ⅳ对应的卷积核大小为3*3像素平方。

7.如权利要求6所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

所述的图像批量大小表示每一批次训练输入的图像数量，其范围为8-32幅，权重衰减范围为(1e-4)-(2e-4)，学习率的范围为(1e-5)-(1e-9)，学习率衰减的范围为0-0.1；最大迭代次数的范围为5000-60000次，优化方案为动量为0.9的随机梯度下降法。

8.如权利要求7所述的基于深度强化网络跳跃连接的轮廓检测方法，其特征在于：

所述的最大池化为2*2最大池化。