CN112580661A - 一种深度监督下的多尺度边缘检测方法 - Google Patents
一种深度监督下的多尺度边缘检测方法 Download PDFInfo
- Publication number
- CN112580661A CN112580661A CN202011445466.4A CN202011445466A CN112580661A CN 112580661 A CN112580661 A CN 112580661A CN 202011445466 A CN202011445466 A CN 202011445466A CN 112580661 A CN112580661 A CN 112580661A
- Authority
- CN
- China
- Prior art keywords
- attention
- global
- edge
- layer
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003708 edge detection Methods 0.000 title claims abstract description 29
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 238000002679 ablation Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种深度监督下的多尺度边缘检测方法。该方法可以将局部特征与其对应的全局相关性结合起来,自适应地重新校准通道响应,引导网络忽略无关信息,强调相关特征间的关联。通过在BSDS500数据集和NYUD数据集上对该方法进行一系列的消融实验,证实了多尺度的深度监督自注意模块算法的有效性。与其他最先进的边缘检测网络相比,该算法具有更好的性能,用更少的参数提高了预测精度,在BSDS00数据集上实现了ODS测量值为0.815的得分,比现有的其他算法高出0.9%。
Description
技术领域
本发明属于边缘检测领域,具体涉及一种深度监督下的多尺度边缘检测方法。
背景技术
边缘检测旨在提取自然图像中的目标边界和视觉上明显的边缘,这对于高级计算机视觉任务很重要,例如图像分割,目标检测/识别。作为高级任务的基础,边缘检测有着丰富的历史,我们现在着重关注几个已经被证明具有重大意义的代表性工作。早期的传统方法包括Sobel检测器,过零检测,以及广泛使用的Canny检测器。Pb、gPb、Sketch token和Structured Edges使用复杂的学习范式,根据手工特征(如亮度、颜色、梯度和纹理)来区分边缘像素。然而,应用低级视觉线索很难表示语义的意义。
图像的边缘由有意义的局部细节和对象级边界构成。由于CNN具有自动学习自然图像高级特征的强大能力,被用于边缘检测,并获得了很好的效果,如N4-Fields、DeepContour、Deep Edge和CSCNN。为了获得多样性的边缘尺度,基于CNN的HED和RCF通过真实边缘图来监督不同网络层的预测结果,较低层检测更多的局部细节,而较高层以更大的感受野捕捉对象级边界。在高召回率下,HED表明深度监督可以兼顾低级预测,有利于学习全局对象边界。丰富的卷积特征对于许多视觉任务非常有效,但是HED和RCF对侧边输出的训练和预测策略仍然没有明确地使用全局上下文信息,没有直接对相邻像素标签施加约束以增强深度监督。因此,我们可以通过对通道相关性显式建模来提高网络表示的质量,网络可以自适应地重新校准信道响应,并学习使用全局信息来强调有用的特征和抑制不太有用的特征。
如图1所示,随着感受野尺寸变大,我们发现由不同卷积层捕获的边缘逐渐变得粗糙,并且丢失了许多有用的细节。捕捉长程相关性的目的是提取对视觉场景的全局理解,这已被证明对广泛的识别任务有用,例如图像/视频分类、目标检测和分割,这正是RCF所需要的。在CNN中,由于卷积层在局部邻域建立像素关系,所以长程相关性主要通过深度叠加卷积层来建模。但直接重复卷积层计算效率低,难以优化,且远距离位置之间难以传输信息,这导致了远程相关性的无效建模。为了解决这个问题,我们对全局上下文建模,形成一个注意力图,然后用注意力图定义的权重聚合所有位置的特征。最后,将聚集的特征和每个位置的特征相加以形成新的特征。
发明内容
本发明旨在提供一种深度监督下的多尺度边缘检测方法,来解决现有技术存在的问题。
本发明的技术方案:
一种深度监督下的多尺度边缘检测方法,具体步骤如下:
(1)构建的边缘检测器包括改进后的VGG16网络和注意力模块;改进后的VGG16网络去掉了原始VGG16的第五池化层和所有全连接层,保留了13个卷积层和前四个池化层;所述的注意力模块由全局模块和通道模块构成,全局模块包括一个1×1卷积层和一个softmax函数层,通道模块包括瓶颈结构、一个归一化层和一个Relu激活层,其中,瓶颈结构包括两个全连接层,每个全连接层是一个1×1卷积层;
(2)使用在ImageNet上预训练过的VGG16来初始化改进后的VGG16网络;
(3)使用旋转、翻转、缩放对数据集的图像进行扩充,按0.5、1.0和1.5倍调整图像的大小以构建图像金字塔,并且将每一个数据集的图像金字塔依次输入到边缘检测器中;
(4)改进后的VGG16网络对输入的数据集图像进行阶段1至阶段4的卷积操作,注意力模块对第4阶段的输出进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与第4阶段的输出特征的各个通道共享该全局上下文注意图;使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的第4阶段的输出特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;将得到融合了全局特征且调整了通道间响应的特征输入到阶段5的卷积层中,进行阶段5卷积操作;然后对阶段1至阶段5每一卷积层的输出进行下采样,提取多尺度特征,得到多尺度特征图;
(5)注意力模块的全局模块对步骤(4)得到的多尺度特征进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与多尺度特征的各个通道共享该全局上下文注意图;
(6)使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的多尺度特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;
(7)通过加法将步骤(6)中得到的特征聚合到步骤(4)中多尺度特征图的每个位置上,得到聚合特征;
(8)使用一个核大小为1×1、通道深度为1的卷积将步骤(7)中得到的聚合特征按阶段进行元素相加得到复合特征;
(9)使用反卷积对步骤(8)中的复合特征进行上采样,得到各阶段的边输出,使用loss/sigmoid监督边输出,优化边缘检测器参数;
(10)使用concat函数和1×1卷积将步骤(9)中各阶段的边输出融合,得到边缘预测图;
(11)使用双线性插值将图像金字塔中其他尺寸的边缘预测图调整到原始图像大小;将调整过尺寸的边缘预测图进行平均,得到最终的预测图;使用loss/sigmoid监督边缘预测图,不断学习优化边缘检测器参数。
所述loss/sigmoid损失函数具体如下:
用(X,Y)表示输入训练数据集T的一个样本,其中X={xi,i=1,···,|X|}是一张原始输入图像,Y={yi,i=1,···,|X|},yj∈{0,1}是对应的真实边缘图。每张图片的训练损失如式(1)所示:
其中,Y+和Y-分别表示边缘和非边缘的真值标签集,λ表示自动平衡正/负类间损失的参数,W表示所有网络层参数,P(yi=1|X;W)表示在真实值yi为1的情况下,输入X在参数W运算下结果为1的概率,P(yi=0|X;W)表示在真实值yi为0的情况下,输入X在参数W运算下结果为0的概率。
最终的损失通过进一步聚合步骤(9)中各阶段的边输出构成的边缘图来获得,如式(2)所示:
其中Xj表示阶段j输出的边缘图,Xfuse表示最终融合层输出的边缘图。
注意力模块的功能具体如下:
首先,利用全局模块的一个1×1卷积WG和softmax函数获取全局注意权值,通过注意池化计算出一个全局上下文注意图S,并共享该全局上下文注意图S,使边缘检测器能够获得远程全局上下文信息。然后通过瓶颈结构中的两个1×1卷积WC重新校准通道响应。最后,通过加法将全局上下文特征有权重地聚合到每个位置的特征上。
用U={un,n=1,···,N}表示输入注意力模块的多尺度特征图,其中N=H×W是特征图中的像素数。全局上下文注意图如式(3)所示:
使用瓶颈结构,将参数数量从C·C减少到2·C·C/r,其中C为通道数,r为瓶颈率,C/r为瓶颈的隐藏表示维数。并且在ReLU层之前的瓶颈变换中加入归一化层。用Z={zn,n=1,···,N}表示注意力模块的输出特征图,完整的注意力模块如式(4)所示:
zn=un+WC2Relu(LN(WC1S)) (4);
其中,WC2表示卷积WC2的卷积运算,LN(WC1S)表示用卷积WC1对注意图S进行卷积运算再进行层归一化LN。
本发明的有益效果:本发明引入了一种深度监督的注意结构来完成边缘检测任务。它将不同层次的全局信息与自我注意模块相结合,有效地对长程相关性进行建模。最后,通过动态重校准通道特征来过滤噪声区域,帮助网络聚焦到图像中的相关区域。在BSDS500数据集和NYUD数据集上与10多种边缘检测方法进行了比较,结果表明,该方法能够提供准确可靠的边缘检测。
附图说明
图1为RCF各阶段的侧边输出。其中,从左至右依次是来自BSDS500数据集的原图、阶段1、阶段2、阶段3、阶段4和阶段5的侧边输出。
图2为深度监督下的多尺度特征边缘检测网络的体系结构。
图3为全局通道自注意模块。
图4为全局通道自注意模块的架构。
图5为我们的方法和其他方法在BSDS500上的P-R曲线。
图6为在BSDS500数据集上NMS前的边缘图比较。第一行为原图,第二行为真实边缘图,第三行为RCF预测结果,第三行为本发明方法的结果。
图7为我们的方法和其他工作在NYUD上的PR曲线。
具体实施方式
以下根据附图及实施例对本发明的技术方案进行进一步的说明。
1.边缘检测
边缘检测是计算机视觉中最基本、最具挑战性的问题之一。经过几十年的研究,涌现了大量的资料。我们在这一节只回顾相关代表工作的一部分。
这些方法大致可以分为三类:传统的边缘算子、基于学习的方法和最近的基于深度学习的方法。传统的边缘算子通过检测亮度、颜色和纹理的突变来检测边缘。Sobel对图像梯度进行阈值化,以获得边缘。Canny采用双阈值法对高斯平滑后的图像进行边缘提取。Canny算法由于效率高,对噪声的鲁棒性强,在各种任务中仍然很受欢迎。然而,这些早期方法的准确性很难满足当今对细节的高要求。基于学习的方法使用手工特征来识别边缘。Martin等人训练分类器来组合纹理梯度特征。Arbeláez等人将局部线索整合到一个全局框架中。Lim等人使用随机森林将局部块映射到Sketch Tokens以形成局部边缘。Dollár和Zitnick提出了一种多尺度响应的有监督结构边缘,它可以同时学习聚类和映射,并直接输出局部边缘的块。然而,基于手工特征的方法不能有效地表达具有语义意义的边缘的高级信息。近年来,利用深度学习自动提取深度特征已经取得了先进的成果。Shen等人使用形状信息来学习适合每个子类的深度特征。Bertasius等人使用CNN生成候选轮廓点的特征。Xie和Tu提出了一种端到端的模型,用于深度监督侧边输出的不同尺度的特征,取得了优异的性能(与人类水平的差距小于2%)。在的基础上,Kokkinos对损失函数进行了调整,增加了训练样本,并将其全局化。Liu等对VGG16的所有卷积层进行侧边输出,并进一步增加更多不同尺度的特征来改进效果。他们的成果已经超过了人类在BSDS500数据集上的表现。我们的方法基于RCF,上述训练策略没有明确使用上下文信息,也没有直接对相邻像素标签施加约束,所以我们使用全局特征来增强多尺度侧边输出的上下文建模。
2.深度注意
注意机制旨在强调重要区域,过滤无关信息,完善长程相关性的建模。最近,自注意机制已成功应用于各种视觉任务,如图像问答、分类和检测。它将每个位置的独立响应嵌入到空间中,并对其进行加权平均,以建立局部特征与其对应的全局上下文之间的关系。PSANET自适应地将特征图中的每个位置与其他位置链接起来,实现了长程上下文信息的聚合。Senet和Genet根据全局上下文重新调整不同通道来重新校准通道相关性。然而,基于重新缩放的特征融合方法对于全局上下文建模是无效的。本发明采用加法融合来更有效地为全局上下文建模。
3.方法概述
VGG16网络由13个卷积层、3个全连通层和5个池化层组成,深度深、密度高、多阶段,可以高效地生成可接受的多尺度特征,以捕捉边缘图的固有比例。最近,基于VGG16的RCF在边缘检测任务中取得了先进的性能,对VGG16做了如下改动:(1)由于第五池化层的步长为32,产生的输出平面过小,其插值预测图过于模糊,不利于边缘定位,因此放弃了VGG16的第五池化层和所有全连通层,(2)在VGG16的每个卷积层后连接一个核大小为1×1、通道深度为21的卷积层,以提取不同的尺度特征,使用一个核大小为1×1、通道深度为1的卷积层将每一阶段的多尺度特征进行元素相加得到复合特征,然后使用反卷积层对复合特征进行上采样,作为每一阶段的边输出,再使用1×1卷积层融合各阶段边输出,同时对每一阶段的边输出和融合的各阶段边输出进行深度监督。RCF模型结合了所有卷积层的丰富特征,因此可以提高边缘检测的精度。
用(X,Y)表示我们的输入训练数据集T的一个样本,其中X={xi,i=1,···,|X|}是一张原始输入图像,Y={yi,i=1,···,|X|},yj∈{0,1}是对应的真实边缘图。每张图片的训练损失如式(1)所示:
其中Xj表示阶段j输出的边缘图,Xfuse表示最终融合层输出的边缘图。
传统的卷积神经网络具有局部感受野,因此生成的特征表示也是局部的。由于没有明确使用长程上下文信息,局部特征可能会导致具有相同标签的像素的特征之间存在差异,造成类内不一致,最终影响识别性能。为了解决这个问题,我们研究了在特征间建立关联的自注意机制。首先,我们捕获全局上下文信息。然后,将全局特征输入到通道自注意模块。自注意模块有助于自适应地将局部特征与相应的全局上下文相结合,并且可以通过强调有用的信息来逐渐滤除噪声。体系结构的概况如图2所示,注意模块结构如图3所示,我们将全局上下文的通道自注意模块添加到边输出之后和第五阶段前,以融合上下文信息。
4.全局通道自注意模块
首先,利用1×1卷积WG和softmax函数获取全局注意权值,通过注意池化计算出一个全局上下文注意图S,并共享该全局注意图,使网络能够获得远程全局上下文信息。然后我们通过1×1卷积WC重新校准通道响应。最后,我们通过加法将全局上下文特征有权重地(由注意图定义)聚合到每个位置的特征上。我们用U={un,n=1,···,N}表示输入特征图,其中N=H×W是特征图中的像素数。我们的全局注意图如式(3)所示:
为了使注意模块轻量化,我们使用了瓶颈变换模块,将参数数量从C·C减少到2·C·C/r,其中C为通道数,r为瓶颈率,C/r为瓶颈的隐藏表示维数。由于两层瓶颈变换增加了优化的难度,我们在ReLU层之前的瓶颈变换中加入归一化层来简化优化,同时也起到了调节的作用,有利于泛化,如图4所示。我们用Z={zn,n=1,···,N}表示注意模块的输出特征图,完整的注意模块如式(4)所示:
zn=un+WC2Relu(LN(WC1S)) (4)
5.实验数据集
为了评估所提出的方法,我们在公共数据集BSDS500和NYUD上进行了实验。
BSDS500数据集是由伯克利大学计算机视觉组提供的数据集,可用于图像分割和物体边缘检测。数据集包含200个训练样本、100个验证样本和200个测试样本。所有的真值都由4到9个人标注,如果标签中有一半以上被标记,我们将把它们视为真值。我们使用与HED相同的数据扩充方法扩充了BSDS500的训练集和验证集,如旋转、翻转、缩放,并生成了28800个训练样本。受的启发,我们将BSDS500的扩充数据集与PASCAL-Context的翻转数据集混合,形成具有49006个训练样本的训练数据集。
NYUD数据集由1449对对齐的RGB和深度图像组成。近年来,该数据集已被用于边缘检测任务的评估。我们只使用RGB部分。根据,我们将NYUD数据集分为381个训练样本、414个验证样本和654个测试样本。根据RCF,我们使用训练集和验证集来训练我们的网络,并通过随机翻转、缩放和旋转进行数据扩充。
实施例
我们使用业内众所周知的PyTorch来实现我们的网络。使用在ImageNet上预训练过的VGG16初始化我们的网络。将BSDS500和NYUD数据集中用于计算损失的阈值λ分别设置为1.1和1.2。
SGD优化器在每次迭代中随机提取10幅图像,全局学习率设置为1e-6,每10K次迭代后除以10。动量和权重衰减分别设置为0.9和0.0002。我们总共做了40K次迭代。本发明的所有实验都是在NVIDIA 1080GPU上进行的。
我们测试了在常用评价指标下的边缘检测性能,最优数据集尺度(ODS)、最优图像尺度(OIS)和平均精度(AP)。在评估之前,我们使用非极大值抑制(NMS)来细化边缘,如。根据以前的工作,将BSDS500数据集的预测边缘和真实值之间的最大允许距离的定位公差设置为0.0075。由于NYUD数据集中的图像比BSDS500数据集中的图像大,我们将预测边缘和真实值之间的最大允许公差从0.0075增加到0.011。
1.1消融研究
为了研究验证参数的影响,我们将RCF网络作为基线网络。
首先,我们在BSDS500数据集上测试了注意模块的参数,即瓶颈率r对边缘检测结果的影响。瓶颈设计旨在减少参数冗余,在性能与参数之间的获得均衡。我们只在下采样层之后添加我们的注意模块。在表1中,我们改变了瓶颈率r,随着r从32下降到4,参数和触发器数量不断增加,性能持续提高(0.6%ODS和0.5%OIS)。这证明了我们的模块在提高边缘检测性能方面是有效的,并且在性能和参数之间取得了很好的平衡。在下面的实验中,我们固定r=16。
表2展示了不同阶段之间的比较,即在不同阶段之后添加注意模块。ODS和OIS的测量值分别增加了0.7%和0.5%。在第四阶段后增加注意模块,获得最佳表现。
表1 BSDS500数据集上不同瓶颈率r的边缘检测性能
表2 BSDS500数据集上r=16时,不同阶段后增加注意模块的性能
stage | ODS | OIS | AP |
baseline | .798 | .817 | - |
1,2,3,4 | .799 | .818 | .815 |
2,3,4 | .805 | .822 | .824 |
3,4 | .805 | .822 | .830 |
4 | .805 | .822 | .834 |
1.2与其他工作的性能比较
在BSDS500上表现:我们将我们的方法与几种最先进的边缘检测网络进行了比较。在BSDS500数据集上的实验结果总结在表3和图5中。
如结果所示,与使用多尺度特征的其他网络(HED、RCF和Deep Boundary)相比,我们的网络平均提高了1.7%、0.9%和0.6%(ODS),1.4%、1.0%和0.7%(OIS),-0.6%、2.6%和0.5%(AP)。这些结果表明,使用全局通道自注意模块可以改善上下文相关性的建模,提高边缘检测的性能。图6展示了我们的方法和RCF在非极大值抑制(non-maximumsuppression,NMS)之前的预测结果的比较。可以观察到,我们的方法可以有效地消除大多数噪声和模糊的边界,并产生更干净和更清晰的图像边缘。
表3 BSDS500数据集与其它方法的比较。+表示使用额外的PASCAL-Context数据集训练
Methods | ODS | OIS | AP |
Human | .803 | .803 | - |
Canny | .611 | .676 | .520 |
SE | .743 | .763 | .800 |
OEF | .746 | .770 | .820 |
DeepEdge | .753 | .769 | .784 |
DeepContour | .757 | .776 | .790 |
HFL | .767 | .788 | .795 |
HED | .788 | .808 | .840 |
CEDN<sup>+</sup> | .788 | .804 | - |
RDS | .792 | .810 | .818 |
RCF | .798 | .815 | - |
RCF<sup>+</sup> | .806 | .824 | .840 |
DeepBoundary | .789 | .811 | .789 |
DeepBoundary<sup>+</sup> | .809 | .827 | .861 |
Ours | .805 | .822 | .834 |
Ours<sup>+</sup> | .815 | .834 | .866 |
在NYUD的表现:表4展示了我们的方法与最近的几种方法(包括gPb-UCM、gPb+NG、OEF、SE、SE+NG+、HED、RCF和LPCB)相比的定量结果,查准率-查全率(precision-recall,P-R)曲线如图7所示。图7中的定性结果呈现出与在BSDS500数据集上的实验一致的性能。该方法取得了ODS测量值为0.741的最优性能,证明了该方法的有效性。
表4 NYUD数据集RGB部分与其他方法的比较
Methods | ODS | OIS | AP |
gPb-UCM | .631 | .661 | .562 |
gPb+NG | .687 | .716 | .629 |
OEF | .651 | .667 | - |
SE | .695 | .708 | .679 |
SE+NG+ | .706 | .734 | .738 |
HED | .717 | .732 | .734 |
RCF | .729 | .742 | - |
LPCB | .739 | .754 | - |
Ours | .741 | .759 | .740 |
Claims (3)
1.一种深度监督下的多尺度边缘检测方法,其特征在于,具体步骤如下:
(1)构建的边缘检测器包括改进后的VGG16网络和注意力模块;改进后的VGG16网络去掉了原始VGG16的第五池化层和所有全连接层,保留了13个卷积层和前四个池化层;所述的注意力模块由全局模块和通道模块构成,全局模块包括一个1×1卷积层和一个softmax函数层,通道模块包括瓶颈结构、一个归一化层和一个Relu激活层,其中,瓶颈结构包括两个全连接层,每个全连接层是一个1×1卷积层;
(2)使用在ImageNet上预训练过的VGG16来初始化改进后的VGG16网络;
(3)使用旋转、翻转、缩放对数据集的图像进行扩充,按0.5、1.0和1.5倍调整图像的大小以构建图像金字塔,并且将每一个数据集的图像金字塔依次输入到边缘检测器中;
(4)改进后的VGG16网络对输入的数据集图像进行阶段1至阶段4的卷积操作,注意力模块对第4阶段的输出进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与第4阶段的输出特征的各个通道共享该全局上下文注意图;使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的第4阶段的输出特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;将得到融合了全局特征且调整了通道间响应的特征输入到阶段5的卷积层中,进行阶段5卷积操作;然后对阶段1至阶段5每一卷积层的输出进行下采样,提取多尺度特征,得到多尺度特征图;
(5)注意力模块的全局模块对步骤(4)得到的多尺度特征进行1×1卷积运算,将运算的结果输入softmax函数获得到一个全局上下文注意图,并与多尺度特征的各个通道共享该全局上下文注意图;
(6)使用瓶颈结构中的一个全连接层对融合了全局上下文注意图的多尺度特征通道维数进行降维,并使用LayerNorm来对降维后的全局上下文注意图进行归一化;将归一化后的各通道数据输入到ReLU激活函数中,再经过瓶颈结构中的另一个全连接层将通道维数增加到降维前,得到融合了全局特征且调整了通道间响应的特征;
(7)通过加法将步骤(6)中得到的特征聚合到步骤(4)中多尺度特征图的每个位置上,得到聚合特征;
(8)使用一个核大小为1×1、通道深度为1的卷积将步骤(7)中得到的聚合特征按阶段进行元素相加得到复合特征;
(9)使用反卷积对步骤(8)中的复合特征进行上采样,得到各阶段的边输出,使用loss/sigmoid监督边输出,优化边缘检测器参数;
(10)使用concat函数和1×1卷积将步骤(9)中各阶段的边输出融合,得到边缘预测图;
(11)使用双线性插值将图像金字塔中其他尺寸的边缘预测图调整到原始图像大小;将调整过尺寸的边缘预测图进行平均,得到最终的预测图;使用loss/sigmoid监督边缘预测图,不断学习优化边缘检测器参数。
2.根据权利要求1所述的一种深度监督下的多尺度边缘检测方法,其特征在于,所述loss/sigmoid损失函数具体如下:
用(X,Y)表示输入训练数据集T的一个样本,其中X={xi,i=1,···,|X|}是一张原始输入图像,Y={yi,i=1,···,|X|},yj∈{0,1}是对应的真实边缘图;每张图片的训练损失如式(1)所示:
其中,Y+和Y-分别表示边缘和非边缘的真值标签集,λ表示自动平衡正/负类间损失的参数,W表示所有网络层参数,P(yi=1|X;W)表示在真实值yi为1的情况下,输入X在参数W运算下结果为1的概率,P(yi=0|X;W)表示在真实值yi为0的情况下,输入X在参数W运算下结果为0的概率;
最终的损失通过进一步聚合步骤(9)中各阶段的边输出构成的边缘图来获得,如式(2)所示:
其中Xj表示阶段j输出的边缘图,Xfuse表示最终融合层输出的边缘图。
3.根据权利要求1或2所述的一种深度监督下的多尺度边缘检测方法,其特征在于,注意力模块的功能具体如下:首先,利用全局模块的一个1×1卷积WG和softmax函数获取全局注意权值,通过注意池化计算出一个全局上下文注意图S,并共享该全局上下文注意图S,使边缘检测器能够获得远程全局上下文信息;然后通过瓶颈结构中的两个1×1卷积WC重新校准通道响应;最后,通过加法将全局上下文特征有权重地聚合到每个位置的特征上;
用U={un,n=1,···,N}表示输入注意力模块的多尺度特征图,其中N=H×W是特征图中的像素数;全局上下文注意图如式(3)所示:
使用瓶颈结构,将参数数量从C·C减少到2·C·C/r,其中C为通道数,r为瓶颈率,C/r为瓶颈的隐藏表示维数;并且在ReLU层之前的瓶颈变换中加入归一化层;用Z={zn,n=1,···,N}表示注意力模块的输出特征图,完整的注意力模块如式(4)所示:
zn=un+WC2Relu(LN(WC1S)) (4);
其中,WC2表示卷积WC2的卷积运算,LN(WC1S)表示用卷积WC1对注意图S进行卷积运算再进行层归一化LN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011445466.4A CN112580661B (zh) | 2020-12-11 | 2020-12-11 | 一种深度监督下的多尺度边缘检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011445466.4A CN112580661B (zh) | 2020-12-11 | 2020-12-11 | 一种深度监督下的多尺度边缘检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580661A true CN112580661A (zh) | 2021-03-30 |
CN112580661B CN112580661B (zh) | 2024-03-08 |
Family
ID=75130942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011445466.4A Active CN112580661B (zh) | 2020-12-11 | 2020-12-11 | 一种深度监督下的多尺度边缘检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580661B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344005A (zh) * | 2021-05-12 | 2021-09-03 | 武汉大学 | 一种基于优化小尺度特征的图像边缘检测方法 |
CN113469199A (zh) * | 2021-07-15 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种基于深度学习的快速高效图像边缘检测方法 |
CN115019022A (zh) * | 2022-05-30 | 2022-09-06 | 电子科技大学 | 一种基于双深度融合网络的轮廓检测方法 |
CN116400490A (zh) * | 2023-06-08 | 2023-07-07 | 杭州华得森生物技术有限公司 | 荧光显微成像系统及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110648316A (zh) * | 2019-09-07 | 2020-01-03 | 创新奇智(成都)科技有限公司 | 一种基于深度学习的钢卷端面边缘检测算法 |
CN110706242A (zh) * | 2019-08-26 | 2020-01-17 | 浙江工业大学 | 一种基于深度残差网络的对象级边缘检测方法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
-
2020
- 2020-12-11 CN CN202011445466.4A patent/CN112580661B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009679A (zh) * | 2019-02-28 | 2019-07-12 | 江南大学 | 一种基于多尺度特征卷积神经网络的目标定位方法 |
CN110706242A (zh) * | 2019-08-26 | 2020-01-17 | 浙江工业大学 | 一种基于深度残差网络的对象级边缘检测方法 |
CN110648316A (zh) * | 2019-09-07 | 2020-01-03 | 创新奇智(成都)科技有限公司 | 一种基于深度学习的钢卷端面边缘检测算法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘千;葛阿雷;史伟;: "形态学与RCF相结合的唐卡图像边缘检测算法", 计算机应用与软件, no. 06, 12 June 2019 (2019-06-12) * |
聂玮;曹悦;朱冬雪;朱艺璇;黄林毅;: "复杂监控背景下基于边缘感知学习网络的行为识别算法", 计算机应用与软件, no. 08, 12 August 2020 (2020-08-12) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344005A (zh) * | 2021-05-12 | 2021-09-03 | 武汉大学 | 一种基于优化小尺度特征的图像边缘检测方法 |
CN113344005B (zh) * | 2021-05-12 | 2022-04-15 | 武汉大学 | 一种基于优化小尺度特征的图像边缘检测方法 |
CN113469199A (zh) * | 2021-07-15 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种基于深度学习的快速高效图像边缘检测方法 |
CN115019022A (zh) * | 2022-05-30 | 2022-09-06 | 电子科技大学 | 一种基于双深度融合网络的轮廓检测方法 |
CN115019022B (zh) * | 2022-05-30 | 2024-04-30 | 电子科技大学 | 一种基于双深度融合网络的轮廓检测方法 |
CN116400490A (zh) * | 2023-06-08 | 2023-07-07 | 杭州华得森生物技术有限公司 | 荧光显微成像系统及其方法 |
CN116400490B (zh) * | 2023-06-08 | 2023-08-25 | 杭州华得森生物技术有限公司 | 荧光显微成像系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112580661B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313657B (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
Tian et al. | Deep learning on image denoising: An overview | |
CN111209952B (zh) | 基于改进ssd和迁移学习的水下目标检测方法 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN112580661A (zh) | 一种深度监督下的多尺度边缘检测方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111325751A (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN106897673B (zh) | 一种基于retinex算法和卷积神经网络的行人再识别方法 | |
WO2018076212A1 (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN110706242A (zh) | 一种基于深度残差网络的对象级边缘检测方法 | |
CN109978848B (zh) | 基于多光源颜色恒常模型检测眼底图像中硬性渗出的方法 | |
CN109034184B (zh) | 一种基于深度学习的均压环检测识别方法 | |
CN109740485B (zh) | 基于光谱分析和深度卷积神经网络的水库或塘坝识别方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN115063373A (zh) | 基于多尺度特征智能感知的社交网络图像篡改定位方法 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN113393457B (zh) | 一种结合残差密集块与位置注意力的无锚框目标检测方法 | |
CN113392711A (zh) | 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统 | |
CN113762277B (zh) | 一种基于Cascade-GAN的多波段红外图像融合方法 | |
CN112651917A (zh) | 一种基于生成对抗网络的空间卫星低照度图像增强方法 | |
CN115439442A (zh) | 基于共性和差异的工业品表面缺陷检测与定位方法及系统 | |
CN113344933A (zh) | 一种基于多层次特征融合网络的腺体细胞分割方法 | |
CN116071676A (zh) | 一种基于注意力导向金字塔融合的红外小目标检测方法 | |
CN109859222A (zh) | 基于级联神经网络的边缘提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |