CN111563513A

CN111563513A - 基于注意力机制的散焦模糊检测方法

Info

Publication number: CN111563513A
Application number: CN202010411177.6A
Authority: CN
Inventors: 朱策; 姜泽宇; 刘翼鹏; 刘晓宁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-21
Anticipated expiration: 2040-05-15
Also published as: CN111563513B

Abstract

本发明属于图像处理技术领域，具体涉及一种基于注意力机制的散焦模糊检测方法。本发明的网络结构中使用了通道注意力机制，从全局的角度上提取特征层间的联系，有效地提升了特征的表现能力，同时本发明中应用了空间注意力机制，通过结合高阶的语义信息，实现对于低阶信息的有选择的提取。本发明解决了改善模糊检测中的两个重要问题，一是对于光滑的清晰区域的正确分类，二是有效抑制杂乱背景带来的影响。

Description

基于注意力机制的散焦模糊检测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于注意力机制的散焦模糊检测方法。

背景技术

散焦模糊检测是基本的图像处理任务之一，它的目的是将图片中模糊的部分分割出来。模糊检测有很多应用，如图像去模糊，模糊增强，深度估计等等。目前最先进的散焦模糊检测方法中，卷积神经网络(CNN)是最常用也是最有效的解决问题的方法。相较于基于手工特征的传统模糊检测方法，卷积神经网络可以有效地提取深层的语义信息，进而可以大大提高检测的结果。深层的语义信息可以有效地定位模糊区域，而低阶的特征可以用来确定检测区域的边缘信息。现有的神经网络模糊检测方法都是通过构建更大更深的神经网络来融合多层次的特征，让网络获得更好的特征表达。例如Zhao等人提出了一种融合低层线索和高层语义信息的自下而上的全卷积网络用于散焦模糊检测。Tang等人提出了DefusionNet不断地递归融合和改善多层次的特征图，进而结合这些多层次的特征图得到最终的检测结果。

目前的基于深度学习的神经网络模型的散焦模糊检测方法，虽然能够提取深层的语义信息，进而加强检测结果的准确性，然而现有的网络模型不能够完全的利用卷积神经网络(CNN)的特征表示能力，在两个散焦模糊检测的主要问题上表现并不好，一是一些光滑的清晰区域会被错误的分类为模糊块，另一个是因为背景杂乱对于检测结果的影响，从而导致在一些低反差的清晰区域以及一些背景噪声很强的散焦区域，网络没有足够的区分能力正确分类。有的散焦模糊检测方法都是通过构建更大更深层次的网络结构来增加网络的特征表现能力，但是这些网络结构中不能有效地提取中间特征层间的关系，所以影响了卷积神经网络的辨别能力。除此以外，这些方法对于所有的低阶特征信息都是不加区分的全部叠加，然而这些低阶信息对检测结果的作用并不是相同的，一些背景信息的结构特征会导致检测性能下降甚至是一些区域的错误分类

发明内容

本发明的目的，就是针对上述问题，提供了一种新的神经网络结构，它可以通过注意力机制，使得网络获得更佳的区分能力以及对于背景噪声的抑制能力。

本发明采用的技术方案是，如图1所示，基于注意力机制的散焦模糊检测方法，具体包括如下步骤：

步骤1：将输入图片送入经过预训练的VGG-16网络，提取出多级的特征图；

步骤2：将多级的特征图分为两类，一类作为高阶特征，另一类作为低阶特征；

步骤3：将高阶特征图与低阶特征图分别送入通道注意力机制中，以增强网络的特征表达并获得更好的辨别学习能力；

步骤4：将高阶的特征图通过上采样操作(upsample)，尺寸变为与低阶特征图一样的大小。而后使用空间注意力机制，依据高阶的语义信息，对于低阶特征图中不同位置的细节特征加权，给有效的细节信息更大的权重，抑制背景杂乱的影响；

步骤5：将高阶信息与低阶信息通过一个跨通道的连接(Concatenation)将不同级的特征图融合在一起；)

步骤6：经过一个卷积层，将特征进一步的融合，通过一个Sigmoid函数后，得到最终的检测结果。

本发明的有益效果为，本发明主要是为了改善模糊检测中的两个重要问题，一是对于光滑的清晰区域的正确分类，二是如何有效抑制杂乱背景带来的影响。对于前一个问题，不能正确分类区域的散焦与否，主要是网络的辨别能力不够强，为了改善这一情况，网络结构中使用了通道注意力机制，从全局的角度上提取特征层间的联系，有效地提升了特征的表现能力。对于后一个问题，现有的方法对于所有的低阶信息都是不加区分地使用。然而不同的细节信息对于检测的结果作用不同，只有清晰与模糊区域边缘的细节信息才是对于检测结果有最大作用的。一些强烈的杂乱背景的低阶信息甚至可能导致模糊区域被错误判定为清晰区域。所以，本发明中应用了空间注意力机制，通过结合高阶的语义信息，实现对于低阶信息的有选择的提取。

附图说明

图1为本发明的流程示意图；

图2为注意力机制处理流程示意图；

图3为空间注意力机制与低阶特征融合示意图；

图4为本发明检测方法与其他检测方法的检测结果对比示意图；

图5为在两个公开的数据集DUT以及Shi上，关于MAE以及F-measure两种评价标准的对比结果示意。

具体实施方式

下面结合附图对本发明的技术方案做进一步详细描述：

本发明的步骤2中：首先将输入图片送入在ImageNet上预训练过的VGG-16，得到初始的高阶和低阶特征图。具体地说，首先将VGG-16的卷积层分成两类，其中conv1_2,conv2_2作为浅层网络提取图像中的低阶信息；conv3_3,conv4_3,conv5_3作为深层网络提取高阶的语义信息。然后，分别对高阶和低阶特征图使用上采样(upsample)操作，将con2_2变为conv1_2的大小，将conv4_3,conv5_3变为和conv3_3一致的大小。这样就得到了初始的高阶特征以及低阶特征。而后，分别将高阶信息与低阶信息送入通道注意力机制提取特征之间的依赖关系信息。

如图2所示，步骤3中，对于输入的特征图

(其中C代表通道数，H代表特征图的长，W代表特征图的宽),首先将这个特征图变形为

然后对于X₁以及它的转置

做矩阵乘法，然后对于乘法的结果使用softmax层，得到注意力特征图R，如下式，其中r_ji代表注意力特征图R中第j行第i列元素的值。也就即第i个通道对于第j个通道的影响因子。)

两个特征图越相似，那么这个联系就越强烈。而后对于输入特征图的转置X^T与特征图R进行矩阵乘法，得到大小为

的输出。最后给通道注意力的输出乘一个比例系数α，通过残差连接的方式叠加在原特征图上，得到最终的输出Y

式中的比例系数α在开始训练的时候被初始化为0，而后逐渐在训练过程性学习得到一个合适的值，由上面的公式可以看出，模块最终输出的结果是所有的特征图的加权和以及原本输入相叠加的特征图。相似的特征图可以彼此都获得增益，突出共同关心的区域并减小差异。通过从全局的角度考虑特征层间的相互关系，网络可获得更强的分辨能力。

如图3所示，步骤4中，

代表低阶特征，

代表高阶特征。为了提取全局信息，增大感受野，但是又不想增加太大的计算代价，本发明选择了使用两个连续的卷积核为3×3，扩张率为5的空洞卷积(Atrous Convolutions)。在提取全局的高阶语义信息后，使用一个Sigmoid函数将输出值映射到[0,1]区间之内的值，作为空间注意力的特征图。最终模块输出的低阶特征图是通过空间注意力的特征图对于输入的低阶特征图对应元素相乘的结果。通过这样的结构，网络可以实现显式的对于低阶细节信息有选择的提取。对于检测结果更加有效的低阶信息会被赋予更大的权重，而来自背景的干扰信息会被有效地抑制。

步骤5中，将高阶的特征图通过上采样操作(upsample)，尺寸变为与低阶特征图一样的大小。对于散焦模糊检测而言，高阶特征可以更好地定位模糊块，但是对于不规则的边界缺少细节信息，而低阶特征可以用来优化检测的边界，但是缺少语义信息，所以需要将不同层次的特征进行融合，以获得更好的互补的信息，进而优化检测结果。具体的来说就是将高阶信息与低阶信息通过一个跨通道的连接(Concatenation)将不同级的特征图融合在一起。

图4中对比了本发明方法生成的检测结果以及其他的最先进的散焦模糊检测方法的结果。可以明显看出本发明方法可以比较准确地辨别出光滑的清晰区域，同时可以有效地抑制来自背景噪声的干扰。

图5中的表格是在两个公开的数据集DUT以及Shi上，关于MAE(越小越好)以及F-measure(越大越好)两种评价标准的对比结果。可以看出本发明提出的散焦模糊检测方法在多个方面上达到了最好的性能，证明了本方法的有效性。)

Claims

1.基于注意力机制的散焦模糊检测方法，其特征在于，包括以下步骤：

S1、将图片输入经过预训练的VGG-16网络，提取出多级的特征图；

S2、将多级的特征图分为两类，一类作为高阶特征图，另一类作为低阶特征图；具体为：将VGG-16网络的卷积层分成两类，将conv1_2,conv2_2作为浅层网络提取图像中的低阶信息，即将conv1_2和conv2_2提取的特征图定义为低阶特征图；conv3_3,conv4_3,conv5_3作为深层网络提取图像中的高阶信息，即将conv3_3,conv4_3,conv5_3提取的特征图定义为高阶特征图；然后，分别对低阶和高阶特征图使用上采样操作，将con2_2提取的特征图变为与conv1_2提取的特征图相同的大小，将conv4_3,conv5_3提取的特征图变为和conv3_3提取的特征图一致的大小，从而得到初始的低阶特征图以及高阶特征图；

S3、分别将低阶特征图和高阶特征图经过通道注意力机制，获得低阶注意力特征图和高阶注意力特征图；所述通道注意力机制的处理方法是：对于输入的特征图