[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111563513A - 基于注意力机制的散焦模糊检测方法 - Google Patents

基于注意力机制的散焦模糊检测方法 Download PDF

Info

Publication number
CN111563513A
CN111563513A CN202010411177.6A CN202010411177A CN111563513A CN 111563513 A CN111563513 A CN 111563513A CN 202010411177 A CN202010411177 A CN 202010411177A CN 111563513 A CN111563513 A CN 111563513A
Authority
CN
China
Prior art keywords
order
feature map
attention
feature
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010411177.6A
Other languages
English (en)
Other versions
CN111563513B (zh
Inventor
朱策
姜泽宇
刘翼鹏
刘晓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010411177.6A priority Critical patent/CN111563513B/zh
Publication of CN111563513A publication Critical patent/CN111563513A/zh
Application granted granted Critical
Publication of CN111563513B publication Critical patent/CN111563513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,具体涉及一种基于注意力机制的散焦模糊检测方法。本发明的网络结构中使用了通道注意力机制,从全局的角度上提取特征层间的联系,有效地提升了特征的表现能力,同时本发明中应用了空间注意力机制,通过结合高阶的语义信息,实现对于低阶信息的有选择的提取。本发明解决了改善模糊检测中的两个重要问题,一是对于光滑的清晰区域的正确分类,二是有效抑制杂乱背景带来的影响。

Description

基于注意力机制的散焦模糊检测方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于注意力机制的散焦模糊检测方法。
背景技术
散焦模糊检测是基本的图像处理任务之一,它的目的是将图片中模糊的部分分割出来。模糊检测有很多应用,如图像去模糊,模糊增强,深度估计等等。目前最先进的散焦模糊检测方法中,卷积神经网络(CNN)是最常用也是最有效的解决问题的方法。相较于基于手工特征的传统模糊检测方法,卷积神经网络可以有效地提取深层的语义信息,进而可以大大提高检测的结果。深层的语义信息可以有效地定位模糊区域,而低阶的特征可以用来确定检测区域的边缘信息。现有的神经网络模糊检测方法都是通过构建更大更深的神经网络来融合多层次的特征,让网络获得更好的特征表达。例如Zhao等人提出了一种融合低层线索和高层语义信息的自下而上的全卷积网络用于散焦模糊检测。Tang等人提出了DefusionNet不断地递归融合和改善多层次的特征图,进而结合这些多层次的特征图得到最终的检测结果。
目前的基于深度学习的神经网络模型的散焦模糊检测方法,虽然能够提取深层的语义信息,进而加强检测结果的准确性,然而现有的网络模型不能够完全的利用卷积神经网络(CNN)的特征表示能力,在两个散焦模糊检测的主要问题上表现并不好,一是一些光滑的清晰区域会被错误的分类为模糊块,另一个是因为背景杂乱对于检测结果的影响,从而导致在一些低反差的清晰区域以及一些背景噪声很强的散焦区域,网络没有足够的区分能力正确分类。有的散焦模糊检测方法都是通过构建更大更深层次的网络结构来增加网络的特征表现能力,但是这些网络结构中不能有效地提取中间特征层间的关系,所以影响了卷积神经网络的辨别能力。除此以外,这些方法对于所有的低阶特征信息都是不加区分的全部叠加,然而这些低阶信息对检测结果的作用并不是相同的,一些背景信息的结构特征会导致检测性能下降甚至是一些区域的错误分类
发明内容
本发明的目的,就是针对上述问题,提供了一种新的神经网络结构,它可以通过注意力机制,使得网络获得更佳的区分能力以及对于背景噪声的抑制能力。
本发明采用的技术方案是,如图1所示,基于注意力机制的散焦模糊检测方法,具体包括如下步骤:
步骤1:将输入图片送入经过预训练的VGG-16网络,提取出多级的特征图;
步骤2:将多级的特征图分为两类,一类作为高阶特征,另一类作为低阶特征;
步骤3:将高阶特征图与低阶特征图分别送入通道注意力机制中,以增强网络的特征表达并获得更好的辨别学习能力;
步骤4:将高阶的特征图通过上采样操作(upsample),尺寸变为与低阶特征图一样的大小。而后使用空间注意力机制,依据高阶的语义信息,对于低阶特征图中不同位置的细节特征加权,给有效的细节信息更大的权重,抑制背景杂乱的影响;
步骤5:将高阶信息与低阶信息通过一个跨通道的连接(Concatenation)将不同级的特征图融合在一起;)
步骤6:经过一个卷积层,将特征进一步的融合,通过一个Sigmoid函数后,得到最终的检测结果。
本发明的有益效果为,本发明主要是为了改善模糊检测中的两个重要问题,一是对于光滑的清晰区域的正确分类,二是如何有效抑制杂乱背景带来的影响。对于前一个问题,不能正确分类区域的散焦与否,主要是网络的辨别能力不够强,为了改善这一情况,网络结构中使用了通道注意力机制,从全局的角度上提取特征层间的联系,有效地提升了特征的表现能力。对于后一个问题,现有的方法对于所有的低阶信息都是不加区分地使用。然而不同的细节信息对于检测的结果作用不同,只有清晰与模糊区域边缘的细节信息才是对于检测结果有最大作用的。一些强烈的杂乱背景的低阶信息甚至可能导致模糊区域被错误判定为清晰区域。所以,本发明中应用了空间注意力机制,通过结合高阶的语义信息,实现对于低阶信息的有选择的提取。
附图说明
图1为本发明的流程示意图;
图2为注意力机制处理流程示意图;
图3为空间注意力机制与低阶特征融合示意图;
图4为本发明检测方法与其他检测方法的检测结果对比示意图;
图5为在两个公开的数据集DUT以及Shi上,关于MAE以及F-measure两种评价标准的对比结果示意。
具体实施方式
下面结合附图对本发明的技术方案做进一步详细描述:
本发明的步骤2中:首先将输入图片送入在ImageNet上预训练过的VGG-16,得到初始的高阶和低阶特征图。具体地说,首先将VGG-16的卷积层分成两类,其中conv1_2,conv2_2作为浅层网络提取图像中的低阶信息;conv3_3,conv4_3,conv5_3作为深层网络提取高阶的语义信息。然后,分别对高阶和低阶特征图使用上采样(upsample)操作,将con2_2变为conv1_2的大小,将conv4_3,conv5_3变为和conv3_3一致的大小。这样就得到了初始的高阶特征以及低阶特征。而后,分别将高阶信息与低阶信息送入通道注意力机制提取特征之间的依赖关系信息。
如图2所示,步骤3中,对于输入的特征图
Figure BDA0002493310050000031
(其中C代表通道数,H代表特征图的长,W代表特征图的宽),首先将这个特征图变形为
Figure BDA0002493310050000032
然后对于X1以及它的转置
Figure BDA0002493310050000033
做矩阵乘法,然后对于乘法的结果使用softmax层,得到注意力特征图R,如下式,其中rji代表注意力特征图R中第j行第i列元素的值。也就即第i个通道对于第j个通道的影响因子。)
Figure BDA0002493310050000034
两个特征图越相似,那么这个联系就越强烈。而后对于输入特征图的转置XT与特征图R进行矩阵乘法,得到大小为
Figure BDA0002493310050000035
的输出。最后给通道注意力的输出乘一个比例系数α,通过残差连接的方式叠加在原特征图上,得到最终的输出Y
Figure BDA0002493310050000036
式中的比例系数α在开始训练的时候被初始化为0,而后逐渐在训练过程性学习得到一个合适的值,由上面的公式可以看出,模块最终输出的结果是所有的特征图的加权和以及原本输入相叠加的特征图。相似的特征图可以彼此都获得增益,突出共同关心的区域并减小差异。通过从全局的角度考虑特征层间的相互关系,网络可获得更强的分辨能力。
如图3所示,步骤4中,
Figure BDA0002493310050000041
代表低阶特征,
Figure BDA0002493310050000042
代表高阶特征。为了提取全局信息,增大感受野,但是又不想增加太大的计算代价,本发明选择了使用两个连续的卷积核为3×3,扩张率为5的空洞卷积(Atrous Convolutions)。在提取全局的高阶语义信息后,使用一个Sigmoid函数将输出值映射到[0,1]区间之内的值,作为空间注意力的特征图。最终模块输出的低阶特征图是通过空间注意力的特征图对于输入的低阶特征图对应元素相乘的结果。通过这样的结构,网络可以实现显式的对于低阶细节信息有选择的提取。对于检测结果更加有效的低阶信息会被赋予更大的权重,而来自背景的干扰信息会被有效地抑制。
步骤5中,将高阶的特征图通过上采样操作(upsample),尺寸变为与低阶特征图一样的大小。对于散焦模糊检测而言,高阶特征可以更好地定位模糊块,但是对于不规则的边界缺少细节信息,而低阶特征可以用来优化检测的边界,但是缺少语义信息,所以需要将不同层次的特征进行融合,以获得更好的互补的信息,进而优化检测结果。具体的来说就是将高阶信息与低阶信息通过一个跨通道的连接(Concatenation)将不同级的特征图融合在一起。
图4中对比了本发明方法生成的检测结果以及其他的最先进的散焦模糊检测方法的结果。可以明显看出本发明方法可以比较准确地辨别出光滑的清晰区域,同时可以有效地抑制来自背景噪声的干扰。
图5中的表格是在两个公开的数据集DUT以及Shi上,关于MAE(越小越好)以及F-measure(越大越好)两种评价标准的对比结果。可以看出本发明提出的散焦模糊检测方法在多个方面上达到了最好的性能,证明了本方法的有效性。)

Claims (1)

1.基于注意力机制的散焦模糊检测方法,其特征在于,包括以下步骤:
S1、将图片输入经过预训练的VGG-16网络,提取出多级的特征图;
S2、将多级的特征图分为两类,一类作为高阶特征图,另一类作为低阶特征图;具体为:将VGG-16网络的卷积层分成两类,将conv1_2,conv2_2作为浅层网络提取图像中的低阶信息,即将conv1_2和conv2_2提取的特征图定义为低阶特征图;conv3_3,conv4_3,conv5_3作为深层网络提取图像中的高阶信息,即将conv3_3,conv4_3,conv5_3提取的特征图定义为高阶特征图;然后,分别对低阶和高阶特征图使用上采样操作,将con2_2提取的特征图变为与conv1_2提取的特征图相同的大小,将conv4_3,conv5_3提取的特征图变为和conv3_3提取的特征图一致的大小,从而得到初始的低阶特征图以及高阶特征图;
S3、分别将低阶特征图和高阶特征图经过通道注意力机制,获得低阶注意力特征图和高阶注意力特征图;所述通道注意力机制的处理方法是:对于输入的特征图
Figure FDA0002493310040000011
其中C代表通道数,H代表特征图的长,W代表特征图的宽,首先将这个特征图变形为
Figure FDA0002493310040000012
然后对于x1以及它的转置
Figure FDA0002493310040000013
做矩阵乘法,最后对乘法的结果使用softmax层,得到注意力特征图R,
Figure FDA0002493310040000014
其中rji代表注意力特征图R中第j行第i列元素的值,即第i个通道对于第j个通道的影响因子;
对输入特征图的转置XT与特征图R进行矩阵乘法,得到大小为
Figure FDA0002493310040000015
的输出;
通过给通道注意力的输出乘一个比例系数α,通过残差连接的方式叠加在原特征图上,得到最终的输出Y:
Figure FDA0002493310040000016
比例系数α在开始训练的时候初始化为0,而后通过训练过程进行更新;
将低阶特征图经过通道注意力机制后获取的特征图定义为低阶注意力特征图,将高阶特征图经过通道注意力机制后获取的特征图定义为高阶注意力特征图;
S4、将获得的高阶注意力特征图通过上采样操作,将其尺寸变为与低阶注意力特征图尺寸大小相同,然后经过两个连续的卷积核为3×3,扩张率为5的空洞卷积,再使用一个Sigmoid函数将输出值映射到[0,1]区间之内,获得空间注意力特征图;
S5、对获得的空间注意力特征图,通过跨通道的连接,将空间注意力特征图与低阶注意力特征图融合,获得融合后的低阶特征图;
S6、将融合后的低阶特征图与空间注意力特征图通过一个卷积层进行进一步的融合,通过一个Sigmoid函数后,得到最终的检测结果。
CN202010411177.6A 2020-05-15 2020-05-15 基于注意力机制的散焦模糊检测方法 Active CN111563513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010411177.6A CN111563513B (zh) 2020-05-15 2020-05-15 基于注意力机制的散焦模糊检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010411177.6A CN111563513B (zh) 2020-05-15 2020-05-15 基于注意力机制的散焦模糊检测方法

Publications (2)

Publication Number Publication Date
CN111563513A true CN111563513A (zh) 2020-08-21
CN111563513B CN111563513B (zh) 2022-06-24

Family

ID=72072132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010411177.6A Active CN111563513B (zh) 2020-05-15 2020-05-15 基于注意力机制的散焦模糊检测方法

Country Status (1)

Country Link
CN (1) CN111563513B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112137613A (zh) * 2020-09-01 2020-12-29 沈阳东软智能医疗科技研究院有限公司 异常位置的确定方法、装置、存储介质及电子设备
CN113298154A (zh) * 2021-05-27 2021-08-24 安徽大学 一种rgb-d图像显著目标检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996198A (zh) * 2014-06-04 2014-08-20 天津工业大学 复杂自然环境下感兴趣区域的检测方法
KR101649185B1 (ko) * 2015-02-27 2016-08-18 서울대학교 산학협력단 시각 주의도의 산출 방법 및 장치
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN109872306A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 医学图像分割方法、装置和存储介质
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110490189A (zh) * 2019-07-04 2019-11-22 上海海事大学 一种基于双向消息链路卷积网络的显著性物体的检测方法
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996198A (zh) * 2014-06-04 2014-08-20 天津工业大学 复杂自然环境下感兴趣区域的检测方法
KR101649185B1 (ko) * 2015-02-27 2016-08-18 서울대학교 산학협력단 시각 주의도의 산출 방법 및 장치
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN109872306A (zh) * 2019-01-28 2019-06-11 腾讯科技(深圳)有限公司 医学图像分割方法、装置和存储介质
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110490189A (zh) * 2019-07-04 2019-11-22 上海海事大学 一种基于双向消息链路卷积网络的显著性物体的检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANG TANG: "BR2NET:defocus blur detection via a bidirectional channel attention residual refining network", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
XUEWEIWANG: "accurate and fast blur detection using a pyramid M-shaped deep neural network", 《IEEE ACCESS》 *
周双双等: "基于增强语义与多注意力机制学习的深度相关跟踪", 《计算机工程》 *
麻森权等: "基于注意力机制和特征融合改进的小目标检测算法", 《计算机应用与软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112137613A (zh) * 2020-09-01 2020-12-29 沈阳东软智能医疗科技研究院有限公司 异常位置的确定方法、装置、存储介质及电子设备
CN112137613B (zh) * 2020-09-01 2024-02-02 沈阳东软智能医疗科技研究院有限公司 异常位置的确定方法、装置、存储介质及电子设备
CN113298154A (zh) * 2021-05-27 2021-08-24 安徽大学 一种rgb-d图像显著目标检测方法
CN113298154B (zh) * 2021-05-27 2022-11-11 安徽大学 一种rgb-d图像显著目标检测方法

Also Published As

Publication number Publication date
CN111563513B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN111047551B (zh) 一种基于U-net改进算法的遥感影像变化检测方法及系统
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN109711316B (zh) 一种行人重识别方法、装置、设备及存储介质
CN108830280B (zh) 一种基于区域提名的小目标检测方法
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN111222562B (zh) 基于空间自注意力机制的目标检测方法
CN112966691A (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN107239803A (zh) 利用深度学习神经网络的海底底质自动分类方法
CN109461172A (zh) 人工与深度特征联合的相关滤波视频自适应跟踪方法
CN112489054A (zh) 一种基于深度学习的遥感图像语义分割方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN111310582A (zh) 基于边界感知和对抗学习的湍流退化图像语义分割方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN113657491A (zh) 一种用于信号调制类型识别的神经网络设计方法
CN111563513B (zh) 基于注意力机制的散焦模糊检测方法
CN113743422B (zh) 多特征信息融合的人群密度估计方法、设备及存储介质
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN114663665A (zh) 基于梯度的对抗样本生成方法与系统
CN112329793B (zh) 基于结构自适应和规模自适应感受野的显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant